Назад | Перейти на главную страницу

Сколько места на жестком диске мне нужно для кеширования Интернета при соблюдении robot.txts?

Я хочу поэкспериментировать с созданием поискового робота. Я начну с индексации нескольких веб-сайтов среднего размера, таких как Stack Overflow или Smashing Magazine. Если это сработает, я хочу начать сканирование всей сети. Я буду уважать robot.txts. Я сохраняю все документы html, pdf, word, excel, powerpoint, keynote и т. Д. (Не exes, dmgs и т. Д., Только документы) в базе данных MySQL. Рядом с этим у меня будет вторая таблица, содержащая все результаты и описания, а также таблица со словами и на какой странице искать эти слова (она же индекс).

Как вы думаете, сколько места на жестком диске мне нужно, чтобы сохранить все страницы? Это всего лишь 1 ТБ или около 10 ТБ, 20? Может 30? 1000?

Спасибо

Интернет-архив действительно индексирует Интернет, как вы упомянули, но сохраняет только веб-сайты, а не документы, насколько мне известно. Они действительно индексируют старые версии сайтов, поэтому их потребность в пространстве может быть намного больше. В своем FAQ они говорят о 2 петабайтах необходимого места для этой задачи (http://www.archive.org/about/faqs.php#9) и около сотен серверов Linux, каждый из которых содержит около 1 ТБ данных. Это должны быть некоторые цифры, которые должны произвести на вас первое впечатление.

В 2008 году Google проиндексировал 1 000 000 000 000 страниц, если веб-страница в среднем имеет 1Ko, это 1000To.
В среднем 1 кОйма номинальной страницы - это очень низкая оценка ... PDF-файл огромного размера ...

Удачи

Я подозреваю, что к тому времени, как вы добавите описание и т. Д., Один только индекс будет в среднем загружать один килобайт на страницу ... Страниц много ...