Amazon, Facebook и Google должны принимать ТБ, если не ПБ, в день, значит ли это, что у них есть люди, которые постоянно устанавливают новые жесткие диски и кабели в новые стойки, как вы могли бы построить обычный сервер, или используются ли другие технологии? для массового подключения дисков?
Я не знаю, действительно ли кто-нибудь из них устанавливает оборудование по одному серверу за раз. Назад в 2008 г. MS начала создавать свои центры обработки данных, доставляя серверы в запечатанных и предварительно смонтированных транспортных контейнерах серверов, которые им просто нужно было выгрузить из грузовика и подключить питание / сетевые соединения. В то время как сборка 08 была смесью контейнеров и традиционной для их последних Дата центр с тех пор они перешли на нестандартную сборную конструкцию, защищенную от атмосферных воздействий и не нуждающуюся в размещении внутри отдельных зданий.
Обе HP и IBM продавать аналогичные пакеты с готовыми контейнерами, заполненными серверами, которым для развертывания просто необходимы подключения к питанию / данным.
У Google есть несколько технологий, которые они разработали для хранения огромных массивов данных. Используя эти технологии, они могут фактически добавлять грузовики с жесткими дисками в свой кластер без простоев, но да, им все равно нужны люди, делающие это.
Насколько я знаю из блога Google, двумя основными частями являются файловая система Google, которая представляет собой распределенную файловую систему, которая может масштабироваться до действительно больших размеров: Файловая система Google
А поверх файловой системы Google у них есть Big Table, которая является своего рода базой данных ключевых значений, а также масштабируется до огромных масштабов: Большой стол
Для обеспечения высокой доступности все избыточно многократно, в большинстве случаев более 3 раз.
Совершенно верно. Я помню, что одно время центры обработки данных Facebook добавляли три тягача-прицепа с жесткими дисками и стоечными серверами в среднем за день. Конечно, у них есть сложные схемы, позволяющие сделать хранилище масштабируемым и избыточным. Например, у Google есть GFS. Facebook имеет три центра обработки данных только для своего оборудования, каждый больше, чем два Wal-Mart, а новый запланирован в четыре раза больше, чем их существующие центры.
С решениями для хранения данных Open Compute нового поколения, способными вместить 180 ТБ диска в 4 стойки, ПБ не является огромным объемом пространства: добавление 1 ПБ в день означало бы установку 5 таких серверов в день, а это не большая проблема. Еще лучше, их можно купить примерно за 10 тысяч долларов, что означает, что вы платите менее 60 долларов за ТБ.
Так что да, технология доступна всем нам, чтобы делать то же самое, по невысокой цене.
Но вы должны иметь в виду, что более крупные компании всегда получают более выгодную сделку и подписывают крупные контракты на закупку огромных объемов хранилища. У них могут быть небольшие поставки в течение года, но это не значит, что они заказывают всего 1 ПБ за раз.
Вот интересный пост в блоге BackBlaze о том, как они это делают (им, вероятно, не нужно столько дисков, как Google или Facebook, но все же целиком), и что им нужно было делать, когда в Таиланде произошли наводнения, из-за которых жесткий диск был дорого и сложнее:
http://blog.backblaze.com/2012/10/09/backblaze_drive_farming/