Скажем, я хотел бы хранить 40 терабайт данных для частого доступа, в основном мультимедийных файлов, через веб-интерфейс. Стоит ли собрать 4 компьютера по 10 терабайт каждый? Какие ограничения мне следует знать? Что было бы подходящим?
Я говорю о стоечных серверах Linux.
Возможно, вы захотите изучить решение SAN. Я работал с клиентом, которому требовались большие объемы данных. Каждый месяц они добавляли ТБ новых данных, предоставленных пользователями. Из-за бюджета мы выбрали дешевые диски SATA в RAID 5 и втиснули столько, сколько могли, в сервер 2U. Некоторое время это работало, но по мере роста проблем с производительностью возникли проблемы с масштабируемостью и управлением.
Такие решения, как EqualLogic, NetApp и другие, обеспечивают очень высокую масштабируемость и хорошие инструменты управления - у них есть соответствующие ценники.
Вы не указали, какую пропускную способность вы планируете использовать, но поиск облачных решений, которые также предоставляют услуги доставки, может быть другим вариантом, особенно если вы ищете решение с оплатой по мере использования.
У нас есть доступ к CDN Internap через одного из наших партнеров. Мы можем хранить данные в их системах, а затем доставлять их через их CDN. Я никогда не спрашивал о 40 ТБ хранилища, но не думаю, что это проблема.
Если вы собираете 4 системы по 10 ТБ, вам нужно будет ответить на следующие вопросы: 1) Сколько узлов внешнего сервера будут подключаться к ним? 2) Как часто будет осуществляться доступ к файлам? 3) Как вы планируете делать резервную копию данных? 4) Какой метод подключения вы будете использовать NFS, GFS, iSCSI? 5) Как со временем изменятся требования к трафику / хранилищу?
Все это очень важные соображения при выборе технологии. Хотя создание 4 систем по 10 ТБ может быть простым и относительно дешевым, если они не справятся с нагрузкой на сервис в течение 3-5 месяцев, ваши деньги будут потрачены впустую.
Совет. Часто на сайтах обмена мультимедиа (если это так) одни файлы популярнее других. 10-20% вашего общего контента может составлять> 80% вашего общего трафика. В этом случае вы можете рассмотреть «быстрые» и «медленные» системы хранения. Храните популярные вещи в быстрой системе и архивируйте из более медленной системы.
Это будет зависеть от того, насколько важны данные, какая пропускная способность вам нужна, ваш бюджет, какие технологии вам удобно администрировать (или какие услуги вам удобны для аутсорсинга или обучения) и других факторов.
Например, вы можете взять относительно дешевый сервер, вставить в него HBA-адаптер SAS с дополнительным портом (портами), а затем установить несколько корпусов для дисков. Загрузите в нее ОС с программным обеспечением iSCSI Target, и вы получите действительно дешевую сеть хранения данных.
В качестве альтернативы вы можете купить готовые решения SAN, такие как Lefthand Box от HP. Это очень упрощает настройку и администрирование, но за это приходится платить.
Я работал со специалистами по хранению данных CDW в прошлом над несколькими проектами, поскольку они всегда знали, что вы ищете, они всегда помогали мне. Четко сформулированные цели и знание своих ограничений - ключевой фактор в развертывании успешной SAN.
Сделайте себе маленькую одолжение и поговорите с Nexenta. Я только что построил решение на 40 ТБ с 2 ТБ SSD для быстрой сборки SQL / данных всего за 95 тысяч фунтов стерлингов, включая высокопроизводительную настройку Citrix Xenserver Setup в конфигурации DR с 10Gbe!
Если вам нужно это хранилище для веб-приложения, а не что-то вроде базы данных, посмотрите на mogilefs:
http://code.google.com/p/mogilefs/
Его можно легко масштабировать до 40 ТБ без затрат в 100 000 долларов. Это полная противоположность SAN.
Вы смотрели на блеск? это не очень быстро (хотя это для некоторых людей), но оно делает многое из того, что вы ищете, и может быть отказоустойчивым и высокодоступным. На мой взгляд, это практически единственная бесплатная кластерная ФС HA и FT, которая работает сегодня. Сервер выходит из строя, ваши клиенты этого не замечают. Использует FUSE для клиентов, так что Linux, многие другие Unix, в некоторой степени (я думаю) поддерживают.
И это бесплатно, но есть и платный вариант. Он также может разговаривать по NFS или smb / cifs (но без HA, нужно смонтировать другой сервер, если тот, с которым вы разговариваете, выходит из строя). Для архивов списков рассылки: http://gluster.org/cgi-bin/mailman/listinfo/gluster-users
http://www.gluster.org/ за бесплатную часть http://www.gluster.com/ за часть оплаты
Опять же, как говорили другие, учитывая, что это для вашего приложения, mogilefs и некоторые другие могут быть лучшими.