Назад | Перейти на главную страницу

Лучшие практики для резервного копирования в массивно-параллельной грид-системе

Я работаю в исследовательской группе крупной компании. Мы много работаем над системой обработки сетки с множеством узлов (более 200, я точно не знаю, сколько) и несколькими жесткими дисками. Более 1000 ТБ данных.

Большую часть этих данных можно воспроизвести, но это требует времени. Многие данные - это код, который хранится в отдельных репозиториях RCS, которые могут иметь свои собственные резервные копии, но рабочие копии, конечно же, находятся на обычных пользовательских дисках.

Может ли кто-нибудь указать мне на документ с лучшими практиками или что-нибудь о том, как большинство компаний защищают такой объем данных?

Спасибо

  1. Наймите резервного администратора или инженера.
  2. Сообщите ему или ей свои требования и бюджет. (это может быть итеративный процесс.)
  3. Делайте то, что он или она говорит.

При разработке эффективной системы резервного копирования для нужд вашего бизнеса необходимо многое. Вы можете сделать моментальный снимок данных на другие диски, а затем отразить их за пределами сайта (если у вас есть другой сайт), или отправить на ленту, или просто отправить на ленту прямо с ваших узлов. Могут возникнуть проблемы с параллелизмом при резервном копировании данных в разное время - возможно, вашему приложению сначала нужно экспортировать или приостановить работу? Мы не знаем, вы нам не сказали. Есть много технических вопросов и проблем.

И первое, что необходимо решить, - это ваши фактические бизнес-потребности: каковы ваши RTO (как долго вы можете не работать до восстановления данных) и RPO (сколько данных вы можете позволить себе потерять между запусками резервного копирования)? Должно ли это быть частью плана аварийного восстановления или обеспечения непрерывности бизнеса, или, если здание сгорит, вы просто больше не заботитесь о своих данных?