Некоторое время мы запускали некоторые производственные сервисы на Amazon EC2, используя в основном инстансы t1.large и t1.xlarge (не EBS). Время от времени один из подключенных (эфемерных дисков) переходит в состояние 100% использования (как сообщает iostat -xtc).
Когда диск попадает в это состояние, он практически полностью непригоден для использования. Перезагрузка устраняет проблему, по-видимому, без каких-либо повреждений. Случаи, по-видимому, случайны и происходят каждые несколько недель.
Я не уверен, связано ли какое-то программное обеспечение, но мы используем последнюю версию Ubuntu 10.04 (Lucid). Эти временные диски в настоящее время работают под управлением lvm (RAID0). Раньше мы использовали mdadm вместе с lvm.
Кто-нибудь еще видел такое поведение раньше (не уверен, что оно характерно для EC2) и есть идеи, как его избежать или исправить без перезагрузки?
Даже эфемерное хранилище на инстансах EC2 подвержено типичным проблемам мультитенантности. Вместо того чтобы просто перезагружать сервер, [если позволяет ваша конфигурация] полностью остановите и запустите экземпляр, чтобы ваш экземпляр оказался на другом гипервизоре.
Вот - статья о стратегии Netflix по решению проблем с несколькими арендаторами на EC2.