Glusterfs, будучи хорошей распределенной файловой системой, почти не предоставляет возможности контролировать ее целостность. Серверы могут приходить и уходить, блоки могут устареть или выйти из строя, и я боюсь знать об этом, когда, вероятно, будет слишком поздно.
Недавно у нас случился странный сбой, когда все вроде работало, но из тома выпал один кирпич (обнаружен по чистой случайности).
Есть ли простой и надежный способ (скрипт cron?), Который сообщит мне о состоянии здоровья моей GlusterFS 3.2 объем?
Это было просьбой к разработчикам GlusterFS в течение некоторого времени, и нет ничего готового решения, которое вы могли бы использовать. Однако с несколькими скриптами это возможно.
Практически вся система Gluster управляется одной командой gluster, и с помощью нескольких параметров вы можете сами написать сценарии мониторинга состояния. См. Здесь информацию о кирпичах и объемах - http://gluster.org/community/documentation/index.php/Gluster_3.2:_Displaying_Volume_Information
Чтобы контролировать производительность, посмотрите эту ссылку - http://gluster.org/community/documentation/index.php/Gluster_3.2:_Monitoring_your_GlusterFS_Workload
ОБНОВЛЕНИЕ: рассмотрите возможность обновления до http://gluster.org/community/documentation/index.php/About_GlusterFS_3.3
Вам всегда лучше использовать последний выпуск, поскольку он, кажется, содержит больше исправлений ошибок и хорошо поддерживается. Конечно, запустите свои собственные тесты, прежде чем переходить на более новую версию - http://vbellur.wordpress.com/2012/05/31/upgrading-to-glusterfs-3-3/ :)
В главе 10 есть руководство администратора с отдельным разделом для мониторинга вашей установки GlusterFS 3.3 - http://www.gluster.org/wp-content/uploads/2012/05/Gluster_File_System-3.3.0-Administration_Guide-en-US.pdf
Смотрите здесь другой сценарий nagios - http://code.google.com/p/glusterfs-status/
Для мониторинга доступен плагин nagios. Возможно, вам придется отредактировать его для своей версии.
Пожалуйста, проверьте прикрепленный скрипт на https://www.gluster.org/pipermail/gluster-users/2012-June/010709.html для блеска 3.3; вероятно, он легко адаптируется к gluster 3.2.
#!/bin/bash
# This Nagios script was written against version 3.3 of Gluster. Older
# versions will most likely not work at all with this monitoring script.
#
# Gluster currently requires elevated permissions to do anything. In order to
# accommodate this, you need to allow your Nagios user some additional
# permissions via sudo. The line you want to add will look something like the
# following in /etc/sudoers (or something equivalent):
#
# Defaults:nagios !requiretty
# nagios ALL=(root) NOPASSWD:/usr/sbin/gluster peer status,/usr/sbin/gluster volume list,/usr/sbin/gluster volume heal [[\:graph\:]]* info
#
# That should give us all the access we need to check the status of any
# currently defined peers and volumes.
# define some variables
ME=$(basename -- $0)
SUDO="/usr/bin/sudo"
PIDOF="/sbin/pidof"
GLUSTER="/usr/sbin/gluster"
PEERSTATUS="peer status"
VOLLIST="volume list"
VOLHEAL1="volume heal"
VOLHEAL2="info"
peererror=
volerror=
# check for commands
for cmd in $SUDO $PIDOF $GLUSTER; do
if [ ! -x "$cmd" ]; then
echo "$ME UNKNOWN - $cmd not found"
exit 3
fi
done
# check for glusterd (management daemon)
if ! $PIDOF glusterd &>/dev/null; then
echo "$ME CRITICAL - glusterd management daemon not running"
exit 2
fi
# check for glusterfsd (brick daemon)
if ! $PIDOF glusterfsd &>/dev/null; then
echo "$ME CRITICAL - glusterfsd brick daemon not running"
exit 2
fi
# get peer status
peerstatus="peers: "
for peer in $(sudo $GLUSTER $PEERSTATUS | grep '^Hostname: ' | awk '{print $2}'); do
state=
state=$(sudo $GLUSTER $PEERSTATUS | grep -A 2 "^Hostname: $peer$" | grep '^State: ' | sed -nre 's/.* \(([[:graph:]]+)\)$/\1/p')
if [ "$state" != "Connected" ]; then
peererror=1
fi
peerstatus+="$peer/$state "
done
# get volume status
volstatus="volumes: "
for vol in $(sudo $GLUSTER $VOLLIST); do
thisvolerror=0
entries=
for entries in $(sudo $GLUSTER $VOLHEAL1 $vol $VOLHEAL2 | grep '^Number of entries: ' | awk '{print $4}'); do
if [ "$entries" -gt 0 ]; then
volerror=1
let $((thisvolerror+=entries))
fi
done
volstatus+="$vol/$thisvolerror unsynchronized entries "
done
# drop extra space
peerstatus=${peerstatus:0:${#peerstatus}-1}
volstatus=${volstatus:0:${#volstatus}-1}
# set status according to whether any errors occurred
if [ "$peererror" ] || [ "$volerror" ]; then
status="CRITICAL"
else
status="OK"
fi
# actual Nagios output
echo "$ME $status $peerstatus $volstatus"
# exit with appropriate value
if [ "$peererror" ] || [ "$volerror" ]; then
exit 2
else
exit 0
fi
Мне удалось настроить мониторинг nagios для glusterfs, как указано ниже:
http://gopukrish.wordpress.com/2014/11/16/monitor-glusterfs-using-nagios-plugin/
@ Ари Склярук, твоя check_gluster.sh
есть опечатка - в последней строке вы вводите exitst
вместо того exist
. Я пошел дальше и переписал его, чтобы он был немного более компактным и убрал требование временного файла.
#!/bin/bash
# Ensure that all peers are connected
gluster peer status | grep -q Disconnected && echo "Peer disconnected." && exit 1
# Ensure that all bricks have a running log file (i.e., are sending/receiving)
for vol in $(gluster volume list); do
for brick in $(gluster volume info "$vol" | awk '/^Brick[0-9]*:/ {print $2}'); do
gluster volume log locate "$vol" "$brick";
done;
done |
grep -qE "does not (exist|exitst)" &&
echo "Log file missing - $vol/$brick ." &&
exit 1