На наших 24 ядрах bl685 (4 сокета x 6 ядер) мы обнаруживаем, что узлы NUMA 0 и 1 довольно заняты (к сожалению, это приводит к увеличению времени готовности ЦП в VMS), в то время как узлы NUMA 2 и 3 почти не используются.
Я подумал, что это может быть проблема ESX4 U1, поэтому у меня был коллега с 32-ядерной (dl785) фермой, который исследовал, и кажется, что его последние 3 или 4 узла NUMA также на самом деле не используются.
У ESX, похоже, есть слабость, когда дело доходит до балансировки слегка загруженных блоков NUMA, я собираюсь включить чередование узлов в BIOS и посмотреть, будут ли балансировщики планировщика на всех 24 ядрах, а не только на 12! ...
Для тех из вас, у кого большое количество ядер, я бы посоветовал вам активировать вас и проверить использование физического процессора (или esxtop), мне было бы интересно узнать, каковы ваши результаты. Обратите внимание, что только слегка загруженные (например, загрузка процессора менее 30% на хосте esx), по-видимому, вызывают наибольшую проблему с дисбалансом нагрузки.
Мысли / комментарии.
PS ive зарегистрировал SR с помощью vmware, чтобы помочь, также другая «проблема» может заключаться в том, что у нас 128 ГБ оперативной памяти на каждом хосте, и поэтому планировщик не видит веских причин, почему он не должен пытаться втиснуть все виртуальные машины в первые два узла NUMA , поскольку у нас есть только около 50 ГБ оперативной памяти на каждом хосте ...
У меня нет опыта работы с NUMA, но у нас есть несколько серверов ESX 3.5 с «большим количеством ядер».
Мы обнаружили, что ядро 0 обычно используется консолью, поэтому есть ли у вас что-нибудь, работающее на хосте консоли, что могло бы это объяснить?
Например, мы запускаем esxtop в пакетном режиме для записи статистики очень низкого уровня, и эта статистика каждую ночь архивируется с помощью gzip, и все это происходит на CPU / ядре 0.