Q: Infiniband timeout

А вот, я извиняюсь, вопрос (на мое предложение никто толком не откликнулся, приходится зарабатывать эти деньги самому). Дано:

  • Infiniband-switch (на шасси Blade-сервера), Mellanox-какой-то там, OEM (SuperMicro, если это существенно).
  • 12 blade-серверов, воткнутых в этот свитч каким-то внутренним коннектом. На серверах карты Mellanox ConnectX-какой-то, по одной штуке на сервер.
  • И еще один внешний сервер, с двухпортовой IB-картой, тоже Mellanox.
  • На всем этом стоит CentOS 5.4 с OFED-1.5.3
IB используется только для (Open)MPI, никакого IPoverIB нету, для IP - отдельная 10G/1G-сеть.

Все включилось и заработало как-то само, ну вот только OpenSM запустили, так и завелось. И, в-общем, работает, НО:

Периодически, собственно при запуске HPL на всех узлах кластера, узлы отваливаются. Не каждый раз, не один и тот же узел, но все-равно раздражает ужасно. Сообщение всегда одно и то же: The InfiniBand retry count between two MPI processes has been exceeded (и далее - длинный рассказ где чинить). Значения таймаута - стандартные.

Вопрос, собственно, простой: это обычное поведение при default-таймаутах и маленьком кластере или мне надо, вместо увеличения таймаута, искать проблемы (обновлять драйвера, тыкать блейды в другие слоты и т.п.)? Update: после перетыкания проблемных блейдов местами - проблема ушла. Наука о контактах!

Comments

думаю проблема с железом (кабели, коннекторы)

Я обычно кластера тестировал через (x)dapltest. С 12ю блейдами можно и полное покрытие сделать (каждый-с-каждым вместо один-со-всеми). По результатам можно выявить аномальные ноды. Если что -- стучитесь, поищу под слоем пыли скрипты.

Как я понял из всех ваших постов про INFINIBAND ,

Вы лично познакомились с карточкой .
MELLANOX INFINIHOST MHEA28-XTC DUAL PORT 10GB/S
и она умеет SRP RDMA , IP , etc .

А так же с MYRICOM "10G-PCIE-8A-C" 10GB NETWORK ADAPTER CX4 ,
которая дороже , только один порт .

И в результате всех тестов остановились на MELLANOX INFINIHOST MHEA28-XTC .
То есть карта за 22 доллара полностью удовлетворила все ожидания ? .

Да, я сейчас работаю с тремя карточками по $22, одна на сервере, две на рабочих станциях.
Производительность упирается в диски.

Минусов решения вижу два
1) нет драйверов для Mac (у Myricom - есть). Не очень и надо, конечно, но обидно.
2) В виртуальных машинах VMWare workstation не работает режим bridged.

SRP поддерживается только на Linux (и Solaris), когда, со временем, заведу отдельный ящик для быстрого storage - на нем буду экспериментировать что лучше, SRP поверх аппаратного RAID (Linux) или просто iSCSI поверх ZFS.

- одна на сервере, две на рабочих станциях.
то есть благодаря 2х портовости крточек , удалось соединить 3 машины без свича (а-ля каждый с каждым) ?

SRP vs ZFS, = блочный доступ vs Файловый доступ ,
блочный доступ должен быть быстрее , хотя все зависит от задачи ....

Да, конечно, соединить 3 машины удалось. Но с точки зрения IB это не одна сеть а три.

А так - понятно что SRP быстрее, но видна ли эта разница будет на фоне реальных железных дисков - вопрос для меня.