Q: Infiniband timeout
А вот, я извиняюсь, вопрос (на мое предложение никто толком не откликнулся, приходится зарабатывать эти деньги самому). Дано:
- Infiniband-switch (на шасси Blade-сервера), Mellanox-какой-то там, OEM (SuperMicro, если это существенно).
- 12 blade-серверов, воткнутых в этот свитч каким-то внутренним коннектом. На серверах карты Mellanox ConnectX-какой-то, по одной штуке на сервер.
- И еще один внешний сервер, с двухпортовой IB-картой, тоже Mellanox.
- На всем этом стоит CentOS 5.4 с OFED-1.5.3
Все включилось и заработало как-то само, ну вот только OpenSM запустили, так и завелось. И, в-общем, работает, НО:
Периодически, собственно при запуске HPL на всех узлах кластера, узлы отваливаются. Не каждый раз, не один и тот же узел, но все-равно раздражает ужасно. Сообщение всегда одно и то же: The InfiniBand retry count between two MPI processes has been exceeded (и далее - длинный рассказ где чинить). Значения таймаута - стандартные.
Вопрос, собственно, простой: это обычное поведение при default-таймаутах и маленьком кластере или мне надо, вместо увеличения таймаута, искать проблемы (обновлять драйвера, тыкать блейды в другие слоты и т.п.)? Update: после перетыкания проблемных блейдов местами - проблема ушла. Наука о контактах!
Comments
думаю проблема с железом (кабели, коннекторы)
думаю проблема с железом (кабели, коннекторы)
Я обычно кластера тестировал
Я обычно кластера тестировал через (x)dapltest. С 12ю блейдами можно и полное покрытие сделать (каждый-с-каждым вместо один-со-всеми). По результатам можно выявить аномальные ноды. Если что -- стучитесь, поищу под слоем пыли скрипты.
MELLANOX vs MYRICOM
Как я понял из всех ваших постов про INFINIBAND ,
Вы лично познакомились с карточкой .
MELLANOX INFINIHOST MHEA28-XTC DUAL PORT 10GB/S
и она умеет SRP RDMA , IP , etc .
А так же с MYRICOM "10G-PCIE-8A-C" 10GB NETWORK ADAPTER CX4 ,
которая дороже , только один порт .
И в результате всех тестов остановились на MELLANOX INFINIHOST MHEA28-XTC .
То есть карта за 22 доллара полностью удовлетворила все ожидания ? .
Да, я сейчас работаю с тремя
Да, я сейчас работаю с тремя карточками по $22, одна на сервере, две на рабочих станциях.
Производительность упирается в диски.
Минусов решения вижу два
1) нет драйверов для Mac (у Myricom - есть). Не очень и надо, конечно, но обидно.
2) В виртуальных машинах VMWare workstation не работает режим bridged.
SRP поддерживается только на Linux (и Solaris), когда, со временем, заведу отдельный ящик для быстрого storage - на нем буду экспериментировать что лучше, SRP поверх аппаратного RAID (Linux) или просто iSCSI поверх ZFS.
- одна на сервере, две на
- одна на сервере, две на рабочих станциях.
то есть благодаря 2х портовости крточек , удалось соединить 3 машины без свича (а-ля каждый с каждым) ?
SRP vs ZFS, = блочный доступ vs Файловый доступ ,
блочный доступ должен быть быстрее , хотя все зависит от задачи ....
Да, конечно, соединить 3
Да, конечно, соединить 3 машины удалось. Но с точки зрения IB это не одна сеть а три.
А так - понятно что SRP быстрее, но видна ли эта разница будет на фоне реальных железных дисков - вопрос для меня.