А вот кто хочет кластер понастраивать?

Граждане читатели!

У дружественной мне компании-интегратора есть задача: они поставили заказчику железо в виде blade-сервера, в каждом блейде есть infiniband, на шасси - infiniband-свитч. Все вместе - маленький вычислительный кластер, я так понял что 12 блейдов, наверное 24 процессора, всего ядер получается пара-тройка сотен. Никаких GPU нету, чистый CPU-кластер.

Нужно: провести какую-то настройку этого дела, взгромоздить туда MPI (не знаю какой), запустить HPL и продемонстрировать, что все работает и с какой-то разумной скоростью считает. Получать безумную эффективность не надо, работает, масштабируется как-то - и прекрасно.

Естественно, не бесплатно.

Если вы на практике имели дело с (начальной) настройкой чего-то подобного и имеете желание подработать день-другой (ну я не знаю сколько там надо на самом деле), пишите мне на lexa@lexa.ru и я вас дальше сконнекчу.

По датам это, ориентировочно, нужно в середине следующей недели, вторник-четверг.

P.S. Дефолт-сити.

P.P.S. Обратились, собственно, ко мне, но я не настоящий сварщик и вот прямо в данное время не хочу/не могу учиться за счет заказчика, не до того.

P.P.P.S. Спасибо за советы "какой готовый дистрибутив взять", но я пытаюсь решить другую задачу: не найти удочку, а нанять умелого рыбака.

Comments

Я бы начал танцевать отсюда:
Rocks Cluster Distribution,
если RH не устраивает...

я б наверное даже хотел понастраивать, но до этого ни разу не приходилось...

Я все-таки надеюсь, что настоящие сварщики подтянутся.

Потому что задача - не развлечься, а таки быстро и весело получить описанный результат.

это максимальную производительность на линухе сложно получать.
(фиг поймешь где тормозит)

а как-то заставить -- вряд ли рокет сайнс.

Ну да. Но при этом наработанные умения, вроде готового дистро этого самого линукса, чтобы 12 вычислительных узлов не конфигурировать по одному - могут поэкономить процентов 80 времени.

Ну то есть если мне не напишут - тебя звать? В-принципе, я уже и сам загорелся, потренируюсь на vmware и вперед :)

как хошь :) имей только ввиду, что териториально я в спб :)
но все блэйды, что я видел -- они имеют iLO или аналог.
а иметь такую шарманку в продакшене без iLO -- себя не уважать: я линуху тут включил TSO на сетевой карте и он куда-то удалился.

Да, все так, вопрос в том, что получить удаленный доступ может быть сложно по административным причинам.

ну всякое бывает.
чаще бывает что "у нас админа нет, пароль от маршрутизатора не знаем".
но это решается через 3g модем и ssh -R 22:remote_host:2222

а клиенту что, пофиг на дистро?
он все с нуля писать будет на голом си?

а то даже два rpm-based дистры плохо совместимы: у одного либа libevent.so.5, а у другого она же libevent-2.so.5.

Ну ты же знаешь, как оно бывает: вот астролябия, сама меряет, а как клиент ее потом будет использовать - вопрос не ко мне.

Я подозреваю, что требуется формальное упражнение, судя по размеру кластера его явно на попробовать взяли, маленький уж слишком.

ну они что, первый раз что-то считать будут?
ведь не первый же раз они к компу подходят, наверное наработки есть?

Я, честное слово, не знаю.

Из общих соображений, если бы клиент уже что-то умел, он бы сам эту железяку бы окучил.

да я не про кластер спрашиваю.
они ведь считать-то что-то уже считали и сейчас наверное быстрее хотят?
прикладная область-то им знакома поди (не кластер а я не знаю что -- биология, физика или что там у них)?

Я не вдавался - меня же со стороны поставщика позвали, а не со стороны получателя.

Задача поставщика - продемонстрировать что все фурычит, для этого достаточно HPL (High Performance Linpack) запустить и продемонстрировать разумную масштабируемость.

вот теперь понятно, я-то думал со стороны получателя

Да их уже как грязи....

у этого и инструкция переведена.
и выглядит относительно адекватным.

ставишь CentOS (что-то вроде cluster edition), там вроде уже стоит OpenMPI стэк и всё что нужно.

См. апдейт к посту.

Дистрибутивов, которые под это заточены (втч. с загрузкой нодов по сети, чтобы их вообще не конфигурировать) - их навалом.

Но я сам просто не знаю, где у этой коровы седло. Как, например, проверить работоспособность и приемлемую производительность IB. То есть, конечно, разберусь если припрет, но очень бы не хотелось разбираться, не до того.

Что-то непонятно, это типа одна стойка? Маловато для "суперкомпьютера" будет.

Да, это один шкаф. Если там оптероны (6176), то это где-то в районе 2-2.5 терафлопс на DP. Примерно как одна AMD Radeon HD7990 по прикидкам (когда она будет, конечно).

На Фре вот было бы интересно понастраивать. На Линуксе то понятно что без напряга все