А вот кто хочет кластер понастраивать?

lexa - 16/Дек/2011 21:33

Граждане читатели!

У дружественной мне компании-интегратора есть задача: они поставили заказчику железо в виде blade-сервера, в каждом блейде есть infiniband, на шасси - infiniband-свитч. Все вместе - маленький вычислительный кластер, я так понял что 12 блейдов, наверное 24 процессора, всего ядер получается пара-тройка сотен. Никаких GPU нету, чистый CPU-кластер.

Нужно: провести какую-то настройку этого дела, взгромоздить туда MPI (не знаю какой), запустить HPL и продемонстрировать, что все работает и с какой-то разумной скоростью считает. Получать безумную эффективность не надо, работает, масштабируется как-то - и прекрасно.

Естественно, не бесплатно.

Если вы на практике имели дело с (начальной) настройкой чего-то подобного и имеете желание подработать день-другой (ну я не знаю сколько там надо на самом деле), пишите мне на lexa@lexa.ru и я вас дальше сконнекчу.

По датам это, ориентировочно, нужно в середине следующей недели, вторник-четверг.

P.S. Дефолт-сити.

P.P.S. Обратились, собственно, ко мне, но я не настоящий сварщик и вот прямо в данное время не хочу/не могу учиться за счет заказчика, не до того.

P.P.P.S. Спасибо за советы "какой готовый дистрибутив взять", но я пытаюсь решить другую задачу: не найти удочку, а нанять умелого рыбака.

Comments

Я бы начал танцевать

Anonymous (not verified) - 16/Дек/2011 22:05

Я бы начал танцевать отсюда:
Rocks Cluster Distribution,
если RH не устраивает...

я б наверное даже хотел понастраивать, но до этого ни разу н

_slw (not verified) - 16/Дек/2011 22:21

я б наверное даже хотел понастраивать, но до этого ни разу не приходилось...

Я все-таки надеюсь, что настоящие сварщики подтянутся. Пото

lexa - 16/Дек/2011 22:26

Я все-таки надеюсь, что настоящие сварщики подтянутся.

Потому что задача - не развлечься, а таки быстро и весело получить описанный результат.

это максимальную производительность на линухе сложно получат

_slw (not verified) - 16/Дек/2011 22:29

это максимальную производительность на линухе сложно получать.
(фиг поймешь где тормозит)

а как-то заставить -- вряд ли рокет сайнс.

Ну да. Но при этом наработанные умения, вроде готового дистр

lexa - 16/Дек/2011 22:38

Ну да. Но при этом наработанные умения, вроде готового дистро этого самого линукса, чтобы 12 вычислительных узлов не конфигурировать по одному - могут поэкономить процентов 80 времени.

Ну то есть если мне не напишут - тебя звать? В-принципе, я у

lexa - 16/Дек/2011 22:39

Ну то есть если мне не напишут - тебя звать? В-принципе, я уже и сам загорелся, потренируюсь на vmware и вперед :)

как хошь :) имей только ввиду, что териториально я в спб :)

_slw (not verified) - 16/Дек/2011 22:58

как хошь :) имей только ввиду, что териториально я в спб :)
но все блэйды, что я видел -- они имеют iLO или аналог.
а иметь такую шарманку в продакшене без iLO -- себя не уважать: я линуху тут включил TSO на сетевой карте и он куда-то удалился.

Да, все так, вопрос в том, что получить удаленный доступ мож

lexa - 16/Дек/2011 23:07

Да, все так, вопрос в том, что получить удаленный доступ может быть сложно по административным причинам.

ну всякое бывает. чаще бывает что "у нас админа нет, пароль

_slw (not verified) - 16/Дек/2011 23:12

ну всякое бывает.
чаще бывает что "у нас админа нет, пароль от маршрутизатора не знаем".
но это решается через 3g модем и ssh -R 22:remote_host:2222

я просто оставлю это здесь (с) http://idea.uab.es/mcreel/Pe

_slw (not verified) - 16/Дек/2011 23:04

я просто оставлю это здесь (с)

http://idea.uab.es/mcreel/PelicanHPC/

а клиенту что, пофиг на дистро? он все с нуля писать будет н

_slw (not verified) - 16/Дек/2011 22:55

а клиенту что, пофиг на дистро?
он все с нуля писать будет на голом си?

а то даже два rpm-based дистры плохо совместимы: у одного либа libevent.so.5, а у другого она же libevent-2.so.5.

Ну ты же знаешь, как оно бывает: вот астролябия, сама меряет

lexa - 16/Дек/2011 23:06

Ну ты же знаешь, как оно бывает: вот астролябия, сама меряет, а как клиент ее потом будет использовать - вопрос не ко мне.

Я подозреваю, что требуется формальное упражнение, судя по размеру кластера его явно на попробовать взяли, маленький уж слишком.

ну они что, первый раз что-то считать будут? ведь не первый

_slw (not verified) - 16/Дек/2011 23:23

ну они что, первый раз что-то считать будут?
ведь не первый же раз они к компу подходят, наверное наработки есть?

Я, честное слово, не знаю. Из общих соображений, если бы кл

lexa - 17/Дек/2011 10:33

Я, честное слово, не знаю.

Из общих соображений, если бы клиент уже что-то умел, он бы сам эту железяку бы окучил.

да я не про кластер спрашиваю. они ведь считать-то что-то уж

_slw (not verified) - 17/Дек/2011 12:10

да я не про кластер спрашиваю.
они ведь считать-то что-то уже считали и сейчас наверное быстрее хотят?
прикладная область-то им знакома поди (не кластер а я не знаю что -- биология, физика или что там у них)?

Я не вдавался - меня же со стороны поставщика позвали, а не

lexa - 17/Дек/2011 12:28

Я не вдавался - меня же со стороны поставщика позвали, а не со стороны получателя.

Задача поставщика - продемонстрировать что все фурычит, для этого достаточно HPL (High Performance Linpack) запустить и продемонстрировать разумную масштабируемость.

вот теперь понятно, я-то думал со стороны получателя

_slw (not verified) - 17/Дек/2011 12:38

вот теперь понятно, я-то думал со стороны получателя

Да их уже как грязи....

lexa - 16/Дек/2011 23:06

Да их уже как грязи....

у этого и инструкция переведена. и выглядит относительно аде

_slw (not verified) - 16/Дек/2011 23:22

у этого и инструкция переведена.
и выглядит относительно адекватным.

ставишь CentOS (что-то вроде cluster edition), там вроде уже

mrshurik (not verified) - 17/Дек/2011 01:29

ставишь CentOS (что-то вроде cluster edition), там вроде уже стоит OpenMPI стэк и всё что нужно.

См. апдейт к посту. Дистрибутивов, которые под это заточены

lexa - 17/Дек/2011 10:35

См. апдейт к посту.

Дистрибутивов, которые под это заточены (втч. с загрузкой нодов по сети, чтобы их вообще не конфигурировать) - их навалом.

Но я сам просто не знаю, где у этой коровы седло. Как, например, проверить работоспособность и приемлемую производительность IB. То есть, конечно, разберусь если припрет, но очень бы не хотелось разбираться, не до того.

А вот кто хочет кластер понастраивать?

Comments

Я бы начал танцевать

я б наверное даже хотел понастраивать, но до этого ни разу н

Я все-таки надеюсь, что настоящие сварщики подтянутся. Пото

это максимальную производительность на линухе сложно получат

Ну да. Но при этом наработанные умения, вроде готового дистр

Ну то есть если мне не напишут - тебя звать? В-принципе, я у

как хошь :) имей только ввиду, что териториально я в спб :)

Да, все так, вопрос в том, что получить удаленный доступ мож

ну всякое бывает. чаще бывает что "у нас админа нет, пароль

я просто оставлю это здесь (с) http://idea.uab.es/mcreel/Pe

а клиенту что, пофиг на дистро? он все с нуля писать будет н

Ну ты же знаешь, как оно бывает: вот астролябия, сама меряет

ну они что, первый раз что-то считать будут? ведь не первый

Я, честное слово, не знаю. Из общих соображений, если бы кл

да я не про кластер спрашиваю. они ведь считать-то что-то уж

Я не вдавался - меня же со стороны поставщика позвали, а не

вот теперь понятно, я-то думал со стороны получателя

Да их уже как грязи....

у этого и инструкция переведена. и выглядит относительно аде

ставишь CentOS (что-то вроде cluster edition), там вроде уже

См. апдейт к посту. Дистрибутивов, которые под это заточены

Что-то непонятно, это типа одна стойка? Маловато для "суперк

Да, это один шкаф. Если там оптероны (6176), то это где-то в

На Фре вот было бы интересно