О Терафлопсах - 2

Алаверды к этому посту

================================================================================
HPL-GPU 1.1.0  --  High-Performance Linpack benchmark  --   2010
Written by D. Rohr, M. Kretz and M. Bach,  Frankfurt Institute for Advanced Studies
...
================================================================================
...
================================================================================
T/V                N    NB     P     Q               Time    CPU          Gflops
--------------------------------------------------------------------------------
WC26L2C32      124928  2048     1     1             753.87 11956.78       1.724e+03
--------------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)=        0.0001192 ...... PASSED
================================================================================

Finished      1 tests with the following results:
              1 tests completed and passed residual checks,
              0 tests completed and failed residual checks,
              0 tests skipped because of illegal input values.
--------------------------------------------------------------------------------

End of tests.
================================================================================

Оборудование то же: 2x AMD Opteron 6176, 128Gb RAM, 2x AMD/ATI HD6990, полтора киловатта питания, 1/2U.

А (почти) полтора раза (в сентябре было 1229 GFlop/s) получаются за счет, блин, "тонких" оптимизаций: точного раскидывания ядер по задачам (эти - только I/O с картой и т.п.), экономии этих самых ядер т.к. часть вычислений делается на CPU и так далее...

В сравнении с Fermi, получается сильно дешевле, сильно компактнее, но много более сексуально в программировании.

P.S. Больше подробностей - не раньше декабря.

Comments

2 терафлопа. В настольной машинке. Черт.

Ага, двойной точности. Одинарной там - ближе к 9.

Только она не настольная, она способна протопить комнату метров на 40, а звуком вентиляторов можно пугать взрослых (про маленьких детей и не говорю)

Как тут выяснилось маленьких детей звуком вентилятора не напугать, более того, это для них правильный успокаивающий саунд :)

Ты не слышал ЭТО.

То есть "обычный стиральный порошок сервер на 1U", из которого отводится ну ватт 300 (два процессора по 130 в пике, остальное почти не считается) - жалкое подобие левой руки.

У меня на работе до ближайшего перфлаба 20 метров, поэтому все, чем ты меня можешь напугать я уже слышал :)
Как выяснилось мы все недооцениваем детей. Обычный бытовой фен прекрасно отправляет орущего ребеночка спать. Хотя казалось бы.

У нас на работе периодически списывают сервера, и сдают их по цене металлолома. Так вот я хотел взять себе домой спарк одноюнитовый, но благоразумно попросил его включить. Отказался, короче говоря, хотя и всего 10 евро.

Полтора киловатта? Вспоминается, когда появились пентиумы, и был такой журнал PC Magazine, была целая статья: как же, как же отвести 90вт пиковой мощности.

Гигафлопс на ватт (даже чуть лучше) - это офигенное достижение на самом деле.

два 6990 в полюнита? как тебе такое удалось? ссылку на кузов можешь дать?

Кузов самопальный. В смысле, кастомный. Как и вся система охлаждения.

И это не "мне", меня позвали как GPGPU-специалиста.

Хм, интересно - у них мало места, но навалом электричества?

Половинка юнита вместо двух с теслой (1U тесла на 4 девайса и 2 полуюнитных сервера) - это стильно. Хотя, конечно, отвести со стойки 100 квт - сложнее чем 50.

А если серьезно - это неназываемый интегратор (будет пресс-релиз - назовется), которому захотелось такого странного, возможно это желание заказчика. А с моей стороны - что половинка юнита, что четыре - какая мне разница.

А карточки (6990) у них стоковые или тоже сами выпиливали?

Карточки - стоковые, а радиаторы, если я понял правильно, выпиливали сами.

Вчепятляет.

Тут ведь вот какое дело: теслы s2050 стоят типа $14k если в москве в розницу, причем перформанс у одной s2050 поменьше чем у 2x6990 (ценой $1600 за пару).

А так как такие кластеры обычно строят из сотен машин, то проект того стоит.

Да, а по электричеству повторю - больше гигафлопа на ватт, когда этих гигафлопов много - это прекрасный результат.

Да я не про это, я про то что выбрать за константу. Обычно в ДЦ константа - это сколько они могут откачать с квадратного фута киловатт. У меня вот максимальная емкость стойки без выебонов - 47U, с выебонами (chimney, труба как у камина, очень смешно) - 57U. А откачать более 25кВТ со стойки уже проблема.

Про конкретный случай (и твой и мой) - не знаю, а вообще ставят теплообменники и пускают по ним воду.

ДЦ под суперкомпьютеры обычно специально проектируются и, собственно, питание и охлаждение там особой мощности по понятным причинам.

Да, впечатляет. Но это же очень-очень специфично, верно? Матрицы перемножать и все.

К прошлому посту был комментарий (не в ЖЖ а в блоге у меня) про то, что операции с dense matrix - это не только пузомерка, но и на практике интересно: http://blog.lexa.ru/2011/09/12/o_high_performance_linpack.html#comment-1...

А реально: да, multi-GPU в случае AMD - это очень специфично, HPL-GPU в очень большой степени - про эффективный I/O по PCIe для этих карт. Но результат того стоит, если только по GPU-железу то это раз в 8-10 дешевле Tesla.

А, да, то что с одной стойкой таких машин можно в Top500 вполне пристойное место занять - тоже занятно.

пардон, не dense, а флопсы.

Да, я понимаю. Мне лишь кажется, что бОльшую практическую пользу имела бы система с одночиповыми кайманами, потому как тогда можно полноценно использовать OpenCL. Для разнообразных применений.

А что мешает использовать 4 GPU из OpenCL?

Они все видны и все такое...

Я в форумах видел жалобы типа "Ну когда же вы, мля, будете нормально поддерживать свои топовые продукты?" на тему как раз двухчиповых карт. Да и сама AMD вроде как говорит "используйте первый девайс двучиповой карты при работе из OpenCL".

Вы пробовали использовать второй девайс двучиповой карты из OpenCL?

Я - нет, у меня только 5870 есть. А HPL-GPU (точнее, CALDGEMM) вроде бы успешно несут на OpenCL

Но в то что у AMD там полно приколов - охотно верю заранее. Они вообще прикольщики (но цена их пока спасает).