Видеокарта с двойной точностью или AMD strikes back

Одна из наиболее неприятных проблем при расчетах на видеокартах — это поддержка только 32-битных чисел с плавающей точкой (single precision).

Несмотря на то, что все ожидали прорыва от NVidia (более того, это обещали к концу года), первой о поддержке FP64 объявила AMD/ATI, анонсировав FireStream 9170.

Вкратце:

  • поддержка FP64;
  • $1999 (MSRP);
  • 2 гигабайта памяти;
  • 500 GFLOP/s на одинарной точности, сколько на двойной - не пишут;
  • 150 ватт, PCIe 2.0, x16 ;
  • асинхронная (от расчетов) передача данных из/в карту;
  • В SDK обещают наличие Brook+ с поддержкой CTM (то, что в public пока было в глубочайших альфах);
Доступность, как я понял, в первом квартале 2008.

С нетерпением ждем ответа NVidia, ибо CUDA конечно куда человечнее, чем StreamProcessing.

Comments

А можно попросить ваших коментарием относительно чнловечности Cudы? :)

У CUDA есть разделяемая (внутри мультипроцессора) память, отчего всякие вещи ее требующие можно программировать куда человечнее.

Туда, например, можно писать и сразу читать (в отличие от текстур).

Круто, что сказать

есть ли у вас возможность прогнать тесты RapidMind на AMD 2900XT?

У меня нету.

Но RapidMind-овский девелоперский кит можно брать у них с сайта совершенно
бесплатно и там же брать тест для sgemm.

где бы ещё взять 2900XT бесплатно :-)

Можно же найти знакомого с такой картой, там же для теста
особо ничего не нужно, годятся стандартные драйвера, можно
по email-ftp-http тест выдать.

у меня среди знакомых таких заядлых гамеров нет. в принципе, просто было интересно сравнить GPU вычисления на Nvidia и ATI.

Их бессмысленно сравнивать впрямую. ATI - это Stream computing в чистом виде (ну, multiple rendering target позволяет чуть-чуть улучшить). Т.е. все локальные переменные в регистрах или в текстурах (а текстуры RO).

CUDA - это все-таки полноценный процессор с read-write. Да, там не без тараканов (конфликты на банках shared memory, а из глобальной надо читать-писать дофига, иначе на два порядка медленее чем можно), но парадигма гораздо человечнее. А тараканы - крайне аккуратно документированы (хотя и странные).

Конечно, это имеет значение, только если самому там программировать. Если есть, скажем BLAS или FFT, а программа пользуется стандартным интерфейсом, то жизнь проще. Но BLAS для ATI по-моему нету...

В результате, кстати, RapidMind-овская реализация уже достигла предела т.к. там блок 4x4, а CuBLAS, как мне кажется, еще можно дальше оптимизировать.
Реализации, которые >~140GFlops на sgemm получают уже есть.