Об AMD 7970 и терафлопсах

Я тут, со всей этой суетой предновогодней, пропустил анонс HD7970, сегодня только прочитал.

Очень хотелось, но кажется терафлопса (на DP) на одной карте таки не будет. Т.е. формально там что-то в районе 950 Gflop/s на штатной частоте, вроде можно разогнать где-то до 1100Mhz (а там на DP аккурат один килофлопс на такт: 2048 юнитов, 512 DP-операций, уможаем на 2 т.к. MAD), но маловероятно, что реальная эффективность на DGEMM будет выше 90%, а на HPL - выше 75-80. Потому что оверхед таки есть, на DMA, да много на что (на 6990, например, DGEMM получается эффективнее 90% только если найти те правильные ядра, которые с PCIe наиболее эффективно работают, по меньшей мере на оптеронах жизнь именно так устроена).

А жаль, счастье было так близко! Терафлопс на десктопе - это хороший такой рубеж.

Вместе с тем, интересно, насколько тамошние юниты - скалярны, из имеющихся в сети описаний я так и не понял. Могут ли они исполнять разные инструкции одновременно? Есть ли какие-то ограничения (загрузка из памяти по соседним адресам, например)?

Ибо если они совсем независимы (просто такой multi-core девайс, с регистрами, локальной памятью доступной группе ядер, ну и медленной глобальной памятью) - то это совсем другой разговор.

Comments

Ибо если они совсем независимы (просто такой multi-core девайс, с регистрами, локальной памятью доступной группе ядер, ну и медленной глобальной памятью) - то это совсем другой разговор.

на сто ядер это называется tilera

Ну я вот темный - и про Tilera только вот сейчас услышал. А вживую - не видел и не факт что увижу.

А видеокарты эти через месяц будут в каждом магазине на углу.

я видел и щупал (щупаю)

что-то ты мне напомнил, я когда первый раз выехал из СССР в 1989 г. то сразу попал на геологический конгресс в Вашингтоне, и там поперся на секцию по использованию супер-компьютеров в геологии, ну интересно было, и помню тогда прикинул, что если 300 мпфпс. на маленьком таком супере будет, то это будет счастье, т.как даже конвекцию в мантии посчитать можно будет. :-)
а вон видишь как пошло дело... Софт отстает как всегда.

Я не уверен, что софт отстает.

В 94-95-м я считал конвекцию в океанической коре. Воды (смокеры). Но не просто конвекцию, которая считалась быстро и весело, а еще и реакцию вода-базальт, перенос вещества между участками и вообще получался полноценный смокер без постройки (рост постройки тогда - не умел считать).

А где-то в то же время норвеги считали движение трехфазки в своих месторождениях (вода-нефть-газ), что тогда казалось совершенно не хреном собачим.

А американы считали те же смокеры, что и я, но исходя из кинетики (что сильно сложнее), отчего у них было 5-6 компонентов, а у меня - 15 (включая рудные).

а скоро же выйдет и двухпроцессорная версия на этом кристалле, т.ч. там терафлопс легко и с запасом будет превзойден.

Терафлопс (с трудом и без запаса) преодолевается на текущей HD6990. То есть там 660 на юнит, всего, соответственно ~1300.

Но Multi-GPU - это совсем другой, гораздо более сложный геморой, чем одно устройство.

Еще же летом на AFDS они достаточно подробно рассказали про архитектуру GCN. В каждом CU находятся 4 вектора по 16 ALU каждый. Т.е. гранулярность - как минимум 16 (а скорее всего 64, как и было). Другими словами, очень похоже на Fermi нвидиевское.

Я всухую, по презентации, воспринимаю плохо. Ту же нвидию осилил только сам попрограммировав.

Тогда так:

> Ибо если они совсем независимы (просто такой multi-core девайс, с регистрами, локальной памятью доступной группе ядер, ну и медленной глобальной памятью) - то это совсем другой разговор

Нет, такого, конечно, нет, ибо халявы не бывает.

а эти флопсы для какого пресижына?

DP.

Для SP там в 4 раза больше.

Просто помню в одной из Ваших лекций про ГПУ говорилось, что АТИ часто грешат результатами по сингл присижину.

В каком смысле "грешат"?
У сериии 5xxx была 1/5 производительность от SP, у 6xxx и новых 7xxx - 1/4.
У Nvidia 4xx/5xx - если правильно помню, то 1/4 в консумерских картах и 1/2 в теслах. Про консумерские нвидиа помню нетвердо.

Ну они крупными шрифтами указывали флопсы для сингл присижн. (потому как у них коэффициент хуже, чем у Нвидиа)

Я за AMD-шных маркетологов не ответчик. Формально 6970 (одночиповая) быстрее по гигафлопсам чем 580-я (тоже одночиповая) раза в два (и коэффициент SP/DP у обеих 4/1).

А по факту - берешь AMD-шные примеры из SDK (OpenCL), которые, по идее, должны быть оптимизированы под AMD, запускаешь на 5870 и на GTX480 (поколение назад, 5870 по идее заметно быстрее 480-й) и Nvidia на чужих примерах работает быстрее.

Точнее, так было - т.к. OpenCL-компилятор сидит в драйверах, вполне может быть что в драйверах посвежее компилятор стал получше.

У мня опыт работы с ГПУ на уровне таком - поставил драйвера на видеокарту, на CUDA, прописал нужные библиотеки (если требуется) и запускаешь уже скомпилированную под CUDA программу.

В основном это молекулярная динамика. (Сейчас многие обещают переписать софт для научных расчётов для ГПУ, но не торопятся)

Кроме CUDA есть еще OpenCL, который типа переносимый. И действительно, AMD-шные примеры на устройствах NVidia - работают. И, на удивление, работают часто быстрее, чем на родных (формально более быстрых) картах.

Ну вот пока версий для ОпенЦл вообще никто не планировал (даже не обещали).

Но там дальше возникает другая проблема - требуются быстрые жёсткие диски для кэша.

Ещё же есть параметр для некоторых задач - насколько хорошо паралелизуется. И не всем нужны методы Монте Карло (хотя для техники это самый лучший вариант).

Между OpenCL и CUDA разница очень небольшая (т.к OpenCL 1.0 делали тогда, когда кроме CUDA и не было ничего и деваться было некуда). То есть будет спрос - будут и программы. Про спрос непонятно, конечно, NVidia на тему научных вычислений села очень плотно и на ATI делают только редкие отщепенцы (но делают).
И кое-что для OpenCL появляется, хоть и медленнее чем для CUDA.

А с параллелизацией все очень просто - роста производительности одного потока в 2 раза за полтора года (как оно было с 85 /а может и раньше/ по 2005) - больше нет и в ближайшие годы не планируется. Поэтому - если задача не параллелится, значит надо искать альтернативные алгоритмы, они часто есть.

Двуяйцевый мне лично - не нужен.

А однояйцевый - интересно пощупать (за это самое одно яйцо), не знаю то ли 7950 подождать, то ли 7970 сразу хватать :)

я сейчас взял 6950 из-за display портов
и мне ATI нравится гораздо меньше nVidia
но у последней нет карт с двумя портами
такая вот незадача
думаю вот про такую штуку
http://www.ebay.com/itm/Matrox-Lp-Pcie-X16-Displayport-Graphics-CARD-1GB...
мне считать не нужно, просто картинку выводить нормальную

Я тут поработал на каком-то матроксе (у сервера onboard video). И должен тебе сказать, это интересное приключение - два процессора, 24 ядра, а прокрутка в firefox работает по строчке. Патамучта аппаратного ускорения нету, все в софте (и на одном ядре).

А у нвидии с двумя display port есть, к примеру, дешевые Quadro. Что-нибудь вроде NVS 295.

Во, Quadro FX 580. Два дисплейпорта, один DVI, ~200 баксов в Msk, те же 200 баксов на ebay (считая доставку).

Памяти, конечно, полгига всего, но если не для игр - то и нормально.

купил 2000
а какой профит мне будет от этой квадры (за исключением дисплай портов)
в сравнении с моей старой 560Ti?
ценник у них похожий, но ТТХ у квадры послабей
за что они копейки то дерут?

Встанут квадровские драйвера, отчего всякие 3D-приложения (не знаю, все или нет) станут работать быстрее.

Вот у Тома: http://www.tomshardware.com/reviews/quadro-fx-4800,2258-10.html
Железки вроде очень похожие (хотя у современных топовых квадр чип - примерно как у Тесл, а не как у Geforce, разница в производительности с двойной точностью), а разница в производительности на 3ds или Solidworks - в разы.

Раньше на Geforce перешивали bios, отчего они становились квадрами. Но сейчас этот путь вроде прикрыт т.к. аппаратно они вроде бы разные.

Но это я по слухам пою, никогда не разбирался в деталях (хотя идея перешить 280GTX в квадру - была, но я ниасилил)

я помню сам переделывал жифорс в квадру
было это в незапамятные времена
потом эта идея как-то загасла в народе
видимо чипы у них всё же разные сейчас

погуглил я этот вопрос - никто не хвалится успехами

Наверное система не предназначена для плавного прокручивания текстов и воспроизведения видео.

блин ну вот - а квадру я и не смотрел
295 вообще копейки стоит
но как-то она совсем дохленькая
смотрю уже на 2000 :)

надо теперь придумать, как АТИшку назад сдать в магазин

Пьезоэлемент от зажигалки?

не спортивно как-то
попробую знакомого продавца попросить
ещё двух недель не прошло
может заберут или на реализацию возьмут

Не, ну естественно, это же так, текстовый монитор подключить при установке, а я туда Xorg поставил.

Наверное, X11 для неакселерированной графики уже никто и не тестирует на производительность (и вообще никак).