Об AMD 7970 и терафлопсах
Я тут, со всей этой суетой предновогодней, пропустил анонс HD7970, сегодня только прочитал.
Очень хотелось, но кажется терафлопса (на DP) на одной карте таки не будет. Т.е. формально там что-то в районе 950 Gflop/s на штатной частоте, вроде можно разогнать где-то до 1100Mhz (а там на DP аккурат один килофлопс на такт: 2048 юнитов, 512 DP-операций, уможаем на 2 т.к. MAD), но маловероятно, что реальная эффективность на DGEMM будет выше 90%, а на HPL - выше 75-80. Потому что оверхед таки есть, на DMA, да много на что (на 6990, например, DGEMM получается эффективнее 90% только если найти те правильные ядра, которые с PCIe наиболее эффективно работают, по меньшей мере на оптеронах жизнь именно так устроена).
А жаль, счастье было так близко! Терафлопс на десктопе - это хороший такой рубеж.
Вместе с тем, интересно, насколько тамошние юниты - скалярны, из имеющихся в сети описаний я так и не понял. Могут ли они исполнять разные инструкции одновременно? Есть ли какие-то ограничения (загрузка из памяти по соседним адресам, например)?
Ибо если они совсем независимы (просто такой multi-core девайс, с регистрами, локальной памятью доступной группе ядер, ну и медленной глобальной памятью) - то это совсем другой разговор.
Comments
<q>Ибо если они совсем независимы (просто такой multi-core д
Ибо если они совсем независимы (просто такой multi-core девайс, с регистрами, локальной памятью доступной группе ядер, ну и медленной глобальной памятью) - то это совсем другой разговор.
на сто ядер это называется tilera
Ну я вот темный - и про Tilera только вот сейчас услышал. А
Ну я вот темный - и про Tilera только вот сейчас услышал. А вживую - не видел и не факт что увижу.
А видеокарты эти через месяц будут в каждом магазине на углу.
я видел и щупал (щупаю)
я видел и щупал (щупаю)
что-то ты мне напомнил, я когда первый раз выехал из СССР в
что-то ты мне напомнил, я когда первый раз выехал из СССР в 1989 г. то сразу попал на геологический конгресс в Вашингтоне, и там поперся на секцию по использованию супер-компьютеров в геологии, ну интересно было, и помню тогда прикинул, что если 300 мпфпс. на маленьком таком супере будет, то это будет счастье, т.как даже конвекцию в мантии посчитать можно будет. :-)
а вон видишь как пошло дело... Софт отстает как всегда.
Я не уверен, что софт отстает. В 94-95-м я считал конвекцию
Я не уверен, что софт отстает.
В 94-95-м я считал конвекцию в океанической коре. Воды (смокеры). Но не просто конвекцию, которая считалась быстро и весело, а еще и реакцию вода-базальт, перенос вещества между участками и вообще получался полноценный смокер без постройки (рост постройки тогда - не умел считать).
А где-то в то же время норвеги считали движение трехфазки в своих месторождениях (вода-нефть-газ), что тогда казалось совершенно не хреном собачим.
А американы считали те же смокеры, что и я, но исходя из кинетики (что сильно сложнее), отчего у них было 5-6 компонентов, а у меня - 15 (включая рудные).
а скоро же выйдет и двухпроцессорная версия на этом кристалл
а скоро же выйдет и двухпроцессорная версия на этом кристалле, т.ч. там терафлопс легко и с запасом будет превзойден.
Терафлопс (с трудом и без запаса) преодолевается на текущей
Терафлопс (с трудом и без запаса) преодолевается на текущей HD6990. То есть там 660 на юнит, всего, соответственно ~1300.
Но Multi-GPU - это совсем другой, гораздо более сложный геморой, чем одно устройство.
Еще же летом на AFDS они достаточно подробно рассказали про
Еще же летом на AFDS они достаточно подробно рассказали про архитектуру GCN. В каждом CU находятся 4 вектора по 16 ALU каждый. Т.е. гранулярность - как минимум 16 (а скорее всего 64, как и было). Другими словами, очень похоже на Fermi нвидиевское.
Я всухую, по презентации, воспринимаю плохо. Ту же нвидию ос
Я всухую, по презентации, воспринимаю плохо. Ту же нвидию осилил только сам попрограммировав.
Тогда так: > Ибо если они совсем независимы (просто такой m
Тогда так:
> Ибо если они совсем независимы (просто такой multi-core девайс, с регистрами, локальной памятью доступной группе ядер, ну и медленной глобальной памятью) - то это совсем другой разговор
Нет, такого, конечно, нет, ибо халявы не бывает.
а эти флопсы для какого пресижына?
а эти флопсы для какого пресижына?
DP. Для SP там в 4 раза больше.
DP.
Для SP там в 4 раза больше.
Просто помню в одной из Ваших лекций про ГПУ говорилось, что
Просто помню в одной из Ваших лекций про ГПУ говорилось, что АТИ часто грешат результатами по сингл присижину.
В каком смысле "грешат"? У сериии 5xxx была 1/5 производител
В каком смысле "грешат"?
У сериии 5xxx была 1/5 производительность от SP, у 6xxx и новых 7xxx - 1/4.
У Nvidia 4xx/5xx - если правильно помню, то 1/4 в консумерских картах и 1/2 в теслах. Про консумерские нвидиа помню нетвердо.
Ну они крупными шрифтами указывали флопсы для сингл присижн.
Ну они крупными шрифтами указывали флопсы для сингл присижн. (потому как у них коэффициент хуже, чем у Нвидиа)
Я за AMD-шных маркетологов не ответчик. Формально 6970 (одн
Я за AMD-шных маркетологов не ответчик. Формально 6970 (одночиповая) быстрее по гигафлопсам чем 580-я (тоже одночиповая) раза в два (и коэффициент SP/DP у обеих 4/1).
А по факту - берешь AMD-шные примеры из SDK (OpenCL), которые, по идее, должны быть оптимизированы под AMD, запускаешь на 5870 и на GTX480 (поколение назад, 5870 по идее заметно быстрее 480-й) и Nvidia на чужих примерах работает быстрее.
Точнее, так было - т.к. OpenCL-компилятор сидит в драйверах, вполне может быть что в драйверах посвежее компилятор стал получше.
У мня опыт работы с ГПУ на уровне таком - поставил драйвера
У мня опыт работы с ГПУ на уровне таком - поставил драйвера на видеокарту, на CUDA, прописал нужные библиотеки (если требуется) и запускаешь уже скомпилированную под CUDA программу.
В основном это молекулярная динамика. (Сейчас многие обещают переписать софт для научных расчётов для ГПУ, но не торопятся)
Кроме CUDA есть еще OpenCL, который типа переносимый. И дейс
Кроме CUDA есть еще OpenCL, который типа переносимый. И действительно, AMD-шные примеры на устройствах NVidia - работают. И, на удивление, работают часто быстрее, чем на родных (формально более быстрых) картах.
Ну вот пока версий для ОпенЦл вообще никто не планировал (да
Ну вот пока версий для ОпенЦл вообще никто не планировал (даже не обещали).
Но там дальше возникает другая проблема - требуются быстрые жёсткие диски для кэша.
Ещё же есть параметр для некоторых задач - насколько хорошо паралелизуется. И не всем нужны методы Монте Карло (хотя для техники это самый лучший вариант).
Между OpenCL и CUDA разница очень небольшая (т.к OpenCL 1.0
Между OpenCL и CUDA разница очень небольшая (т.к OpenCL 1.0 делали тогда, когда кроме CUDA и не было ничего и деваться было некуда). То есть будет спрос - будут и программы. Про спрос непонятно, конечно, NVidia на тему научных вычислений села очень плотно и на ATI делают только редкие отщепенцы (но делают).
И кое-что для OpenCL появляется, хоть и медленнее чем для CUDA.
А с параллелизацией все очень просто - роста производительности одного потока в 2 раза за полтора года (как оно было с 85 /а может и раньше/ по 2005) - больше нет и в ближайшие годы не планируется. Поэтому - если задача не параллелится, значит надо искать альтернативные алгоритмы, они часто есть.
вот про 7990 пишут http://www.overclockers.ru/hardnews/45141
вот про 7990 пишут
http://www.overclockers.ru/hardnews/45141/Radeon_HD_7990_dolzhen_vyjti_v...
Двуяйцевый мне лично - не нужен. А однояйцевый - интересно
Двуяйцевый мне лично - не нужен.
А однояйцевый - интересно пощупать (за это самое одно яйцо), не знаю то ли 7950 подождать, то ли 7970 сразу хватать :)
я сейчас взял 6950 из-за display портов и мне ATI нравится г
я сейчас взял 6950 из-за display портов
и мне ATI нравится гораздо меньше nVidia
но у последней нет карт с двумя портами
такая вот незадача
думаю вот про такую штуку
http://www.ebay.com/itm/Matrox-Lp-Pcie-X16-Displayport-Graphics-CARD-1GB...
мне считать не нужно, просто картинку выводить нормальную
Я тут поработал на каком-то матроксе (у сервера onboard vide
Я тут поработал на каком-то матроксе (у сервера onboard video). И должен тебе сказать, это интересное приключение - два процессора, 24 ядра, а прокрутка в firefox работает по строчке. Патамучта аппаратного ускорения нету, все в софте (и на одном ядре).
А у нвидии с двумя display port есть, к примеру, дешевые Quadro. Что-нибудь вроде NVS 295.
Во, Quadro FX 580. Два дисплейпорта, один DVI, ~200 баксов в
Во, Quadro FX 580. Два дисплейпорта, один DVI, ~200 баксов в Msk, те же 200 баксов на ebay (считая доставку).
Памяти, конечно, полгига всего, но если не для игр - то и нормально.
купил 2000 а какой профит мне будет от этой квадры (за исклю
купил 2000
а какой профит мне будет от этой квадры (за исключением дисплай портов)
в сравнении с моей старой 560Ti?
ценник у них похожий, но ТТХ у квадры послабей
за что они копейки то дерут?
Встанут квадровские драйвера, отчего всякие 3D-приложения (н
Встанут квадровские драйвера, отчего всякие 3D-приложения (не знаю, все или нет) станут работать быстрее.
Вот у Тома: http://www.tomshardware.com/reviews/quadro-fx-4800,2258-10.html
Железки вроде очень похожие (хотя у современных топовых квадр чип - примерно как у Тесл, а не как у Geforce, разница в производительности с двойной точностью), а разница в производительности на 3ds или Solidworks - в разы.
Раньше на Geforce перешивали bios, отчего они становились квадрами. Но сейчас этот путь вроде прикрыт т.к. аппаратно они вроде бы разные.
Но это я по слухам пою, никогда не разбирался в деталях (хотя идея перешить 280GTX в квадру - была, но я ниасилил)
я помню сам переделывал жифорс в квадру было это в незапамят
я помню сам переделывал жифорс в квадру
было это в незапамятные времена
потом эта идея как-то загасла в народе
видимо чипы у них всё же разные сейчас
погуглил я этот вопрос - никто не хвалится успехами
Наверное система не предназначена для плавного прокручивания
Наверное система не предназначена для плавного прокручивания текстов и воспроизведения видео.
блин ну вот - а квадру я и не смотрел 295 вообще копейки сто
блин ну вот - а квадру я и не смотрел
295 вообще копейки стоит
но как-то она совсем дохленькая
смотрю уже на 2000 :)
надо теперь придумать, как АТИшку назад сдать в магазин
Пьезоэлемент от зажигалки?
Пьезоэлемент от зажигалки?
не спортивно как-то попробую знакомого продавца попросить ещ
не спортивно как-то
попробую знакомого продавца попросить
ещё двух недель не прошло
может заберут или на реализацию возьмут
Не, ну естественно, это же так, текстовый монитор подключить
Не, ну естественно, это же так, текстовый монитор подключить при установке, а я туда Xorg поставил.
Наверное, X11 для неакселерированной графики уже никто и не тестирует на производительность (и вообще никак).