Свежие комментарии

Title Comment
Дропать нельзя, сломаются юзерские приложения.

Дропать нельзя, сломаются юзерские приложения.

Я очень сомневаюсь, что для NV и для AMD подойдет один код и

Я очень сомневаюсь, что для NV и для AMD подойдет один код и он даст "50%" от теоретической. Ну если только весь #ifdef-ами облепить.

Вот есть AMD-шный же OpenCL BLAS и FFT (без исходников), но я его не щупал за ненадобностью. А их же родной acml-gpu на их же родной 5870 50% от теоретического пика не набирает. Набирает 40.

Там, похоже, в презентации какой-то другой kernel описываетс

Там, похоже, в презентации какой-то другой kernel описывается, который "максимально производительный", но зато с 'hardcoded K'

Для CAL, насколько я его понимаю, такой уж разницы между Compute и Pixel - нету. Но назвать шейдер, который гонит output обратно в память хоста (в одном из режимов) "пиксельным" я бы не смог.

Так дропнут саппорт в драйверах. Они ж свой новый язык готов

Так дропнут саппорт в драйверах. Они ж свой новый язык готовят. А пока его нет, низкоуровнево писать не на чем.

Я тоже не видел шустрого DGEMM на OpenCL. Но я и не искал особо. Мне так кажется, написать что-то в районе 40%-50% от теоретической мощности даже я смогу. Один код для обоих производителей GPU. А 90% - это уже крайне маловероятно.

> Но шейдеры там - compute Вполне возможно. В презентации в

> Но шейдеры там - compute

Вполне возможно. В презентации все же написано следующее: "Pixel Shader kernel and no Compute Shader"

Так caldgemm не линкуется ни с одной библиотекой из SDK. Ему

Так caldgemm не линкуется ни с одной библиотекой из SDK. Ему из SDK нужен только cal.h. А библиотеки - от драйвера. И хрен их подропаешь просто так, поломается совместимость тут же.

На OpenCL, насколько я знаю (мог что-то пропустить), разумного DGEMM пока нет.

И, кстати, 44-я страница презентации нереально доставляет.

И, кстати, 44-я страница презентации нереально доставляет.
- AMD Interlagos - вдвое меньше FPU (там если быть точным, можно два FPU объединить в один с 256-битными векторами), чем вообще ядер
- Ура! половину ядер (которые стали без FPU) мы будем использовать для GPU I/O

Это я все к тому же, максимальная производительность требует совершенно неестественных трюков.

Ну так да - там реально дохрена кода написано именно для под

Ну так да - там реально дохрена кода написано именно для поддержания одновременности работы всех деталей системы (CPU-GPU-DMA)

Но шейдеры там - compute. И сами шейдеры - относительно простые, от всего написанного кода DGEMM - процентов 10 кода (в байтах). А в остальных 90% творятся всякие ужасы. И драйвера патчить надо (хотя в моих тестах я пока разницы не увидел, но у меня узкое место в CPU)

А, ну да, мы про одно и то же говорим, caldgemm.

А, ну да, мы про одно и то же говорим, caldgemm.

Вот, нашел: http://developer.amd.com/afds/assets/presentatio

Вот, нашел: http://developer.amd.com/afds/assets/presentations/2909_1_final.pdf

Там у них своя версия HPL, кстати. И умножают они просто огромные матрицы, которые в память GPU целиком не помещаются.

А с остальными Вашими замечаниями я согласен, да.

Nakasato? Прочитал, в pixel-шейдерах double есть. Как я пон

Nakasato? Прочитал, в pixel-шейдерах double есть.

Как я понимаю, основная проблема с этим подходом в том, что входные данные - это текстура, а значит размер получается сильно ограниченным.

А разве в pixel-шейдерах есть double? Я просто не в курсе...

А разве в pixel-шейдерах есть double? Я просто не в курсе...

(забегая немного вперед, я планирую про это отдельный текст написать).

Я пытаюсь донести ту мысль, что отдельное "очень быстрое умножение матриц" (или "элементарная операция с изображением") - это хорошо, но мало. Ну вот стандартный HPL, даже с довольно быстрым DGEMM оказывается ограничен в другом месте. Если бы DGEMM был бы бесконечной скорости, то весь HPL получился бы ~140GFLOP/s. Ну и с картинками: делаем буквально пяток операций, должны упереться в bandwidth памяти видеокарты (100-150Gb/sec) или, в крайнем случае, в bandwidth PCI-e (4-6Gb/sec, пусть пополам), а реальная производительность В СТО РАЗ меньше.

А чтобы получить эффективную реализацию - надо или *все* перенести на GPU (что затратно, дохрена кода придется написать, втч и такого, который на GPU работает неэффективно, скажем с ветвлениями на каждом элементе вектора/матрицы), или написать реально сложное приложение. Вот CALDGEMM, который написан для HPL-GPU: там реально дохрена напрограммировали, вроде балансирования нагрузки (Multi-)GPU/CPU и так далее. ~200kb кода на умножение матриц (а казалось бы, три вложенных цикла, 6 строчек...).

А причем тут ставка

А причем тут ставка рефинансирования, по ней разве кто-то занимает?

Про РС мне объясняли, что при их ставках по (экспресс-)кредитам населению вполне можно брать под 10% у населения же.

Я читал недавно презентацию о, пожалуй, самой эффективной ре

Я читал недавно презентацию о, пожалуй, самой эффективной реализации DGEMM на AMD GPU. Помнится, там было порядка 90% от теоретической производительности. Использовался не Compute, а Pixel шейдер. А самое интересное то, что не использовалась локальная память. Много потоков практически полностью скрывали кешированный доступ к глобальной памяти. Мне кажется, это сейчас самый энергоэффективный способ умножать матрицы.

Я вот не пойму, откуда 10%

Я вот не пойму, откуда 10% при ставке рефенансирования 8.25% ?

только это сложно, нужно перепрограммировать ==> только это

только это сложно, нужно перепрограммировать ==> только это тоже нужно программировать (редактирования каментов у меня нет, я жадный).

Ну и раз уж пишу доп-коммент.

Мой поинт в том, что для картинок какого-то разумного размера (с монитор, 1-4 мегапикселя) GPU нахрен не нужен. Но нужно, конечно, аккуратно повыпиливать хотспоты, а не просто все на прямолинейном C запрограммировать.

Ну так, для начала, CPU тоже работал в неоптимальных условия

Ну так, для начала, CPU тоже работал в неоптимальных условиях. несколько строчек (с OpenMP) ускорит это место в разы. От 3 до 4.
И для элементарных операций, вроде brightness-contrast, CPU будет всегда быстрее потому как может их хреначить со скоростью памяти, а GPU ограничена скоростью PCI-express.
Несмотря на это, выигрыш может быть (и довольно большой) за счет offloading, особенно на картах вроде Теслы с двумя DMA engine: один DMA фигачит в память карты (кусочками), карта что-то считает, второй DMA фигачит обратно. А на CPU смотрим кино с голыми бабами.

Только это сложно программировать. Куда проще делать так, как ты говоришь - загнать все в память видеокарты, прямо на ней все считать и прямо оттуда и показывать, кстати. CPU почти не нужен. Только это сложно, нужно перепрограммировать (на OpenCL/CUDA/IL) не маленькие хот-споты, а вот прямо весь код фотошопа.

Ну и касаемо GEGL. Если там по жизни тайлы 128x64, то проще наплевать и забыть. В 2011-м году, когда 4-гиговый DIMM стоит 700 рублей, тайл должен быть мегабайт на 100. Или на 1000. Или на 32, если мы на мобильном устройстве. Библиотеку, в которой такой default size для тайла, явно писали какие-то люди из музея вымерших цивилизаций.

Ну так это a) alfa-preview версия технологии которая b) рабо

Ну так это a) alfa-preview версия технологии которая b) работает в самых невыгодных для нее условиях. И все равно оно уже быстрее.

Допишут, дотюнят, и будет раз в 5 разницы, как и положено.

PS: Мне вот вообще интересно, теоретически "Photoshop" все картинки может базово держать на видеокарте, если памяти хватает, и все алгоритмы отображения и обработки туда засунуть. Тогда memcopy только при Open/Save будут ну или на гигапиксельных картинках.

PPS: они 400msec копировали 1 мегапиксель туда-обратно? Там точно есть место для улучшения.

Никто из текущих вендоров (на PC) не берет денег за OpenCL.

Никто из текущих вендоров (на PC) не берет денег за OpenCL. Бери и пользуйся, никаких проблем.

У интела можно редистрибутировать вместе с программой, для GPU - это просто часть драйвера, которая уже есть.

Ну то есть я ничего плохого в опенсорсном OpenCL не вижу, но если кому оно вдруг надо - то оно уже есть, бери и пользуйся.

Совсем будет интересно, когда опенсорсный OpenCL допилят (ко

Совсем будет интересно, когда опенсорсный OpenCL допилят (который clover).
Его в рамках gsoc клепают, правда там пока только CPU имплементация (llvm/jit), а GPU обещают сделать "потом" (используя кодогенераторы из mesa)

у нас можно платить со своего телефона, на свой +3 дополните

у нас можно платить со своего телефона, на свой +3 дополнительных
телефоны задаются в банкомате, когда подключаешь услугу
например себе, жене, ребёнкам

за каждый платёж правда берётся комиссия 4.5руб
в принципе удобно

+100500 Сегодня поперхнулся,

+100500

Сегодня поперхнулся, получив такую SMS.

Хм, надо допросить с

Хм, надо допросить с пристрастием кого-нибудь на Вавилова в центральном, они там как-то более осведомлены всегда..

Ну вот они мне на днях

Ну вот они мне на днях звонили и предлагали перейти на VIP-обслуживание. В другом офисе, хотя тоже близко.
Сдается мне, что при этом все потроха клиента как-то перетаскиваются.

Не изжили. Два месяца назад

Не изжили. Два месяца назад менял на зарплатной карте реквизиты плательщика суммы за обслуживание. В произвольном отделении они знали, как это делается, но не могли сделать. Операция "передачи" карты из офиса в офис не предусмотрена, как я понял, даже при перевыпуске, только при выпуске заново.

Особенно прикольно эту смс

Особенно прикольно эту смс получать тем кто-таки ПОЛЬЗУЕТСЯ мобильным банком :)

А, да, еще Русский Стандарт

А, да, еще Русский Стандарт "Банк в Кармане", тоже 10% если тратить с карты в месяц 10к хотя бы.

Из карточек с процентами на

Из карточек с процентами на остаток есть Связной с их 10%. Дать им денег в пределах лимита страхования вкладов - вполне можно, как мне кажется.

А в остальном - никак специально не управляю. Если "управлять", то будешь только этим и заниматься.

Кретинизм с отделениями они,

Кретинизм с отделениями они, вроде бы, изжили совсем.
Т.е. я не помню за последние пару лет, чтобы меня отправили в "свое" отделение. В пределах Москвы все, наверное если выехать в Бурятию, то оттуда отправят.

Если не секрет, как вы

Если не секрет, как вы управляете своими сбережениями?
Типа валюта/акции/депозиты ?

У меня пока депозитная карточка с 5% годовыми - процент начисляется раз в месяц на среднемесячный остаток. В других банках видел 7%, может и там карточку открою.
Но такой депозит - это самый простой вариант.

Pages

Subscribe to comments_recent_new