Свежие комментарии
Title | Comment |
---|---|
Дропать нельзя, сломаются юзерские приложения. |
Дропать нельзя, сломаются юзерские приложения. |
Я очень сомневаюсь, что для NV и для AMD подойдет один код и |
Я очень сомневаюсь, что для NV и для AMD подойдет один код и он даст "50%" от теоретической. Ну если только весь #ifdef-ами облепить. Вот есть AMD-шный же OpenCL BLAS и FFT (без исходников), но я его не щупал за ненадобностью. А их же родной acml-gpu на их же родной 5870 50% от теоретического пика не набирает. Набирает 40. |
Там, похоже, в презентации какой-то другой kernel описываетс |
Там, похоже, в презентации какой-то другой kernel описывается, который "максимально производительный", но зато с 'hardcoded K' Для CAL, насколько я его понимаю, такой уж разницы между Compute и Pixel - нету. Но назвать шейдер, который гонит output обратно в память хоста (в одном из режимов) "пиксельным" я бы не смог. |
Так дропнут саппорт в драйверах. Они ж свой новый язык готов |
Так дропнут саппорт в драйверах. Они ж свой новый язык готовят. А пока его нет, низкоуровнево писать не на чем. Я тоже не видел шустрого DGEMM на OpenCL. Но я и не искал особо. Мне так кажется, написать что-то в районе 40%-50% от теоретической мощности даже я смогу. Один код для обоих производителей GPU. А 90% - это уже крайне маловероятно. |
> Но шейдеры там - compute Вполне возможно. В презентации в |
> Но шейдеры там - compute Вполне возможно. В презентации все же написано следующее: "Pixel Shader kernel and no Compute Shader" |
Так caldgemm не линкуется ни с одной библиотекой из SDK. Ему |
Так caldgemm не линкуется ни с одной библиотекой из SDK. Ему из SDK нужен только cal.h. А библиотеки - от драйвера. И хрен их подропаешь просто так, поломается совместимость тут же. На OpenCL, насколько я знаю (мог что-то пропустить), разумного DGEMM пока нет. |
И, кстати, 44-я страница презентации нереально доставляет. |
И, кстати, 44-я страница презентации нереально доставляет. Это я все к тому же, максимальная производительность требует совершенно неестественных трюков. |
Ну так да - там реально дохрена кода написано именно для под |
Ну так да - там реально дохрена кода написано именно для поддержания одновременности работы всех деталей системы (CPU-GPU-DMA) Но шейдеры там - compute. И сами шейдеры - относительно простые, от всего написанного кода DGEMM - процентов 10 кода (в байтах). А в остальных 90% творятся всякие ужасы. И драйвера патчить надо (хотя в моих тестах я пока разницы не увидел, но у меня узкое место в CPU) |
А, ну да, мы про одно и то же говорим, caldgemm. |
А, ну да, мы про одно и то же говорим, caldgemm. |
Вот, нашел: http://developer.amd.com/afds/assets/presentatio |
Вот, нашел: http://developer.amd.com/afds/assets/presentations/2909_1_final.pdf Там у них своя версия HPL, кстати. И умножают они просто огромные матрицы, которые в память GPU целиком не помещаются. А с остальными Вашими замечаниями я согласен, да. |
Nakasato? Прочитал, в pixel-шейдерах double есть. Как я пон |
Nakasato? Прочитал, в pixel-шейдерах double есть. Как я понимаю, основная проблема с этим подходом в том, что входные данные - это текстура, а значит размер получается сильно ограниченным. |
А разве в pixel-шейдерах есть double? Я просто не в курсе... |
А разве в pixel-шейдерах есть double? Я просто не в курсе... (забегая немного вперед, я планирую про это отдельный текст написать). Я пытаюсь донести ту мысль, что отдельное "очень быстрое умножение матриц" (или "элементарная операция с изображением") - это хорошо, но мало. Ну вот стандартный HPL, даже с довольно быстрым DGEMM оказывается ограничен в другом месте. Если бы DGEMM был бы бесконечной скорости, то весь HPL получился бы ~140GFLOP/s. Ну и с картинками: делаем буквально пяток операций, должны упереться в bandwidth памяти видеокарты (100-150Gb/sec) или, в крайнем случае, в bandwidth PCI-e (4-6Gb/sec, пусть пополам), а реальная производительность В СТО РАЗ меньше. А чтобы получить эффективную реализацию - надо или *все* перенести на GPU (что затратно, дохрена кода придется написать, втч и такого, который на GPU работает неэффективно, скажем с ветвлениями на каждом элементе вектора/матрицы), или написать реально сложное приложение. Вот CALDGEMM, который написан для HPL-GPU: там реально дохрена напрограммировали, вроде балансирования нагрузки (Multi-)GPU/CPU и так далее. ~200kb кода на умножение матриц (а казалось бы, три вложенных цикла, 6 строчек...). |
А причем тут ставка |
А причем тут ставка рефинансирования, по ней разве кто-то занимает? Про РС мне объясняли, что при их ставках по (экспресс-)кредитам населению вполне можно брать под 10% у населения же. |
Я читал недавно презентацию о, пожалуй, самой эффективной ре |
Я читал недавно презентацию о, пожалуй, самой эффективной реализации DGEMM на AMD GPU. Помнится, там было порядка 90% от теоретической производительности. Использовался не Compute, а Pixel шейдер. А самое интересное то, что не использовалась локальная память. Много потоков практически полностью скрывали кешированный доступ к глобальной памяти. Мне кажется, это сейчас самый энергоэффективный способ умножать матрицы. |
Я вот не пойму, откуда 10% |
Я вот не пойму, откуда 10% при ставке рефенансирования 8.25% ? |
только это сложно, нужно перепрограммировать ==> только это |
только это сложно, нужно перепрограммировать ==> только это тоже нужно программировать (редактирования каментов у меня нет, я жадный). Ну и раз уж пишу доп-коммент. Мой поинт в том, что для картинок какого-то разумного размера (с монитор, 1-4 мегапикселя) GPU нахрен не нужен. Но нужно, конечно, аккуратно повыпиливать хотспоты, а не просто все на прямолинейном C запрограммировать. |
Ну так, для начала, CPU тоже работал в неоптимальных условия |
Ну так, для начала, CPU тоже работал в неоптимальных условиях. несколько строчек (с OpenMP) ускорит это место в разы. От 3 до 4. Только это сложно программировать. Куда проще делать так, как ты говоришь - загнать все в память видеокарты, прямо на ней все считать и прямо оттуда и показывать, кстати. CPU почти не нужен. Только это сложно, нужно перепрограммировать (на OpenCL/CUDA/IL) не маленькие хот-споты, а вот прямо весь код фотошопа. Ну и касаемо GEGL. Если там по жизни тайлы 128x64, то проще наплевать и забыть. В 2011-м году, когда 4-гиговый DIMM стоит 700 рублей, тайл должен быть мегабайт на 100. Или на 1000. Или на 32, если мы на мобильном устройстве. Библиотеку, в которой такой default size для тайла, явно писали какие-то люди из музея вымерших цивилизаций. |
Ну так это a) alfa-preview версия технологии которая b) рабо |
Ну так это a) alfa-preview версия технологии которая b) работает в самых невыгодных для нее условиях. И все равно оно уже быстрее. Допишут, дотюнят, и будет раз в 5 разницы, как и положено. PS: Мне вот вообще интересно, теоретически "Photoshop" все картинки может базово держать на видеокарте, если памяти хватает, и все алгоритмы отображения и обработки туда засунуть. Тогда memcopy только при Open/Save будут ну или на гигапиксельных картинках. PPS: они 400msec копировали 1 мегапиксель туда-обратно? Там точно есть место для улучшения. |
Никто из текущих вендоров (на PC) не берет денег за OpenCL. |
Никто из текущих вендоров (на PC) не берет денег за OpenCL. Бери и пользуйся, никаких проблем. У интела можно редистрибутировать вместе с программой, для GPU - это просто часть драйвера, которая уже есть. Ну то есть я ничего плохого в опенсорсном OpenCL не вижу, но если кому оно вдруг надо - то оно уже есть, бери и пользуйся. |
Совсем будет интересно, когда опенсорсный OpenCL допилят (ко |
Совсем будет интересно, когда опенсорсный OpenCL допилят (который clover). |
у нас можно платить со своего телефона, на свой +3 дополните |
у нас можно платить со своего телефона, на свой +3 дополнительных за каждый платёж правда берётся комиссия 4.5руб |
+100500 Сегодня поперхнулся, |
+100500 Сегодня поперхнулся, получив такую SMS. |
Хм, надо допросить с |
Хм, надо допросить с пристрастием кого-нибудь на Вавилова в центральном, они там как-то более осведомлены всегда.. |
Ну вот они мне на днях |
Ну вот они мне на днях звонили и предлагали перейти на VIP-обслуживание. В другом офисе, хотя тоже близко. |
Не изжили. Два месяца назад |
Не изжили. Два месяца назад менял на зарплатной карте реквизиты плательщика суммы за обслуживание. В произвольном отделении они знали, как это делается, но не могли сделать. Операция "передачи" карты из офиса в офис не предусмотрена, как я понял, даже при перевыпуске, только при выпуске заново. |
Особенно прикольно эту смс |
Особенно прикольно эту смс получать тем кто-таки ПОЛЬЗУЕТСЯ мобильным банком :) |
А, да, еще Русский Стандарт |
А, да, еще Русский Стандарт "Банк в Кармане", тоже 10% если тратить с карты в месяц 10к хотя бы. |
Из карточек с процентами на |
Из карточек с процентами на остаток есть Связной с их 10%. Дать им денег в пределах лимита страхования вкладов - вполне можно, как мне кажется. А в остальном - никак специально не управляю. Если "управлять", то будешь только этим и заниматься. |
Кретинизм с отделениями они, |
Кретинизм с отделениями они, вроде бы, изжили совсем. |
Если не секрет, как вы |
Если не секрет, как вы управляете своими сбережениями? У меня пока депозитная карточка с 5% годовыми - процент начисляется раз в месяц на среднемесячный остаток. В других банках видел 7%, может и там карточку открою. |
Pages
