Свежие комментарии

Title	Comment
Дропать нельзя, сломаются юзерские приложения.	Дропать нельзя, сломаются юзерские приложения.
Я очень сомневаюсь, что для NV и для AMD подойдет один код и	Я очень сомневаюсь, что для NV и для AMD подойдет один код и он даст "50%" от теоретической. Ну если только весь #ifdef-ами облепить. Вот есть AMD-шный же OpenCL BLAS и FFT (без исходников), но я его не щупал за ненадобностью. А их же родной acml-gpu на их же родной 5870 50% от теоретического пика не набирает. Набирает 40.
Там, похоже, в презентации какой-то другой kernel описываетс	Там, похоже, в презентации какой-то другой kernel описывается, который "максимально производительный", но зато с 'hardcoded K' Для CAL, насколько я его понимаю, такой уж разницы между Compute и Pixel - нету. Но назвать шейдер, который гонит output обратно в память хоста (в одном из режимов) "пиксельным" я бы не смог.
Так дропнут саппорт в драйверах. Они ж свой новый язык готов	Так дропнут саппорт в драйверах. Они ж свой новый язык готовят. А пока его нет, низкоуровнево писать не на чем. Я тоже не видел шустрого DGEMM на OpenCL. Но я и не искал особо. Мне так кажется, написать что-то в районе 40%-50% от теоретической мощности даже я смогу. Один код для обоих производителей GPU. А 90% - это уже крайне маловероятно.
> Но шейдеры там - compute Вполне возможно. В презентации в	> Но шейдеры там - compute Вполне возможно. В презентации все же написано следующее: "Pixel Shader kernel and no Compute Shader"
Так caldgemm не линкуется ни с одной библиотекой из SDK. Ему	Так caldgemm не линкуется ни с одной библиотекой из SDK. Ему из SDK нужен только cal.h. А библиотеки - от драйвера. И хрен их подропаешь просто так, поломается совместимость тут же. На OpenCL, насколько я знаю (мог что-то пропустить), разумного DGEMM пока нет.
И, кстати, 44-я страница презентации нереально доставляет.	И, кстати, 44-я страница презентации нереально доставляет. - AMD Interlagos - вдвое меньше FPU (там если быть точным, можно два FPU объединить в один с 256-битными векторами), чем вообще ядер - Ура! половину ядер (которые стали без FPU) мы будем использовать для GPU I/O Это я все к тому же, максимальная производительность требует совершенно неестественных трюков.
Ну так да - там реально дохрена кода написано именно для под	Ну так да - там реально дохрена кода написано именно для поддержания одновременности работы всех деталей системы (CPU-GPU-DMA) Но шейдеры там - compute. И сами шейдеры - относительно простые, от всего написанного кода DGEMM - процентов 10 кода (в байтах). А в остальных 90% творятся всякие ужасы. И драйвера патчить надо (хотя в моих тестах я пока разницы не увидел, но у меня узкое место в CPU)
А, ну да, мы про одно и то же говорим, caldgemm.	А, ну да, мы про одно и то же говорим, caldgemm.
Вот, нашел: http://developer.amd.com/afds/assets/presentatio	Вот, нашел: http://developer.amd.com/afds/assets/presentations/2909_1_final.pdf Там у них своя версия HPL, кстати. И умножают они просто огромные матрицы, которые в память GPU целиком не помещаются. А с остальными Вашими замечаниями я согласен, да.
Nakasato? Прочитал, в pixel-шейдерах double есть. Как я пон	Nakasato? Прочитал, в pixel-шейдерах double есть. Как я понимаю, основная проблема с этим подходом в том, что входные данные - это текстура, а значит размер получается сильно ограниченным.
А разве в pixel-шейдерах есть double? Я просто не в курсе...	А разве в pixel-шейдерах есть double? Я просто не в курсе... (забегая немного вперед, я планирую про это отдельный текст написать). Я пытаюсь донести ту мысль, что отдельное "очень быстрое умножение матриц" (или "элементарная операция с изображением") - это хорошо, но мало. Ну вот стандартный HPL, даже с довольно быстрым DGEMM оказывается ограничен в другом месте. Если бы DGEMM был бы бесконечной скорости, то весь HPL получился бы ~140GFLOP/s. Ну и с картинками: делаем буквально пяток операций, должны упереться в bandwidth памяти видеокарты (100-150Gb/sec) или, в крайнем случае, в bandwidth PCI-e (4-6Gb/sec, пусть пополам), а реальная производительность В СТО РАЗ меньше. А чтобы получить эффективную реализацию - надо или все перенести на GPU (что затратно, дохрена кода придется написать, втч и такого, который на GPU работает неэффективно, скажем с ветвлениями на каждом элементе вектора/матрицы), или написать реально сложное приложение. Вот CALDGEMM, который написан для HPL-GPU: там реально дохрена напрограммировали, вроде балансирования нагрузки (Multi-)GPU/CPU и так далее. ~200kb кода на умножение матриц (а казалось бы, три вложенных цикла, 6 строчек...).
А причем тут ставка	А причем тут ставка рефинансирования, по ней разве кто-то занимает? Про РС мне объясняли, что при их ставках по (экспресс-)кредитам населению вполне можно брать под 10% у населения же.
Я читал недавно презентацию о, пожалуй, самой эффективной ре	Я читал недавно презентацию о, пожалуй, самой эффективной реализации DGEMM на AMD GPU. Помнится, там было порядка 90% от теоретической производительности. Использовался не Compute, а Pixel шейдер. А самое интересное то, что не использовалась локальная память. Много потоков практически полностью скрывали кешированный доступ к глобальной памяти. Мне кажется, это сейчас самый энергоэффективный способ умножать матрицы.
Я вот не пойму, откуда 10%	Я вот не пойму, откуда 10% при ставке рефенансирования 8.25% ?
только это сложно, нужно перепрограммировать ==> только это	только это сложно, нужно перепрограммировать ==> только это тоже нужно программировать (редактирования каментов у меня нет, я жадный). Ну и раз уж пишу доп-коммент. Мой поинт в том, что для картинок какого-то разумного размера (с монитор, 1-4 мегапикселя) GPU нахрен не нужен. Но нужно, конечно, аккуратно повыпиливать хотспоты, а не просто все на прямолинейном C запрограммировать.
Ну так, для начала, CPU тоже работал в неоптимальных условия	Ну так, для начала, CPU тоже работал в неоптимальных условиях. несколько строчек (с OpenMP) ускорит это место в разы. От 3 до 4. И для элементарных операций, вроде brightness-contrast, CPU будет всегда быстрее потому как может их хреначить со скоростью памяти, а GPU ограничена скоростью PCI-express. Несмотря на это, выигрыш может быть (и довольно большой) за счет offloading, особенно на картах вроде Теслы с двумя DMA engine: один DMA фигачит в память карты (кусочками), карта что-то считает, второй DMA фигачит обратно. А на CPU смотрим кино с голыми бабами. Только это сложно программировать. Куда проще делать так, как ты говоришь - загнать все в память видеокарты, прямо на ней все считать и прямо оттуда и показывать, кстати. CPU почти не нужен. Только это сложно, нужно перепрограммировать (на OpenCL/CUDA/IL) не маленькие хот-споты, а вот прямо весь код фотошопа. Ну и касаемо GEGL. Если там по жизни тайлы 128x64, то проще наплевать и забыть. В 2011-м году, когда 4-гиговый DIMM стоит 700 рублей, тайл должен быть мегабайт на 100. Или на 1000. Или на 32, если мы на мобильном устройстве. Библиотеку, в которой такой default size для тайла, явно писали какие-то люди из музея вымерших цивилизаций.
Ну так это a) alfa-preview версия технологии которая b) рабо	Ну так это a) alfa-preview версия технологии которая b) работает в самых невыгодных для нее условиях. И все равно оно уже быстрее. Допишут, дотюнят, и будет раз в 5 разницы, как и положено. PS: Мне вот вообще интересно, теоретически "Photoshop" все картинки может базово держать на видеокарте, если памяти хватает, и все алгоритмы отображения и обработки туда засунуть. Тогда memcopy только при Open/Save будут ну или на гигапиксельных картинках. PPS: они 400msec копировали 1 мегапиксель туда-обратно? Там точно есть место для улучшения.
Никто из текущих вендоров (на PC) не берет денег за OpenCL.	Никто из текущих вендоров (на PC) не берет денег за OpenCL. Бери и пользуйся, никаких проблем. У интела можно редистрибутировать вместе с программой, для GPU - это просто часть драйвера, которая уже есть. Ну то есть я ничего плохого в опенсорсном OpenCL не вижу, но если кому оно вдруг надо - то оно уже есть, бери и пользуйся.
Совсем будет интересно, когда опенсорсный OpenCL допилят (ко	Совсем будет интересно, когда опенсорсный OpenCL допилят (который clover). Его в рамках gsoc клепают, правда там пока только CPU имплементация (llvm/jit), а GPU обещают сделать "потом" (используя кодогенераторы из mesa)
у нас можно платить со своего телефона, на свой +3 дополните	у нас можно платить со своего телефона, на свой +3 дополнительных телефоны задаются в банкомате, когда подключаешь услугу например себе, жене, ребёнкам за каждый платёж правда берётся комиссия 4.5руб в принципе удобно
+100500 Сегодня поперхнулся,	+100500 Сегодня поперхнулся, получив такую SMS.
Хм, надо допросить с	Хм, надо допросить с пристрастием кого-нибудь на Вавилова в центральном, они там как-то более осведомлены всегда..
Ну вот они мне на днях	Ну вот они мне на днях звонили и предлагали перейти на VIP-обслуживание. В другом офисе, хотя тоже близко. Сдается мне, что при этом все потроха клиента как-то перетаскиваются.
Не изжили. Два месяца назад	Не изжили. Два месяца назад менял на зарплатной карте реквизиты плательщика суммы за обслуживание. В произвольном отделении они знали, как это делается, но не могли сделать. Операция "передачи" карты из офиса в офис не предусмотрена, как я понял, даже при перевыпуске, только при выпуске заново.
Особенно прикольно эту смс	Особенно прикольно эту смс получать тем кто-таки ПОЛЬЗУЕТСЯ мобильным банком :)
А, да, еще Русский Стандарт	А, да, еще Русский Стандарт "Банк в Кармане", тоже 10% если тратить с карты в месяц 10к хотя бы.
Из карточек с процентами на	Из карточек с процентами на остаток есть Связной с их 10%. Дать им денег в пределах лимита страхования вкладов - вполне можно, как мне кажется. А в остальном - никак специально не управляю. Если "управлять", то будешь только этим и заниматься.
Кретинизм с отделениями они,	Кретинизм с отделениями они, вроде бы, изжили совсем. Т.е. я не помню за последние пару лет, чтобы меня отправили в "свое" отделение. В пределах Москвы все, наверное если выехать в Бурятию, то оттуда отправят.
Если не секрет, как вы	Если не секрет, как вы управляете своими сбережениями? Типа валюта/акции/депозиты ? У меня пока депозитная карточка с 5% годовыми - процент начисляется раз в месяц на среднемесячный остаток. В других банках видел 7%, может и там карточку открою. Но такой депозит - это самый простой вариант.

Свежие комментарии

Pages