Свежие комментарии
Title | Comment |
---|---|
2) Сделать код, который будет выдавать 16 выходных значений |
2) Сделать код, который будет выдавать 16 выходных значений гораздо проще, но я оптимизировал код из этого поста, который выдаёт три компоненты |
ПОХОЖЕ ЭТО MIC |
Судя по всему это Intel MIC и наверняка в одинарной точности. |
Правильно, но если взять SSEчто-то там версию, и упремся в п |
Правильно, но если взять SSEчто-то там версию, и упремся в память, то там уже все эти законы перестанут действовать, то есть дальше оптимизировать бессмысленно. Осталось только в память упереться, впрочем ты как раз и изучаешь, как это сделать. Мне-то интересно, насколько реален такой сценарий в ближайшем будущем. |
Calling convention стандартная для Windows x64. В ней первые |
Calling convention стандартная для Windows x64. В ней первые четыре параметра передаются в регистрах |
http://www.newegg.com/Product/Product.aspx?Item=N82E16813157 |
http://www.newegg.com/Product/Product.aspx?Item=N82E16813157273 |
Больше терафлопса? 4-8 16-ядерников. |
Больше терафлопса? 4-8 16-ядерников. |
Я что про это хочу сказать (пройдя в отладчике и поняв) 1) |
Я что про это хочу сказать (пройдя в отладчике и поняв) 3) Конкретно в этом коде кажется есть ошибка (проверил дважды, вроде в _mm я все правильно перенес) от которой в ymm4 на выходе неправильно. |
А вы точно хотите их первично |
А вы точно хотите их первично сортировать именно как RAW, а не по JPEG-версиям? У меня сомнения на эту тему есть, да. На ARM... |
Оно не все так радужно, то есть 4 потока не дают учетверения |
Оно не все так радужно, то есть 4 потока не дают учетверения. Где-то двухсполовинивание, причем я именно о С-шном коде, который в память не уперт. Ну а дальше правило Амдала тоже серьезно начинает мешать. |
Да, такие есть, но они какие-то совсем жалкие, как мне кажет |
Да, такие есть, но они какие-то совсем жалкие, как мне кажется. Я хочу старшую модель, которая A-. Если в mini-ITX успешно суют Core2 и прочие Core i5, то и APU этот должен бы залезть. |
http://www.newegg.com/Product/Product.aspx?Item=N82E16813186 |
http://www.newegg.com/Product/Product.aspx?Item=N82E16813186212 |
> А там нет SSE инструкций. Там есть Neon. http://www.arm.c |
> А там нет SSE инструкций. Там есть Neon. |
Ну это в ойпаде. Рынок вот |
Ну это в ойпаде. Рынок вот только что начал заваливаться уже более-менее сносными 10" планшетами на honeycomb. У некоторых есть usb-host. Я вот уже думаю о том, чтобы в отпуск брать что-то типа asus transformer, у которого есит нормальный клавиатурный док с батарейкой, несколько нормальных usb-портов и usb-host. Софт для первичной сортировки RAW'ов на более-менее сносном экране тут бы вполне сгодился. Не то, чтобы очень-очень надо, но бывают моменты когда делать всё равно нечего - почему бы и не? |
вот интересно, а какие биты больше весят - нули или единицы? |
вот интересно, а какие биты больше весят - нули или единицы? |
Насколько я помню схемотехнику, как раз нули должны греться |
Насколько я помню схемотехнику, как раз нули должны греться сильнее. По идее. |
Думаю, что греться будет |
Думаю, что греться будет тогда, когда в памяти меняется значение бита на противоположное и чем чаще меняется, тем сильнее греться будет. |
Так это, а у твоей целевой аудитории разве не по 4+ ядра в т |
Так это, а у твоей целевой аудитории разве не по 4+ ядра в тачке стоит? То есть достаточно, чтобы один поток мог использовать где-то четверть псп памяти и дальше в общем-то все равно. А задача вроде как параллелится только в путь. PS: Ты на C-blocks смотрел? |
Ну не так легко - если я начну множить матрицы не из нулей, |
Ну не так легко - если я начну множить матрицы не из нулей, то содержимое меняться будет. А просто memory fill - совсем другая нагрузка, с другими локальностями и всем таким. |
содержимое. легко проверяется вливанием потока 0xff |
содержимое. легко проверяется вливанием потока 0xff |
Содержимое не меняется. |
Содержимое не меняется. |
Тьфу. Micro-ATX поставить некуда, а mini-ITX не вижу в прода |
Тьфу. Micro-ATX поставить некуда, а mini-ITX не вижу в продаже. Не надо гнать в ЖЖ в 7 утра спросонья. |
Я вот почесал репу еще. Что-то у меня сомнения, что оно удво |
Я вот почесал репу еще. |
Не говоря о том, что не у всех юзеров Core i7 @4.5Ghz, а есл |
Не говоря о том, что не у всех юзеров Core i7 @4.5Ghz, а если целиться еще и в машину 4-летней давности, как мой ноут (Core2 T7500), то там еще чуть не на порядок все медленнее. |
Сейчас "пофиг, достаточно быстро" (т.е. ~25 кадров/сек) дост |
Сейчас "пофиг, достаточно быстро" (т.е. ~25 кадров/сек) достигается только для экранного разрешения в 2-4 мегапикселя и без качественной демозаики. А с демозаикой - в лучшем случае окошко "100%" размером 500x500. То есть *сейчас*, если не ждать несколько лет, делать таки что-то надо. А упражнения ради очередных 50 или 100Mpix/sec - это, конечно, чисто для воскресного вечера. |
Попробую, но пока не понимаю что он делает, тем паче что пер |
Попробую, но пока не понимаю что он делает, тем паче что передача параметров через регистр с инфраструктурой C++ как-то плохо совместима, ну да придумаю что-нибудь. |
Ага, у меня чешутся руки купить что-то на AMD-шном APU, но п |
Ага, у меня чешутся руки купить что-то на AMD-шном APU, но пока не вижу микро-платок (mini-ATX) под него, а micro-ATX поставить некуда. |
Я так для себя понял, что AVX |
Я так для себя понял, что AVX - это тот же dual issue SSE, только поставленный в ряд. Вместе с тем, если генерировать SSE-код из тех же макросов (а не AVX), то скорость получается заметно ниже и начинает зависеть от компилятора. Скажем, для _load1 без префетча и компилятора intel - 316Mpix вместо 527 (c префетчем - возвращается). Т.е. граблей тут густо разложено. |
Sony Z. Не та, которая только что вышла, а предыдущая, Z1 он |
Sony Z. Не та, которая только что вышла, а предыдущая, Z1 она называется что-ли. |
А оно реально надо? Ну то есть 500 vs 600 vs 700? Все одно, |
А оно реально надо? Ну то есть 500 vs 600 vs 700? Все одно, через года через полтора-три оно удвоится/учетверится, в кэш влезет вообще вся картинка и оно достигнет статуса "да пофиг, все достаточно быстро". PS: Вспоминая mp3/mpeg1 на 486, где декодер оного действительно в проц упирался, но с появлением P/PII проблема рассосалась сама собой. |
А модель какая? |
А модель какая? |
Pages
