Свежие комментарии

Title Comment
2) Сделать код, который будет выдавать 16 выходных значений

2) Сделать код, который будет выдавать 16 выходных значений гораздо проще, но я оптимизировал код из этого поста, который выдаёт три компоненты
3) Что-то я не вижу ошибки. Комментарии к коду добавил здесь

ПОХОЖЕ ЭТО MIC

Судя по всему это Intel MIC и наверняка в одинарной точности.

Правильно, но если взять SSEчто-то там версию, и упремся в п

Правильно, но если взять SSEчто-то там версию, и упремся в память, то там уже все эти законы перестанут действовать, то есть дальше оптимизировать бессмысленно. Осталось только в память упереться, впрочем ты как раз и изучаешь, как это сделать.

Мне-то интересно, насколько реален такой сценарий в ближайшем будущем.

Calling convention стандартная для Windows x64. В ней первые

Calling convention стандартная для Windows x64. В ней первые четыре параметра передаются в регистрах

http://www.newegg.com/Product/Product.aspx?Item=N82E16813157

http://www.newegg.com/Product/Product.aspx?Item=N82E16813157273

Больше терафлопса? 4-8 16-ядерников.

Больше терафлопса? 4-8 16-ядерников.

Я что про это хочу сказать (пройдя в отладчике и поняв) 1)

Я что про это хочу сказать (пройдя в отладчике и поняв)
1) Идея отличная, работать должно быстро.
Но
2) То что мы 16 входных значений упаковали в 12 выходных - это для каких-то применений хорошо, а для последующей обработки в FP - категорически неудобно. Поэтому в моих реализациях 4-й компонент выхода обнулялся и это было спецально.

3) Конкретно в этом коде кажется есть ошибка (проверил дважды, вроде в _mm я все правильно перенес) от которой в ymm4 на выходе неправильно.

А вы точно хотите их первично

А вы точно хотите их первично сортировать именно как RAW, а не по JPEG-версиям?

У меня сомнения на эту тему есть, да. На ARM...

Оно не все так радужно, то есть 4 потока не дают учетверения

Оно не все так радужно, то есть 4 потока не дают учетверения. Где-то двухсполовинивание, причем я именно о С-шном коде, который в память не уперт.

Ну а дальше правило Амдала тоже серьезно начинает мешать.

Да, такие есть, но они какие-то совсем жалкие, как мне кажет

Да, такие есть, но они какие-то совсем жалкие, как мне кажется.

Я хочу старшую модель, которая A-. Если в mini-ITX успешно суют Core2 и прочие Core i5, то и APU этот должен бы залезть.

http://www.newegg.com/Product/Product.aspx?Item=N82E16813186

http://www.newegg.com/Product/Product.aspx?Item=N82E16813186212

> А там нет SSE инструкций. Там есть Neon. http://www.arm.c

> А там нет SSE инструкций.

Там есть Neon.
http://www.arm.com/products/processors/technologies/neon.php

Ну это в ойпаде. Рынок вот

Ну это в ойпаде. Рынок вот только что начал заваливаться уже более-менее сносными 10" планшетами на honeycomb. У некоторых есть usb-host. Я вот уже думаю о том, чтобы в отпуск брать что-то типа asus transformer, у которого есит нормальный клавиатурный док с батарейкой, несколько нормальных usb-портов и usb-host. Софт для первичной сортировки RAW'ов на более-менее сносном экране тут бы вполне сгодился. Не то, чтобы очень-очень надо, но бывают моменты когда делать всё равно нечего - почему бы и не?

вот интересно, а какие биты больше весят - нули или единицы?

вот интересно, а какие биты больше весят - нули или единицы?

Насколько я помню схемотехнику, как раз нули должны греться

Насколько я помню схемотехнику, как раз нули должны греться сильнее. По идее.

Думаю, что греться будет

Думаю, что греться будет тогда, когда в памяти меняется значение бита на противоположное и чем чаще меняется, тем сильнее греться будет.

Так это, а у твоей целевой аудитории разве не по 4+ ядра в т

Так это, а у твоей целевой аудитории разве не по 4+ ядра в тачке стоит? То есть достаточно, чтобы один поток мог использовать где-то четверть псп памяти и дальше в общем-то все равно. А задача вроде как параллелится только в путь.

PS: Ты на C-blocks смотрел?

Ну не так легко - если я начну множить матрицы не из нулей,

Ну не так легко - если я начну множить матрицы не из нулей, то содержимое меняться будет.

А просто memory fill - совсем другая нагрузка, с другими локальностями и всем таким.

содержимое. легко проверяется вливанием потока 0xff

содержимое. легко проверяется вливанием потока 0xff

Содержимое не меняется.

Содержимое не меняется.

Тьфу. Micro-ATX поставить некуда, а mini-ITX не вижу в прода

Тьфу. Micro-ATX поставить некуда, а mini-ITX не вижу в продаже.

Не надо гнать в ЖЖ в 7 утра спросонья.

Я вот почесал репу еще. Что-то у меня сомнения, что оно удво

Я вот почесал репу еще.
Что-то у меня сомнения, что оно удвоится-учетверится на одном потоке на существующей однопоточной codebase.

Не говоря о том, что не у всех юзеров Core i7 @4.5Ghz, а есл

Не говоря о том, что не у всех юзеров Core i7 @4.5Ghz, а если целиться еще и в машину 4-летней давности, как мой ноут (Core2 T7500), то там еще чуть не на порядок все медленнее.

Сейчас "пофиг, достаточно быстро" (т.е. ~25 кадров/сек) дост

Сейчас "пофиг, достаточно быстро" (т.е. ~25 кадров/сек) достигается только для экранного разрешения в 2-4 мегапикселя и без качественной демозаики. А с демозаикой - в лучшем случае окошко "100%" размером 500x500.

То есть *сейчас*, если не ждать несколько лет, делать таки что-то надо.

А упражнения ради очередных 50 или 100Mpix/sec - это, конечно, чисто для воскресного вечера.

Попробую, но пока не понимаю что он делает, тем паче что пер

Попробую, но пока не понимаю что он делает, тем паче что передача параметров через регистр с инфраструктурой C++ как-то плохо совместима, ну да придумаю что-нибудь.

Ага, у меня чешутся руки купить что-то на AMD-шном APU, но п

Ага, у меня чешутся руки купить что-то на AMD-шном APU, но пока не вижу микро-платок (mini-ATX) под него, а micro-ATX поставить некуда.

Я так для себя понял, что AVX

Я так для себя понял, что AVX - это тот же dual issue SSE, только поставленный в ряд.

Вместе с тем, если генерировать SSE-код из тех же макросов (а не AVX), то скорость получается заметно ниже и начинает зависеть от компилятора. Скажем, для _load1 без префетча и компилятора intel - 316Mpix вместо 527 (c префетчем - возвращается).

Т.е. граблей тут густо разложено.

Sony Z. Не та, которая только что вышла, а предыдущая, Z1 он

Sony Z. Не та, которая только что вышла, а предыдущая, Z1 она называется что-ли.

А оно реально надо? Ну то есть 500 vs 600 vs 700? Все одно,

А оно реально надо? Ну то есть 500 vs 600 vs 700? Все одно, через года через полтора-три оно удвоится/учетверится, в кэш влезет вообще вся картинка и оно достигнет статуса "да пофиг, все достаточно быстро".

PS: Вспоминая mp3/mpeg1 на 486, где декодер оного действительно в проц упирался, но с появлением P/PII проблема рассосалась сама собой.

А модель какая?

А модель какая?

Pages

Subscribe to comments_recent_new