Свежие комментарии

Title Comment
кэшлайны - первые десятки

кэшлайны - первые десятки байт (точно уже не знаю, хотя всегда считал что 32)

Ну кэш ведь грубо говоря

Ну кэш ведь грубо говоря непрерывную область хранит, а диспетчер памяти (регистры диспетчера), внутрь этой области указывают.

Сохраняются - регистры. А

Сохраняются - регистры. А кэши - "сами".

Ну то есть да, если вы знаете (предполагаете) состояние кэшей где-то, то туда можно мигрировать, конечно.

А я вот думаю, выполняем мы

А я вот думаю, выполняем мы контекстное переключение, ну там всё сохранили, регистры там дескрипторы памяти, а вот восстановить мы же можем на любом ядре, например с хорошим кэшем (который эту область закрывает) и типа они так все по кучам и расползутся, это наверно из области фантастики, или нет?

Может. Целые числа, тяжелое детство, деревянные игрушки.

Может.
Целые числа, тяжелое детство, деревянные игрушки.

Хм... в таком случае, не может ли ей не хватать в тенях точ

Хм...

в таком случае, не может ли ей не хватать в тенях точности?

Если смотреть на их линейку,

Если смотреть на их линейку, они начинаются с 4-core. Куда уж слабже то?
И еще есть mac mini server, тоже вполне прикольный, кроме видео.

Конечно, $2500 за 4-core и 3 гигаметра памяти - перебор, но не черезмерный.

Знаете, я ничего не

Знаете, я ничего не настраивал и не изучал, оно как-то само заработало. Хотя, да, если слетел видеорежим - то никакого решения, кроме подъема из бэкапа - я не знаю.

Но, конечно, с произвольным набором железа оно может быть и не так. Не говоря про аудио, которое мне не нужно и я даже не знаю, работает оно у меня или нет.

Возможно, у вас какие-то другие тексты libraw, не те что у м

Возможно, у вас какие-то другие тексты libraw, не те что у меня.

В тех что у меня - гамма-кривая накладывается на этапе вывода (в файл или память).

Потом я не говорю, что что-то

Потом я не говорю, что что-то у меня не работает просто хочется использовать время на работу, а не на настройку и глубокое изучение системы.

iMac это поделка, я имел

iMac это поделка, я имел ввиду что-то среднее между MacPro и iMac. Я не хочу покупать монитор на 3 года, а потом его выкидывать.

Кстати, я тут всё анализирую текст libraw, и вот увидел, что

Кстати, я тут всё анализирую текст libraw, и вот увидел, что интерполяция производится после гамма коррекции.

Что, конечно, огорчает - получается, что полная энергия снимка не сохраняется, и линейность ползёт.

Не надо забывать еще на частоты нормировать.Но вот если вз Не надо забывать еще на частоты нормировать. Но вот если взять вот эту вот картинку: , ее верхнюю половину, где частота одна, то разница какая-то ужасающая с интелом по FP.
может они одновременно улучшили их эффективность? по тестам

может они одновременно улучшили их эффективность? по тестам не видно большого падения в SSE задачах, как кодирование звука и видео. надо смотреть на детали, длины конвееров, задержки, ограничения и т.п.

В смысле, десктоп? Ну вот

В смысле, десктоп? Ну вот есть iMac, если вы любитель.

А так - на современном типовом оборудовании (т.е. начиная с Core2), все же и так почти неплохо. Кроме гемороя со SleepEnabler, все остальное же работает просто как часы....

Там еще остается непонятность с FPU. Было - 3 универсальных

Там еще остается непонятность с FPU.
Было - 3 универсальных юнита (x87, integer SSE, float SSE) на ядро.
Стало 2 целочисленных + 2 FPU юнита на "HT-процессор".

Т.е. задачи FPU-only или int-SSE-only должны заметно просесть, даже если нормировать не на число формальных ядер (2 на модуль), а на число модулей.

Ну, тем более. MAD редко где вылазит в полный рост (кроме G

Ну, тем более. MAD редко где вылазит в полный рост (кроме GEMM), но формально - да.

Я, кстати, сильно сомневаюсь, что у интела в Ivy Bridge получится что-то близкое по флопсам.

эх, когда уже apple

эх, когда уже apple сподобится сделать, что-то не такое дорогое, как mac pro думаю с такой концепцией никогда :(

> 400 core x 0.6 Ghz * 1ops/clock = 240 Gflops А что всего

> 400 core x 0.6 Ghz * 1ops/clock = 240 Gflops

А что всего 1 ops/clock? Обычно все-таки mad считают за 2. Так что 480 Gflops.

Я же вот беру арстехнику, там

Я же вот беру арстехнику, там схема: на два ALU есть 2 MMX-модуля и 2 128-битных float.

Если считать это за "два FPU" (на два ALU), то в предыдущих оптеронах их было три (на один ALU). Собственно, вот цитата

Each K10 core had three 128-bit floating point units. These could perform x87 scalar floating point, 128-bit SSE vector floating point, 64-bit MMX vector integer, and 128-bit SSE vector integer operations. Bulldozer has four units in its floating point pipeline. Two are for integer operations (64-bit MMX and 128-bit SSE); the other two are for floating point. In addition to the scalar x87 and vector SSE instructions, the two floating point units can be ganged together, to perform new 256-bit Advanced Vector Extensions (AVX) floating point instructions. Given that this pipeline is now shared between two threads, it's a big reduction in per-thread execution resources.

Как это еще понимать то?

Куда делась объективность? *

Куда делась объективность?

* Один FPU на два ALU мне изначально казались какой-то фиговой идеей
Два там FPU, присмотритесь внимательней.

* Идея AMD в том, что вместо SSE-операций надо переползать на APU
Это вообще взято с забора. Авторам статей ничего неизвестно про идеи AMD, как и нам с вами.

Четвертый пункт отпадает в виду пересмотра первого пункта.

От себя
* Процессоры от AMD всегда были лучше, если считать по соотношению единица производительности на один доллар стоимости.

Не буду спорить что топовые процессоры интелла производительней, но хотят за них больше $1000. И позволить их может 2% покупателей.

Ну да, но там нужна поддержка бульдозера, чтобы это было пра

Ну да, но там нужна поддержка бульдозера, чтобы это было правильно.

Ну, OpenMP может и сам треды раскидать по своему усмотрению

Ну, OpenMP может и сам треды раскидать по своему усмотрению

Тут есть нюанс: пропадает

Тут есть нюанс: пропадает возможность выбрать наиболее удобное/резкое субпиксельное смещение, в результате придётся выбирать между размытием и артефактами.

Ну да, формально half - это

Ну да, формально half - это такой аналог nearest neighbour.

С другой стороны, то что сначала "выдумав" детали интерполятором, а потом их как-то плавно скушав - получается лучше, наводит на разнообразные мысли

На самом деле нужна - 50%

На самом деле нужна - 50% масштабирование бикубиком из VCD сильно лучше чистого Half по большинству параметров (больше деталей, меньше ореолов). Очень хотелось бы увидеть исследования в области демозаики изображения с уменьшением, т.е. алгоритм который производит нечто между 50% и 75% изначально и выдает разрешение которое гораздо ближе к истинному чем мифические 100%.
А что до "не парятся" - это отдельный вопрос как мне кажется. У меня сложилось впечатление что в любой индустрии вообще париться не принято. Очень много усилий уходит на поддержания паритета с конкурентами и попыток сделать что-то радикально лучшее никто особо не предпринимает - все равно враги скопируют очень быстро и все вернется на круги своя :)

я думаю к Бульдозеру будет правильно относиться не как к нов

я думаю к Бульдозеру будет правильно относиться не как к новой архитектуре, а как к Phenom2 + HT.
посмотрите http://www.ixbt.com/cpu/amd-fx-8150.shtml, здесь хорошо видно, что результаты Phenom2 980 vs FX-8150 хорошо коррелируют с результатами Intel i5 vs i7, там где HT даёт ускорение, FX-8150 тоже даёт ускорение, и наоборот.
в этом смысле, у FX-8150 получилась хорошая реализация HT.

Идею они озвучили где то в

Идею они озвучили где то в 2005 году, потом озвучившему видимо зубы выбили, за болтливость, они сказали что несколько целочисленных ядер они оснастят несколькими спецпроцессорами (плавающий криптующий графический), процент использования гипертрейдинга 20% вот на пять ядер одного и хватит.

Идея на мой глаз благородная

Идея на мой глаз благородная -- на несколько процессоров один сопроцессор, реализована несколько неожиданно (мягко говоря :), а мне так всё равно оптерны (и доступ к памяти жырный и на одной шине видео, а на другой винты), дешевле и апгрейдабельнее, через четыре года возьму за 70 гринов новых процессоров и снова хорошо.

Для долгоживущих тредов, по которым есть долгоживущая статис

Для долгоживущих тредов, по которым есть долгоживущая статистика - набор статистики, естественно, сработает.

Но я держу в голове другой паттерн: что-то вроде OpenMP или tbb, запуск нужного количества потоков в CPU-intensive местах, после чего возврат в однопоточный режим (или режим "один поток на обрабатываемый запрос/объект").

Типичное время жизни таких потоков - ну десять миллисекунд. Плюс-минус порядок, конечно.
И если их у меня было, скажем, 4 (по числу FPU), а выполняли их на двух модулях из четырех (оптимизируя частоту) - то я обижусь.

Pages

Subscribe to comments_recent_new