Свежие комментарии

Title	Comment
кэшлайны - первые десятки	кэшлайны - первые десятки байт (точно уже не знаю, хотя всегда считал что 32)
Ну кэш ведь грубо говоря	Ну кэш ведь грубо говоря непрерывную область хранит, а диспетчер памяти (регистры диспетчера), внутрь этой области указывают.
Сохраняются - регистры. А	Сохраняются - регистры. А кэши - "сами". Ну то есть да, если вы знаете (предполагаете) состояние кэшей где-то, то туда можно мигрировать, конечно.
А я вот думаю, выполняем мы	А я вот думаю, выполняем мы контекстное переключение, ну там всё сохранили, регистры там дескрипторы памяти, а вот восстановить мы же можем на любом ядре, например с хорошим кэшем (который эту область закрывает) и типа они так все по кучам и расползутся, это наверно из области фантастики, или нет?
Может. Целые числа, тяжелое детство, деревянные игрушки.	Может. Целые числа, тяжелое детство, деревянные игрушки.
Хм... в таком случае, не может ли ей не хватать в тенях точ	Хм... в таком случае, не может ли ей не хватать в тенях точности?
Если смотреть на их линейку,	Если смотреть на их линейку, они начинаются с 4-core. Куда уж слабже то? И еще есть mac mini server, тоже вполне прикольный, кроме видео. Конечно, $2500 за 4-core и 3 гигаметра памяти - перебор, но не черезмерный.
Знаете, я ничего не	Знаете, я ничего не настраивал и не изучал, оно как-то само заработало. Хотя, да, если слетел видеорежим - то никакого решения, кроме подъема из бэкапа - я не знаю. Но, конечно, с произвольным набором железа оно может быть и не так. Не говоря про аудио, которое мне не нужно и я даже не знаю, работает оно у меня или нет.
Возможно, у вас какие-то другие тексты libraw, не те что у м	Возможно, у вас какие-то другие тексты libraw, не те что у меня. В тех что у меня - гамма-кривая накладывается на этапе вывода (в файл или память).
Потом я не говорю, что что-то	Потом я не говорю, что что-то у меня не работает просто хочется использовать время на работу, а не на настройку и глубокое изучение системы.
iMac это поделка, я имел	iMac это поделка, я имел ввиду что-то среднее между MacPro и iMac. Я не хочу покупать монитор на 3 года, а потом его выкидывать.
Кстати, я тут всё анализирую текст libraw, и вот увидел, что	Кстати, я тут всё анализирую текст libraw, и вот увидел, что интерполяция производится после гамма коррекции. Что, конечно, огорчает - получается, что полная энергия снимка не сохраняется, и линейность ползёт.
Не надо забывать еще на частоты нормировать.Но вот если вз	Не надо забывать еще на частоты нормировать. Но вот если взять вот эту вот картинку: , ее верхнюю половину, где частота одна, то разница какая-то ужасающая с интелом по FP.
может они одновременно улучшили их эффективность? по тестам	может они одновременно улучшили их эффективность? по тестам не видно большого падения в SSE задачах, как кодирование звука и видео. надо смотреть на детали, длины конвееров, задержки, ограничения и т.п.
В смысле, десктоп? Ну вот	В смысле, десктоп? Ну вот есть iMac, если вы любитель. А так - на современном типовом оборудовании (т.е. начиная с Core2), все же и так почти неплохо. Кроме гемороя со SleepEnabler, все остальное же работает просто как часы....
Там еще остается непонятность с FPU. Было - 3 универсальных	Там еще остается непонятность с FPU. Было - 3 универсальных юнита (x87, integer SSE, float SSE) на ядро. Стало 2 целочисленных + 2 FPU юнита на "HT-процессор". Т.е. задачи FPU-only или int-SSE-only должны заметно просесть, даже если нормировать не на число формальных ядер (2 на модуль), а на число модулей.
Ну, тем более. MAD редко где вылазит в полный рост (кроме G	Ну, тем более. MAD редко где вылазит в полный рост (кроме GEMM), но формально - да. Я, кстати, сильно сомневаюсь, что у интела в Ivy Bridge получится что-то близкое по флопсам.
эх, когда уже apple	эх, когда уже apple сподобится сделать, что-то не такое дорогое, как mac pro думаю с такой концепцией никогда :(
> 400 core x 0.6 Ghz * 1ops/clock = 240 Gflops А что всего	> 400 core x 0.6 Ghz * 1ops/clock = 240 Gflops А что всего 1 ops/clock? Обычно все-таки mad считают за 2. Так что 480 Gflops.
Я же вот беру арстехнику, там	Я же вот беру арстехнику, там схема: на два ALU есть 2 MMX-модуля и 2 128-битных float. Если считать это за "два FPU" (на два ALU), то в предыдущих оптеронах их было три (на один ALU). Собственно, вот цитата Each K10 core had three 128-bit floating point units. These could perform x87 scalar floating point, 128-bit SSE vector floating point, 64-bit MMX vector integer, and 128-bit SSE vector integer operations. Bulldozer has four units in its floating point pipeline. Two are for integer operations (64-bit MMX and 128-bit SSE); the other two are for floating point. In addition to the scalar x87 and vector SSE instructions, the two floating point units can be ganged together, to perform new 256-bit Advanced Vector Extensions (AVX) floating point instructions. Given that this pipeline is now shared between two threads, it's a big reduction in per-thread execution resources. Как это еще понимать то?
Куда делась объективность? *	Куда делась объективность? * Один FPU на два ALU мне изначально казались какой-то фиговой идеей Два там FPU, присмотритесь внимательней. * Идея AMD в том, что вместо SSE-операций надо переползать на APU Это вообще взято с забора. Авторам статей ничего неизвестно про идеи AMD, как и нам с вами. Четвертый пункт отпадает в виду пересмотра первого пункта. От себя * Процессоры от AMD всегда были лучше, если считать по соотношению единица производительности на один доллар стоимости. Не буду спорить что топовые процессоры интелла производительней, но хотят за них больше $1000. И позволить их может 2% покупателей.
Ну да, но там нужна поддержка бульдозера, чтобы это было пра	Ну да, но там нужна поддержка бульдозера, чтобы это было правильно.
Ну, OpenMP может и сам треды раскидать по своему усмотрению	Ну, OpenMP может и сам треды раскидать по своему усмотрению
Тут есть нюанс: пропадает	Тут есть нюанс: пропадает возможность выбрать наиболее удобное/резкое субпиксельное смещение, в результате придётся выбирать между размытием и артефактами.
Ну да, формально half - это	Ну да, формально half - это такой аналог nearest neighbour. С другой стороны, то что сначала "выдумав" детали интерполятором, а потом их как-то плавно скушав - получается лучше, наводит на разнообразные мысли
На самом деле нужна - 50%	На самом деле нужна - 50% масштабирование бикубиком из VCD сильно лучше чистого Half по большинству параметров (больше деталей, меньше ореолов). Очень хотелось бы увидеть исследования в области демозаики изображения с уменьшением, т.е. алгоритм который производит нечто между 50% и 75% изначально и выдает разрешение которое гораздо ближе к истинному чем мифические 100%. А что до "не парятся" - это отдельный вопрос как мне кажется. У меня сложилось впечатление что в любой индустрии вообще париться не принято. Очень много усилий уходит на поддержания паритета с конкурентами и попыток сделать что-то радикально лучшее никто особо не предпринимает - все равно враги скопируют очень быстро и все вернется на круги своя :)
я думаю к Бульдозеру будет правильно относиться не как к нов	я думаю к Бульдозеру будет правильно относиться не как к новой архитектуре, а как к Phenom2 + HT. посмотрите http://www.ixbt.com/cpu/amd-fx-8150.shtml, здесь хорошо видно, что результаты Phenom2 980 vs FX-8150 хорошо коррелируют с результатами Intel i5 vs i7, там где HT даёт ускорение, FX-8150 тоже даёт ускорение, и наоборот. в этом смысле, у FX-8150 получилась хорошая реализация HT.
Идею они озвучили где то в	Идею они озвучили где то в 2005 году, потом озвучившему видимо зубы выбили, за болтливость, они сказали что несколько целочисленных ядер они оснастят несколькими спецпроцессорами (плавающий криптующий графический), процент использования гипертрейдинга 20% вот на пять ядер одного и хватит.
Идея на мой глаз благородная	Идея на мой глаз благородная -- на несколько процессоров один сопроцессор, реализована несколько неожиданно (мягко говоря :), а мне так всё равно оптерны (и доступ к памяти жырный и на одной шине видео, а на другой винты), дешевле и апгрейдабельнее, через четыре года возьму за 70 гринов новых процессоров и снова хорошо.
Для долгоживущих тредов, по которым есть долгоживущая статис	Для долгоживущих тредов, по которым есть долгоживущая статистика - набор статистики, естественно, сработает. Но я держу в голове другой паттерн: что-то вроде OpenMP или tbb, запуск нужного количества потоков в CPU-intensive местах, после чего возврат в однопоточный режим (или режим "один поток на обрабатываемый запрос/объект"). Типичное время жизни таких потоков - ну десять миллисекунд. Плюс-минус порядок, конечно. И если их у меня было, скажем, 4 (по числу FPU), а выполняли их на двух модулях из четырех (оптимизируя частоту) - то я обижусь.

Свежие комментарии

Pages