Свежие комментарии

Title Comment
В очень пессимистичном случае нужно заполнить все 2 МБ L2 кэ

В очень пессимистичном случае нужно заполнить все 2 МБ L2 кэша (16кб L1 можно пренебречь), тогда данные берём из L3 (задержка доступа 30 тактов); предположим что читаются они по 4 байта, и все чтения зависимые. Тогда нужно 2*1024*1024 / 4 * 30 тактов чтобы запонить L2. На FX 8120 (самом медленном по частоте из нынешних FX-ов) обычная (не Turbo Boost) частота составляет 3.1 ГГц, и т.о. заполнение кэша займёт 5 мс. Если планировщик перекидывает потоки не очень часто (скажем, раз в секунду), и выделение отдельного FPU каждому потоку ускоряет программу хотя бы 0.5% имеет смысл переносить поток на отдельный модуль.
Планировщик скорее всего будет учитывать не факт исполнения FPU/SIMD инструкций, а либо отношение количества исполненных FPU/SIMD инструкций к общему количеству исполненных инструкций, либо количество тактов, которые конвеер простаивал из-за загруженности общего кэша. Вообщем, это можно сделать очень эффективно.

От AMD было много хорошего

От AMD было много хорошего принесено.

Но конкретно бульдозеры - сомнительные какие-то.

Ну я про профайлинг думал, когда писал. Но получается тоже

Ну я про профайлинг думал, когда писал.

Но получается тоже как-то некрасиво. Вот допустим у меня есть два потока, в которых точечные вкрапления SSE-математики.
- Сначала их запускают на одном модуле, с целью экономии нагруженных модулей и поднятия частоты. Прекрасно.
- Потом доходит до математики, профайлер это считает и треды надо разносить по модулям.
- прощайте кэши?

А вот у меня плата, через 9

А вот у меня плата, через 9 лет, с двумя оптеронами подохла, теперь сижу на ноутбуке, жду бульдозеров, процессор у ноутбука раза в три быстрее, и памяти 6 гигов, а сам он работает раза в три медленнее, вот сижу и страдаю, а на старой машине и память меделенная и винты не ах. В общем это как газель против жигулей или даже феррари, как 6 кубов сороковки надо перевезти так и задумаешся. На ксеонах очень дорого получается и апгрэйт не возможен. Ну и в защиту АМД (хотя мне брэнды по барабану) 64 бит она заставила сделать, контроллер памяти она заставила сделать, за энегрго сбережение, ей спасибо, за нормальные шины котрые из процессора торчат тоже ей :-)

<blockquote>Вместе с тем, планировщик потоков должен еще зна

Вместе с тем, планировщик потоков должен еще знать, какие из threads жрут много FPU - чтобы раскидать по одному такому потоку на модуль. А откуда планировщику это знать? Должен быть какой-то API, позволяющий это сказать....

Внезапно...LWP!

Мне кажется это инженеры AMD сначала решили запилить наконец

Мне кажется это инженеры AMD сначала решили запилить наконец-таки HT, только лучше чем у Интела, а потом маркетологи решили обозвать каждый поток исполнения ядром.

В серверах буль должен как раз нормально себя показать (если

В серверах буль должен как раз нормально себя показать (если сервер не для HPC). 16 потоков бульдозера в целочисленных задачах будут ощущаться как 16 ядер, а лимит в 2 IPC для PHP/Java кода всё равно недосягаем

сложно назвать эти обрезки " честными x86 ядрами" А тк. в и

сложно назвать эти обрезки " честными x86 ядрами"
А тк. в итоге ядра Интела с НТ быстрее на большинстве задач, вопрос, кто именно там честный, становится особенно пикантным.

ну посмотрите на сравнение с 6ти ядрёными i7 900-й серии , с 4х ядрёным i7-2600.

не надо сравнивать HT с чесными x86 ядрами, которыми являютс

не надо сравнивать HT с чесными x86 ядрами, которыми являются ядра Бульдозера.
>>с отличными Ксеонами, которые , имея 8-12 (и более , в ближайшей перспективе) потоков, запросто их обходят.
пока нет тестов, я бы не стал это утверждать.

Принципиальное отличие APU в том, что оно работает на той же

Принципиальное отличие APU в том, что оно работает на той же памяти. А внешней карте надо переслать данные туда (по PCIe), а потом забрать результаты.
Т.е. переносить туда мало кода, скажем что-то вроде нахождения среднего-дисперсии (линейное по количеству данных, мало операций на байт) - бессмысленно.

А в той же памяти, да еще если Zero-copy - очень даже осмысленно.

Ну вот для A8-3800 прикидка по FP/single:
CPU: 4 core x 2.4 Ghz * 8 ops/clock = 76.8 Gflops
APU: 400 core x 0.6 Ghz * 1ops/clock = 240 Gflops
Понятно, что APU куда быстрее упрется в память, т.е. код должен иметь в районе 8 ops/байт, чтобы упереться именно в математику, ну да.

240Gflops - это, приблизительно, текущий 12-ядерный magny-cours на 2.33, 6180.

Т.е. потенциал у штуки есть, другой вопрос что оно пока недоделаное сильно, поддержки double нет, поддержка zero copy какая-то невнятная (или пресс-релиз про нее был невнятный), но к чему это дело применить - вполне есть.

Ну да - но гораздо интеллектуальнее!

Ну да - но гораздо интеллектуальнее!

напоминает проверку хлопушек.

напоминает проверку хлопушек.

А кому на практике хорошо от этой благородной идеи ? +полт

А кому на практике хорошо от этой благородной идеи ?
+полтинникк к цене процессора, который в итоге сам по себе медленный, и графика чуть лучше, чем у самых начальных видеокарт за тот же полтинник, но хуже, чем у карт за сотню. И ограничение тут принципиальное - скорость памяти.
Немного улучшить можно, догнать карты за 100-150уе - нет.

Да кто ж спорит, Оптероны ещё недавно были хороши. Кстати, все разы, что я пытался рассматривать их как вариант для покупаемого сервера, они пролетали с треском - предложение серверов с ними на рынке Украины очень скудное (манагерам АМД недосуг шевелиться).

>>программировать под него явно надо иначе,

А вот этим почти никто не будет заниматься. Именно потому, что нахрен не нужно.

Из ATI получился APU, что само по себе - очень благородная и

Из ATI получился APU, что само по себе - очень благородная идея. Хотя по дороге случился бардак с CTM-CAL/IL-а что будет в HD7xx вообще непонятно.

Что касается остального, то я тут в августе-сентябре поимел дело с оптеронами и мне понравилось. Точнее, смотря на десктопы - я проецировал это на сервера и на серверах ожидал худшего. А тут - бульдозер этот, с которым неясно что делать, программировать под него явно надо иначе, а нахрена если есть более прямолинейный интел?

Они же поверх системных библиотек сидят. А библиотекам - акт

Они же поверх системных библиотек сидят. А библиотекам - актуально.

Так-то оно так, да вот загвоздка - Java (по факту) прек

Так-то оно так, да вот загвоздка - Java (по факту) прекрасно себя чувствует на интелёвых многоядерниках с НТ.
И бороться новым Оптеронам, с 8-12-16 бульдозерными ядро-ковшами, прийдётся с отличными Ксеонами, которые , имея 8-12 (и более , в ближайшей перспективе) потоков, запросто их обходят.

Смешно. Опять же - может, вместо игр с миллиардами денег

Смешно. Опять же - может, вместо игр с миллиардами денег на покупку Ати и потом на разделение компаний ( ++лярды затрат, ++директора и манагеры) надо было толковых инженеров покупать ?
Тут явно ущербный дизайн. Сделать ядра хуже предыдущих - это не ошибка, а изначально заложенные в проект идеи. И ничем, кроме как кардинально новым дизайном, это не исправить. А это минимум пара лет, даже если осознать и начать прямо сейчас.

Интел свою ошибку осознал где-то в 2003-05 гг. Сначала в мобильном сегменте (там Пню4 вообще было нечего ловить), а потом и в остальных.
В итоге с 2006г и по сей день каждая новая модель Коре лучше предыдущей по удельной производительности на Ггц и (почти всегда) на ватт.

Кстати, я в своем Коре выключил нафиг энергосбережение (с1-с6), потому как цепи питания еле слышно свистят при вкл-выкл ядер (у меня хороший слух, в тишине слышно.)
Риторический вопрос - можно ли такое сделать с Бульдозером (с его 120+Вт в нагрузке), и чтобы среднего скайс-карлсона на 800-900 оборотах всегда хватало ? А тут - хватает.

согласен. но не думаю, что для Java и PHP это всё актуально.

согласен. но не думаю, что для Java и PHP это всё актуально.

Ну да, может быть и манагеры. В Арстехнике еще ссылаются на

Ну да, может быть и манагеры.

В Арстехнике еще ссылаются на то, что раньше какие-то блоки руками разводили, а сейчас полный автомат, который на 20% хуже.

FPU/SSE внезапно вылезает в memmove. Или в AES/CRC32. Не гов

FPU/SSE внезапно вылезает в memmove. Или в AES/CRC32. Не говоря о кодировании видео и многом тому подобном.
Даже сортировки SSE-ные есть и выигрыш там вполне ощутимый (2.5-3 раза на 4-way).

То есть грабля может ударить из совершенно неожиданного угла.

я тоже разочарован и писал по этому поводу. думаю никакой бо

я тоже разочарован и писал по этому поводу. думаю никакой большой идеи не было, просто хотелось как-то ответить на HT у Intel, чтобы догнать и перегнать по кол-ву потоков на процессор.
в десктопном сегменте это однозначно слив. многие однопоточные приложения будут работать хуже, чем на старых процах.
на серверах может будет и не хуже, особенно в случае каких-нибудь веб-серверов и БД, где всегда много потоков, крутятся Java, PHP, Apache и прочее, где FPU и SSE особо никому не нужны. для них может даже будет плюс относительно старых процессоров или HT от Intel.

_было_ неплохо . Новые ядра медленные старых , Феномовски

_было_ неплохо . Новые ядра медленные старых , Феномовских.
Так что новые серверные тоже будут... не очень.
Разве что АМД вдруг уценит все Оптероны новой линейки, на серверном поле хотя бы есть, куда те 8-16 тормозных ядер эффективно использовать.

его на большинстве задач 4х ядрёный Коре 2400-2500 обходит,

его на большинстве задач 4х ядрёный Коре 2400-2500 обходит, какие там 6ти ядерники...

Почему бардак ? Манагеры АМД поставили задачу - сделать

Почему бардак ?
Манагеры АМД поставили задачу - сделать побольше ядер и побольше частоту.
Ну, вот вам. Любой ценой ? Урезали ядра, стали они медленные, зато их много.
Сопроцессор ? перебьётесь.
А теперь бы как-то ускорить... вот вам огромный кэш, больше половины по площади от общей пл. кристалла.

>>А у нового - 4 юнита, но два из них целочисленные, а два - плавучка.

Судя по результатам тестов, на плавающей оно более-менее сравнимо с 4х ядрёным Коре.
Так что сопроцессор не такой уж и плохой, как основные горе-ядра, но их 4, а не 8 штук.

Ну меня серверные интересовали. А там у AMD с 12-ю я<s>йц</

Ну меня серверные интересовали.

А там у AMD с 12-ю яйцдрами и так все было неплохо (Magny-Cours), и 16-яйцевые обещали интересное. Но оно какое-то сомнительное получается.

http://www.guru3d.com/article/amd-fx-8150--8120-6100-and-410

http://www.guru3d.com/article/amd-fx-8150--8120-6100-and-4100-performanc...

в общем i7-980 рвёт топового бульдозера как тузик грелку

можно было бы и точнее, наверное, взвесить. они правильные

можно было бы и точнее, наверное, взвесить.

они правильные -- когда аа клал, то немножко разный вес показывали, т.е. можно осмысленно усреднить результаты нескольких измерений.

Реально круто! И то что я купил за $50 (судя по eBay-ским ц

Реально круто!

И то что я купил за $50 (судя по eBay-ским ценам, половину стоят гири) - тоже дает разброс порядка 0.01% (две гири по 100.0, в сумме 198.98), что тоже меня поразило.

Лет 8 назад я весы до 200г с делением 0.01 и реальной точностью 0.03 покупал евров за 300. У них, правда, сертификат был, а у китайцев этих с надписью made in USA - нету.

взял 4 батарейки ааа и две аа. 23 23 11 12 12 12 кучкой 93

взял 4 батарейки ааа и две аа.
23
23
11
12
12
12

кучкой 93

прям сейчас такие весы продаются за 170.

Получается, что даже если мы

Получается, что даже если мы знаем внутреннее сопротивление идеальной батарейки из данной партии, а потом измерили у конкретной - то что-то разумное можно оценить только на последних 10% разряда.

У меня пока получается, что правильная метрика - это напряжение под нагрузкой или сразу после снятия нагрузки (в течение 1-2 минут). Если вынуть-подождать, то напряжение восстанавливается и разряженную на 60% от разряженной на 100 - не отличить.

Ну или на сопротивлении в 2-5 ом нагружать - и тогда "сразу все понятно", где бы его взять бы, ни одной радиодетали дома...

Pages

Subscribe to comments_recent_new