О сортировке (Ужасы Программирования - 2)

lexa - 20/Ноя/2008 15:30

Программирование

В комментариях к предыдущей записи Влад Шабанов предложил, казалось бы, отличное решение для лексикографической сортировки 8-байтных ключей (функция сравнения для qsort()):

#include "sys/endian.h";

int cmp(const void *d1,const void *d2)

{

    uint64_t a1 = be64toh(* ((uint64_t *)d1));

    uint64_t a2 = be64toh(* ((uint64_t *)d2));

    return (a1  > a2) - (a1 < a2);

}

Однако результат бенчмарка оказался неожиданным: мое наивное и тупое в лоб решение оказалось более чем в полтора раза быстрее, чем предложенная компактная красота.

Будучи зацеплен словами про cmov, я безуспешно искал версию gcc, которая делала бы код с такими инструкциями, однако поиски оказались безуспешными: gcc 3.4, 4.1 и 4.3 для всех 64-битных процессоров делает одно и то же (при оптимизациях -O2/O3, без оптимизации там ужас-ужас):

... инициализация
	bswap %rdx
	bswap %rcx
	cmpq	%rdx, %rcx
	seta	%al
	cmpq	%rdx, %rcx
	setb	%dl
	movzbl	%dl, %edx
	subl	%edx, %eax
	ret

Ассемблерный код варианта с bswap гораздо компактнее и красивее, чем то, что порождается из восьми последовательных if:

... инициализация...
	movzbl	(%rdi), %edx
	movzbl	(%rsi), %eax
	cmpb	%al, %dl
       je .CONT
.L20:
....   тут возврат
.CONT:
	movzbl	1(%rdi), %edx
	movzbl	1(%rsi), %eax
	cmpb	%al, %dl
	jne	.L20
и так еще 6 раз.

Понятно, что 8 инструкций, которые частично параллелятся, не должны бы быть быстрее 32 инструкций (которые тоже параллелятся, по меньшей мере вычислительная часть). Однако скучная линейная последовательность mov/mov/ cmp/jne оказывается быстрее даже вместе с оверхедом qsort и вызова callbacks, собственно код сравнения должен быть быстрее в разы.

Отгадка оказалась довольно тривиальной: ключи длинные, распределены равномерно, поэтому до 2-го и далее сравнений доходит не всегда. Можно наплевать на производительность, добавить 3 строчки кода и посчитать:

Первое сравнение делается на моем тестовом множестве (18 млн ключей) 449 млн. раз.
Второе - 302 млн.
Третье - 146 млн.
Четвертое - 10 млн.
С пятого по седьмое - примерно по миллиону раз каждое.

Упражнения делались на Core 2 Q9300 (6 мегабайт кэша, но вроде бы каждой паре ядер доступна только половина), суммарный объем сортируемых данных - 140 мегабайт, типичные времена - 2.5-4 секунды.

Comments

> Отгадка оказалась довольно тривиальной Я думал, что на со

polyestr (not verified) - 21/Ноя/2008 00:11

> Отгадка оказалась довольно тривиальной

Я думал, что на современных архитектурах, типа x86_64, чтение одного байта по скорости равно чтению 8 байт.

Sorry, подумал ещё раз. Ключи выровняны на границу 8 байт?

polyestr (not verified) - 21/Ноя/2008 02:38

Sorry, подумал ещё раз. Ключи выровняны на границу 8 байт?

Да, конечно выравнены и конечно они в L1 сразу же

lexa - 21/Ноя/2008 07:23

Да, конечно выравнены и конечно они в L1 сразу же

Алексей, изменятся ли бенчмарки от такого кода? #include <s

polyestr (not verified) - 21/Ноя/2008 03:11

Алексей, изменятся ли бенчмарки от такого кода?
#include

static inline int cmp0(uint16_t c1, uint16_t c2)
{
return (c1 > c2) - (c1 < c2);
}

int cmp8(const void *d1,const void *d2)
{
uint16_t *p1 = (uint16_t *)d1;
uint16_t *p2 = (uint16_t *)d2;
#define CMPC(i) cmp0(p1[i],p2[i])
return CMPC(0) || CMPC(1) || CMPC(2) || CMPC(3);
}

ччёрт, как страшно отформатировался. думаю, что идея и так п

polyestr (not verified) - 21/Ноя/2008 03:20

ччёрт, как страшно отформатировался. думаю, что идея и так понятна. раз на первые два байта приходится основная масса сравнений, то и сравнивать их лучше в одну операцию.

Ошибку с || вижу, кстати.

polyestr (not verified) - 21/Ноя/2008 03:49

Ошибку с || вижу, кстати.

Просто bswap - это дико тормозная операция на Core2. Более о

maratyszcza (not verified) - 20/Ноя/2008 20:42

Просто bswap - это дико тормозная операция на Core2. Более оптимально было бы через pshufb + pcmpgtq + ptest / movbe + cmp + sbb

Я на ассемблере влет не читаю, попробовал разобраться - и во

lexa - 21/Ноя/2008 01:20

Я на ассемблере влет не читаю, попробовал разобраться - и вообще нашел патент про byte swap

Да вроде не дико, нормально тормозная. Вот нашел табличку -

lexa - 23/Ноя/2008 09:16

Да вроде не дико, нормально тормозная. Вот нашел табличку - 4 такта latency, 1 такт на исполнение. Т.е. два bswap - 5-6 тактов.

http://swox.com/doc/x86-timing.pdf

Самый лучший список таймингов, который можно найти, находитс

maratyszcza (not verified) - 23/Ноя/2008 18:04

Самый лучший список таймингов, который можно найти, находится на www.agner.org
Для Core2 4 такта latency - это до черта. Даже
<code>
ror ax, 8
ror eax, 16
ror ax, 8
</code>
несмотря на partial register stall получается быстрее, чем bswap eax

Для одного - быстрее, а для двух - вроде одинаково получаетс

lexa - 24/Ноя/2008 07:47

Для одного - быстрее, а для двух - вроде одинаково получается.

Да, а pdf-ки по ссылке - отличные, спасибо!

lexa - 24/Ноя/2008 07:53

Да, а pdf-ки по ссылке - отличные, спасибо!

забыл про be16toh сорри за флуд :)

polyestr (not verified) - 21/Ноя/2008 03:29

забыл про be16toh
сорри за флуд :)

всё, на сегодня хватит. пора спать. static inline uint16_t

polyestr (not verified) - 21/Ноя/2008 04:13

всё, на сегодня хватит. пора спать.

static inline uint16_t be16toh(uint16_t be)
{
return (be >> 8)|(be << 8);
}

int cmp8(const void *d1,const void *d2)
{
uint16_t *p1 = (uint16_t *)d1;
uint16_t *p2 = (uint16_t *)d2;
int c;
#define CMPC(i) if(__builtin_expect(c = be16toh(p1[i]) - be16toh(p2[i]),1)) return c
CMPC(0);
CMPC(1);
CMPC(2);
return be16toh(p1[3]) - be16toh(p2[3]);
}

я, наверное, отстал от жизни, что что означает комбинация rep; ret?

"Google has announced that they were able to sort one petabyte of data in 6 hours and 2 minutes across 4,000 computers.

Ага, невообразимо круто. Интересно, какое у них распределе

lexa - 24/Ноя/2008 09:18

Ага, невообразимо круто.

Интересно, какое у них распределение ключей было. Если равномерное, то жизнь сильно легче.

Дрочим всем офисом!

lexa - 24/Ноя/2008 08:02

Дрочим всем офисом!

О сортировке (Ужасы Программирования - 2)

Comments

> Отгадка оказалась довольно тривиальной Я думал, что на со

Sorry, подумал ещё раз. Ключи выровняны на границу 8 байт?

Да, конечно выравнены и конечно они в L1 сразу же

Алексей, изменятся ли бенчмарки от такого кода? #include <s

ччёрт, как страшно отформатировался. думаю, что идея и так п

Ошибку с || вижу, кстати.

Просто bswap - это дико тормозная операция на Core2. Более о

Я на ассемблере влет не читаю, попробовал разобраться - и во

Да вроде не дико, нормально тормозная. Вот нашел табличку -

Самый лучший список таймингов, который можно найти, находитс

Для одного - быстрее, а для двух - вроде одинаково получаетс

Да, а pdf-ки по ссылке - отличные, спасибо!

забыл про be16toh сорри за флуд :)

всё, на сегодня хватит. пора спать. static inline uint16_t

Алексей, как этот вариант?

Да я, честно говоря, тему уже проехал - теперь мне надо эти

<pre> cmp8: .LFB3: movzwl (%rdi), %edx movz

А нельзя вначале поменять byteorder, отсортировать, потом по

Я не думаю, что так будет выигрыш по перформансу.

http://developers.slashdot.org/developers/08/11/23/1637219.s

Ага, невообразимо круто. Интересно, какое у них распределе

Дрочим всем офисом!