10G и Infiniband

Про ZFS L2ARC

В хорошую погоду zpool iostat -v zdata 5 выглядит теперь так

Но на самом деле, все как-то хуже. Не сильно, но все-таки.

Вот тут случился accidental reboot и я на пустом кэше попробовал так

tar cf /dev/null some-75Gb-folder

Ну и смотрю на скорости (на самом деле там tar cf - .. | mbuffer -s 16k -o /dev/null чтобы скорости видеть):

  • Первый проход: ~650MB/sec
  • ...

Про zfs primarycache

У одного моего друга есть FreeBSD бокс, на нем ZFS, Samba и 10G-ethernet. К этому боксу подключена рабочая станция с Acronis Workstation, которая туда делает бэкапы.

Бэкапы делаются на отдельный zfs pool, я подумал "а нахрена бэкапами размывать кэши" и сказал этому пулу

zfs set primarycache=metadata zbackup

Получилась такая фигня: если у Acronis-а запустить проверку бэкапа, то:

1. C ZFS-тома читается ~150-200 мегабайт/сек:
$ zpool iostat zbackup 1
...
zbackup     2,36T  2,17T    195      0   195M      0
...

Про ZFS prefetch

Вынесу из комментариев, потому что это важное, чтобы потом самому было легче найти.

АХТУНГ. Все описанные ниже эксперименты (и прошлая серия экспериментов) - относятся ТОЛЬКО к FreeBSD-12. На 10.3-11.0 (релизных! со -stable все сложно) картина принципиально другая и деградации скорости чтения при маленькой глубине префетча нет.

Собрал я тут ZFS массив на следующие (я надеюсь) лет пять: 6x6Tb, в RAIDZ2 (2 - потому что я устал срочно бегать в магазин, покупать замену вылетевшему диску), диски HGST, правда разные...

Sale: дешевый 10G (Myricom 10G-PCIE-8A-C + кабель)

 

ПРОДАНО

Весной я уже пытался продать, даже был интерес, но потом народ разъехался и все, поэтому повтор.

Продается комплект:

  • 2 штуки 10Gbit карт Myricom 10G-PCIE-8A-C
  • 3-метровый CX4 кабель для нее.
  • И таких комплектов у меня два. остался один комплект

То есть можно вот прямо сейчас подключить свой NAS к своему десктопу по 10Gbit и начать работать (если, конечно, расстояние меньше трех метров, а в NAS/десктопе есть свободные слоты PCIe)

Вот так это выглядит (click to...

Когда в руке молоток - все кажется гвоздями

Наконец я могу, не ограничиваясь скоростью источника, померять скорость своих Samba-ящиков:

Сначала оно жрет его в ARC - и оттуда горб (1+Gb/sec) на первые гигабайт 8, потом легкий провал (сброс кэша), потом sustained на ~600.

Конфиг:

  • 8x1Tb WD Re (дискам 4 года, они ~100+ со шпинделя выдают, надо будет поменять постепенно на те, которые 150+ могут, а больше и не надо уже)
  • Adaptec 5805 (и
  • ...

ZFS L2ARC performance

Преамбула:

(У одного моего друга) есть ZFS-pool такой вот конфигурации:

  • i5-2400 CPU @ 3.10GHz
  • avail memory = 16477163520 (15713 MB)
  • FreeBSD 12.0-CURRENT #4 r302772M
  • 8xTb SATA в RAIDZ2.
    Подключены к Adaptec 5805, сделаны simple volumes по одному диску
  • 3 консумерских SSD-шки (OCZ Vertex4, OCZ Agility 3, Intel 520) в L2ARC
    • я пробовал объединять их в gstripe, счастья не увидел особого
    • и сейчас они как отдельные диски подключены.

На пуле лежат RAW-фоточки к которым я хожу...

ZFS любви псто

Вот за такое вот ZFS люблю конечно нежно

Оно, конечно, В РАЗЫ быстрее, чем примонтировать два ящика к WS и каким-то userland-софтом гонять туды-сюды. Ну и вторые порты на 10G вот пригодились, повязал два сервера личным линком (10G-карта начала греться, пришлось еще кулер к ней приделывать...)

И, насколько я вот понимаю, zfs send - шлет же чексуммы (а recv - проверяет?) то есть у такого бэкапа еще и целостность гарантирована "сама"?

Вот по дороге едет ZIL и я им буду....

Вот есть у меня стораджбокс, в нем 8x1Tb WD RE в RAID6 на Adaptec 5805.

Тогда, когда я его собрал, то есть 4 года назад, я сравнивал аппаратный RAID с RAIDZ2 (и zvol на нем) и аппаратный был значительно быстрее. Конкретные цифры в блоге не нашел, но если память не врет, то RAIDZ2 была процентов на 20-25 медленнее на записи больших файлов.

И вот сегодня, засунув в тот же ящик еще 6 дисков (3x1Tb ноутбучные 2.5" и три старых...

Sale: Myricom 10G-PCIE-8A-C (есть 4 шт) + кабели

По случаю перехода на Intel/RJ45, распродаю свои мирикомы:

(фотка с Ebay, на моих написано (C) 2006, в остальном выглядят точно так же).

Работает оно вот так (это Samba, больше подробностей вот в этом тексте)

Чтобы вы понимали что покупаете:

  1. Это настоящий работающий 10G.
  2. У него дурацкие кабели с разъемом CX4 (8 витых пар),
  3. ...

ZFS Performance Q

В незапамятные времена, а именно четыре года назад, я намерял, что от ускорения процессора (или памяти?) ZFS-у бывает счастье. Было это на FreeBSD 9-STABLE.

Прошло четыре года и вопрос опять нагревается, хочу поменять 65-ваттные процессоры в ящиках на что-то попроще, а заодно добавить шпинделей и L2ARC.

FreeBSD у меня в одном ящике 10-STABLE, а в другом 11-чего-то там.

Ну и вопрос, собственно, более конкретный:

Что ему (ZFS на актуальных FreeBSD) более любо: частота, количество ядер или вовсе DDR4 RAM?

Или может там вообще все оптимизировали по самые гланды и сойдет и Atom? Или не Atom, а 20-вт Pentium D?

Скорости которые меня интересуют - мегабайт 700-900 в секунду (три старых SSD-шки в L2ARC, ~10 шпинделей в RAIDZ2).

Про китайский 10G Ethernet

Вот если честно, то толстые CX-4 кабели меня задолбали (сами разъемы длинные, ну и вообще неудобно), несмотря на то что дают кисть.

И решил я купить на грош пятаков пару китайских (фейковых?) интелов X540-T2. В воскресенье пришли, вчера-сегодня по много часов их гонял, имею сказать:

1. Обе карты, будучи вставлены в FreeBSD, сказали мне 'EEPROM Checksum error'. Я опечалился, закомментарил в ядре две строчки, пересобрал, карты заработали. Отлегло (потому что я в процессе начитался ужасов, как у родных настоящих...

Samba 10G Performance

Картинка для привлечения внимания. Сервер FreeBSD+Samba, клиент: Windows 8.1 ,

Есть у меня FreeBSD-шный бокс с ZFS к которому я хожу по Samba по 10G-линку. И до вчерашнего дня производительность не радовала, 200Mb/sec получались только изредка, а вообще типичная скорость была лишь немногим выше гигабита. При этом

  • MTU 9000 на этом линке - глючило (временами отваливалась сеть)
  • А практически такой же бокс (сторадж -
  • ...

Q: FreeBSD ctld changes?

Я вот знаю, у меня читатели - они и за FreeBSD посматривают :)

Вот есть у меня FreeBSD box с iscsi, раздает RAID-том (адын штук) по 10G. Конфиг такой:

target iqn.2015-04.com.lexa:target0 {
        auth-group no-authentication
        portal-group pg0
        lun 0 {
        path /dev/aacd0
        }
}

И работало оно на FreeBSD-11 снэпшот от 2 марта сего года.

Но я же не могу просто так, чесотка, решил все это хозяйство поапгрейдить. svn up; make; make install; reboot...

A: windows 7 TCP performance

На второй день я допер (навели комменты), что можно же на дисковом ящике поднять RAMdrive. Результат упражнения вот:

Картинка для сравнения - вторая в предыдущем посте.

Справедливости ради, я еще потрахался (обновил фирмварь на карте, увеличил количество буферов до 32k, что выше рекомендованного максимума в 16k) и железным диском стало получше процентов на 20, скорость чтения где-то 450Mb/sec на самых больших блоках.

Так вот, какие выводы мы...

Sale: дешевый infiniband

Да, кстати, получается, что с Infiniband дома я наигрался.

Продаю комплект:

ПРОПИТО!

  • Три карты Mellanox Infinihost III MHEA-28-XTC. 10 гигабит (данных 8.5), два порта.
  • Три кабеля CX4, трехметровых, китайских (один, кажется, родной D-Link, но идентифицировать его я не могу)

Это позволит поднять стенд из трех машин точка-точка и поиграться в Infiniband. Ну, к примеру,  поднять вычислительный кластер с MPI на трех машинах. Или подключить пару дисковых полок.

Цена, ориентируясь на Ebay (такие же карты с доставкой и самые...

Q: windows 7 tcp performance

Есть у меня дисковый бокс (Adaptec 5805, 8 дисков, i5-2400, 8GB RAM), который до сегодняшнего дня жил под Linux c картами Infiniband 10G, доступался я к нему по SRP и выглядело это, в смысле скорости, вот так:

С чем связан провал чтения при размере записи 128-256к - вот не знаю, от слова совсем, но он устойчиво есть, воспроизводится при повторном тестировании. Кстати, как померять под виндами какая у...

Q: Mellanox Infinihost + Windows 8 + SRP?

Граждане читатели!

Вот у меня задуман переход на Win 8.1 (в процессе задуманного апгрейда монитора). А дисковая полка то у меня - по Infiniband+SRP подключена.

Про..этосамое сегодня полдня, вот на таких граблях:

  • WinOFED 4.x (от которого опенсорса не могу найти, брал с сайта Mellanox) - совместим с Win8, но не содержит драйверов Mellanox Infinihost. Только ConnectiX.
  • WinOFED 3.2, который у меня на Win7 работает: не ставится на Win8, там проверка версии во встроенном скрипте (а не в параметрах MSI, их я умею снять)
  • WinOFED 2.1 - ставится на Win8 (проверки в скрипте нет), с виду работает, но там нету SRP (точнее, в релнотесах написано что есть бета, но следов этой беты не видно)
И как жить? Все бросить и собрать WinOFED3 самому? Я даже начал, но он захотел WIX, потом Windows DDK (WDK), потом Windows SDK6.1 и вот на стадии SDK я сломался (у меня его нету из принципа, чтобы с SDK от Win8 не дрался).

Может кто решал проблему и решил?

Аналогичная проблема должна быть на Windows Server 2012, если вдруг у вас есть для нее драйвера Infinihost+SRP - поделитесь пожалуйста!

P.S. Я могу и на IPoOB + iSCSI пожить, но SRP сильно веселее....

О новых технологиях

Со страху заменил оставшиеся в сторадж-боксе старые сигейтовские SAS-овские терабайтники (2008-го года) на терабайтные же WD RE4 (SATA). Старые - пусть дискетками поработают.

Результат:

  • +10% к трансфер рейту, было ~630-650Mb/sec на чтение-запись, стало 720-730.
  • Минус 10 градусов к температуре, старые диски грелись до ~42C, нагревая соседей до 35, а теперь 30 градусов, при том что в комнате 22, а ящик стоит в шкафу, который висит на теплой стене).

Чтобы два раза не вставать: в этом же ящике с середины сентября живет 400-ваттный безвентиляторный БП Seasonic. Впечатления самые благоприятные: хрен с ним с шумом, этот питальник холодный. Понятно что гружу я его отсилы ватт на 200 (8x10вт диски, 65вт. CPU, карточки тоже теплые, а значит жрут, вентиляторы крутятся), но 500-вт Thermaltake, который там стоял до того, грелся при такой нагрузке вполне самостоятельно.

Стоит этот питальник неприлично, но если бороться за тишину или температуру, то он - хороший. Во второй сервер купил такой же, потому что тамошний Zalman тоже противно греется.

Домашний стораджбокс: производительность iSCSI/SRP, FreeBSD/Linux

Как и обещал, привожу результаты тестирования перформанса нового дискового ящика.

Помня о весенних результатах (когда тестировался доступ по Infiniband к RAM-диску), я не стал тратить много времени на Samba (хотя и померял, см. ниже) и вдумчиво тестировал только iSCSI/SRP варианты.

Hardware

Клиент: Intel i7-2600K без оверклока, 16Gb RAM (DDR3-1600), Windows7. Файрволл выключен, антивирус деинсталлирован (с антивирусом получается весело, но результаты невоспроизводимы).

Сервер: Intel i5-2400 без оверклока, 8GB RAM, Adaptec ASR-5805, 6x Seagate Barracuda ES.2 SAS 1Tb + 2 WD RE4 SATA 1Tb, объединены в RAID-6 (контроллер ругается, что SAS и SATA смешаны в одном томе, а мне плевать).

Сеть: Mellanox Infinihost Ex III (MHEA28-XTC), 10(8) Gbit/s, две карты соединены кабелем.

Сетевые протоколы: iSCSI (по IPoIB), SRP (SCSI RDMA Protocol).

Серверный софт:

  1. Ubuntu Server 12.04, драйвера Infiniband и iscsitarget из поставки, scst из гнезда (trunk), при установке scst ядро патчилось согласно инструкции.
  2. FreeBSD 9.1 Prerelease (свежий cvsup), istgt из портов.
SRP поддерживается только scst, остальные два варианта работали по iscsi.

Клиентский софт: iSCSI initiator из комплекта Win7. Infiniband SRP Initiator из комплекта Infiniband-драйверов openfabrics.org (OFED 3.1).

IPoIB Connected Mode у OFED 3.1 работает только Windows-Windows (в 3.0 работало Windows-Linux). Возможно, причина не в Windows-стороне, а в других драйверах с Linux-стороны, детально не разбирался, жил с MTU 2044.

Linux TCP performance Q

А вот у меня в FreeBSD, еще с гигабитных времен написано такое вот, к примеру:
net.inet.tcp.recvbuf_auto=1
net.inet.tcp.recvbuf_inc=131072
net.inet.tcp.recvbuf_max=1048576
net.inet.tcp.sendbuf_auto=1
net.inet.tcp.sendbuf_inc=131072
net.inet.tcp.sendbuf_max=1048576
net.inet.tcp.maxtcptw=102400
Ну и так далее, конкретные слова я брал, кажется, из какой-то презентации Сысоева. И работает, на 10G-сети Samba практически упирается в диски, насколько я вижу.

Вопрос: где взять готовых рецептов для тюнинга Linux? Задача - максимальный перформанс у самбы. А то сейчас смешно: запись 560Mb/sec, а чтение - 235, это же явно сеть не того, а не диски. dd гигабайтными блоками пишет 660 Mb/sec, а читает - 640.

Если существенно: Ubuntu Server 12.04, 3.2.0-29-generic #46-Ubuntu SMP. Intel Core-i5 2400, 8GB RAM.

Pages

Subscribe to 10G и Infiniband