10G и Infiniband

Эх!

Увы, до круглой цифры (скорости чтения) не дотянуло (и не дотянет, уже более медленная зона на дисках пошла), а было так близко.....

Нет, ничего не сломалось, просто я понял что

  • запасного диска в шкафу нет, а это неправильно, опять ужаленым в жопу метаться по магазинам если что
  • Гелиевые диски - систематически холоднее обычных, градусов эдак на 6, а лето на носу (они и систематически медленнее на несколько процентов, но мне хватает).
  • Если закупаться, то сейчас, бакс вот на рупь вверх уже прыг, а цены - еще нет.

Ну и купил гелиевый, а обычный - на полку.

Про ZFS L2ARC

В хорошую погоду zpool iostat -v zdata 5 выглядит теперь так

Но на самом деле, все как-то хуже. Не сильно, но все-таки.

Вот тут случился accidental reboot и я на пустом кэше попробовал так

tar cf /dev/null some-75Gb-folder

Ну и смотрю на скорости (на самом деле там tar cf - .. | mbuffer -s 16k -o /dev/null чтобы скорости видеть):

  • Первый проход: ~650MB/sec
  • ...

Про zfs primarycache

У одного моего друга есть FreeBSD бокс, на нем ZFS, Samba и 10G-ethernet. К этому боксу подключена рабочая станция с Acronis Workstation, которая туда делает бэкапы.

Бэкапы делаются на отдельный zfs pool, я подумал "а нахрена бэкапами размывать кэши" и сказал этому пулу

zfs set primarycache=metadata zbackup

Получилась такая фигня: если у Acronis-а запустить проверку бэкапа, то:

1. C ZFS-тома читается ~150-200 мегабайт/сек:
$ zpool iostat zbackup 1
...
zbackup     2,36T  2,17T    195      0   195M      0
...

Про ZFS prefetch

Вынесу из комментариев, потому что это важное, чтобы потом самому было легче найти.

АХТУНГ. Все описанные ниже эксперименты (и прошлая серия экспериментов) - относятся ТОЛЬКО к FreeBSD-12. На 10.3-11.0 (релизных! со -stable все сложно) картина принципиально другая и деградации скорости чтения при маленькой глубине префетча нет.

Собрал я тут ZFS массив на следующие (я надеюсь) лет пять: 6x6Tb, в RAIDZ2 (2 - потому что я устал срочно бегать в магазин, покупать замену вылетевшему диску), диски HGST, правда разные...

Sale: дешевый 10G (Myricom 10G-PCIE-8A-C + кабель)

Весной я уже пытался продать, даже был интерес, но потом народ разъехался и все, поэтому повтор.

Продается комплект:

  • 2 штуки 10Gbit карт Myricom 10G-PCIE-8A-C
  • 3-метровый CX4 кабель для нее.
  • И таких комплектов у меня два. остался один комплект

То есть можно вот прямо сейчас подключить свой NAS к своему десктопу по 10Gbit и начать работать (если, конечно, расстояние меньше трех метров, а в NAS/десктопе есть свободные слоты PCIe)

Вот так это выглядит (click to zoom):

...

Когда в руке молоток - все кажется гвоздями

Наконец я могу, не ограничиваясь скоростью источника, померять скорость своих Samba-ящиков:

Сначала оно жрет его в ARC - и оттуда горб (1+Gb/sec) на первые гигабайт 8, потом легкий провал (сброс кэша), потом sustained на ~600.

Конфиг:

  • 8x1Tb WD Re (дискам 4 года, они ~100+ со шпинделя выдают, надо будет поменять постепенно на те, которые 150+ могут, а больше и не надо уже)
  • Adaptec 5805 (и
  • ...

ZFS L2ARC performance

Преамбула:

(У одного моего друга) есть ZFS-pool такой вот конфигурации:

  • i5-2400 CPU @ 3.10GHz
  • avail memory = 16477163520 (15713 MB)
  • FreeBSD 12.0-CURRENT #4 r302772M
  • 8xTb SATA в RAIDZ2.
    Подключены к Adaptec 5805, сделаны simple volumes по одному диску
  • 3 консумерских SSD-шки (OCZ Vertex4, OCZ Agility 3, Intel 520) в L2ARC
    • я пробовал объединять их в gstripe, счастья не увидел особого
    • и сейчас они как отдельные диски подключены.

На пуле лежат RAW-фоточки к которым я хожу...

ZFS любви псто

Вот за такое вот ZFS люблю конечно нежно

Оно, конечно, В РАЗЫ быстрее, чем примонтировать два ящика к WS и каким-то userland-софтом гонять туды-сюды. Ну и вторые порты на 10G вот пригодились, повязал два сервера личным линком (10G-карта начала греться, пришлось еще кулер к ней приделывать...)

И, насколько я вот понимаю, zfs send - шлет же чексуммы (а recv - проверяет?) то есть у такого бэкапа еще и целостность гарантирована "сама"?

Вот по дороге едет ZIL и я им буду....

Вот есть у меня стораджбокс, в нем 8x1Tb WD RE в RAID6 на Adaptec 5805.

Тогда, когда я его собрал, то есть 4 года назад, я сравнивал аппаратный RAID с RAIDZ2 (и zvol на нем) и аппаратный был значительно быстрее. Конкретные цифры в блоге не нашел, но если память не врет, то RAIDZ2 была процентов на 20-25 медленнее на записи больших файлов.

И вот сегодня, засунув в тот же ящик еще 6 дисков (3x1Tb ноутбучные 2.5" и три старых...

Sale: Myricom 10G-PCIE-8A-C (есть 4 шт) + кабели

По случаю перехода на Intel/RJ45, распродаю свои мирикомы:

(фотка с Ebay, на моих написано (C) 2006, в остальном выглядят точно так же).

Работает оно вот так (это Samba, больше подробностей вот в этом тексте)

Чтобы вы понимали что покупаете:

  1. Это настоящий работающий 10G.
  2. У него дурацкие кабели с разъемом CX4 (8 витых пар),
  3. ...

ZFS Performance Q

В незапамятные времена, а именно четыре года назад, я намерял, что от ускорения процессора (или памяти?) ZFS-у бывает счастье. Было это на FreeBSD 9-STABLE.

Прошло четыре года и вопрос опять нагревается, хочу поменять 65-ваттные процессоры в ящиках на что-то попроще, а заодно добавить шпинделей и L2ARC.

FreeBSD у меня в одном ящике 10-STABLE, а в другом 11-чего-то там.

Ну и вопрос, собственно, более конкретный:

Что ему (ZFS на актуальных FreeBSD) более любо: частота, количество ядер или вовсе DDR4 RAM?

Или может там вообще все оптимизировали по самые гланды и сойдет и Atom? Или не Atom, а 20-вт Pentium D?

Скорости которые меня интересуют - мегабайт 700-900 в секунду (три старых SSD-шки в L2ARC, ~10 шпинделей в RAIDZ2).

Про китайский 10G Ethernet

Вот если честно, то толстые CX-4 кабели меня задолбали (сами разъемы длинные, ну и вообще неудобно), несмотря на то что дают кисть.

И решил я купить на грош пятаков пару китайских (фейковых?) интелов X540-T2. В воскресенье пришли, вчера-сегодня по много часов их гонял, имею сказать:

1. Обе карты, будучи вставлены в FreeBSD, сказали мне 'EEPROM Checksum error'. Я опечалился, закомментарил в ядре две строчки, пересобрал, карты заработали. Отлегло (потому что я в процессе начитался ужасов, как у родных настоящих...

Samba 10G Performance

Картинка для привлечения внимания. Сервер FreeBSD+Samba, клиент: Windows 8.1 ,

Есть у меня FreeBSD-шный бокс с ZFS к которому я хожу по Samba по 10G-линку. И до вчерашнего дня производительность не радовала, 200Mb/sec получались только изредка, а вообще типичная скорость была лишь немногим выше гигабита. При этом

  • MTU 9000 на этом линке - глючило (временами отваливалась сеть)
  • А практически такой же бокс (сторадж -
  • ...

Q: FreeBSD ctld changes?

Я вот знаю, у меня читатели - они и за FreeBSD посматривают :)

Вот есть у меня FreeBSD box с iscsi, раздает RAID-том (адын штук) по 10G. Конфиг такой:

target iqn.2015-04.com.lexa:target0 {
        auth-group no-authentication
        portal-group pg0
        lun 0 {
        path /dev/aacd0
        }
}

И работало оно на FreeBSD-11 снэпшот от 2 марта сего года.

Но я же не могу просто так, чесотка, решил все это хозяйство поапгрейдить. svn up; make; make install; reboot...

A: windows 7 TCP performance

На второй день я допер (навели комменты), что можно же на дисковом ящике поднять RAMdrive. Результат упражнения вот:

Картинка для сравнения - вторая в предыдущем посте.

Справедливости ради, я еще потрахался (обновил фирмварь на карте, увеличил количество буферов до 32k, что выше рекомендованного максимума в 16k) и железным диском стало получше процентов на 20, скорость чтения где-то 450Mb/sec на самых больших блоках.

Так вот, какие выводы мы...

Sale: дешевый infiniband

Да, кстати, получается, что с Infiniband дома я наигрался.

Продаю комплект:

ПРОПИТО!

  • Три карты Mellanox Infinihost III MHEA-28-XTC. 10 гигабит (данных 8.5), два порта.
  • Три кабеля CX4, трехметровых, китайских (один, кажется, родной D-Link, но идентифицировать его я не могу)

Это позволит поднять стенд из трех машин точка-точка и поиграться в Infiniband. Ну, к примеру,  поднять вычислительный кластер с MPI на трех машинах. Или подключить пару дисковых полок.

Цена, ориентируясь на Ebay (такие же карты с доставкой и самые...

Q: windows 7 tcp performance

Есть у меня дисковый бокс (Adaptec 5805, 8 дисков, i5-2400, 8GB RAM), который до сегодняшнего дня жил под Linux c картами Infiniband 10G, доступался я к нему по SRP и выглядело это, в смысле скорости, вот так:

С чем связан провал чтения при размере записи 128-256к - вот не знаю, от слова совсем, но он устойчиво есть, воспроизводится при повторном тестировании. Кстати, как померять под виндами какая у...

Q: Mellanox Infinihost + Windows 8 + SRP?

Граждане читатели!

Вот у меня задуман переход на Win 8.1 (в процессе задуманного апгрейда монитора). А дисковая полка то у меня - по Infiniband+SRP подключена.

Про..этосамое сегодня полдня, вот на таких граблях:

  • WinOFED 4.x (от которого опенсорса не могу найти, брал с сайта Mellanox) - совместим с Win8, но не содержит драйверов Mellanox Infinihost. Только ConnectiX.
  • WinOFED 3.2, который у меня на Win7 работает: не ставится на Win8, там проверка версии во встроенном скрипте (а не в параметрах MSI, их я умею снять)
  • WinOFED 2.1 - ставится на Win8 (проверки в скрипте нет), с виду работает, но там нету SRP (точнее, в релнотесах написано что есть бета, но следов этой беты не видно)
И как жить? Все бросить и собрать WinOFED3 самому? Я даже начал, но он захотел WIX, потом Windows DDK (WDK), потом Windows SDK6.1 и вот на стадии SDK я сломался (у меня его нету из принципа, чтобы с SDK от Win8 не дрался).

Может кто решал проблему и решил?

Аналогичная проблема должна быть на Windows Server 2012, если вдруг у вас есть для нее драйвера Infinihost+SRP - поделитесь пожалуйста!

P.S. Я могу и на IPoOB + iSCSI пожить, но SRP сильно веселее....

О новых технологиях

Со страху заменил оставшиеся в сторадж-боксе старые сигейтовские SAS-овские терабайтники (2008-го года) на терабайтные же WD RE4 (SATA). Старые - пусть дискетками поработают.

Результат:

  • +10% к трансфер рейту, было ~630-650Mb/sec на чтение-запись, стало 720-730.
  • Минус 10 градусов к температуре, старые диски грелись до ~42C, нагревая соседей до 35, а теперь 30 градусов, при том что в комнате 22, а ящик стоит в шкафу, который висит на теплой стене).

Чтобы два раза не вставать: в этом же ящике с середины сентября живет 400-ваттный безвентиляторный БП Seasonic. Впечатления самые благоприятные: хрен с ним с шумом, этот питальник холодный. Понятно что гружу я его отсилы ватт на 200 (8x10вт диски, 65вт. CPU, карточки тоже теплые, а значит жрут, вентиляторы крутятся), но 500-вт Thermaltake, который там стоял до того, грелся при такой нагрузке вполне самостоятельно.

Стоит этот питальник неприлично, но если бороться за тишину или температуру, то он - хороший. Во второй сервер купил такой же, потому что тамошний Zalman тоже противно греется.

Домашний стораджбокс: производительность iSCSI/SRP, FreeBSD/Linux

Как и обещал, привожу результаты тестирования перформанса нового дискового ящика.

Помня о весенних результатах (когда тестировался доступ по Infiniband к RAM-диску), я не стал тратить много времени на Samba (хотя и померял, см. ниже) и вдумчиво тестировал только iSCSI/SRP варианты.

Hardware

Клиент: Intel i7-2600K без оверклока, 16Gb RAM (DDR3-1600), Windows7. Файрволл выключен, антивирус деинсталлирован (с антивирусом получается весело, но результаты невоспроизводимы).

Сервер: Intel i5-2400 без оверклока, 8GB RAM, Adaptec ASR-5805, 6x Seagate Barracuda ES.2 SAS 1Tb...

Pages

Subscribe to 10G и Infiniband