О сторадж-боксах

Звезды сошлись, руки дошли и я собрал таки стораджбокс, как и собирался уже полгода
Core i5-2300, 8GB RAM, Adaptec 5805, 8x1Tb HDD (6 штук старых Barracuda ES.2 SAS, два новых WD RE4), бутовый SSD, Mellanox Infiniband (2 порта 10G). И даже есть место для еще одного диска, хотя 5" ящики и не обдуваются.

Задача: вынести HDD из рабочей станции (где было 6x1Tb SAS + Adaptec) с целью уменьшения шума под столом (ну и вообще, большей лучшести, к этому ящику же можно больше одной машины подключить). При этом надо оставить избыточность в два диска т.е. RAID6 и/или RAIDZ2. Потому как ситуация, когда один диск вылетает - она случалась уже да.

Пока эта штука не введена в эксплуатацию (а я в WS живу с потрясающе медленными после RAID одиночными двухтерабайтниками, долго так не вынесу), есть возможность пощупать за вымя ейный перформанс. Пока я вижу такой список:

  • Win7 (или Windows Server, хотя я про него не знаю ничего) + RAID6 + SMB (по IPoIB)
  • FreeBSD 9: ZFS на JBOD, ZFS over RAID6, UFS+gjournal over RAID6. И все это по SMB и по iSCSI, на выбор. iSCSI, соответственно, не поверх UFS/ZFS, а прямо тома отдавать.
  • Linux (Ubuntu Server?): аналогично FreeBSD, но кроме простого iSCSI появляется еще и SRP.
Из общих соображений вроде бы понятно, что против SRP у остальных никаких шансов нет. Но вполне может быть, что задержки реального массива (а не рамдрайва, как в зимних тестах) таковы, что разницу между SRP, IPoIB (а может и SMB тоже) будет не видно.

Вопросов у меня три:

  • Что я забыл из вариантов установки на этот ящик? Не, ну есть еще Nexenta, но к солярке дома я не очень готов.
  • Мои тесты описаны тут, я понимаю их ограничения, но они хотя бы жизненны и понятны, а всякие "PCMark" - непонятны. Но может быть существует какая-то виндовая (в смысле клиента) бенчмарка и при этом - понятная? Вот у интела - есть какой-то NAS Benchmark, например (не пробовал, буду смотреть).
  • Linux+ZFS - уже стабильно или пока страшно?

Comments

Не жарко им там?

Пока это на столе/под столом - все отлично (продув хороший). Как будет в шкафу - будем посмотреть.

Хорошо ли тут винты охлаждаются?
А то если только по внешнему виду судить, как-то сомнительно выглядит - вентиляторы дуют в узкие щели отсеков, на выдув из корпуса вообще ничего нету.
Что мне попадалось из корпусов с такими отсеками - всё было красиво на вид, но убого при работе.

На выдув там большой вентилятор наверху. Ну и БП, естественно.

Аналогично устроенный ящик поменьше от того же производителя (Lian Li) с весны в работе и все нормально. Там 5 дисков (+ 2.5" бутовый), а не 8, но и ящик поменьше.

На ту круглую решетку, что слева от процессорного радиатора, я бы не пожалел картонный или пластиковый раструб сделать, дабы от проца все шло наружу сразу, а не болталось по корпусу. А саму сеточку выкусил бы и заменил проволочной решеткой дабы снизить сопротивление потоку. Решение стоимостью 0 рублей (старая папка для бумаг, чуток клея и степлер), а порядку добавляет.

С винтами тоже для пущей надежности заменил бы, наверное, корзины на стойки из П-образного алюминиевого швеллера потолще, дабы обдуву не сопротивлялось и за счет собственной теплопроводности стоек тепло уносилось бы, но это уже задача слесарная.

Ну там не очень видно, наверное, но корзины - с большими дырками, обдув мне кажется нормальным. Ну да время покажет.

Выдув через заднюю стенку, наоборот, в моей ситуации смысла не имеет (там сразу - стенка шкафа), у меня работает верхний выдув

А, на самом правом краю фото увидел щели в корзине.
Радиатор не было возможности горизонтально повернуть в таком случае? У меня после поворота потока на 90 градусов (вверх к блоку питания) температура процессора на пару градусов стабильно ниже.

Процессор не греется. Ну то есть в пределах разумного там все, градусов 50.

Вот что греется, это RAID-контроллер. Ему придется турбинку на выдув в соседний слот ставить.

А, ну тогда я параноик - у меня Tmax=46 C при комнатной - 20.

CoreTemp говорит, что у данного CPU лимит - 99C. Т.е. до 70-80 его всяко можно греть.

Правда по опыту, если оверклочить, то на SandyBridge все портится задолго до предельных температур.

Корзинки у Lian-Li охлаждаются хорошо, сисадминскую паранойю можно задизейблить.

IMHO из windows надо смотреть на 2012, т.к. и SMB over RDMA и SMB 3.0 вопрос только в том какой mellanox для 2012 надо минимум connect-x, более старые новыми драйверами не поддерживаются

мелланоксы старые, infinihost. По 23 бакса покупал.

У меня та же засада, и SDR и DDR IB под 2012 не запустились.

А в 2012 родные драйвера что ли?

Я то на Win7 ставлю банальный OFED и счастье мне.

Грустно, но банальный OFED под 2012 + старый mellanox не живет

Надеюсь, со временем починят.

Правда вот у меня OFED-Win Версии 3.1 не завелся прям сегодня вот. 3.0 - работает.

на сайте mellanox есть их версия OFED под 2012 так в ней в inf просто нет старых железок, при установке насильно устройство не стартует.

У меня с OFEDами с сайта Mellanox жизнь не сложилась и без 2012. Посему - пользую версию с openfabrics.org. Тоже не без приключений, но 3.0 - хорошая.

Успокаиваю себя после приключений словами "а чего же я хотел за 23 бакса..."

Я еще и за 100$ повторил опыт - взял 20G DDR IB, но с 2012 так и не сложилось, на connect-x денег жалко, т.к. 1 порт и по цене = Mirycom 10G ethernet, а у меня есть 5 коммутаторов с 10G CX4 портами.

Я Myri покупал по $89, кажется. Тоже недорого.

И практика такая, что у FreeBSD поддержка Myri сильно лучше, чем IB

IMHO проблема в том, что она одно портовая :(

кто-то про zfs на линухе считает что одни грабли и падучая, а кое-кто -- что если знать как осткрегаться -- все замечательно. так что надо пробовать

Мне для iscsi/srp оттуда нужно только умение создавать тома. Буду пробовать, да.

linux+zfs - _уже_ страшно. А было довольно прилично.

их там три варианта. старый работавший (но давно уже брошенный и вряд ли нормально соберется) - zfs over fuse. Сделан одним-единственным человеком за пару летних каникул. Потому и работавший.
Старый native без поддержки собственно fs (предлагалось экспортировать том через iSCSI или разметить под ext3), продукт ливерморской команды. Абсолютно нежизнеспособный, за два года не сдвинулся с места ни на шаг - что как бы намекает нам как на квалификацию, так и на мотивацию разработчиков.
Потом какие-то индусы (такие совсем-совсем индусы) ухитрились эти проекты смержить, добавив таки поддержку файловой системы в native код. Индусов немедленно купили с потрохами (в чем, видимо, и была их цель) и закрыли лавочку, но репозиторий еще долго был доступен в паблик и его как-то видимо интегрировали в ливерморский код.
Пользоваться им при таком происхождении лично я боюсь, сведений об успешном применении в production кем-то еще у меня нет.

интересно будет посмотреть на результат тестов.

У zfs over fuse говорят что с перформансом не очень. А мне из ZFS-а нужен, по сути, только RAID и тома. И, да, похоже что линуксовый софтверный рейд тоже надо пощупать.

только не gjournal, а SUJ

А как загнать журнал на отдельное устройство (SSD в моем случае)?

Никак -- но: Тебе это не нужно, trust me. gjournal удваивает весь поток, не только метаданные, SUJ кладёт в специальный инод, размещённый contiguously эффективно близко к началу FS, изменения метаданных, в виде кольцевого буфера.

То есть там никак не надо готовить диски, прямо вот в текущей FS все работает?

Именно. Более того, это можно включить даже на уже использованной и заюзанной (но несмонтированной, разумеется) файловой системе через tunefs -- правда, тогда положение инода для журнала будет неоптимальным.

newfs -j / tunefs -j

Бенчмарка -- iometer

Я не понимаю как интерпретировать результаты. Ну то есть совсем.

Ну, да, кстати, у тебя довольно специфический паттерн использования. Хотя, наверное, для iometer'а и твой можно описать, там гибкий язык.

iometer в основном на жестокий concurrent заточен, это да, и это не твоё.

параллельные потоки IO на крутящихся дисках - это же вообще катастрофа.

И на WS я этого ну почти не допускаю. Там где могу контролировать - там совсем не допускаю. По очевидным таким причинам.

Т.е. у меня два крайних паттерна, оба понятные: что-то делаем с большими файлами (гигабайтными). Пишем или читаем. Ну и что-то с мелкими (килобайтными в пределе), ну скажем компиляция читает мешок исходников.
Т.е. интересные мне на WS параметры - это throughput и latency, но без всякой конкуренции.

Я бы ещё ответил на такой вопрос, чтобы ответить на исходный: что происходит, если вылетает материнка (или адаптек), какова процедура восстановления работоспособности этого "носителя" тогда? Насколько легко будет в будущем переподцепить все эи веники при переезде на другою версию ОС? Т.п.

В адаптек я просто верю, что от смены контроллера на "не худший" - тома подцепятся. У меня такой опыт был, но раньше, еще с SCSI и я надеюсь что искусство не утеряно.
Про ZFS - знаю (про FreeBSD/солярку), что тома можно нормально таскать, таскал.
Про линуксовый mdadm - просто надеюсь на лучшее. Про линуксовый ZFS - ни на что не надеюсь, но проверю что созданные тома видны на FreeBSD.

Вообще, я на эти грабли уже наступал с дешевым контроллером (т.е. вообще он дорогой, просто достался с распродажи) и наступив - перешел на адаптек. Собственно, вот же мы обсуждали в январе: http://blog.lexa.ru/2012/01/13/q_korpus_dlya_hdd.html#comment-23646

Собственно, а какой Адаптек сейчас стоит, и насколько RAID в данном конфиге ускоряет работу с дисками, по сравнению, скажем, с "голым" терабайтником?

5805.
До вчерашнего дня в WS было 6 дисков (старые терабайтные барракуда ES.2, 7200rpm). RAID6.
Сейчас - вместо них стоит два одиночных медленных (какие были под рукой) двухтерабайтника.

Разница по скорости линейного чтения/записи - просто в разы. Были сотни мегабайт/сек (типа 300), сейчас заметно меньше 100 (особо не мерял, по данным виндового перформанс-монитора)
Бэкап вместо 15 минут идет полтора часа.

Собственно, вот включил сейчас uTorrent, скачать кина детям и себе. Сразу несколько кинов, общим объемом гигабайт 40.

И что я вижу? Disk Overloaded 100% (понятно, случайный I/O). Интернет у меня - 100Mbit из домонета + 10 от стрима. Просто жесть, чтобы такое увидеть еще позавчера, на массиве, на этом массиве должен был бы быть серьезный поток IO от чего-то (от бэкапа, к примеру).

Понятно, оно сейчас преаллоцируется, запишет 40 гигов ноликов, и полегчает. Но я давно не видел ТАКОГО на пустом месте

Мне нравицца http://www.netgear.com/business/products/storage/ReadyDATA-5200/default....
Всё же 10gbe lom потихоньку появились на рынке за разумные деньги.

Пустой (без дисков) - $2500. Из говна и палок получается заметно дешевле, хотя конечно RAID-контроллер портит ценовую картину.

Для дома - наверное. Но для себя imho выгоднее много озу и толстый канал на работу. Хочется ваще тёмное стекло дотащить ;-)

К rd5200 можно две корзины примотать и получить 12+24+24 дискодырки в 2+4+4 вершках.

netgear ибо открытый фирменно пропатченный линукс.

А как серьезный сторадж в серверную - че-та я очкую с Netgear. Пущай HP или еще кто приличный сделает подобную полку - и посмотрим.

Вааще-то netgear это серьёзный бренд. Просто он с другой стороны.

hp я вообще сейчас как "решение" не рассматриваю. Если хочется порешать, то для бессистемной дезинтегразии ibm впереди планеты всей. Вон imb xiv валяется, куда hp до них. А если работать - то hp причмокивает. Давеча очередные откаттелекомовцы P4300 G2 впаривали. "Вы же понимаете, 7Tb это очень серьёзная ёмкость". Ага, щаз. Я хочу массив *дешёвых дисков*, а не коллекцию "одобренных производителем" раритетов. За такие деньги я *три* netgear'овских коробки привинчу. Издевался над ними два часа. "А что это у вас там за сидюк чернеется? На него можно backup'ы записывать, да?" Гнать поганой метлой, адназначна.

У нетгира двухвершковый ящик на 12 трёхтерабайтников обходится где-то в $10K. С кабельком sfp+. Это 36Тб сырой ёмкости. Втыкается в cat3750x, обслуживающий подразделение. hdd можно ставить любые. 5 лет гарантии. По-большому счёту это тот же писюк в приличном исполнении с совершенно замечательно (по крайней мере впитере) поддержкой методом замены. После стартапа пароль отдаётся местно

Про диски - да, понятно. Это известный прикол HP, особенно в сочетании с тем, что пустых салазок еще хрен купишь в россии (правильные дилеры, которые любят своих клиентов, возят их сами в кармане).

Но в остальном - от непонятного/непопулярного производителя больше шансов получить подставу на ровном месте.
Ну то есть я налетал отчего-то на супермикро, зато много и буквально вот каждый раз когда имел с ними дело. Разными прикольными способами. А HP - в моем опыте - просто вот работали.

Я понимаю, что супермикро и нетгеар - это совсем разные компании. Но осадок от ложек остался ведь.

Netgear это осколок Bay Networks / Nortel. Вполне себе штатовская лавка.

В киску втыкается потому как вся сеть на кисках, мы ими централизованно рулим. А вот файлопомойка, по моему неразумному мнению, предмет личной гигиены. Можно сделать централизованную службу backup'ов, но on-line доступ шарить некошерно. Потому как один клиент может всех раком поставить.

Соответственно админ подразделения крутит свои диски сам. И разные там навороты ему не очень нужны. Нужно чтобы было понятно и просто.

Основной плюс netgear - ставишь с официциального сайта EnableRootSSH модуль и лишаешься гарантии на сохранность данных. Зато внутренний linux в твоём полном распоряжении ;-)

Вот pdfка. Софт унифицирован, можно взять двухдисковую RNDP2000 за 15тр и потыкать в неё ещё дисков по usb3 - получается забавно.

Собственно я так к ним и пришёл, осознав, что "совершенно необходимые" приблуды типа "управления настройками тарификации хранения информации авторизуемыми ldap пользователями" мне почему-то не очень нужны. А вот снапшоты и репликации по ssl, слежение за ups, поддержка любых дисков etc идут в комплекте бесплатно. Блин, рекламная компания какая-то получается. Дёрни представительство на тему наподержать - они дают. Я реально тащусь с этих железок.

У меня до всех офисов из дома 100 мегабит, но по дому и 10G бывает :)
Кто же мне 10G до дома даст ?

ZFS over RAID6 и ZFS на JBOD -- НЕ НАДО. Если ты про RAID6 и JBOD силами адаптера. ZFS должен собираться только на отдельных шпинделях, внутри ZFS много умного кода, который оптимизирует поведение исходя из знания о шпинделях. Если от него спрятать шпиндели будет хуже.

JBOD - это и есть на отдельных шпинделях

А. Я думал JBOD силами контроллера и для ZFS это один большой шпиндель.

Один большой шпиндель - это raid level какой-то. А JBOD от "просто дисков" отличается, возможно, лучшим кэшированием, да и то я сомневаюсь.

Врут, что у LSI много подделок (не знаю что это значит, мб младший чип вместо старшего)

АлиЭкспресс такая система, что деньги не переводятся продавцу пока ты не подтвердишь, что всё Ok. Т.е. приехала подделка -- просто не отдаёшь деньги.

И ясно, что это можно использовать только как HBA. Но всё равно. А ещё там двухпортовые интелловские гигабитки дёшево. Но это тебя, с 10G, Вряд ли интересует :)

Э, "тут мне фишка и пошла". Как эта система страхуется от мошенничества покупателя?

Деньги лежат на их депозите. И тебе их, как я понимаю, не вернут, они там так и повиснут до следующей покупки.

Ну то есть купить за одни и те же деньги чего-то два (у разных продавцов) - вполне реально, верно?

Я подробностей не знаю но, думаю, у них есть какая-то конфликтная комиссия.

Да нет, не врут.
Я лично напоролся - партия LSI 3041 про серийный номер которой LSI говорит: мы этого не выпускали. Массив разваливается, контроллер стартует не всегда, на англоязычных форумах пришли к выводу, что это отбраковка переданная китайцам на утилизацию :)

Add new comment