Товарищи ученые, у меня в подполе....

Есть у меня, извиняюсь за выражение, самопальный NAS:

  • M/B Supermicrp X11SSH-LN4F:
    • Intel C236 chipset
    • В ентом чипсете - 8 портов SATA
    • 4x 1GbE LAN
  • + LSI-евский китайский SAS-контроллер на 8 портов (пишет про себя Avago SAS2008)
  • 1 SSD + 7xSATA воткнуты в наплатный контроллер
  • 6xSATA (мелких, 2.5") - в LSI
  • И еще есть Intel X540 китайская, 2x10GbE
  • Питальник на 400вт, должно бы хватать с запасом.

Так вот, начался у меня в какой-то момент подземный стук. Хренак и два последних диска, всунутые в наплатный SATA - отваливаются. После camcontrol rescan - обратно находятся.

Такое было месяца три назад раза 2-3, потом прошло. Потом, на позапрошлой неделе, началось ну прямо несколько раз в день. Колесо протирал, стекло накачивал, кабели SATA - менял еще "месяца три назад" (ну и тогда решил что дело было в них).

Одновременно, на позапрошлой же неделе, начались реконнекты на 10Gbit. ix0 DOWN, потом сразу UP. Т.к. это линк в мир моей рабочей станции - раздражало невероятно, реконнекты были частые, несколько раз в день.

Короче, взял я и два этих диска, которые отваливались, переключил на порты в SAS-контроллере.

И все прошло:

  • диски не отваливаются
  • 10Gbit не отваливается
  • Вот уже неделю ни единого разрыва

Вопрос мой к публике: а что это могло бы быть то? Херовые кабели/разъемы на SATA, от них наводки на 10G? Или вообще 8 портов SATA не предназначены для постоянного использования, а установлены для красоты?

Что в подобной ситуации можно диагностировать в домашних условиях?

 

Comments

В моей практике встречались 4 "очевидные" причины:
- дебильная ОС /думаю, давно не актуально/
- перегрузка цепи питания /думаю, для 2.5" дисков неактуально/
- старение компонентов платы от времени эксплуатации и температуры в корпусе
- самое очевидное: нехватка линий PCI-E

Описание чипсета не читал, кроме самого начала (20 линий PCI-E).
Смотрим мануал матери: стр 6
"в комплекте 6 (шесть!)" SATA шлейфов...
Ни на какие размышления не наводит? ;-)
стр14:
"для трёх PCI-Express 3.0 слота" доступны все 20 линий.
У Вас там только SAS-контроллер и сетевуха? Сколько линий жрут?
+ 4 (четыре!) встроенных гигабитных сетевухи. А им тоже линий надо!
стр 55:
Везде говорится 2+6 слотов SATA.
Это уже косвенная улика.

Итого: скорее всего при неудачном сочетании девайсы начинают претендовать на одну и ту же линию PCI-E.
Обычно на линии HDD вешают USB (в частности с USB сканерами у меня проблемы бывали).
Если "раньше всё работало" именно в такой конфигурации железа, значит вступил в силу фактор износа/устаревания контроллера PCI-E.

ИМХО.

> Ни на какие размышления не наводит? ;-)

На какие размышления это должно наводить, если на мамке есть 8 SATA-портов и C236 поддерживает 8 SATA?

Прямо вот руки чешутся приделать лайки к комментариям, иногда ну очень хочется.

Отправьте багрепорт Интелу и Супермикре.

И что, Dimez ответил на Ваш вопрос? ;-)

Ну примерно как и вы.

Но он хотя бы теорий заговора не строил. Ну вот к примеру портов SATA там не 6+2, а 2+6, в том смысле что особенные - первые два. Но чем они особенные? Тем что специально стоят особняком, чтобы в них можно было Disk on Module сунуть. Более ничем.

Да, оно может 8 SATA!
... если не воткнуто (в другие места) конкурентов. НИКАКИХ!

Мы уже выяснили, что "раньше жило".
Значит перегруз либо по питанию либо по нагрузке.
Угадайте с одного раза, почему не интегрируют в ЦПУ топовые видяхи?
Потому что шаред_мемори меньше/медленнее??? ;-)
... /издеваться не буду/
0. Перечитайте статью.
1. НЕ КАЖДЫЙ БП выдаёт нужные амперы по 3v, по 5v и т.д.
2. Не каждый "стабилизатор"_на_мамке выдаёт нужные амперы по ... (их там много разных)...

Если питальник работает на пределе, то и заявленные "5 лет гарантии" - миф.
Не рассчитано оно на жадин/экстремалов, оно ж СЕРВЕРНОЕ!

2+6 SATA HDD и 2+2 Gb_lan ни на что не намекают?

Но я не настаиваю: личные грабли учат действеннее.

Заранее перед всеми извиняюсь!

SATA не конкурирует за PCIe

Про БП разумно. У меня было такое пока я не перешёл полностью на платформу SM, включая коробку и БП. Сгорел БП очень старый на 450 ватт, я достал из ящика очень новый на 550 ватт и под дисковой нагрузкой оно стало вести себя хаотично — и отвалы винтов и вообще зависы до кнопки питания.
Вся разница БП была в распределении этих ватт между вольтажами, старый-старый 450W мог отдать много где угодно а новый 550W только по 12V.
В результате я с трудом, перебрав 4 (!) блока питания в диапазоне 550-750W через манибэка нашёл такой, что чудеса ушли.
Удивительно, правда — 450W работало а 750W — нет.
И это всё были дорогие БП, по ~$100+, не коробки по 2 тысячи рублей, я на БП не экономлу. Термалтейки, Чифтеки (эти двое старших линеек, вообще ниже голд+ сертификатов я даже не смотрел), даже Сисоник один провалился. А из другой серии, даже чуть дешевле, — заработал.

Ну и у супермикры проблем нет :-)

Не, неудивительно, это известная история про 5 вольт.

Причём по симптомам не хватало/было много помех именно контроллеру, а не самим винтам.

Картинка:
http://www.thg.ru/mainboard/platforma_intel_skylake/images/intel_skylake...
"Спецификация":
Реальное количество линий PCIe на чипсетах Skylake
"Макс. кол-во линий PCIe 3.0, если используются все порты USB, SATA и один разъем GbE" = 7 (семь! из 20 и при 1 сетевухе!).

Сама статья:
http://www.thg.ru/mainboard/platforma_intel_skylake/print.html

Оно работало работало работало же ж.

В случае серьёзных проблем переустановить ОС весь (доступный) софт - в 3 раза быстрее, чем ковыряться руками.
Так было и 20 лет назад и 5.
С Десяткой толком не воевал.
Но с каждой новой версией вариант "поправить руками" всё круче и геморройнее!!!

Я не думаю, что если я переустановлю там FreeBSD - что-то изменится.

Речь о "выносливости" конкретного железа в конкретном конфиге!
Почитайте уже о "усталости материала/конструкций".

Заметьте, я даже не спрашивал о стабильности и качестве питания (~220v)!

Если работало-работало-работало-работало, а потом (через несколько лет) начало поглюкивать, причём с всё сильнее и сильнее, значит пришло время менять конденсаторы. 99.9%

Мамке примерно два года....

Мамка КЛАССНАЯ!
Я похожую и искал (для себя) в 2008-2009 годах.
Но серверная МБ + Ксеон + ДДР4 = ... я даже не приценивался ..!

В спеках указано: дата выхода - 2008 год. далее - обновления BIOS'а. ;-)

Сколько оно лежало на складах и в каком тепловом/нагрузочном режиме работало ...
_-------------------------------------------------------------------------------------------------------------
Если именно в таком неизменном конфиге оно отработало 1.5 года, значит имеет место перегруз.
Или питания или "по загрузке" контроллера.
_______________________________________________

И с проблемами питания и с проблемами "усыхания" микросхем я сталкивался неоднократно:
По питанию: БП может медленно умирать, а могут умирать и мамочные стабилизаторы.
А проблемы старения компонентов - вообще лотерея! (больше нагрузишь - быстрее помрёт)
_________________________________________________________________________________
У меня никогда не было серьёзных железячных проблем с серверными мамками именно потому что они работали вполсилы/на две трети возможностей. И я всегда отключал ненужные Com, LPT, USB и прочие встроенные причиндалы.
Иногда даже "замена" встроенного video на "внешнее" решало проблемы надолго.

Ваш случай: есть версии мамки с 2 встроенными ГбЛан и и с 4 встроенными сетевухами.
Если СЕГОДНЯ Гигабитные сетевухи №3 и 4 не нужны - отключите их джамперами на мамке - должно полегчать. :-)
Но это, по всей видимости, временное решение. :-(

Я ссылаюсь на
https://www.supermicro.nl/manuals/motherboard/C236/MNL-1778.pdf

В Вашем случае могут быть нюансы.

Она не может быть 2008 года, там чипсет выпущен в 2015Q4: https://ark.intel.com/ru/products/90594/Intel-C236-Chipset

Что прочитал, о том и пою ...
... ааа, это я взял с никс.ру , кажется.
Это не важно.
Важно: не "перенапрягать" встроенные PCI-E_контроллеры (равно как и любые другие) ни по питанию ни по "занятостью" конкретной сигнальной шины ни по "средней загрузке чипа/блока_в_ЦПУ".

Я уже упоминал, что конкретно Ваша мамка - моя бывшая мечта (просто для меня она перестала быть актуальной вааааще!).
Я просто намекнул (со ссылкой!), что обещания производителя часто умалчивают о "нюансах" конфига конкретной системы.
Я не "обижаю" ни Вас ни ваш НАС - Вы спросили, я ответил. Не более того!
Щазз набегут профи и не оставят от моих "инсинуаций" камне на камне, так я и не против! :-D

Моя рекомендация: сделать бэкап BIOS'а и заменить мамку на новую ("той же системы").

Вы хотели знать "правду", я её озвучил. Остальные подтянутся..!

Конденсаторы есть не только на мамке.
Вобще, тебя ждёт увлекательное занятие - "замена железок по кругу". Стандартное начало пути - БП, проц, память.

Вот питальник тама достаточно старый, начну тогда с него.

БП влияет на стабильность всей системы, но не объясняет КОНКРЕТНЫХ (и воспроизводимых) проблем.

Но поменять на новый, уровня Сильвер, Голд или Платинум, всегда полезно.
Меньше за электроэнергию платить будете. :-)
:-D

Могут глючить и другие компоненты!

Однажды я столкнулся с перегревом чипа тактовой частоты!

Умирающие конденсаторы хотя бы визуально видно (как правило)...

Кстати, пару раз бывало, что помогает воздуходувкой как следует (не до отрыва деталей, конечно) продуть матплату и внутренности БП. Домашнее (и офисное) использование, как правило, гораздо хуже по сравнению с ДЦ относительно пыли.
Советую купить для такого Makita ub1103 (могу дать на время свою)

Если стало глючить, значит "доктор сказал: в морг, значит в морг!"
Ни я ни Алексей - не Дамокл, чтобы под ножом гильотины жить!

ИМХО.

Ну вот я начал с того места, которое глючило - даже если это наведенка
Диск поменял. Наблюдаю.

У меня есть все (актуальные и регулярные) бэкапы, поэтому не страшно.

У Вас "есть (актуальные и регулярные) бэкапы" BIOS'а ?
8-)

Что есть "наведёнка"? ;-)

Если "раньше работало-...-работало", то очевидно что причина в /усталости материала/ загибающихся чипах (в т.ч. ЦПУ).

Цепочка длинная и не очевидная:
- плохое (грязное) питание в розетке /я этого НАЕЛСЯ в своё время!!!/
- старение силовых и фильтрующих конденсаторов в БП
- перегруз одной из линий питания (3, 5, 12 вольт - если БП бюджетный, то на каждый номинал ровно 1 стабилизатор/жгут)
- старение элементов преобразователей/стабилизаторов на мамке (самые стрёмные - 3 вольта!)
- проблема с набортными SATA -> значит проблема в проце или в чипсете (достаточно перенагрузить 1 транзистор в огромном чипе ...)
- перегрев => сокращение срока службы конкретного чипа
- скрытый брак производства (чипов/деталек или сборки/пайки, не суть!)

В последний раз повторюсь: я не теоретик, я с подобными чудесами боролся более 15 лет.

Заодно, помянем! - Кэнон перестал производить последнюю плёночную модель (1V).
:-(

Заодно, помянем! - Кэнон перестал производить последнюю плёночную модель (1V).Не производить а продавать со складов. Производить давно уже перестал.

Только сегодня снова зашёл к Вам. ... так сказать, приобщиться.
И вот про "...помянем ..." - это вот мой пост (слово в слово, буква в букву!).

Я давно уже не обращаю внимания на свой "копирайт" (привет Столману).
Но ведь это не человек новость стырил! - Что-то в железках/движке сбой дало.
Звоночек, однако!

Там не "звоночек", а <i> не отображаются (в цитате) т.к. выбран такой формат (plain text) где все теги спиливаются.

UPD: позволил себе отредактировать комментарий Льва путем смены Text format на HTML

Приношу искренние извинения обоим!

И Вам и движку. :-D

Внизу есть что-то невнятное...
А готовые к употреблению теги очень трудно прописать?
Иконки "болд"/"курсив" не прошу? ;-)
, etc. Мне никогда тут не понадобятся.
А [[foo]] мне вообще непонятно к чему прислонить.
И, главное, я не понимаю, КАК их прислонять. /каюсь и плАчу/

Иконки "болд"/"курсив" не прошу? ;-)
, etc. Мне никогда тут не понадобятся.

Следует читать как
"Иконки "болд"/"курсив" не прошу? ;-)

Но мне никогда тут не понадобятся теги <дrupal... >, < java... >, etc. ."

12 лет жили без FAQ - и вроде ничего так.

...

Возможно не в тему.
Имеем пачку X710 for 10GbE SFP+.
Правда под Linux.
Тоже то работало, работало, работало...
То начинало тупо отваливаться.
Причем не при большом трафике, а при больших "йопсах".
Причина: https://sourceforge.net/p/e1000/bugs/537/
Пока вынуждены жить со старым драйвером, но проблему временно загнали в угол, выключив TSO.
Помогло 100%, результат был виден невооруженным глазом.

TSO включено, но у меня не linux
Драйвер: Intel(R) PRO/10GbE PCI-Express Network Driver, Version - 3.1.13-k

Разумеется, я обратил внимание, что у Вас и ОС и NIC другие. Я исхожу из предположения, что драйвера могут использовать общий код (и баги) для семейства карт и для разных драйверов. Там у Интела при включенной TSO были(?) явные проблемы в обработке IRQ при интенсивном IO, что приводило к зависанию сетевого адаптера.
TSO - просто одно из мест, куда можно потыкать палочкой исходя из прецедентов...

У меня то подземный стук в области 10GbE пропал - после переключения двух дисков с SATA на SAS

Ну я не исключаю, что тут чисто аппаратная проблема.
Но такое переключение дисков тоже может повлиять на интенсивность IRQ, стало меньше с SATA, но больше с SAS. Возможно, в такой конфигурации, сетевухе "комфортнее". А возможно, что сейчас нагрузка немного не та, чтобы баг опять проявился. Вот если симптомы опять повторятся, что можете либо дрова обновить попробовать, либо TSO отключить.

s/что можете/то можете/

Ну кстати вот подземный стук в районе ix0 вернулся в конце июня, но не несколько раз в день а раз в пару дней или раз в день.

Отключение tso похоже что помогло т.е. 7-го июля был подземный стук, 8-го я отключил, с тех пор в логах НИ ЕДИНОГО РАЗРЫВА за три дня.
Но не исключаю что дело в забортной температуре.

Рад, что, возможно, мое предположение оказалось верным.
М.б. и в температуре и т.п дело...
А возможно проблема таки сродни нашей в кривом TSO у Интела.
Мне этот баг вычислить стоило много седых волос и времени.
Всегда ищешь баги в первую очередь в своем софте, а это тяжело, особенно, когда их там нет :D
Но температура в нашем случае не причем была - в датацентре холодно и пыли нет :)

Потеплело потому что. Посмотри внимательно на температуру чипсетного радиатора, на такого плана супермикрах это больной вопрос, у нас в паре мест пришлось к ним вентиляторы колхозить, иначе начинаются разнообразные глюки типа отвала sata, отвала usb и т.п.

Вот любишь ты гадость сказать

Что, потрогал? :)
Я материалист, что вижу - то пою. Когда первый раз столкнулся на этой серии с вентилятором на чипсете, резонно подумал, что где-то в чужом самосборе коротыш по USB на передней панели, однако это оказалось не так.
Я хз, может супермикра эти платы под воздушный поток стоечных корпусов проектирует, но факт, что проблема присутствует и не единичная.

Не, не трогал, хер подлезешь, но обдув поставил