Товарищи ученые, у меня в подполе....
Есть у меня, извиняюсь за выражение, самопальный NAS:
- M/B Supermicrp X11SSH-LN4F:
- Intel C236 chipset
- В ентом чипсете - 8 портов SATA
- 4x 1GbE LAN
- + LSI-евский китайский SAS-контроллер на 8 портов (пишет про себя Avago SAS2008)
- 1 SSD + 7xSATA воткнуты в наплатный контроллер
- 6xSATA (мелких, 2.5") - в LSI
- И еще есть Intel X540 китайская, 2x10GbE
- Питальник на 400вт, должно бы хватать с запасом.
Так вот, начался у меня в какой-то момент подземный стук. Хренак и два последних диска, всунутые в наплатный SATA - отваливаются. После camcontrol rescan - обратно находятся.
Такое было месяца три назад раза 2-3, потом прошло. Потом, на позапрошлой неделе, началось ну прямо несколько раз в день. Колесо протирал, стекло накачивал, кабели SATA - менял еще "месяца три назад" (ну и тогда решил что дело было в них).
Одновременно, на позапрошлой же неделе, начались реконнекты на 10Gbit. ix0 DOWN, потом сразу UP. Т.к. это линк в мир моей рабочей станции - раздражало невероятно, реконнекты были частые, несколько раз в день.
Короче, взял я и два этих диска, которые отваливались, переключил на порты в SAS-контроллере.
И все прошло:
- диски не отваливаются
- 10Gbit не отваливается
- Вот уже неделю ни единого разрыва
Вопрос мой к публике: а что это могло бы быть то? Херовые кабели/разъемы на SATA, от них наводки на 10G? Или вообще 8 портов SATA не предназначены для постоянного использования, а установлены для красоты?
Что в подобной ситуации можно диагностировать в домашних условиях?
Comments
Дисклаймер: у меня с серверами проблем не было.
В моей практике встречались 4 "очевидные" причины:
- дебильная ОС /думаю, давно не актуально/
- перегрузка цепи питания /думаю, для 2.5" дисков неактуально/
- старение компонентов платы от времени эксплуатации и температуры в корпусе
- самое очевидное: нехватка линий PCI-E
Описание чипсета не читал, кроме самого начала (20 линий PCI-E).
Смотрим мануал матери: стр 6
"в комплекте 6 (шесть!)" SATA шлейфов...
Ни на какие размышления не наводит? ;-)
стр14:
"для трёх PCI-Express 3.0 слота" доступны все 20 линий.
У Вас там только SAS-контроллер и сетевуха? Сколько линий жрут?
+ 4 (четыре!) встроенных гигабитных сетевухи. А им тоже линий надо!
стр 55:
Везде говорится 2+6 слотов SATA.
Это уже косвенная улика.
Итого: скорее всего при неудачном сочетании девайсы начинают претендовать на одну и ту же линию PCI-E.
Обычно на линии HDD вешают USB (в частности с USB сканерами у меня проблемы бывали).
Если "раньше всё работало" именно в такой конфигурации железа, значит вступил в силу фактор износа/устаревания контроллера PCI-E.
ИМХО.
> Ни на какие размышления не
> Ни на какие размышления не наводит? ;-)
На какие размышления это должно наводить, если на мамке есть 8 SATA-портов и C236 поддерживает 8 SATA?
Прямо вот руки чешутся
Прямо вот руки чешутся приделать лайки к комментариям, иногда ну очень хочется.
Отправьте багрепорт ...
Отправьте багрепорт Интелу и Супермикре.
И что, Dimez ответил на Ваш
И что, Dimez ответил на Ваш вопрос? ;-)
Ну примерно как и вы.
Ну примерно как и вы.
Но он хотя бы теорий заговора не строил. Ну вот к примеру портов SATA там не 6+2, а 2+6, в том смысле что особенные - первые два. Но чем они особенные? Тем что специально стоят особняком, чтобы в них можно было Disk on Module сунуть. Более ничем.
Медленно и печально:
Да, оно может 8 SATA!
... если не воткнуто (в другие места) конкурентов. НИКАКИХ!
Мы уже выяснили, что "раньше жило".
Значит перегруз либо по питанию либо по нагрузке.
Угадайте с одного раза, почему не интегрируют в ЦПУ топовые видяхи?
Потому что шаред_мемори меньше/медленнее??? ;-)
... /издеваться не буду/
0. Перечитайте статью.
1. НЕ КАЖДЫЙ БП выдаёт нужные амперы по 3v, по 5v и т.д.
2. Не каждый "стабилизатор"_на_мамке выдаёт нужные амперы по ... (их там много разных)...
Если питальник работает на пределе, то и заявленные "5 лет гарантии" - миф.
Не рассчитано оно на жадин/экстремалов, оно ж СЕРВЕРНОЕ!
2+6 SATA HDD и 2+2 Gb_lan ни на что не намекают?
Но я не настаиваю: личные грабли учат действеннее.
Заранее перед всеми извиняюсь!
SATA не конкурирует за PCIe
SATA не конкурирует за PCIe
Про БП разумно. У меня было
Про БП разумно. У меня было такое пока я не перешёл полностью на платформу SM, включая коробку и БП. Сгорел БП очень старый на 450 ватт, я достал из ящика очень новый на 550 ватт и под дисковой нагрузкой оно стало вести себя хаотично — и отвалы винтов и вообще зависы до кнопки питания.
Вся разница БП была в распределении этих ватт между вольтажами, старый-старый 450W мог отдать много где угодно а новый 550W только по 12V.
В результате я с трудом, перебрав 4 (!) блока питания в диапазоне 550-750W через манибэка нашёл такой, что чудеса ушли.
Удивительно, правда — 450W работало а 750W — нет.
И это всё были дорогие БП, по ~$100+, не коробки по 2 тысячи рублей, я на БП не экономлу. Термалтейки, Чифтеки (эти двое старших линеек, вообще ниже голд+ сертификатов я даже не смотрел), даже Сисоник один провалился. А из другой серии, даже чуть дешевле, — заработал.
Ну и у супермикры проблем нет :-)
Не, неудивительно, это
Не, неудивительно, это известная история про 5 вольт.
Причём по симптомам не
Причём по симптомам не хватало/было много помех именно контроллеру, а не самим винтам.
Апдейт.
Картинка:
http://www.thg.ru/mainboard/platforma_intel_skylake/images/intel_skylake...
"Спецификация":
Реальное количество линий PCIe на чипсетах Skylake
"Макс. кол-во линий PCIe 3.0, если используются все порты USB, SATA и один разъем GbE" = 7 (семь! из 20 и при 1 сетевухе!).
Сама статья:
http://www.thg.ru/mainboard/platforma_intel_skylake/print.html
Оно работало работало
Оно работало работало работало же ж.
Знаете, почему все "хомяки" переустанавливают Винду?
В случае серьёзных проблем переустановить ОС весь (доступный) софт - в 3 раза быстрее, чем ковыряться руками.
Так было и 20 лет назад и 5.
С Десяткой толком не воевал.
Но с каждой новой версией вариант "поправить руками" всё круче и геморройнее!!!
Я не думаю, что если я
Я не думаю, что если я переустановлю там FreeBSD - что-то изменится.
Блин ..!
Речь о "выносливости" конкретного железа в конкретном конфиге!
Почитайте уже о "усталости материала/конструкций".
Заметьте, я даже не спрашивал о стабильности и качестве питания (~220v)!
Если работало-работало
Если работало-работало-работало-работало, а потом (через несколько лет) начало поглюкивать, причём с всё сильнее и сильнее, значит пришло время менять конденсаторы. 99.9%
Мамке примерно два года....
Мамке примерно два года....
про мамку
Мамка КЛАССНАЯ!
Я похожую и искал (для себя) в 2008-2009 годах.
Но серверная МБ + Ксеон + ДДР4 = ... я даже не приценивался ..!
В спеках указано: дата выхода - 2008 год. далее - обновления BIOS'а. ;-)
Сколько оно лежало на складах и в каком тепловом/нагрузочном режиме работало ...
_-------------------------------------------------------------------------------------------------------------
Если именно в таком неизменном конфиге оно отработало 1.5 года, значит имеет место перегруз.
Или питания или "по загрузке" контроллера.
_______________________________________________
И с проблемами питания и с проблемами "усыхания" микросхем я сталкивался неоднократно:
По питанию: БП может медленно умирать, а могут умирать и мамочные стабилизаторы.
А проблемы старения компонентов - вообще лотерея! (больше нагрузишь - быстрее помрёт)
_________________________________________________________________________________
У меня никогда не было серьёзных железячных проблем с серверными мамками именно потому что они работали вполсилы/на две трети возможностей. И я всегда отключал ненужные Com, LPT, USB и прочие встроенные причиндалы.
Иногда даже "замена" встроенного video на "внешнее" решало проблемы надолго.
Ваш случай: есть версии мамки с 2 встроенными ГбЛан и и с 4 встроенными сетевухами.
Если СЕГОДНЯ Гигабитные сетевухи №3 и 4 не нужны - отключите их джамперами на мамке - должно полегчать. :-)
Но это, по всей видимости, временное решение. :-(
мануал
Я ссылаюсь на
https://www.supermicro.nl/manuals/motherboard/C236/MNL-1778.pdf
В Вашем случае могут быть нюансы.
Она не может быть 2008 года,
Она не может быть 2008 года, там чипсет выпущен в 2015Q4: https://ark.intel.com/ru/products/90594/Intel-C236-Chipset
Заранее/постфактум извиняюсь!
Что прочитал, о том и пою ...
... ааа, это я взял с никс.ру , кажется.
Это не важно.
Важно: не "перенапрягать" встроенные PCI-E_контроллеры (равно как и любые другие) ни по питанию ни по "занятостью" конкретной сигнальной шины ни по "средней загрузке чипа/блока_в_ЦПУ".
Я уже упоминал, что конкретно Ваша мамка - моя бывшая мечта (просто для меня она перестала быть актуальной вааааще!).
Я просто намекнул (со ссылкой!), что обещания производителя часто умалчивают о "нюансах" конфига конкретной системы.
Я не "обижаю" ни Вас ни ваш НАС - Вы спросили, я ответил. Не более того!
Щазз набегут профи и не оставят от моих "инсинуаций" камне на камне, так я и не против! :-D
Моя рекомендация: сделать бэкап BIOS'а и заменить мамку на новую ("той же системы").
Вы хотели знать "правду", я её озвучил. Остальные подтянутся..!
Конденсаторы есть не только
Конденсаторы есть не только на мамке.
Вобще, тебя ждёт увлекательное занятие - "замена железок по кругу". Стандартное начало пути - БП, проц, память.
Вот питальник тама достаточно
Вот питальник тама достаточно старый, начну тогда с него.
Это всего лишь презерватив.
БП влияет на стабильность всей системы, но не объясняет КОНКРЕТНЫХ (и воспроизводимых) проблем.
Но поменять на новый, уровня Сильвер, Голд или Платинум, всегда полезно.
Меньше за электроэнергию платить будете. :-)
:-D
Почему именно конденсаторы??!
Могут глючить и другие компоненты!
Однажды я столкнулся с перегревом чипа тактовой частоты!
Умирающие конденсаторы хотя бы визуально видно (как правило)...
Кстати, пару раз бывало, что
Кстати, пару раз бывало, что помогает воздуходувкой как следует (не до отрыва деталей, конечно) продуть матплату и внутренности БП. Домашнее (и офисное) использование, как правило, гораздо хуже по сравнению с ДЦ относительно пыли.
Советую купить для такого Makita ub1103 (могу дать на время свою)
Дык, поздно уже ...
Если стало глючить, значит "доктор сказал: в морг, значит в морг!"
Ни я ни Алексей - не Дамокл, чтобы под ножом гильотины жить!
ИМХО.
Ну вот я начал с того места,
Ну вот я начал с того места, которое глючило - даже если это наведенка
Диск поменял. Наблюдаю.
У меня есть все (актуальные и регулярные) бэкапы, поэтому не страшно.
Начну с конца.
У Вас "есть (актуальные и регулярные) бэкапы" BIOS'а ?
8-)
Что есть "наведёнка"? ;-)
Если "раньше работало-...-работало", то очевидно что причина в /усталости материала/ загибающихся чипах (в т.ч. ЦПУ).
Цепочка длинная и не очевидная:
- плохое (грязное) питание в розетке /я этого НАЕЛСЯ в своё время!!!/
- старение силовых и фильтрующих конденсаторов в БП
- перегруз одной из линий питания (3, 5, 12 вольт - если БП бюджетный, то на каждый номинал ровно 1 стабилизатор/жгут)
- старение элементов преобразователей/стабилизаторов на мамке (самые стрёмные - 3 вольта!)
- проблема с набортными SATA -> значит проблема в проце или в чипсете (достаточно перенагрузить 1 транзистор в огромном чипе ...)
- перегрев => сокращение срока службы конкретного чипа
- скрытый брак производства (чипов/деталек или сборки/пайки, не суть!)
В последний раз повторюсь: я не теоретик, я с подобными чудесами боролся более 15 лет.
Заодно, помянем! - Кэнон перестал производить последнюю плёночную модель (1V).
:-(
Заодно, помянем! - Кэнон
Заодно, помянем! - Кэнон перестал производить последнюю плёночную модель (1V).Не производить а продавать со складов. Производить давно уже перестал.
Алексей, с этим надо что-то делать!
Только сегодня снова зашёл к Вам. ... так сказать, приобщиться.
И вот про "...помянем ..." - это вот мой пост (слово в слово, буква в букву!).
Я давно уже не обращаю внимания на свой "копирайт" (привет Столману).
Но ведь это не человек новость стырил! - Что-то в железках/движке сбой дало.
Звоночек, однако!
Там не "звоночек", а не
Там не "звоночек", а <i> не отображаются (в цитате) т.к. выбран такой формат (plain text) где все теги спиливаются.
UPD: позволил себе отредактировать комментарий Льва путем смены Text format на HTML
...
Приношу искренние извинения обоим!
И Вам и движку. :-D
И Вам и движку. :-D
А не забахать ли Вам FAQ?
Внизу есть что-то невнятное...
А готовые к употреблению теги очень трудно прописать?
Иконки "болд"/"курсив" не прошу? ;-)
, etc. Мне никогда тут не понадобятся.
А [[foo]] мне вообще непонятно к чему прислонить.
И, главное, я не понимаю, КАК их прислонять. /каюсь и плАчу/
Опять движок "поел"...
Иконки "болд"/"курсив" не прошу? ;-)
, etc. Мне никогда тут не понадобятся.
Следует читать как
"Иконки "болд"/"курсив" не прошу? ;-)
Но мне никогда тут не понадобятся теги <дrupal... >, < java... >, etc. ."
12 лет жили без FAQ - и вроде
12 лет жили без FAQ - и вроде ничего так.
Нет вопросов.
...
Is TSO switched on?
Возможно не в тему.
Имеем пачку X710 for 10GbE SFP+.
Правда под Linux.
Тоже то работало, работало, работало...
То начинало тупо отваливаться.
Причем не при большом трафике, а при больших "йопсах".
Причина: https://sourceforge.net/p/e1000/bugs/537/
Пока вынуждены жить со старым драйвером, но проблему временно загнали в угол, выключив TSO.
Помогло 100%, результат был виден невооруженным глазом.
TSO включено, но у меня не
TSO включено, но у меня не linux
Драйвер: Intel(R) PRO/10GbE PCI-Express Network Driver, Version - 3.1.13-k
Разумеется, я обратил
Разумеется, я обратил внимание, что у Вас и ОС и NIC другие. Я исхожу из предположения, что драйвера могут использовать общий код (и баги) для семейства карт и для разных драйверов. Там у Интела при включенной TSO были(?) явные проблемы в обработке IRQ при интенсивном IO, что приводило к зависанию сетевого адаптера.
TSO - просто одно из мест, куда можно потыкать палочкой исходя из прецедентов...
У меня то подземный стук в
У меня то подземный стук в области 10GbE пропал - после переключения двух дисков с SATA на SAS
Ну я не исключаю, что тут
Ну я не исключаю, что тут чисто аппаратная проблема.
Но такое переключение дисков тоже может повлиять на интенсивность IRQ, стало меньше с SATA, но больше с SAS. Возможно, в такой конфигурации, сетевухе "комфортнее". А возможно, что сейчас нагрузка немного не та, чтобы баг опять проявился. Вот если симптомы опять повторятся, что можете либо дрова обновить попробовать, либо TSO отключить.
s/что можете/то можете/
s/что можете/то можете/
статья на похожую тему
https://habr.com/post/414753/
Ну кстати вот подземный стук
Ну кстати вот подземный стук в районе ix0 вернулся в конце июня, но не несколько раз в день а раз в пару дней или раз в день.
Отключение tso похоже что помогло т.е. 7-го июля был подземный стук, 8-го я отключил, с тех пор в логах НИ ЕДИНОГО РАЗРЫВА за три дня.
Но не исключаю что дело в забортной температуре.
Рад, что, возможно, мое
Рад, что, возможно, мое предположение оказалось верным.
М.б. и в температуре и т.п дело...
А возможно проблема таки сродни нашей в кривом TSO у Интела.
Мне этот баг вычислить стоило много седых волос и времени.
Всегда ищешь баги в первую очередь в своем софте, а это тяжело, особенно, когда их там нет :D
Но температура в нашем случае не причем была - в датацентре холодно и пыли нет :)
Потеплело потому что.
Потеплело потому что. Посмотри внимательно на температуру чипсетного радиатора, на такого плана супермикрах это больной вопрос, у нас в паре мест пришлось к ним вентиляторы колхозить, иначе начинаются разнообразные глюки типа отвала sata, отвала usb и т.п.
Вот любишь ты гадость сказать
Вот любишь ты гадость сказать
Что, потрогал? :)
Что, потрогал? :)
Я материалист, что вижу - то пою. Когда первый раз столкнулся на этой серии с вентилятором на чипсете, резонно подумал, что где-то в чужом самосборе коротыш по USB на передней панели, однако это оказалось не так.
Я хз, может супермикра эти платы под воздушный поток стоечных корпусов проектирует, но факт, что проблема присутствует и не единичная.
Не, не трогал, хер подлезешь,
Не, не трогал, хер подлезешь, но обдув поставил