Подземный стук возвращается!

Две недели после установки таймера в HPET все было хорошо. А вчера подземный стук вернулся, а сегодня - повторился.

С теми же симптомами:

  • Cron встал.
  • "часы стоят" - при запуске top и подобного что рефрешится по таймеру - не рефрешится.
  • named: POKED TIMER в логах
  • cat /dev/urandom >/dev/null не поднимает частоту процессора, так и лежит на 200 (это, вероятно, оттого, что таймер стоит и powerd не просыпается)
  • Пакеты роутятся
  • при подаче нагрузки (утренние бэкапы) - оно не просыпается нормально. Вот сегодня туда вылилось ~40Gb бэкапа (из 90) и скорость записи по smb упала практически до нуля, пришлось ребутить эту FreeBSD.
Ну добавил еще:
kern.eventtimer.timer=HPET
kern.eventtimer.periodic=1
Но надежды мало - больше двух недель не менялось ничего - и тут вдруг началось.

Ну память еще поменяю, хотя в данной машине это делается лапароскопией.

Но что делать то? По всем прочим признакам - машина нормальная, процессор процессорит, следов битой памяти (вроде падений на компиляции) не видать.

Кто виноват и что делать? Linux - не предлагать!

Comments

буфера смотрел?

Таймер же встает, какие у таймера буфера?

Вчера когда заснуло так - смотрел сетевые буфера, там до лимитов далеко еще было.

мало ли какие, ну кончилось место в его зоне откуда он uma_zalloc делает и ага

Ты пальцем покажи что проверять!

vmstat -z
для начала, наверное

А смотреть на FAIL (у меня там ненулевые счетчики в 64-bucket и 128-bucket) или на Free==0 (аналогично - 0 в 128-bucket) или на что?

free=0 имеет смысл пугаться когда limit!=0

но смотреть надо когда залипнет.

Привет.
Создай нагрузку наночь, пускай что-нить выполняет в меру тяжелое.

powerd надо отключить на месяц

serial console дотянуть никак не получится?

Ну и ALT_BREAK_TO_DEBUGGER, разумеется...

Она когда замерзшая - живая. Там можно посмотреть что-то.

Что я буду смотреть в ядре - я не знаю, потому что не умею.

Да, консоли ясное дело нету. По-моему, я и serial-провода все повыбрасывал за полным отсутствием мест втыкания.

Писать в список рассылки! stable@, видимо.

кстати, а может и правда -- железо?
типа при опускании частоты до 200 может прийти писец какому-то таймеру.
что за мать, камень?
ну и ограничить частоту с низу к примеру 400. debug.cpufreq.lowest

Он штатно опускается до 200, не проблема.

Проблема в том, что при увеличении нагрузки - в залипшем состоянии - не поднимается.

Но мне кажется, что это - следствие. Т.е. я сегодня с утра остановил powerd, частота вернулась на свои родные 3300, но залипание не исчезло, как часы не тикали в top-е, так и не стали тикать.

ну все может быть, но я не про то, что при 200 часы не тикают, а что при 200 они залипают и больше не отлипают

Ну я сейчас вовсе Acpi throttle отключил, минимум стал 1600.

Посмотрим.

BIOS, кстати, обновлял?

Нет.
Как купил мамку, так и не трогал ничего.

Т.е. я конечно и обновлю, и стекло протру и колесо попинаю - но пока хочется количество переменных свести к минимуму.
Аналогично - ядро с 6 мая (предыдущих приключений) не обновлял - и 2.5 недели оно держалось.

ну ты понимаешь, что таймеры -- они через биос работают?

Я вот другое понимаю - года полтора работало, потом испортилось, потом две недели работало, потом опять испортилось

биос - не менялся, процессор - тоже.

а что менялось?

Менялось - но задолго до появления проблем - память.
Доставил +8G, стало 16.
Вот когда в начале мая разбирался - убавил до 8. Вот только-что поставил второй набор в 8G

Ну и cvsup случался, примерно раз в месяц. 9-STABLE

ну вот биос обнови конечно, кондёрики на материнке посмотри - не вспучило ли часом какой
вот ещё у меня такая настройка в n4f стоит
в rc.conf
powerd_flags -a adaptive -n adaptive -p 100 -i 20 -r 80
насоветовали в форуме
я в этом вопросе чайник полный, но система работает и не глючит

Acpi throttling стоило сразу отключить, он не очень эффективно снижает энергопотребление, поскольку не понижает напряжение (как это делает Intel EIST)

Вот странно: при включенном acpi_throttle набор частот показывается от 200 до 3300 (и стандартное положение в idle - 200), при выключенном - от 1600 до 3300.

И при включенном температура idle на 1-2 градуса выше.

BIOS свежий?

Нет, конечно.

С момента покупки этой матери (~1.5 года) - не апдейтился. Как и процессор. И "ничего такого не было"

Ну мало ли...

ntp может быть? Ну т.е ntpd меняет системное время, на несколько секунд/минут, и система некорректно воспринимает это событие?
Посмотреть состояние - "ntpq -p"

Ну вот я вычитал в форумах, что да, ntpd может ставить системный таймер раком.

Как только станет раком - тоже изучу.

Ничерта не понимаю в BSD и Linux, но как инженер по железу, предположил бы в первую очередь нарастающие железные проблемы, которые диагностируются, скорее, осциллографом, чем чтением логов. Железо деградировать умеет, вполне. Модель материнки какая (чтоб можно было на фото посмотреть и прикинуть, кто там хочет донести ненавязчивый намек производителя, что апгрейдится надо чаще)?

Это gigabyte на Z77, сегодня когда память менял - точную модель в очередной раз забыл посмотреть.

Но полтора-два года (не помню сколько ей, но не больше) - не срок же, даже для десктопной micro-ATX матери.

Менять сейчас - очень недосук.

Текстолит голубой или черный?
Если черный, то разъемы ядовито-зеленые есть или только черные?
Если на первый вопрос - "голубой", то хрен знает, потому как Ultra durable не должны так дурить вообще.
Если на второй вопрос - "есть зеленые", то мне на первый взгляд не очень нравится положение некоторых емкостей на некоторых.
Откровенной дряни не вижу, да.

У меня их (гигабайтовских матери) две, но какая в каком "сервере" я не помню.
Зато коробки от них легко доступны. Обе коробки имеют надпись Ultra Durable.

Раз уж достал коробки. Судя по всему, про Z77 я наврал (и Z77 - совсем в другом "сервере"), а эта мать имеет фамилию Z68MA-D2H-B3.
Картинка похожая, хотя вот мне казалось, что тот разъем который на сайте PCIe-1, у меня длиннее. Развинчивать и смотреть не буду (только если будет повод ломом потыкать)

Раз она UD, то вероятность деградации сильно снижается, но исключать это, конечно, нельзя.
Странный вопрос: а не появилось ли в последнее время новой периферии или устройств, способных мусорить высокочастотными помехами в электросеть или в цепи питания этого сервера? Я понимаю, что вставлять в сервер люминесцентные лампы, скорее всего, в голову никому не пришло, но вдруг.. Внешний диск с китайским БП, экономичная лампочка в светильнике, воткнутом в тот же удлинитель?

Интересная мысля, да.

Да, новая периферия есть, это WiFi Dongle Asus (не помню фамилию, если сейчас выдерну посмотреть - паду от руки дочери).

Он появился примерно в то же время, что и начало проблем. Более того, и сам "проблемный" - в одной USB-дырке не инициализируется, в другой - компьютер не грузится (подозреваю, что питания оно многовато жрет), в остальных четырех что есть на жопе у мамки - работает.

Попробую его извести (BTW, сегодняшнюю ночь пережили без засыпаний), хотя вот придется вернуть старый роутер от которого я столь счастливо избавился.

По питанию - в этот же UPS влез 1G свитч длинковский (вместо вышеупомянутого роутера Netgear), но дело скорее именно в донгле (если мы предполагаем аппаратные проблемы)

Ну, можно попытаться поэкспериментировать и без уничтожения донгла: взять usb-удлинитель хотя бы в полметра и надеть на него ферритовую муфту. Или, если есть большое ферритовое кольцо (в чем я сомневаюсь) - продеть шнур удлинителя через него раза два. ВЧ-мусор такая конструкция должна существенно уменьшить. Симптомы "не инициализируется, либо не грузится" - хреновые, я бы лично такой кошмар в материнку непосредственно не совал бы в любом случае, только через self-powered hub.

Не инициализируется/не грузится - это питания не хватает скорее всего.
Кольцо ферритовое должно быть, попробую.

А если заводить хаб с питанием - то проще вернуть точно работающий внешний Wifi. У меня ресурс - розетки (их хватает, но лишние питальники воткнутые в - выбешивают).

Ну э.. У блока питания наверняка есть еще один свободный канал питания, на котором есть 5В. Хаб с таким питанием - реален. Спаять molex->USB - этож всего два провода. Конечно, это может быть шило на мыло, но с отдельным каналом питания - не обязательно.
А втыкать такое прямо в мать не хочется, потому что "не хватает питания", ведущее к "не грузится" может вести также и к выгоранию контроллера USB.

Ну насколько я понимаю, USB3 порты отдают, по спецификации, 0.9А, а USB2 - 0.5
И свисток в USB3-портах работает, а в USB2 - нет.

Но уговорили, уже достал из шкафа старый Wifi-adsl-роутер, буду ставить, а свисток изведу.

1) Вынес свисток
2) Убрал все изменения с таймерами и acpi throttle, которые были сделаны с начала мая
3) замененную вчера память - оставил замененной.

Жду утра.

Как результаты?

Живы пока.

Кто виноват, память или свисток - буду разбираться через месяц.

sysutils/dmidecode показывает версию bios и название матери.

а что, kenv не показывает, в районе smbios. ?

У меня внешний usb-цап подключенный к нетбуку "сыпется" когда на этом самом нетбуке wifi включен. Сыпется это такие звуковые артефакты схожие с переполненнением буфера. Долго я это искал.