Подземный стук возвращается!
lexa - 25/Май/2013 10:22
Две недели после установки таймера в HPET все было хорошо. А вчера подземный стук вернулся, а сегодня - повторился.
С теми же симптомами:
- Cron встал.
- "часы стоят" - при запуске top и подобного что рефрешится по таймеру - не рефрешится.
- named: POKED TIMER в логах
cat /dev/urandom >/dev/null
не поднимает частоту процессора, так и лежит на 200 (это, вероятно, оттого, что таймер стоит и powerd не просыпается)- Пакеты роутятся
- при подаче нагрузки (утренние бэкапы) - оно не просыпается нормально. Вот сегодня туда вылилось ~40Gb бэкапа (из 90) и скорость записи по smb упала практически до нуля, пришлось ребутить эту FreeBSD.
kern.eventtimer.timer=HPET
kern.eventtimer.periodic=1
kern.eventtimer.periodic=1
Ну память еще поменяю, хотя в данной машине это делается лапароскопией.
Но что делать то? По всем прочим признакам - машина нормальная, процессор процессорит, следов битой памяти (вроде падений на компиляции) не видать.
Кто виноват и что делать? Linux - не предлагать!
Comments
буфера смотрел?
буфера смотрел?
Таймер же встает, какие у таймера буфера? Вчера когда засну
Таймер же встает, какие у таймера буфера?
Вчера когда заснуло так - смотрел сетевые буфера, там до лимитов далеко еще было.
мало ли какие, ну кончилось место в его зоне откуда он uma_z
мало ли какие, ну кончилось место в его зоне откуда он uma_zalloc делает и ага
Ты пальцем покажи что проверять!
Ты пальцем покажи что проверять!
vmstat -z для начала, наверное
vmstat -z
для начала, наверное
А смотреть на FAIL (у меня там ненулевые счетчики в 64-bucke
А смотреть на FAIL (у меня там ненулевые счетчики в 64-bucket и 128-bucket) или на Free==0 (аналогично - 0 в 128-bucket) или на что?
free=0 имеет смысл пугаться когда limit!=0 но смотреть надо
free=0 имеет смысл пугаться когда limit!=0
но смотреть надо когда залипнет.
Привет. Создай нагрузку
Привет.
Создай нагрузку наночь, пускай что-нить выполняет в меру тяжелое.
powerd надо отключить на месяц
powerd надо отключить на месяц
serial console дотянуть никак не получится? Ну и ALT_BREAK_
serial console дотянуть никак не получится?
Ну и ALT_BREAK_TO_DEBUGGER, разумеется...
Она когда замерзшая - живая. Там можно посмотреть что-то. Ч
Она когда замерзшая - живая. Там можно посмотреть что-то.
Что я буду смотреть в ядре - я не знаю, потому что не умею.
Да, консоли ясное дело нету. По-моему, я и serial-провода все повыбрасывал за полным отсутствием мест втыкания.
Писать в список рассылки!
Писать в список рассылки! stable@, видимо.
кстати, а может и правда -- железо? типа при опускании часто
кстати, а может и правда -- железо?
типа при опускании частоты до 200 может прийти писец какому-то таймеру.
что за мать, камень?
ну и ограничить частоту с низу к примеру 400. debug.cpufreq.lowest
Он штатно опускается до 200, не проблема. Проблема в том, ч
Он штатно опускается до 200, не проблема.
Проблема в том, что при увеличении нагрузки - в залипшем состоянии - не поднимается.
Но мне кажется, что это - следствие. Т.е. я сегодня с утра остановил powerd, частота вернулась на свои родные 3300, но залипание не исчезло, как часы не тикали в top-е, так и не стали тикать.
ну все может быть, но я не про то, что при 200 часы не тикаю
ну все может быть, но я не про то, что при 200 часы не тикают, а что при 200 они залипают и больше не отлипают
Ну я сейчас вовсе Acpi throttle отключил, минимум стал 1600.
Ну я сейчас вовсе Acpi throttle отключил, минимум стал 1600.
Посмотрим.
BIOS, кстати, обновлял?
BIOS, кстати, обновлял?
Нет. Как купил мамку, так и не трогал ничего. Т.е. я конечн
Нет.
Как купил мамку, так и не трогал ничего.
Т.е. я конечно и обновлю, и стекло протру и колесо попинаю - но пока хочется количество переменных свести к минимуму.
Аналогично - ядро с 6 мая (предыдущих приключений) не обновлял - и 2.5 недели оно держалось.
ну ты понимаешь, что таймеры -- они через биос работают?
ну ты понимаешь, что таймеры -- они через биос работают?
Я вот другое понимаю - года полтора работало, потом испортил
Я вот другое понимаю - года полтора работало, потом испортилось, потом две недели работало, потом опять испортилось
биос - не менялся, процессор - тоже.
а что менялось?
а что менялось?
Менялось - но задолго до появления проблем - память. Достави
Менялось - но задолго до появления проблем - память.
Доставил +8G, стало 16.
Вот когда в начале мая разбирался - убавил до 8. Вот только-что поставил второй набор в 8G
Ну и cvsup случался, примерно раз в месяц. 9-STABLE
ну вот биос обнови конечно, кондёрики на материнке посмотри
ну вот биос обнови конечно, кондёрики на материнке посмотри - не вспучило ли часом какой
вот ещё у меня такая настройка в n4f стоит
в rc.conf
powerd_flags -a adaptive -n adaptive -p 100 -i 20 -r 80
насоветовали в форуме
я в этом вопросе чайник полный, но система работает и не глючит
Acpi throttling стоило сразу
Acpi throttling стоило сразу отключить, он не очень эффективно снижает энергопотребление, поскольку не понижает напряжение (как это делает Intel EIST)
Вот странно: при включенном
Вот странно: при включенном acpi_throttle набор частот показывается от 200 до 3300 (и стандартное положение в idle - 200), при выключенном - от 1600 до 3300.
И при включенном температура idle на 1-2 градуса выше.
Биос свежий?
BIOS свежий?
Нет, конечно. С момента
Нет, конечно.
С момента покупки этой матери (~1.5 года) - не апдейтился. Как и процессор. И "ничего такого не было"
Ну мало ли...
Ну мало ли...
ntp может быть? Ну т.е ntpd
ntp может быть? Ну т.е ntpd меняет системное время, на несколько секунд/минут, и система некорректно воспринимает это событие?
Посмотреть состояние - "ntpq -p"
Ну вот я вычитал в форумах,
Ну вот я вычитал в форумах, что да, ntpd может ставить системный таймер раком.
Как только станет раком - тоже изучу.
Ничерта не понимаю в BSD и
Ничерта не понимаю в BSD и Linux, но как инженер по железу, предположил бы в первую очередь нарастающие железные проблемы, которые диагностируются, скорее, осциллографом, чем чтением логов. Железо деградировать умеет, вполне. Модель материнки какая (чтоб можно было на фото посмотреть и прикинуть, кто там хочет донести ненавязчивый намек производителя, что апгрейдится надо чаще)?
Это gigabyte на Z77, сегодня
Это gigabyte на Z77, сегодня когда память менял - точную модель в очередной раз забыл посмотреть.
Но полтора-два года (не помню сколько ей, но не больше) - не срок же, даже для десктопной micro-ATX матери.
Менять сейчас - очень недосук.
Текстолит голубой или
Текстолит голубой или черный?
Если черный, то разъемы ядовито-зеленые есть или только черные?
Если на первый вопрос - "голубой", то хрен знает, потому как Ultra durable не должны так дурить вообще.
Если на второй вопрос - "есть зеленые", то мне на первый взгляд не очень нравится положение некоторых емкостей на некоторых.
Откровенной дряни не вижу, да.
У меня их (гигабайтовских
У меня их (гигабайтовских матери) две, но какая в каком "сервере" я не помню.
Зато коробки от них легко доступны. Обе коробки имеют надпись Ultra Durable.
Раз уж достал коробки. Судя по всему, про Z77 я наврал (и Z77 - совсем в другом "сервере"), а эта мать имеет фамилию Z68MA-D2H-B3.
Картинка похожая, хотя вот мне казалось, что тот разъем который на сайте PCIe-1, у меня длиннее. Развинчивать и смотреть не буду (только если будет повод ломом потыкать)
Раз она UD, то вероятность
Раз она UD, то вероятность деградации сильно снижается, но исключать это, конечно, нельзя.
Странный вопрос: а не появилось ли в последнее время новой периферии или устройств, способных мусорить высокочастотными помехами в электросеть или в цепи питания этого сервера? Я понимаю, что вставлять в сервер люминесцентные лампы, скорее всего, в голову никому не пришло, но вдруг.. Внешний диск с китайским БП, экономичная лампочка в светильнике, воткнутом в тот же удлинитель?
Интересная мысля, да. Да,
Интересная мысля, да.
Да, новая периферия есть, это WiFi Dongle Asus (не помню фамилию, если сейчас выдерну посмотреть - паду от руки дочери).
Он появился примерно в то же время, что и начало проблем. Более того, и сам "проблемный" - в одной USB-дырке не инициализируется, в другой - компьютер не грузится (подозреваю, что питания оно многовато жрет), в остальных четырех что есть на жопе у мамки - работает.
Попробую его извести (BTW, сегодняшнюю ночь пережили без засыпаний), хотя вот придется вернуть старый роутер от которого я столь счастливо избавился.
По питанию - в этот же UPS влез 1G свитч длинковский (вместо вышеупомянутого роутера Netgear), но дело скорее именно в донгле (если мы предполагаем аппаратные проблемы)
Ну, можно попытаться
Ну, можно попытаться поэкспериментировать и без уничтожения донгла: взять usb-удлинитель хотя бы в полметра и надеть на него ферритовую муфту. Или, если есть большое ферритовое кольцо (в чем я сомневаюсь) - продеть шнур удлинителя через него раза два. ВЧ-мусор такая конструкция должна существенно уменьшить. Симптомы "не инициализируется, либо не грузится" - хреновые, я бы лично такой кошмар в материнку непосредственно не совал бы в любом случае, только через self-powered hub.
Не инициализируется/не
Не инициализируется/не грузится - это питания не хватает скорее всего.
Кольцо ферритовое должно быть, попробую.
А если заводить хаб с питанием - то проще вернуть точно работающий внешний Wifi. У меня ресурс - розетки (их хватает, но лишние питальники воткнутые в - выбешивают).
Ну э.. У блока питания
Ну э.. У блока питания наверняка есть еще один свободный канал питания, на котором есть 5В. Хаб с таким питанием - реален. Спаять molex->USB - этож всего два провода. Конечно, это может быть шило на мыло, но с отдельным каналом питания - не обязательно.
А втыкать такое прямо в мать не хочется, потому что "не хватает питания", ведущее к "не грузится" может вести также и к выгоранию контроллера USB.
Ну насколько я понимаю, USB3
Ну насколько я понимаю, USB3 порты отдают, по спецификации, 0.9А, а USB2 - 0.5
И свисток в USB3-портах работает, а в USB2 - нет.
Но уговорили, уже достал из шкафа старый Wifi-adsl-роутер, буду ставить, а свисток изведу.
1) Вынес свисток 2) Убрал все
1) Вынес свисток
2) Убрал все изменения с таймерами и acpi throttle, которые были сделаны с начала мая
3) замененную вчера память - оставил замененной.
Жду утра.
Как результаты?
Как результаты?
Живы пока. Кто виноват,
Живы пока.
Кто виноват, память или свисток - буду разбираться через месяц.
sysutils/dmidecode показывает
sysutils/dmidecode показывает версию bios и название матери.
а что, kenv не показывает, в
а что, kenv не показывает, в районе smbios. ?
У меня внешний usb-цап
У меня внешний usb-цап подключенный к нетбуку "сыпется" когда на этом самом нетбуке wifi включен. Сыпется это такие звуковые артефакты схожие с переполненнением буфера. Долго я это искал.