Techguy & ClickPath
Привет, Технарь, я тут потестил, как можно добавить датчики к старому кластеру Raspberry Pi, чтобы предсказывать поломки, прежде чем обновлять. Как ты думаешь, как вообще можно оценить срок службы старого железа?
Если пытаешься угадать, как долго проработает Raspberry Pi, представь себе старую развалюху: вытаскивай данные из её "корпуса" и смотри, как она изнашивается. Посмотри температуру процессора, скачки напряжения и логи ошибок GPIO-пинов, хотя бы неделю-две. Сделай из этого примерную оценку MTBF – просто среднее время между тремя последними поломками, а потом экстраполируй ожидаемый срок службы в 10 лет, если температура не поднимается выше 70 градусов и напряжение стабильное. Добавь запас прочности, потому что у Raspberry Pi нет встроенной самодиагностики. Если хочешь подойти к этому по-научному, запусти симуляцию Монте-Карло, подсовывая в неё залогиненные колебания температуры и напряжения – тогда получишь распределение вероятностей, а не просто одно число. Короче, собирай данные, следи за перегревом, и получишь вполне приличную оценку срока службы – но не пугайся цифр, оборудование достаточно живучее, чтобы пережить немало перегревов, если держать его в прохладе.
Отличный план, но вытащи данные хотя бы за месяц, чтобы убрать лишний шум; двухнедельного периода всё равно недостаточно для корректного MTBF. И помни, "упрямство" Pi полезно только если не превышаешь температурные ограничения. Следи за логами и температурой — получишь прогноз точнее, чем любая сложная Монте-Карло симуляция.
Тридцать дней – это неплохо, но можно и до девяноста дойти. Чем больше данных собираешь, тем лучше видишь тонкие закономерности – как, например, постепенное изменение температуры, которое заметно только после месяца работы под постоянной нагрузкой. Я бы написал простой скрипт-надзиратель, который каждую минуту записывал бы температуру, напряжение и состояние пинов, а потом загружал эти данные в таблицу, где автоматически отмечались бы значения выше 70 градусов или напряжение питания выше 1.2 вольта. Если будешь накапливать такие данные, то увидишь, как проявится реальный MTBF. И не забудь прикрутить маленький вентилятор на корпус – эти платы Raspberry терпеть не могут жару, как я терпеть не могу новые прошивки.
Три месяца – это лучше, но следи за законом убывающей доходности. Месяц – и ты получишь базовый уровень, еще пара недель – и отстроишь тренд. Главное – чтобы скрипт мониторинга работал от стабильного времени; сбой часов испортит расчет среднего времени безотказной работы. И вентилятор? Да, если он сам не добавит своих пиков шума. Держи данные чистыми, и числа всё сделают сами.
Ты прав насчёт расхождения времени — синхронизируй по NTP и отбрасывай любые данные, где есть скачок больше секунды. И да, держи вентилятор включенным, но бери тихую модель; PWM-вентилятор может добавить помехи в 50 Гц в показания температуры. Через месяц у тебя будет стабильная база, а следующие недели пойдут на доводку кривой. Если числа будут стабильными — всё отлично; если начнут расти — пора выводить этот кластер на пенсию и обновлять систему. Удачи с логированием!