Вопрос Среднее время выхода из строя (MTTF): когда производители дисков публикуют это сообщение, как следует интерпретировать их номера?


Среднее время до отказа (MTTF) обычно дается в терминах часов, и, выполняя некоторые вычисления, кажется, что диск не сработает только после того, как прошло много лет.

Кажется, что диски нуждаются в ремонте чаще всего. Кто-нибудь знает, почему это так?

Я подумал, что в этом метрике есть что-то подозрительное. Я интерпретирую здесь что-то не так?


9
2017-10-25 03:02


происхождения




ответы:


Прежде всего:

MTTF = среднее время до отказа
  MTTR = Среднее время ремонта
  MTBF = среднее время между отказами = MTTF + MTTR

MTBF часто более или менее равно MTTF, так как ремонт может занять час, а MTTF может составлять десятки тысяч часов. Но также MTBF часто неприменим, так как дефектные продукты не ремонтируются, а просто заменяются, потому что ремонт стоит больше, чем замена.

Расчет MTTF представляет собой сложный статистический метод, включающий вычисление вероятности отказа каждой отдельной части. И это не линейная вещь, которую иногда допускают люди. Если у вас есть MTTF 1000 000 часов, что не означает, что в 1000 устройств произойдет один отказ после 1000 часов или что вы получите отказ на 1000 000 устройств через 1 час.
Многие электронные устройства следуют «кривая ванны»,

enter image description here

где есть много неудач на раннем этапе, а затем долгое время с едва ли неудачами, и в конце жизни число сбоев снова возрастает. На жестких дисках также есть некоторые механические части, которые имеют более линейную кривую отказа; это медленно растет с 1-го дня.

Если производитель говорит, например, 1000 000 часов MTTF (это чаще всего POH или Power-On Hours), это означает, что в среднем диск должен длиться> 100 лет. Некоторые диски продлятся дольше, некоторые из них не будут работать раньше. Поэтому, несмотря на 1000 000 часов, вполне возможно, что после 1000 часов произойдет сбой. У меня когда-то был провал двигателя в течение недели, и тогда вам нужно подумать о кривой ванны. Сменный накопитель счастливо работает в течение 50 000 часов.


14
2017-10-25 08:19



Несколько вещей, которые стоит отметить, могут заключаться в том, что ранние неудачи часто называются ожогами. Производители, у которых значительно меньше ранних отказов, часто запускают устройства через их фазу сгорания. Кроме того, чистая электроника не проявляет износа и только горит. - Kortuk
Обратите внимание, что при вычислении MTTF (или MTBF) вы обычно используете только один дистрибутив для моделирования сбоев. Поэтому расчет основан либо на распространении «младенческой смертности», «нормальной жизни», либо «смерти от износа». Единственное, что отличает эти три распределения, это параметр формы Weibull, если вы используете Weibull в качестве основного дистрибутива. Единственный случай, когда неудачи выходят из «нормальной жизни», заключается в том, что время не будет влиять на частоту отказов, и поэтому распределение будет экспоненциальным.
MTTF в первую очередь полезен как показатель того, какую жизнь вы должны ожидать от устройства или виджета. По очевидным причинам не может быть точное предсказание даты отказа устройства. Это только оценка, основанная на статистическом анализе имеющихся данных и должна рассматриваться только как таковая. Полезно для бюджетирования (как долго я должен амортизировать или обесценивать затраты здесь) и планирование (как долго мы можем ожидать, что виджет будет выполнен, прежде чем мы получим следующий). - music2myear
Во-первых, что именно является «сбой диска»? - Kaitlyn Mcmordie
@Kaitlyn - я думаю, вы имеете в виду плохие сектора. Я бы сказал, что сбой диска - это когда вы больше не можете читать или записывать на диск. Обычно механическая ошибка, например, крушение головы. Обычно это происходит, когда у вас осталось много хороших секторов. - stevenvh


Если у части оборудования есть MTBF, использующий 1,000,000 часов, это не означает, что любое оборудование может длиться 1 000 000 часов. Скорее, это означает, что примерно 1 000 000 единиц оборудования, которые находятся в пределах их номинального срока службы, работают в течение одного часа, или 100 000 штук работают в течение десяти часов (но все еще в течение расчетного срока службы) или 60 000 000 в течение одной минуты и т. Д. в лоте будет примерно один провал. Обратите внимание, что номинальный ресурс службы является полностью ортогональным MTBF. Рассмотрим следующие два типа виджетов:

  1. Каждый виджет, независимо от возраста, имеет 0,1% шанс провалиться каждый час.
  2. Из каждого миллиарда виджетов все, кроме одного, будут действовать ровно 61 минуту, а затем умрут; что один умрет через 30 минут; виджеты имеют заданный срок службы 60 минут.

Первый вид виджета будет иметь средний срок службы около 1000 часов, а также MTBF около 1000 часов. Второй будет иметь средний срок службы 61 минуту, но MTBF составляет 1 000 000 000 часов в течение срока его службы. Хотя может показаться странным сказать, что второе устройство имеет MTBF, что почти в миллиард раз больше ожидаемого срока службы, MTBF вряд ли является бессмысленной фигурой.

Предположим, кто-то собирается провести эксперимент, который требует, чтобы 1 000 000 устройств работали отлично в течение часа, после чего все они будут утилизированы. Если какое-либо устройство выходит из строя, весь эксперимент будет разрушен. Что было бы более полезно - устройство, которое прослужит в среднем 1000 часов, но имеет MTBF всего 1000 часов, или устройство, которое продлится не более 61 минуты, но будет иметь только один из миллиардов шансов на неудачу встретить эту отметку?


4
2017-10-25 15:11



Итак, нижняя строка заключается в том, что мы не должны видеть MTBF 10 ^ 6 часов как «среднее время жизни» любого конкретного диска, а скорее как меру, касающуюся сроков жизни нескольких дисков? - Kaitlyn Mcmordie
@Kaitlyn Mcmordie: термин «пожизненное» на самом деле не применим; смерть не означает неудачи, и наоборот. Производитель устройства хранения данных может указывать процедуры, которые должны соблюдаться во избежание потери данных; такие процедуры могут включать в себя перемещение всех данных с любого устройства, которое дает индикацию «неисправности» для нового устройства (после копирования данных старое устройство считается «мертвым»). Если от такого события не происходит потеря данных, это не является провалом. Потеря данных, которая возникает с любого устройства, однако, даже, казалось бы, здоровая, является провалом. Ничего общего с жизнью. - supercat


Добавляя к ответу Стивенва: Известные производители дисков все делают перезапуск новых устройств, как и производители электронных компонентов. На жестких дисках существует не только общий MTBF и MTTF но и индивидуальную статистику сбоев для блоков дисков. Другими словами: некоторые части вращающегося диска «диск» на диске могут потерпеть неудачу, в то время как большинство все еще читает / пишет нормально. Так называемые «плохие сектора» могут быть обнаружены, а затем отображены прошивкой внутри накопителя.

Все диски сегодня содержат дополнительные секторы в резерве, которые затем могут использоваться вместо секторов дефектов. Это просто предостережение производителя: если они этого не сделают, они не смогут продать диск в объявленной емкости. Если они создают дополнительный x% скрытых секторов в качестве резерва, они увеличивают стоимость на некоторые <x%, но достигают гораздо более высокой общей производительности.

Диски сегодня содержат подсчет плохих секторов, которые также можно считывать с помощью соответствующего программного обеспечения. Этот и другие параметры здоровья диска (например, температура) называются УМНАЯ значения.

Теперь, как только производитель выполнит тест на горелку, и некоторые из секторов имеют почти сбой и были переназначены внутренней прошивкой накопителя, параметр SMART «Плохой сектор» SMART установлен на 0. Затем привод доставляется клиентам.

Как правило, после процесса ожога, уже упоминавшийся клин для ванны больше не воспринимается клиентом. Нам повезло, и мы видим только увеличение вероятности неудач с течением времени.

Поэтому, если вы посмотрите на MTTF, который цитируется производителем, для любого моделирования отказов, которое вы, возможно, захотите сделать, вы можете игнорировать начало кривой ванны.


2
2017-10-25 15:29



Спасибо. Кстати, вы понимаете, что означает термин «ошибка сервера»? - Kaitlyn Mcmordie
Очевидным значением является ошибка, с которой сталкивается компьютер, который предоставляет услуги другим. И я считаю, что это то время, когда вы должны задавать вопросы по serverfault.com ;-) Не мог найти ничего об этом в FAQ - cfi


Вы должны понимать это как маркетинг. На самом деле они не знают точного MTBF (среднее время между отказами), поэтому для их оценки используются различные трюки, и они показывают более высокие цифры для дисков предприятия, чтобы оправдать их стоимость.

На самом деле, производители HDD могут извлечь выгоду из-за сбоя своих жестких дисков после того, как гарантия закончена.

Как теория заговора, я считаю, что массовая неудача Seagate 7200.11 была ошибкой в ​​реализации «запрограммированной смерти», в результате чего диски потерпели неудачу до истечения срока гарантии, поэтому они должны были «исправить» обновление прошивки.


-2
2017-10-25 04:44



Я не покупаю этот аргумент заговора.
@Federico Russo: Почему? Вы считаете, что это обычная ошибка разработчиков, в результате чего жесткие диски блокируются в состоянии без восстановления после определенного количества часов? - BarsMonster
-1: Статистический анализ используется для определения номеров MTBF, и он известен определенной статистике - они не просто используют «различные трюки». Вам понадобятся некоторые существенные источники для подтверждения ваших утверждений о том, что корпоративные диски - это просто более высокие номера, что производители жестких дисков отказываются от своих дисков после того, как гарантия закончена, и что Seagate реализует любую «запрограммированную смерть» в своих дисках. - Kevin Vermeer
В интересах производителей дисков проявлять более высокий MTTF, чем их конкуренция. +1 - tyblu
Что именно является неисправность диска? Что для этого стоит? - Kaitlyn Mcmordie