Сбои и отказы 

Сбои и отказы

Сбой (Fault). Ненормальная ситуация, которая может привести к снижению или потере способности функционального узла к выполнению предопределенной функции, то есть к отказу.

Отказобезопасность (Failsafe - ISA 84.01-96). Способность системы к переходу в предопределенное безопасное состояние в случае своего собственного отказа.

Важное замечание
Для систем безопасности на опасных технологических процессах в данное определение вкладывается не сразу осознаваемый, но крайне неприятный смысл: в случае так называемого безопасного отказа системы безопасности процесс переводится в "безопасное состояние", которое, по сути, является состоянием немотивированного, ложного останова процесса.

Устойчивость к сбоям, Отказоустойчивость (Fault tolerance).
IEC 61508: Способность функционального узла продолжать выполнение требуемой функции в присутствии сбоев и ошибок.
ISA 84.01-96 в очередной раз дает абсолютно точное определение: Встроенная способность системы обеспечивать непрерывное и корректное выполнение предопределенных функций в присутствии ограниченного количества программных и аппаратных сбоев.

Примечание

Следует иметь в виду, что понятия Резервирование и Отказоустойчивость несколько отличаются одно от другого:

  • Системы с резервированием имеют самостоятельно выделенные дублированные (или более того) элементы, а также ручные или автоматические средства для выявления отказов и переключения на резервные элементы.
  • Комплектные отказоустойчивые модули или системы имеют внутренне резервированные (параллельные) компоненты и встроенную логику для выявления и обхода неисправностей без негативного воздействия на выходы.

Отказ (Failure). Прекращение способности функционального узла к выполнению предопределенной функции. Отказ должен определяться системой, иметь возможность исправления или замены on-line без воздействия на функциональность системы как до, так и после восстановления (замены).

Случайный отказ оборудования {Random hardware failure). Отказ, проявляющийся в произвольный момент времени, приводящий к запуску одного или более механизмов скачкообразной деградации оборудования. Реальные условия работы оборудования приводят к тому, что элементы системы отказывают по разным механизмам отказа и в произвольные моменты времени. Поэтому оценить можно всего лишь частоту отказов, но не конкретные моменты их появления.

Систематический отказ (Systematic failure). Отказ, проявляющийся вполне определенным образом по определенной причине, от которой можно избавиться только изменением конструкции, технологических процедур, документации, или других определяющих факторов. Систематические отказы иногда могут быть устранены путем моделирования причин и условий отказа. Однако профилактическое обслуживание без внесения радикальных изменений, как правило, не устраняет первопричины отказа.

В стандарте IEC 61508 приводятся следующие примеры причин систематических отказов:

  • Ошибки спецификации.
  • Ошибки конструкции, технологии производства оборудования, пуско-наладки, условий эксплуатации.
  • Ошибки проекта, разработки, программного обеспечения.

Главная разница между случайными и систематическими отказами заключается в следующем:

  • Частота отказов системы, возникающая в результате случайных отказов элементов оборудования, в отличие от систематических отказов, как это ни парадоксально, может быть предсказана с приемлемой точностью.
  • Систематические отказы системы, которые появились вследствие случайных отказов оборудования, также можно оценить. Но отказы системы, которые возникли в результате систематических ошибок, очень сложно оценить статистически, поэтому наличие и проявление систематических отказов трудно предсказать - они детерминированы.

Следующие два определения настолько важны, что приведем их формулировки из стандарта IEC 61508, Part 4 "Definitions and abbreviations", Стр. 41, целиком:

"3.6.7. Dangerous failure
Failure which has the potential to put the safety-related system in a hazardous or fail-to-function state
NOTE - Whether or not the potential is realized may depend on the channel architecture of the system; in systems with multiple channels to improve safety, a dangerous hardware failure is less likely to lead to the overall dangerous or fail-to-function state". "3.6.8. Safe failure
Failure which does not have the potential to put the safety-related system in a hazardous or fail-to-function state
NOTE - Whether or not the potential is realized may depend on the channel architecture of the system; in systems with multiple channels to improve safety, a safe hardware failure is less likely to result in an erroneous shutdown".

И перевод:

Опасный отказ (Dangerous failure). Отказ, который имеет потенциал привести систему безопасности к опасному состоянию, или к неспособности осуществлять функции защиты.

Замечание создателей стандарта
Будет или не будет реализован этот потенциал, может зависеть от архитектуры каналов системы. В системах с несколькими каналами для увеличения безопасности менее похоже (?! - так и написано - is less likely, - Ю. Ф.), что опасный отказ оборудования приведет к общему опасному состоянию, или к неспособности осуществлять функции защиты.

"Безопасный" отказ (Safe failure). Отказ, который не имеет потенциала привести систему безопасности к опасному состоянию, или к неспособности осуществлять функции безопасности.

Замечание создателей стандарта
Будет или нет, реализован этот потенциал, может зависеть от архитектуры каналов системы. В системах с несколькими каналами для увеличения безопасности менее похоже (так и написано - is less likely, - Ю.Ф.), что безопасный отказ оборудования приведет к ошибочному останову.

Важное замечание
За этой, вроде бы успокаивающей и обтекаемой формулировкой кроется крайне опасный смысл, который не сразу обнаруживается. Гораздо "более похоже", что "безопасный" отказ в лучшем случае будет означать ложный останов производства. Можно сказать, что Safe failure - это самый неудачный термин стандартов МЭК для тех, кто использует оборудование и системы безопасности. Фактически он означает самоустранение - "безопасность" самой системы безопасности от технологического процесса.

Ложное срабатывание (Spurious trip, nuisance trip, false shut down). Ложное, беспричинное срабатывание блокировки, или немотивированный останов процесса по причинам, не связанным с действительными событиями на процессе (см. ANSI/ISA 84.01-1996, стр. 22, п. 3.1.59).

В стандарте IEC 61508 определение ложного срабатывания отсутствует.

Ложное срабатывание может произойти по множеству причин:

  • По причине отказа оборудования;
  • Ошибки программного обеспечения;
  • Ошибки обслуживания, неправильной калибровки;
  • Отказа полевого оборудования;
  • Отказа модулей ввода-вывода;
  • Отказа центрального процессора;
  • Электрического сбоя;
  • Электромагнитной наводки и т. д.

Сбой общего порядка (общей причины) - ISA 84.01 (Common cause fault). Единый источник, единая первопричина, которая может привести к отказу группы элементов системы. Единый источник отказа может быть как внутренним, так и внешним по отношению к системе.

Отказ общего порядка (общей причины) - IEC 61508 (Common cause failure). Редчайший случай, когда определение IEC 61508 оказывается лучше определения ISA 84.01:

Отказ, который является результатом одного или нескольких событий, приводящих к одновременному отказу двух или более отдельных каналов в многоканальной системе, приводящему к отказу системы в целом.

Примеры общих отказов:

  • Неквалифицированное обслуживание;
  • Не откалиброванные единичные датчики;
  • Коррозия, эрозия деталей клапанов;
  • Забивка импульсных линий;
  • Неблагоприятные условия окружающей среды;
  • Перебои электроэнергии;
  • Электромагнитное воздействие и т.д.

Как мы видим, основные причины отказов, которые оказывают общее катастрофическое воздействие на систему безопасности, это:
 Люди. Вне конкуренции.
 Полевое оборудование.
 Энергообеспечение.

Причины разных отказов существенным образом пересекаются и, как правило, вызывают их нарастание. Экономия на подготовке квалифицированного персонала, на модернизации полевого оборудования с использованием современных средств оперативной диагностики (Plant Asset Management), на резервировании ключевых компонентов системы, на источниках бесперебойного электропитания и кондиционировании рабочей среды сводит на ноль любые затраты на суперсовременное основное оборудование АСУТП.

Ошибка {Error). Расхождение между вычисленным, наблюдаемым или измеренным значением или условием, и правильным, специфицированным, или теоретически ожидаемым значением или условием.

Человеческая ошибка (Human error). Человеческое действие или бездействие, которое может привести к негативным результатам.

Вскрытый сбой, или отказ (Detected, Revealed, Overt fault).
Определение IEC 61508: По отношению к оборудованию - это ошибки, которые могут быть классифицированы как определенные, объявленные, проявленные, выявленные с помощью диагностических тестов, поверочного тестирования, вмешательства оператора. (Во время нормальной эксплуатации, или во время физической инспекции и ручного тестирования).
Определение ISA 84.01: Ошибки, которые могут быть классифицированы как определенные, объявленные, проявленные.

Скрытый сбой, или отказ {Undetected, Unrevealed, Covert fault).
Определение IEC 61508:
По отношению к оборудованию - это ошибки, которые могут быть классифицированы как скрытые, не проявленные, не определенные, не выявленные с помощью диагностических тестов, поверочного тестирования, вмешательства оператора. (Во время нормальной эксплуатации, или во время физической инспекции и ручного тестирования).
Определение ISA 84.01: Ошибки, которые могут быть классифицированы как неопределенные, необъявленные, не проявленные.

Останов по отключению питания (De-energize to trip).
Определение ISA 84.01 (в IEC 61508 отсутствует):
Отключение источника питания (электроэнергия, воздух КИП), приводящее к переводу процесса в безопасное состояние по физически предопределенной последовательности операций. Предполагается, что в нормальных условиях выходные цепи системы защиты запитывают выходные устройства.

Останов по включению питания (Energize to trip). Включение источника питания (электроэнергия, воздух КИП), приводящее к переводу процесса в безопасное состояние по физически предопределенной последовательности операций. Предполагается, что в нормальных условиях выходные цепи системы защиты не запитывают выходные устройства.

Запрос, потребность (Demand). Условие, или событие, которое требует от системы защиты предпринять соответствующие действия, направленные на предотвращение опасного события - как от появления, так и от распространения последствий опасного события.

Степень диагностического охвата (Diagnostic coverage). Доля уменьшения вероятности опасного отказа оборудования в результате автоматического диагностического тестирования.
Согласно ISA 84.01-96 определяется, как отношение количества обнаруживаемых средствами диагностики системы защиты сбоев к общему количеству сбоев.
Согласно IEC 61508 - доля уменьшения вероятности опасных отказов за счет автоматического диагностического тестирования. Определяется отношением суммарной частоты обнаруженных опасных отказов к общему количеству опасных отказов:

Повышение степени диагностического охвата DC имеет первостепенное значение для систем управления и защиты технологических процессов. В современных системах DC может достигать уровня 99,95%.

Деблокировка, байпас, обход блокировки (Bypassing) -термин ISA 84.01. Действие по временному отключению функции защиты в системе. Осуществляется по инициативе обслуживающего или оперативного персонала с целью диагностики, определения неисправности системы, технического обслуживания и ремонта.

Принудительное изменение состояния входов-выходов (Forcing). Функция системы, которая дает возможность изменить состояние входов-выходов системы в обход прикладного программного обеспечения.

Функциональное тестирование (Functional testing). Периодически проводимые проверки работоспособности технического и программного обеспечения системы на соответствие Спецификации требований безопасности.

Аппаратная реализация (Hard-wired). Схемные решения; работа оборудования без применения программных средств.

Предупредительное обслуживание (Preventive maintenance). Практика технического обслуживания, при которой оборудование обслуживается в соответствии с фиксированным графиком по рекомендациям производителя оборудования или на основе накопленного опыта работы и статистики отказов.

Доля (фракция) безопасных отказов (Safe Failure Fraction - SFF). Стандартом IEC 61508 не определяется. Доля безопасных отказов устройства или подсистемы определяется ка