Сравнение схем деградации архитектур 1oo2D и 2ооЗ 

Сравнение схем деградации архитектур 1oo2D и 2ооЗ

Один из не убиенных аргументов, которых превозносится нашими перепродавцами оборудования в качестве неоспоримого преимущества, выдвигается тот, что система 2ооЗ теоретически позволяет продлить свой жизненный цикл до трех шагов деградации: 3-2-1-0 (Характерно, что западные сторонники и пропагандисты систем 2ооЗ его старательно избегают). Однако необходимо быть осведомленным, что в кон-це пути придется рассчитаться, и расплачиваться придется по гамбургскому счету.

Необходимо помнить, что ПРИНЦИП ДИАГНОСТИКИ СИСТЕМЫ 2ооЗ - ГОЛОСОВАНИЕ. Поэтому после отказа одного из каналов 2 оставшихся в работе канала системы 2ооЗ - ЭТО НЕ РЕЗЕРВИРОВАНИЕ, а последний рубеж, на котором система сохраняет возможность самодиагностики.

Для архитектуры 1oo2D, в отличие от архитектуры 2ооЗ, таким рубежом является одноканальная работа по схеме 1oo1D.

При этом канал полностью контролируется диагностическими цепями. Если восстановление системы 1oo2D в течение предопределенного интервала времени не произошло, производится программно-контролируемый останов производства.

Совсем иная ситуация с переходом на одноканальную работу системы 2ооЗ. В случае отказа одного из двух оставшихся в работе элементов исчезает и возможность самодиагностики. И лучшее, что вы можете сделать - немедленно отключить систему, снять питание с выходов и физически остановить процесс. Причем о восстановлении исходной конфигурации в течение 1 часа не может быть и речи:

Если вы не удосужились восстановить конфигурацию 1 оо2 до исходного состояния 2ооЗ в течение нескольких месяцев, смешно рассчитывать, что вы сможете это сделать из непредсказуемой конфигурации lool в течение 1 часа, тем более после только что произошедшего по неизвестной причине отказа второго процессора.

Эту особенность двухканальной работы системы 2ооЗ можно отметить как схему деградации 3-2-(1-0), чтобы подчеркнуть тот факт, что предпоследний канал скорее мертв, чем жив. По отношению к схеме деградации 3-2-1-0 создатели систем 2ооЗ находятся в патовой ситуации:

  • С одной стороны, - хочется продлить "путь к последнему приюту" до однопроцессорной работы, но тогда придется создавать уровень самодиагностики, соответствующий уровню систем 1oo1D и 1oo2D.
  • А с другой, - создание этих дополнительных диагностических цепей дискредитирует саму идею голосования, как попытку обойтись малой кровью.

Если чисто гипотетически разрешить архитектуре 2ооЗ деградацию до одноканальной работы, то после первого отказа система переходит на работу по схеме 1оо2, и здесь возникает совершенно курьезная ситуация:

Отказ одного из каналов архитектуры 2ооЗ приводит к трехкратному уменьшению вероятности опасного отказа системы! Напрашивается детский вопрос: Так может, в таком случае и изначально система 2ооЗ должна работать в двухка-нальном варианте? Как мы неоднократно будем иметь возможность убедиться на протяжении настоящей работы, это предложение имеет под собой серьезные основания: Система 2ооЗ в архитектурном отношении является избыточной. Действительно, если продлить разрешение для двух оставшихся каналов работать по схеме деградации 2 - 1 - 0, то вероятностьповторногоопасногоотказасоставит Р1оо2 = Р2оо3 / 3 . Но, к сожалению, при этом одновременно с уменьшением вероятности опасного отказа, вероятность ложного срабатывания становится максимально возможной из всех существующих архитектур:

Для архитектуры 1оо2 вероятность ложного срабатывания в два раза выше, чем для одноканальной системы lool. Тем не менее, система 2ооЗ такова, какова она есть, и безопасной она может быть только при работе по схеме 3-2-0, и не нужно пытаться выжать из нее больше, чем она может дать. Схема деградации 3-2-1-0 - не более чем рекламный трюк. И не дай Бог пытаться проверить его на практике.

Необходимо ясно понимать, что два работающих канала системы 1oo2D, и два работающих канала системы 2ооЗ - это две большие разницы. Для архитектуры 2ооЗ, два оставшихся в работе процессора после первого отказа - это не резервирование, а средство самодиагностики.

Отказ любого из них означает отказ системы и немотивированный физический останов процесса.

Именно по этой причине стандартно после первого отказа система 2ооЗ переходит на работу по схеме 2-0, прямо указывая на необходимость немедленного восстановления исходной конфигурации.

Формальное "разрешение" одноканальной работы для архитектуры 2ооЗ, аттестуемой по максимальным для перерабатывающих отраслей промышленности категориям RC6 (DIN), SIL3 (IEC 61508, ISA 84.01), чревато еще более серьезными последствиями, чем изначальная установка пресловутых "безграничных" систем 1oo1D на объектах с уровнем требований RC6 и SIL3. Именно поэтому потенциальная возможность перехода от схемы 2ооЗ через схему 1оо2 к схеме lool никогда не может стать даже потенциальной реальностью. Как только отказывает один из каналов системы 1оо2, система тут же самоустраняется, и снимает с себя всякую ответственность за ложный физический останов. Для систем с архитектурой 1оо2 единственный рациональный алгоритм действий после отказа одного из двух каналов - это полный останов:

  1. Снять питание с выходов. Тем самым
  2. Запустить полный программно-неуправляемый аппаратный останов процесса.
  3. Провести автономное восстановление системы:
    - Замена отказавших модулей,
    - Автономное тестирование,
    - Запуск системы и тестирование в рабочем режиме (on-line).

Ровно таков алгоритм действий и одноканальной системы с самодиагностикой - loo ID. Поэтому применение систем 1оо2, равно как и систем 1oo1D, ограничивается всеми авторитетными надзорами классом RC4 (DIN), и интегральным уровнем безопасности SIL2 (IEC 61508, ISA 84.01-96).

Так в чем же разница между архитектурами 1oo1D и 1оо2 и полной конфигурации, и архитектурой 2ооЗ после частично-ю отказа? И в архитектурном, и в функциональном отношении - ни в чем. Более того, схема 1oo1D в своем классическом представлении (рис. 1.25) при определенных условиях вполне может быть даже более надежной, чем схемы с дублированными процессорами (рис. 1.26 и 1.27):

Рис. 1.25
Рис. 1.26 Рис. 1.27

При этом невозможно даже с определенностью отнести представленные конфигурации к какому-то определенному типу архитектуры:

  • Схема рис. 1.25 - это и архитектура 1oo1D, и архитектура центральной части 1oo2D после частичного отказа;
  • Схема рис. 1.26 - это и архитектура 1oo1D, и архитектура центральной части 1oo2D ("2оо4") после частичного отказа;
  • Схема рис. 1.27 - это и архитектура loo2, и архитектура 2ооЗ после частичного отказа, и даже архитектура центральной части некоторых систем loo ID (см. рис. 1.15)!

Разница состоит в интерпретации способа диагностики:

  • В одном случае диагностическая цепь или сравнение центральных процессоров интерпретируется как средство самодиагностики, и схема обозначается как 1oo1D.
  • В другом случае схема интерпретируется как схема голосования, и обозначается как архитектура 1оо2.

Но вне зависимости от интерпретации все три схемы работают совершенно одинаково:

При любом сбое в работе модуля управления питание с выходов системы снимается, и происходит физический останов процесса. TUV совершенно справедливо аттестует представленные схемы одинаково - по RC4 и SIL2.

Очевидно, что для обеих схем рис. 1.26 и 1.27 работа на одном процессоре абсолютно исключена - системы полностью теряют самоконтроль, и результат их работы становится непредсказуем.

Архитектура 1oo2D исторически возникла самой последней из известных систем, как результат многолетних поисков архитектуры, сочетающей

  • Устойчивость архитектуры1оо2 по отношению к опасным отказам (несрабатыванию),
  • Устойчивость архитектуры 2оо2 по отношению к ложным остановам,
  • И развернутой самодиагностики, и взаимной диагностики каналов.

Принцип диагностики систем 1oo2D - это не просто наличие индивидуальных диагностических цепей и на модулях ввода, и на модулях управления, и на выходных модулях. Если бы особенности архитектуры 1oo2D ограничивались только наличием диагностических цепей, система никогда не смогла бы подняться выше архитектуры 1оо2. Коренное отличие систем 1oo2D состоит в том, что перекрестная взаимопроверка каждым каналом работоспособности соседнего канала позволяет осуществить непрерывный контроль состояния соседнего капала, и в случае его отказа взять на себя управление состоянием выхода системы в целом. Именно этот принцип дает возможность сохранить полноценную работу системы на время восстановления исходной конфигурации.

Таким образом, функциональным аналогом одноканальной работы системы 1oo2D является двухканальная работа системы 2ооЗ, а не одноканальная, как могло бы показаться с первого взгляда. Причем система 1oo2D имеет дополнительное преимущество, которое выражается в том, что диагностическое резервирование осуществляется на альтернативной основе, то есть диагностические цепи используют жесткие схемные решения, построены на собственной элементной базе повышенной надежности, и предназначены для выполнения исключительно специфических задач диагностики.

Специалисты TUV хорошо понимают опасность одноканальной работы - для систем любой конфигурации. Приведем выдержку из отчета TUV по сертификации одного из контроллеров фирмы Triconex. Report-No. 968/EZ 105.03/01 "Type approval of TRICON version 9.6" от 1 сентября 2001 года, стр. 8, п. 3.2, абзац второй:

"For an application class 6 ESD system, the system is allowed to continue operation for one hour with one channel, if the other two channels have failed. This is true for applications equal or higher than class 5.

IT IS SAFER TO SHUT DOWN THE PROCESS TO THE SAFE STATE THAN TO CONTINUE OPERATION WITH ONLY ONE CHANNEL IN OPERATION FOR A PERIOD LONGER THAN THE RECOMMENDED PERIOD". Русским языком по-английски написано:

"Для использования в качестве системы ПАЗ 6 класса, системе разрешается продолжить работу на одном канале в течение 1 часа, если другие два канала отказали. Это справедливо для объектов равных, или выше 5 класса". И далее: "БЕЗОПАСНЕЕ ПЕРЕВЕСТИ ПРОЦЕСС В БЕЗОПАСНОЕ СОСТОЯНИЕ, ЧЕМ ПРОДОЛЖАТЬ РАБОТУ НА ОДНОМ КАНАЛЕ В ТЕЧЕНИЕ БОЛЬШЕГО ПЕРИОДА, ЧЕМ РЕКОМЕНДОВАННЫЙ ПЕРИОД". Приложение В данного отчета дает еще более жесткие рекомендации:

Уже при отказе ОДНОГО из трех плеч (legs) на входном, выходном модуле, или отказе центрального процессора (NОТЕ 1) настоятельно рекомендуется произвести замену отказавшего компонента в течение принятого в отрасли среднего времени на замену.

Однако Triconex трактует ситуацию с отказами по-своему:

" То keep the PFD within industry-acceptable guidelines, adherence with the recommended maximum operating period of 1500 hours in dual mode and 72 hours (SIL3/AK5) or 1 hour (SIL3/AK6) in single mode should be observed", Источник цитаты - "Safety Considerations Guide, Tricon, version 9, 2001, Triconex Corporation of Invensys Company", Chapter 3 "Fault Management, Operating Modes", стр. 41:

"Для того чтобы удержать PFD в пределах, приемлемых для промышленности, нужно руководствоваться следующими правилами:

  1. Максимальный период работы на двух каналах - 1500 часов;
  2. Одноканальная работа -
    - 72 часа для SIL3 /АК5;
    - 1час дляЖЗ/АК6."

Причем никакого обоснования этих цифр, и никаких расчетов в руководстве не приводится. К подобным рекомендациям надо подходить очень внимательно, поскольку увеличение допустимого интервала работы в неполной конфигурации выше разумных пределов приведет в лучшем случае к внеплановому останову производства.

Особенно должно насторожить, что предлагаемые правила расходятся с рекомендациями TUV. Любопытно посмотреть, что по тому же поводу рекомендует TUV для контроллера Quadlog для работы по 6 классу. Смотрим Отчет о сертификации контроллера Quadlog "Report to the Certificate U 0012 40001 003 Safety Critical Programmable Logic Solver, Siemens Energy & Automation" от 10 апреля 2003 года, таблица 2.5.1, стр. 11-16 (можно посмотреть на сайте www.sea.siemens.com/process/docs/MS122496CREV3_3.PDF):

"Shutdown of defective module and continued operation for a period of time defined by the manufacturers PFD calculation for a specific system or if no calculation is done, 72 hours(Note 1) and shutdown of the system /group after this time period". \ \ случае отказа одного из модулей:

"Отключить дефектный модуль, и продолжить работу в течение периода времени, определяемого расчетами производителя вероятности опасного отказа PFD для конкретной системы, или, если эти расчеты отсутствуют, произвести останов системы или отключение группы модулей после 72 часов".

Примечательно, что для одноканальной работы по всем классам вплоть до 6-го рекомендовано 72, а не 1 час, как для кот роллера Tricon. И замечательно, что производитель сис-I смы Quadlog не имеет ни малейшего желания воспользоваться лазейкой, и увеличить рекомендуемое время одноканальной работы ну, например, хотя бы при отказе входного модуля.

Просто люди ясно понимают, что разрешение на работу в неполной конфигурации в течение нескольких месяцев может стать гибельным для установки. Таким образом, обе системы при однократном частичном отказе имеют законное право:

  • Продолжить работу в течение предопределенного интервала времени с выдачей соответствующего сообщения, и с ожиданием оперативного восстановления исходной конфигурации.
  • Осуществить по команде оператора программно-управляемый останов процесса, если в течение предопределенного интервала времени восстановление невозможно.
  • По окончанию предопредел