Научно-техническая мифология 

Научно-техническая мифология

Стандарт IEC 61508 абсолютно справедливо определяет мерой жизнеспособности различных архитектур систем безопасности не количество работающих процессоров, а количество работающих каналов.

Тем не менее, ряд заинтересованных исследователей и после формального утверждения стандарта в 2000 году продолжают интерпретировать положения стандарта весьма своеобразно. В качестве примера разберем две статьи доктора Бэк-мана - большого энтузиаста квадро архитектуры фирмы HIMA. Первая из статей:

The New Quad Architecture: Explanation and Evaluation, Lawrence V. Beckman, Mr., Dr. 2001, SafePlex Systems Inc, HIMA Exclusive distributor, начинается с эффектной картинки отказоустойчивой Quad Архитектуры 2оо4:

Quad Architecture

Рис. 1.12

Аргументация Бэкмана в пользу мифических систем типа "2оо4п настолько необыкновенна, что требует адекватного ответа буквально по каждому пункту.

Пункт №1 - Безграничное время.
"The new Quad (QMR) Architecture is a major breakthrough in safety performance. This architecture provides four (4) processors - two per channel, and remedies problems associated with dual processor architectures, as regards the dangerous undetected failure of one of the two (dual) processors. Please refer to Figurel for additional information. Both pairs of active processors operate synchronously with the same user program. A hardware comparator and a separate fail-safe watchdog monitors the operation of each pair of processors to diagnose and resolve anomalies. As such, this architecture can operate at the SIL3 (RC6) level on either one or both channels, for an unrestricted period of time. It achieves a significant increase in both safety and availability which exceeds that provided by TMR architectures by a factor of three. In addition, it has significantly less susceptibility to common cause failure because of the absolute separation, isolation and operation of the redundant channels. Please see Figure 2 for more details on the HI Quad Architecture".

Попробуем перевести как можно ближе к оригиналу:

"Новая Quad (QMR) архитектура является главным прорывом в исполнении безопасности. Эта архитектура обеспечивает четыре (4) процессора - ДВА НА КАНАЛ, и снимает проблемы, связанные с двухпроцессорной архитектурой по отношению к опасным необнаруженным отказам одного из двух (ДУБЛИРОВАННЫХ) процессоров. Пожалуйста, обратитесь к Figure 1 за дополнительной информацией (рис. 1.12- даже интересно, что ж такого на этой переводной картинке можно увидеть - Ю. Ф.). Обе пары процессоров синхронно выполняют одну и ту же пользовательскую программу. Аппаратный компаратор и отдельный отказоустойчивый сторожевой таймер отслеживают работу каждой пары процессоров с целью выявления и обработки отклонений. Таким образом, эта архитектура может работать при уровне SIL3 (RC6) на одном или на двух каналах В ТЕЧЕНИЕ НЕОГРАНИЧЕННОГО ПЕРИОДА ВРЕМЕНИ. Она (данная архитектура) достигает значительного увеличения, как безопасности, так и готовности, которые превосходят эти показатели для троированных архитектур TMR В ТРИ РАЗА. Кроме того, она (данная архитектура) имеет значительно меньшую подверженность отказам общего порядка из-за абсолютного разделения, изоляции и работы резервированных каналов. Пожалуйста, посмотрите на Figure 2 (рис. 1.13) для большего количества деталей архитектуры HI Quad".

Относительно "неограниченного периода времени" было и еще будет сказано достаточно и вполне определенно по ходу настоящей работы. Доктор не замечает, что до беззаботного одноканального пребывания по американскому образцу еще надо дожить: если на выходе одного из управляющих модулей - ноль, а на выходе другого - единица, то кому в этой жизни вообще можно верить?

Рис. 1.13

Как мы увидим, именно этим обстоятельством определяется жесткая позиция TUV при ЛЮБОМ расхождении в результатах работы модулей управления. Выполнение рекомендаций TUV конкретно для систем HI Quad дает возможность встретить опасность на самых ранних подступах. Вот что говорит по этому поводу документ фирмы HIMA "Survey Current status", VM 9842, Manuals 02.2000, стр. 28:

"В том случае, если данные в ДВУХ центральных модулях отличаются, и причина отказа определена программой самодиагностики, то происходит:
A) отключение ОБОИХ модулей, или работа на одном канале в течение 1 часа.
Если причина расхождения не определена, то происходит:
B) отключение ОБОИХ центральных модулей".

Высший уровень самодиагностики архитектуры 1oo2D (в том числе и ее модификации типа 2*2) для того и создан, что если уж возникает необходимость восстановления исходной конфигурации, то она ДЕЙСТВИТЕЛЬНО возникает.

И это не недостаток, а одно из основных преимуществ архитектуры. Тем не менее, эксклюзивный дистрибьютор продолжает старую песню о главном - о неограниченной однока-нальной работе. Все это можно было бы считать курьезом саморекламы, если бы не означало фактический призыв к созданию предпосылок аварийной ситуации: при одноканальной работе резко возрастает вероятность и опасного отказа, и ложного срабатывания.

Пункт №2 - Тройное превосходство.
По поводу "показателей, В ТРИ РАЗА превосходящих троированные архитектуры TMR" у нас еще неоднократно будет возможность убедиться, что соотношение 1:3 соблюдается только для обычных архитектур 1oo2D и 2ооЗ.

Архитектуры "2оо4" по вероятности отказов уступают и архитектурам 1oo2D, и архитектурам с тройным модульным резервированием. Это связано с тем, что дублированные системы 1oo2D и системы тройного модульного резервирования (TMR - Triple Modular Redundancy) на самом деле таковыми и являются, то есть системами с двойным и тройным МОДУЛЬНЫМ резервированием (по крайней мере - центральная часть). А вот системы с архитектурой 2*2 (QMR - Quad Modular Redundant) на самом деле УЧЕТВЕРЕННОГО МОДУЛЬНОГО РЕЗЕРВИРОВАНИЯ НЕ ИМЕЮТ, а имеют обычное дублирование модулей по схеме 1оо2.

Принадлежность к семейству систем 1oo2D само по себе, и без искусственного учетверения превращает системы QMR "2оо4" в системы с очень хорошими характеристиками. Тем не менее, при вычислении конкретных вероятностей отказа выясняется, что архитектура 2*2 ("2оо4") при прочих равных условиях все же несколько уступает даже архитектуре 2ооЗ.

В последующем автор идет еще дальше (см. Пункт №6). Утверждается, что архитектура QMR "2оо4" превосходит и архитектуру 1oo2D, и архитектуру TMR не в три раза, а на порядки, поскольку базовая частота отказов входит в уравнения вероятности отказа архитектуры "2оо4и уже не во второй, а в третьей степени! Но читаем далее:

"Operation under Fault Condition
For safety applications, single channel systems (1-0) are not fault tolerant and must fail safe. Dual architectures can either operate fail safe (2-0) or degrade to single channel operation (2-1-0) under specific fault conditions, and with severe time limitations as defined in their safety certification report".

Соответствующий перевод:

"Действия в условиях отказа.
По отношению к приложениям, связанным с безопасностью, одноканальные системы (1-0) не являются отказоустойчивыми, поэтому должны совершить безопасный останов. Дублированные архитектуры могут работать как в безопасном режиме (2-0), так и в одноканальном режиме (2-1-0) при определенных условиях отказа, и с серьезными временными ограничениями, как определено в их отчете о сертификации безопасности".

Просто замечательно, что даже не упомянуты системы с архитектурой 1oo2D, к семейству которых принадлежит и сама архитектура QMR "2оо4"!

Пункт №3 - Аббревиатура QMR.
Еще раз: аббревиатура QMR - Quad Modular Redundant - совершенно не соответствует действительности. Архитектура QMR "2оо4и вовсе не имеет учетверенной модульной избыточности, а имеет обычную, двойную. И это хорошо видно по Figure 2 (рис. 1.13). Читаем далее:

"Both the TMR (3-2-0) and Quad (4-2-0) architectures degrade to a 2-0 mode of operation after the first fault. However, the Quad (QMR) architecture retains its comprehensive internal diagnostics, has no time restrictions while operating in this mode, and provides full SIL3 (RC6) protection as well. Please refer to Figure 3 for a table of operating scenarios after the First Fault".

"И TMR (3-2-0), и Quad (4-2-0) архитектуры деградируют к режиму работы 2-0 после первого сбоя. Однако, Quad (QMR) архитектура, сохраняя свою изощренную внутреннюю диагностику, не имеет временных ограничений при работе в этом режиме, и продолжает обеспечивать полноценную защиту по SIL3 (RC6). Пожалуйста, обратитесь к Figure 3 (рис. 1.14) за таблицей сценариев работы после первого отказа".
Рис. 1.14

Вполне возможно, что отсутствие временных ограничений существовало до принятия стандарта IEC 61508, и скорее было рассчитано на людей, не слишком искушенных в автоматизации.

Авторская позиция, полностью совпадающая с нынешними рекомендациями TUV, однозначна: как неоднократно подчеркивается на протяжении всей настоящей работы, неограниченное время одноканальной работы - прямой путь к аварии.

Пункт №4 - Сценарий первого отказа.
Автор статей приводит схемы деградации различных архитектур систем безопасности после первого отказа. Сразу необходимо сказать, что последняя строка Figure 3 (рис. 1.18) НЕ СООТВЕТСТВУЕТ ДЕЙСТВИТЕЛЬНОСТИ:

Как и все системы 1oo2D, QMR "2оо4" никак не может деградировать к своему исходному состоянию 1oo2D. Как и все системы 1oo2D, QMR "2оо4" может деградировать только к состоянию 1oo1D. И в данном случае символ D в кодировке 1oo1D символизирует особый способ самодиагностики путем сравнения результатов работы двух процессоров на одном управляющем модуле. Утверждение энтузиастов архитектуры "2оо4", что система деградирует к состоянию 1оо2 никак нельзя признать корректным, поскольку оно совершенно неплодотворно, и не привносит в архитектуру никаких дополнительных преимуществ. Алгоритмы действий систем 1oo1D и 1оо2 (1+1) в случае отказа тождественны: питание с выходных цепей снимается, и происходит программно неконтролируемый физический останов процесса.

Пункт №5 - Одноканальный дубль.
Затем в статье приводятся уже совершенно неопровержимые аргументы в пользу архитектуры Quad (QMR) "2оо4":

"The Quad (QMR) architecture provides a pair of dual processors operating in the safety (2-0) mode for each channel. The resulting significant increase in diagnosability of the operation of these processors has in fact completely remedied safety concerns related to dangerous undetected failure of the processors, and consequently the removal of all time restrictions on single channel operation of the system".

И сказано здесь буквально следующее:

"Quad (QMR) архитектура обеспечивает пару дублированных процессоров, работающих в безопасном (2-0) режиме для каждого канала. Результирующее значительное увеличение diagnosability, пардон, диагностируемости работы этих процессоров фактически полностью снимает "озабоченности" безопасностью, имеющие отношение к не выявленным опасным отказам процессоров, и, следовательно, снимает все временные ограничения на одноканальнуюработу системы".

Оптимизм, высказанный здесь с таким энтузиазмом, не имеет под собой абсолютно никаких оснований. В том и состоит проблема опасных отказов, что часть из них до окончания межтестового интервала остаются необнаруженными. Доказать абсолютное отсутствие опасных необнаруженных отказов "по любому" просто невозможно. И доказывать таким образом отказ от временных ограничений просто несерьезно. Преимущества способа диагностики посредством сравнения двух идентичных элементов в архитектуре 1оо2 по сравнению с физической диагностической цепью архитектуры 1oo1D могут быть вполне эфемерными, или просто мифическими.

Именно с этим обстоятельством связано применение самых изощренных способов альтернативной диагностики по всему тракту преобразования входного сигнала в выходной, какие мы наблюдаем в схемах систем класса 1oo2D, и к которым, собственно, и принадлежит сама система QMR. Вообще необходимо предостеречь потенциальных пользователей от того, чтобы абсолютизировать все решения TUV, на которые мы все с таким удовольствием ссылаемся.

Как известно, чтобы доказать нечто, необходимо это нечто доказать. А чтобы опровергнуть, достаточно привести всего лишь один пример, противоречащий утверждению. Но мы приведем сразу два очень показательных примера. К примеру, можно задать любопытный вопрос:

Почему одноканальная система 1oo1D Quadlog (см. рис. 1.15), которая в отличие от одноканального варианта системы QMR "2оо4" имеет ДВА САМОСТОЯТЕЛЬНЫХ МОДУЛЯ управления, и точно так же осуществляет межпроцессорное взаимодействие, при этом даже не пытается использовать данное преимущество? И почему не объявляет себя системой 1 oo2D с неограниченной во времени работой - хотя бы с це-лью рекламы? ЭТА СИСТЕМА С ДВУМЯ РАЗДЕЛЬНЫМИ МОДУЛЯМИ УПРАВЛЕНИЯ отнесена не к архитектуре 1oo2D, а к архитектуре 1oo1D. И аттестована эта система изначально по RC4 и SIL2 без нелепых разрешений на "безграничную" работу по любому классу. А ведь вполне можно было бы декларировать аббревиатуру 1oo2D по аналогии с логикой Figure 3 (рис. 1.14):

Рис. 1.15

Вполне очевидно, что создателям системы Quadlog прос