Fehlertoleranz

Maschinenverfügbarkeit im degradierten Betrieb

Bei heutigen Sicherheitskonzepten wird bei einem sicherheitsrelevanten Fehler in vielen Fällen der sichere Zustand so schnell wie möglich herbeigeführt. Das geschieht, obwohl die meisten Sicherheitsfunktionen für höhere Sicherheitsintegritätslevel oder Performance Level redundant ausgelegt sind.

Ist es möglich, ein Automatisierungssystem trotz sicherheitskritischer Fehler weiterzubetreiben? Was ist dabei zu beachten?

Jetzt mehr erfahren!
Close Up Autoreifen an einem Auto

Wer schon einmal eine Autoreifenpanne durchlebt hat, weiß wie unangenehm das sein kann. Vor allem auf dem Weg in den Urlaub, zu einem wichtigen Termin oder nachts auf einer einsamen Landstraße. Um in solchen Fällen eine begrenzte Zeit weiterfahren zu können, hat die Reifenindustrie sogenannte „Runflat-Reifen“ entwickelt, mit denen sich – unter Beachtung einer reduzierten Geschwindigkeit – die nächste Werkstatt am Zielort anfahren lässt.

Inwieweit kann man dieses Konzept auf automatisierte Fertigungskonzepte, insbesondere im Bereich der Sicherheitstechnik, übertragen?

Sicherer Zustand

Wenn bei heutigen Sicherheitskonzepten ein sicherheitsrelevanter Fehler eintritt, wird in der Regel der sichere Zustand so schnell wie möglich herbeigeführt, obwohl die meisten Sicherheitsfunktionen für höhere Sicherheitsintegritätslevel (SIL) oder Performance Level (PL) redundant ausgelegt sind.
Beispiel: Bei einem erkannten Querschluss zwischen zwei Kanälen im Sensorkreis eines Not-Halt-Tasters werden gefahrbringende Bewegungen unmittelbar abgeschaltet.

Deshalb hat sich eine Arbeitsgruppe beim ZVEI unter Mitwirkung verschiedener Mitgliedsfirmen und einem Institut der Frage gestellt, inwieweit ein zeitlich begrenzter Weiterbetrieb eines Automatisierungssystems mit einem sicherheitskritischen Fehler aus normativer Sicht zulässig ist.

Maschinenbetrieb im degradierten Zustand

Bei verfahrenstechnischen Anlagen könnten bestimmte Fertigungsschritte mit kritischen Prozessparametern zu Ende gefahren werden, abhängig von der Anzeige beim Auftreten eines Fehlers und des angezeigten Status des „degradierten Betriebs“. Spätestens bei Erreichen der maximal zulässigen Betriebsdauer im „degradierten Zustand“ muss durch einen „Entscheider“ der sichere Zustand herbeigeführt werden.

Im Rahmen einer Fehlerarten- und Auswirkungsanalyse unterscheidet man zwischen zwei Fehlerarten. Bei nicht-tolerierbaren Fehlern kann ein sicherer Weiterbetrieb nicht gewährleistet werden und der unmittelbare Stillstand muss eintreten. Tolerierbare Fehler ermöglichen einen zeitlich begrenzten Weiterbetrieb, sofern z. B. ein zweiter unabhängiger Abschaltpfad die Sicherheitsfunktion korrekt ausführen kann.

Berechnung der Ausfallwahrscheinlichkeit

Die relevanten Normen EN ISO 13849 bzw. IEC 62061 beinhalten keine Anforderungen im Hinblick auf sofortige oder unmittelbare Fehlerreaktionen beim Auftreten eines Fehlers. Darüber hinaus lassen auch die Modelle zur Berechnung der Ausfallwahrscheinlichkeit (PFHd) den notwendigen Gestaltungsspielraum zu, da die Ausfallwahrscheinlichkeit bei redundanten Architekturen anfangs auf niedrigem Niveau verbleibt und erst nach einiger Zeit ansteigt. Je nach Risikobeurteilung und Qualität der eingesetzten Maßnahmen zur Fehlerbeherrschung lässt sich der Zeitraum bis zum Abschalten durch den „Entscheider“ auf maximal eine Woche ansetzen. Das in der EN 62061 zugrundeliegende alternative Berechnungsverfahren definiert ein Diagnosetestintervall, das ebenfalls einen in der Praxis vernachlässigbaren Anteil des PFHd beträgt.

Beiden Berechnungsansätzen geht allerdings voraus, dass die Realisierung der Sicherheitsfunktion eine ausreichende Reserve bezüglich der Ausfallreserve besitzt und die Anforderungen in Bezug auf Fehler gleicher Ursache (Common Cause Failure) berücksichtigt worden sind.

Grafik: Berechnung der Ausfallwahrscheinlichkeit einer Maschine

Qualitativer Verlauf des Risikos

Ergänzende Sicherheitsmaßnahmen

Einen anderen Ansatz verspricht die Idee, dass ein Entscheider im Fehlerfall alternative bzw. ergänzende Sicherheitsmechanismen aktiviert. So kann der Entscheider bei der Überwachung von sicherbegrenzten Geschwindigkeiten in einem Antriebssystem (SLS gemäß EN 61800-5-2) im Fehlerfall veranlassen, dass nur noch der Betrieb mit reduzierter Geschwindigkeit zulässig ist. Durch die Geschwindigkeitsbegrenzung wird das erforderliche Niveau zur Risikominderung von PL d auf PL c abgesenkt. Konkrete Anwendungsbereiche ergeben sich auch bei führerlosen Transportsystemen (FTS), bei denen die Fahrwegkontrolle durch die geschwindigkeitsabhängige Dimensionierung des Schutzfelds eines Laserscanners realisiert ist.

Ausblick

Die Autoren des vom ZVEI veröffentlichten Whitepaper kommen zu dem Schluss, dass die Bewertung der beschriebenen Maßnahmen im Einklang mit den Schutzzielen der Maschinenrichtlinie steht und keinen Widerspruch zu den harmonisierten Normen EN ISO 13849 bzw. EN 62061 aufweist.

Entscheidend für die Akzeptanz wird sein, ob sich der Nutzen durch die Möglichkeit des „degradierten Betriebs“ messbar greifen lässt. Vor allem im Hinblick auf die zunehmende Vernetzung kommt der Diagnosefähigkeit einzelner Komponenten in Bezug auf die Anlagenverfügbarkeit eine besondere Bedeutung zu.

Prozessindustrie

Aktive Fehlerrückmeldung in der Prozessindustrie

Was im Maschinenbau noch Zukunftsmusik darstellt, ist in vielen Teilen der Prozessindustrie bereits der Stand der Technik. So sind die sicheren Koppelmodule der Familie PSRmini mit einer aktiven Fehlerrückmeldung ausgestattet, die der übergeordneten Sicherheitssteuerung SIS (Safety Instrumented System) eine sicherheitsbezogene Auswertung ermöglichen. Dies erfolgt ohne die Erforderlichkeit von digitalen Eingängen zur Rücklesung der Öffnerkontakte. Durch die aktive Fehlerrückmeldung des Koppelrelais erfolgt eine Impedanzverstimmung des sicheren digitalen Ausgangs. Somit verbleibt die Entscheidung zum Weiterbetrieb oder die Einleitung alternativer Fehlerreaktionen in der CPU des Sicherheitssystems (SIS).