Ein weiterer Forschungsschwerpunkt der Forschungsgruppe liegt in der Integration von simulationsbasierter Optimierung, der Modellierung von Markovschen Entscheidungprozessen, Reinforcement Learning und Policy Extraction für erklärbare künstliche Intelligenz. Die Kombination dieser vier Ansätze eignet sich besonders gut, um die Vorteile von modernen Methoden aus dem maschinellem Lernen mit dem Anspruch nach Transparenz und nachhaltigem Verständnis zu verbinden. Es können damit komplexe und zeitabhängige Systeme modelliert und optimiert werden, für die klassische Methoden kaum zugänglich sind.

Markov Decision Processes (MDPs) sind ein fundamentales Konzept zur Modellierung von Entscheidungsproblemen, bei denen die Ergebnisse teilweise zufällig und teilweise durch die getroffenen Entscheidungen bestimmt werden. Ein MDP besteht aus einer Menge von Zuständen, Aktionen, Wahrscheindlichkeiten der Übergänge und einem Belohnungsmodell. Zustände repräsentieren die verschiedenen Situationen, in denen sich ein System befinden kann, während Aktionen die möglichen Entscheidungen darstellen, die in jedem Zustand getroffen werden können. Übergangswahrscheinlichkeiten beschreiben die Wahrscheinlichkeit, von einem Zustand in einen anderen zu wechseln, und Belohnungen geben an, welche Gewinne oder Verluste mit diesen Übergängen verbunden sind. Durch die Modellierung als MDPs können komplexe Entscheidungsprozesse in eine Folge von verschiedene Zustände und Aktionen zerlegt werden, die dadurch einer systematischen Optimierung zugänglich gemacht werden.

Die simulationsbasierte Optimierung ist dabei Forschungsfeld zur Analyse und Verbesserung komplexer Systeme. Diese Technik nutzt Simulationen, um verschiedene Szenarien zu durchlaufen und dabei optimale Lösungen zu identifizieren. Durch die Nachbildung realer Prozesse in einer kontrollierten, virtuellen Umgebung können verschiedene Parameter und Strategien getestet werden, um weitere Einblicke in die zugrundeliegende Problem- und Lösungsstruktur zu erlangen. Dies ermöglicht die Optimierung von Problemklassen, die durch Zufälligkeit und komplexer inneren Abhängigkeiten durch klassische Optimierungsverfahren nur schwer oder kaum zugänglich sind. Durch Simulationsmodelle können ausreichend Daten für Methoden des maschinellen Lernens erzeugt werden.

Reinforcement Learning (RL) ist ein vielversprechender Zugang zu maschinellem Lernen, bei dem ein Agent mit seiner Umgebung wechselwirkt. Der Agent setzt Handlungen, während die Umgebung mit einer Veränderung und einem numerischen Feedback reagiert. Der Agent versucht nun, die Handlungen durch gelernte Erfahrungen so zu wählen, dass das kumulierte Feedback im Laufe der gestellten Lernaufgabe möglichst positiv ausfällt. Durch die Anwendung von RL können optimale Strategien in Markov Decision Processes gefunden werden, ohne dafür die Übergangswahrscheinlichkeiten explizit bekannt sein muss. Unsere Forschung im Bereich RL konzentriert sich auf die Entwicklung robuster Algorithmen, die vor allem in ereignisdiskreten Simulationmodellen funktionieren, um sie damit als Lösungsmethoden für komplexe Problemstellung einzusetzen.

Policy Extraction und Explainable AI behandelt die Erklärbarkeit der entwickelten Modelle und Strategien. Während Algorithmen oft überlegene Lösungen erzeugen, bleibt deren Verständnis eine Herausforderung. Durch Methoden Policy Extraction können Entscheidungsstrategien, die von RL-Agenten gefunden wurden, in verständliche und nachvollziehbare Regeln extrahiert werden. Dadurch können Lösungen von KI-Systemen transparent und interpretierbar gemacht werden. Dies ist besonders wichtig in sicherheitskritischen und ethisch sensiblen Anwendungsbereichen, wo das Vertrauen in die Technologie von zentraler Bedeutung ist.

 

 

Modellierung eines Markov Decision Prozesses

© freepik

 

Im Rahmen dieses kombinierten Ansatzes werden die Problemstellungen zunächst als Markov Decision Process beschrieben und modelliert. Darauf basierend wird ein Simulationsmodell erstellt, welches die Problemstellung ausreichend gut annähert. Mit der nun verfügbaren Menge an systhetischen Datenpunke lässt sich Reinfocement Learning zur Erzeugung von optimalen Strategien einsetzen. Sobald diese gelungen ist, können diese Strategien analysiert und interpretiert werden.

Die betrachteten Anwendungen sind sehr vielfältig und reichen von der Optimierung komplexer Produktionsystemen über optimale Ressourcenzuweisung bis hin zu medizinische Anwendungen, wo verbesserte Behandlungstrategien gewünscht sind.