Blog 13

Was ist Reinforcement Learning?
Gizem Baruk  I   28.03.2022

Reinforcement Learning (=bestärkendes Lernen) ist eine Form des Machine Learnings, bei dem die entwickelte Software in einer dynamischen Umgebung durch wiederholte Trial-and-Error-Interaktionen, lernt eine Aufgabe auszuführen. Dabei werden für bestimmte durchgeführte Aktionen Belohnungen vergeben. Im Gegensatz zum Supervised und Unsupervised Learning werden keine Daten zur Konditionierung benötigt. Sie durchläuft selbständig zahlreiche Trainingsdurchläufe innerhalb der Simulationsumgebung, um anschließend ein exaktes Ergebnis zu liefern. Das System wird nicht mit richtigen Ergebnissen konfrontiert, es werden nur Impulse gesetzt, die das System unterstützen. Ziel des Trainings ist es, dass die künstliche Intelligenz ohne menschliches Vorwissen, sehr komplexe Steuerungsprobleme autonom lösen kann. Auch sie bedient sich an dem künstlichen neuronalen Netz, das dem menschlichen Gehirn und dem menschlichen Lernen sehr ähnelt.  Um Reinforcement Learning besser zu verstehen, bilden Computerspiele die perfekte Grundlage. In Computerspielen sind generell verschiedene Möglichkeiten der Steuerung, eine Simulationsumgebung und eine Beeinflussung der Umgebung vorgegeben. Zudem bilden die Spiele zumeist ein Problem oder auch komplexe Aufgaben ab, die zu lösen sind. Ebenso ähneln Punktesysteme, die in den meisten Spielen existieren, dem Belohnungssystem des Reinforcement Learnings.

Wie funktioniert Reinforcement Learning?
Beim Reinforcement Learning werden diverse Methoden verwendet, bei denen der Software-Agent selbständig eine Strategie erlernt. Ziel des Lernvorgangs ist es, die Zahl der Belohnungen in der Simulationsumgebung zu maximieren. Während dem Training führt der Agent in jedem Zeitschritt Aktionen innerhalb der Umgebung aus und erhält jeweils ein Feedback. Im Voraus wird ihm nicht gezeigt, welche Aktion die beste ist, er enthält nur in bestimmten Situationen eine Belohnung. Der Agent lernt während dem Training auf diese Weise die Folgen von Aktionen auf Situationen in der Simulationsumgebung einzuschätzen. Damit lässt sich eine langfristige Strategie abbilden.

Um ein Reinforcement-Learning-System entsprechend trainieren zu können, wird eine Methode namens Q-Learning angewandt. Dieser stammt von der Q-Funktion, die den erhofften Nutzen einer Aktion im Status berechnen soll. Ziel des bestärkenden Lernens ist es dann, eine möglichst optimale Policy zu erstellen. Unter dem Begriff „Policy“ versteht man das erlernte Verhalten des Software-Agenten, das ihm zeigt, welche Aktion in einer variierenden Verhaltensvariante aus der Lernumgebung erfolgen soll.

Welche Anwendungsfelder gibt es?
Die mit Reinforcement Learning trainierten neuronale Netze, können komplexe Verhaltensweisen verschlüsseln. Dies ermöglicht eine alternative Herangehensweise, die mit herkömmlichen Methoden nur schwer oder gar nicht zu bewältigen sind. Beispielsweise kann beim autonomen Fahren das neuronale Netz den Fahrer ersetzen und mithilfe mehrerer Sensoren, wie Kamerabilder und LiDAR-Messungen, entscheiden, wie das Lenkrad einzuschlagen ist.

Typische Anwendungsfelder sind Problemstellungen mit folgenden Eigenschaften:
• Die Aufgabe ist simulierbar
• Es sollen eigene Strategien für die Lösungsfindung entwickelt werden
• Klassische Engineering-Verfahren sind nicht zielführend
• Komplexe Lösungsschritte sollen gefunden und optimiert werden.

Praktische Anwendungsfelder:
• Autonomes Fahren
• Ampelsteuerung zur Minimierung von Stausituationen
• Intelligente Stromnetze
• Fabrikautomatisierung
• Steuerung von Robotern
• Optimierung von Supply-Chain oder der Lagerhaltung
• Dynamische Gestaltung von Preisen zur Gewinnmaximierung
• Erlernen eines Computerspieles oder Konsolenspieles
• Etc.

Welchen Vorteil bietet Reinforcement Learning?
Das bestärkende Lernen bietet im Vergleich zu den anderen maschinellen Lernmethoden einige Vorteile. Sie ist in der Lage, ohne menschliches Vorwissen und Ausgangsdaten, Lösungen für komplexe Probleme zu finden. Es ähnelt dem natürlichen Lernprozess und kann Lösungen generieren, zu denen der Mensch nicht in der Lage ist. Das bestärkende Lernen ist im Prinzip für beliebige und intellektuelle Aufgaben einsetzbar.

Share by: