Reinforcement Learning – wenn sich künstliche Intelligenz selbst trainiert

Künstliche Intelligenz - Reinforcement Learining

Im Dezember 2017 sorgte die Software AlphaZero für Schlagzeilen, als sie komplexe Brettspiele wie Go und Schach auf Weltklasseniveau spielte – nach ein paar Stunden Training und nur durch Spiele gegen sich selbst. Dahinter steckt eine faszinierende Form künstlicher Intelligenz: Reinforcement Learning.

Künstliche Intelligenz ist, wenn Algorithmen selbst lernen. Das ist eine weitverbreitete Meinung. Falsch ist sie nicht. Gemeint ist allerdings nur ein kleiner Teil des riesigen Spektrums künstlicher Intelligenz: Reinforcement Learning, zu Deutsch: Bestärkendes Lernen.

Der Algorithmus AlphaZero ist so ein Beispiel für eine künstliche Intelligenz, die eigenständig lernt und sich ständig verbessert. Der Lernprozess ist dem des Menschen nachempfunden: Wenn ich gute Entscheidungen treffe, werde ich belohnt, bei Fehlern lerne ich mit der Zeit, sie zu vermeiden.

Dasselbe Prinzip könnte man bei selbstfahrenden Autos ebenfalls anwenden. Ein Fahrschüler begeht zu Beginn eine Menge Fehler. Ein autonomes Auto könnte schneller aus Fehlern lernen und hat dazu noch den Vorteil, dass es nicht mit der Fülle an Informationen überfordert wäre, wie es vielen Fahranfänger vermutlich ergeht.

Aber wie funktioniert bestärkendes Lernen?

Zuckerbrot und Peitsche für Algorithmen

Die Idee des Reinforcement Learnings ist einfach: Der Algorithmus darf erst einmal machen, was er will – anhand von ein paar Regeln. Bei Go oder Schach sind diese klar vorgegeben. Beim Autofahren bestehen sie beispielsweise aus Gasgeben, Bremsen und Lenken, später auch mit Verkehrsregeln.

Nach einer gewissen Zeit wird dann überprüft, wie gut die Situation ist, in die sich die KI gebracht hat. Bin ich Schachmatt oder habe ich gewonnen? Bin ich gegen eine Wand gefahren oder habe ich mein Ziel erreicht? Anschließend gibt es entsprechende Bestrafungen oder Belohnungen, d. h. die Parameter des Modells werden angepasst Dann geht es von vorne los.

So lernt die künstliche Intelligenz mit der Zeit, schlechte Züge oder Aktionen zu vermeiden und gute Aktionen zu wiederholen. Durchaus möglich, dass ein selbstfahrendes Auto gar nicht mehr losfährt, weil das viel zu gefährlich wäre.

Going deep

Die Kunst beim Reinforcement Learning besteht darin, die momentane Situation auf Erfolg oder Misserfolg am Ende abzuschätzen. Beim Schach zählten die Entwickler in der Vergangenheit Bauernwerte. Beim Autofahren entspricht es dem so oft zitierten vorausschauenden Fahren. Bin ich auf dem richtigen oder falschen Weg? Das muss abgeschätzt werden und damit steht und fällt der Trainingserfolg.

Neuronale Netze eignen sich hervorragend dafür, solche Abschätzungen vorzunehmen. Tatsächlich ist Reinforcement Learning ähnlich alt wie neuronale Netze. Die Potenziale und jüngsten Erfolge kommen aber auch hier erst mit einer neuen Silbe: Deep. Beim Deep Reinforcement Learning werden Deep Neural Networks für die Abschätzung eingesetzt. Das Ergebnis ist beeindruckend.

Chancen und Gefahren

Tesla, Google und Co. halten sich bedeckt, was für Algorithmen sich tatsächlich hinter ihren selbstfahrenden Autos verbergen. Deep Reinforcement Learning könnte es zum Teil sein. Natürlich steht es bei einem Auto außer Frage, ob es am lebenden Objekt üben darf bis es lernt, dass es nicht so gut ist, Menschen zu gefährden. Bei einem Fahrschüler greift ja letztendlich auch immer noch der Lehrer ein, wenn sich ein Unfall anbahnt.

Die Algorithmen könnten stattdessen in Simulationen trainiert werden, bis sie nahezu fehlerfrei funktionieren. Anschließend dürfen sie ohne diesen „Fahrlehrer“ auf die Straße gelassen werden – und sorgen dort für mehr Sicherheit als beispielsweise ein alkoholisierter Fahrer.

Ob in der Robotik oder Automatisierung, bei Chatbots oder dem Handel – Deep Reinforcement Learning eignet sich perfekt dazu, komplexe Situationen anhand von Erfahrung zu meistern. Die künstliche Intelligenz vergisst nicht. Ihr Erfahrungsschatz wächst immer weiter an. Die Potenziale sind enorm – und wir stehen erst ganz am Anfang der Entwicklung.

Foto: Getty Images / Westend61


Torben Meyer zu Natrup

Torben Meyer zu Natrup beschäftigt sich als Berater bei Sopra Steria Consulting mit dem Thema Künstliche Intelligenz. Hier bloggt er über moderne Deep-Learning-Verfahren und deren Einsatz.


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.