Im Dezember 2017 sorgte die Software AlphaZero für Schlagzeilen, als sie komplexe Brettspiele wie Go und Schach auf Weltklasseniveau spielte – nach ein paar Stunden Training und nur durch Spiele gegen sich selbst. Doch die dabei genutzte Technologie – das Reinforcement Learning – kann weitaus mehr leisten: vom selbstfahrenden Auto bis zum Chip-Design.
Künstliche Intelligenz ist, wenn Algorithmen selbst lernen. Das ist eine weitverbreitete Meinung. Falsch ist sie nicht. Gemeint ist allerdings nur ein kleiner Teil des riesigen Spektrums künstlicher Intelligenz: Reinforcement Learning, zu Deutsch: Bestärkendes Lernen.
Der Algorithmus AlphaZero ist so ein Beispiel für eine Künstliche Intelligenz, die eigenständig lernt und sich ständig verbessert. Der Lernprozess ist dem des Menschen nachempfunden: Wenn ich gute Entscheidungen treffe, werde ich belohnt, bei Fehlern lerne ich mit der Zeit, sie zu vermeiden. Diesem Prinzip folgend triumphierte auch OpenAI Five in dem komplexen Onlinespiel Dota über professionelle menschliche Teams. OpenAI Five hatte durch wiederholtes Spielen in höchster Geschwindigkeit und verteilt auf verschiedenste Instanzen die Erfahrung aus 45.000 Jahren Spielzeit gesammelt.
In der realen Welt lässt sich dasselbe Prinzip besonders für das Training von selbstfahrenden Autos nutzen. Ein Fahrschüler begeht zu Beginn eine Menge Fehler. Ein autonomes Auto könnte schneller aus Fehlern lernen und hat dazu noch den Vorteil, dass es nicht mit der Fülle an Informationen überfordert wäre, wie es vielen Fahranfänger vermutlich ergeht.
Aber wie funktioniert bestärkendes Lernen?
Zuckerbrot und Peitsche für Algorithmen
Die Idee des Reinforcement Learnings ist einfach: Der Algorithmus darf erst einmal machen, was er will – anhand von ein paar Regeln. Bei Go oder Schach sind diese klar vorgegeben. Beim Autofahren bestehen sie beispielsweise aus Gasgeben, Bremsen und Lenken, später auch mit Verkehrsregeln.
Nach einer gewissen Zeit wird dann überprüft, wie gut die Situation ist, in die sich die KI gebracht hat. Bin ich Schachmatt oder habe ich gewonnen? Bin ich gegen eine Wand gefahren oder habe ich mein Ziel erreicht? Anschließend gibt es entsprechende Bestrafungen oder Belohnungen, d. h. die Parameter des Modells werden angepasst Dann geht es von vorne los.
So lernt die künstliche Intelligenz mit der Zeit, schlechte Züge oder Aktionen zu vermeiden und gute Aktionen zu wiederholen. Durchaus möglich, dass ein selbstfahrendes Auto gar nicht mehr losfährt, weil das viel zu gefährlich wäre.
Going deep
Die Kunst beim Reinforcement Learning besteht darin, die momentane Situation auf Erfolg oder Misserfolg am Ende abzuschätzen. Beim Schach zählten die Entwickler in der Vergangenheit Bauernwerte. Beim Autofahren entspricht es dem so oft zitierten vorausschauenden Fahren. Bin ich auf dem richtigen oder falschen Weg? Das muss abgeschätzt werden und damit steht und fällt der Trainingserfolg.
Neuronale Netze eignen sich hervorragend dafür, solche Abschätzungen vorzunehmen. Tatsächlich ist Reinforcement Learning ähnlich alt wie neuronale Netze. Die Potenziale und jüngsten Erfolge kommen aber auch hier erst mit einer neuen Silbe: Deep. Beim Deep Reinforcement Learning werden Deep Neural Networks für die Abschätzung eingesetzt. Das Ergebnis ist beeindruckend.
Chancen und Gefahren
Tesla, Google und Co. halten sich bedeckt, was für Algorithmen sich tatsächlich hinter ihren selbstfahrenden Autos verbergen. Deep Reinforcement Learning spielt jedoch in den meisten Fällen eine Rolle. Natürlich steht es bei einem Auto außer Frage, ob es am lebenden Objekt üben darf bis es lernt, dass es nicht so gut ist, Menschen zu gefährden. Bei einem Fahrschüler greift ja letztlich auch immer noch der Lehrer ein, wenn sich ein Unfall anbahnt. Allerdings hat beispielsweise Tesla allein im vergangenen Jahr 500.000 Fahrzeuge verkauft – die mit menschlichen Fahrern unterwegs sind und letztlich dem Algorithmus die Möglichkeit geben zu lernen.
Ob in der Robotik oder Automatisierung, bei Chatbots oder dem Handel – Deep Reinforcement Learning eignet sich perfekt dazu, komplexe Situationen anhand von Erfahrung zu meistern. Die künstliche Intelligenz vergisst nicht. Ihr Erfahrungsschatz wächst immer weiter an. Die Potenziale sind enorm – und wir stehen erst ganz am Anfang der Entwicklung. Wie sich Reinforcement Learning jenseits von Computerspielen und selbstfahrenden Autos nutzen lässt, zeigt ein Beispiel von Google. Forschende des Internet-Riesen haben einen Algorithmus entwickelt, der Reinforcement Learning nutzt, um die physikalischen Komponenten von Computerchips zu entwerfen.
Foto: Getty Images / Westend61
Dieser Beitrag wurde am 21.07.2021 aktualisiert.