Reinforcement Learning
- Der Comnputer simuliert die Umgebung. In dieser passiert etwas.
- Der Agent probiert durch viele Episoden, ob etwas funktioniert.
- Der Interpreter gibt dem Agenten ein Reward, was den Agenten fördert, positive Schritte zu wählen.
Ziel: maximieren der Rewards