Reinforcement Learning

Der Comnputer simuliert die Umgebung. In dieser passiert etwas.
Der Agent probiert durch viele Episoden, ob etwas funktioniert.
Der Interpreter gibt dem Agenten ein Reward, was den Agenten fördert, positive Schritte zu wählen.

Ziel: maximieren der Rewards