Regression

Univariate

Statistische Auswertung nur eines Merkmals. Beispiel: für zehn Personen wird das Körpergewicht gemessen und dann ein Mittelwert bzw. Durchschnitt gebildet. Statt univariat könnte man auch eindimensional sagen.

K Nearest Neighbour Regression

In den meisten Fällen haben nah beieinander liegende Datenpunkte auch ähnliche Kategorien / Werte.

  • Es gibt keine theoretische spezifikation wie viele k Nachbaren verwendet werden sollen.
  • Je grösser k ist, desto geringer ist es für das Model "lokale" patterns zu erkennen, jedoch wird die Varianz kleiner und die Prediction wird stabiler.
  1. Es werden K Datenpunkte verwendet, die dem Suchwert am nähesten liegen.
  2. Mittelwert der K Punkte ergibt annäherung.

Linear Regression

Die Daten sind linear, es gibt also eine Linie. Diese kann dafür verwendet werden, anhand einer Gerade einen Wert Y zu dem Wert X zu bestimmen.

  • : Schnittpunkt mit der Y-Achse
  • : Steigung der Gerade

Loss

Abstand von einem Sample Wert zu seinem richtigen Wert

Wird pro einzelnes Samples berechnet

Cost

Abstand aller Samples zu ihrem korrekten Wert.

Beispiel

 X Y
1.001.00
2.00 2.00
3.001.30
4.003.75
5.002.25

Eigenschaften

Linearity: Die Abhängigkeit zwischen X und Y muss linear sein.

Homoscedasticity: Die Varianz ist für alle Werte gleich

Independence: Der Ausgangswert ist unabhängig der Eingabewerte

Normality: Glockenkurve der Varianz