Regression

Univariate

Statistische Auswertung nur eines Merkmals. Beispiel: für zehn Personen wird das Körpergewicht gemessen und dann ein Mittelwert bzw. Durchschnitt gebildet. Statt univariat könnte man auch eindimensional sagen.

K Nearest Neighbour Regression

In den meisten Fällen haben nah beieinander liegende Datenpunkte auch ähnliche Kategorien / Werte.

Es gibt keine theoretische spezifikation wie viele k Nachbaren verwendet werden sollen.
Je grösser k ist, desto geringer ist es für das Model "lokale" patterns zu erkennen, jedoch wird die Varianz kleiner und die Prediction wird stabiler.

Es werden K Datenpunkte verwendet, die dem Suchwert am nähesten liegen.
Mittelwert der K Punkte ergibt annäherung.

Linear Regression

Die Daten sind linear, es gibt also eine Linie. Diese kann dafür verwendet werden, anhand einer Gerade einen Wert Y zu dem Wert X zu bestimmen.

$h (x; θ_{0}, t h e t a_{1}) = t h e t a_{0} + t h e t a_{1} x$

$θ_{0}$ : Schnittpunkt mit der Y-Achse
$θ_{1}$ : Steigung der Gerade

$\overset{y}{ˆ}_{m} = h (x_{m}; θ_{0}, θ_{1}) = θ_{0} + θ_{1} x_{m}$

Loss

Abstand von einem Sample Wert zu seinem richtigen Wert

Wird pro einzelnes Samples berechnet

$L_{RSS} (θ_{0}, θ_{1}; {x_{m}, y_{m}}) = m = 1 \sum M (y_{m} - \overset{y}{^}_{m})^{2} = m = 1 \sum M ε_{m}^{2}$

Cost

Abstand aller Samples zu ihrem korrekten Wert.

$J (θ_{0}, θ_{1}) = \frac{1}{2 M} m = 1 \sum M (y_{m} - \overset{y}{^}_{m})^{2}$

Beispiel

X	Y
1.00	1.00
2.00	2.00
3.00	1.30
4.00	3.75
5.00	2.25

Eigenschaften

Linearity: Die Abhängigkeit zwischen X und Y muss linear sein.

Homoscedasticity: Die Varianz ist für alle Werte gleich

Independence: Der Ausgangswert ist unabhängig der Eingabewerte

Normality: Glockenkurve der Varianz

My ZHAW Notes