Regression
Univariate
Statistische Auswertung nur eines Merkmals. Beispiel: für zehn Personen wird das Körpergewicht gemessen und dann ein Mittelwert bzw. Durchschnitt gebildet. Statt univariat könnte man auch eindimensional sagen.
K Nearest Neighbour Regression
In den meisten Fällen haben nah beieinander liegende Datenpunkte auch ähnliche Kategorien / Werte.
- Es gibt keine theoretische spezifikation wie viele k Nachbaren verwendet werden sollen.
- Je grösser k ist, desto geringer ist es für das Model "lokale" patterns zu erkennen, jedoch wird die Varianz kleiner und die Prediction wird stabiler.
- Es werden K Datenpunkte verwendet, die dem Suchwert am nähesten liegen.
- Mittelwert der K Punkte ergibt annäherung.
Linear Regression
Die Daten sind linear, es gibt also eine Linie. Diese kann dafür verwendet werden, anhand einer Gerade einen Wert Y zu dem Wert X zu bestimmen.
- : Schnittpunkt mit der Y-Achse
- : Steigung der Gerade
Loss
Abstand von einem Sample Wert zu seinem richtigen Wert
Wird pro einzelnes Samples berechnet
Cost
Abstand aller Samples zu ihrem korrekten Wert.
Beispiel
X | Y |
---|---|
1.00 | 1.00 |
2.00 | 2.00 |
3.00 | 1.30 |
4.00 | 3.75 |
5.00 | 2.25 |
Eigenschaften
Linearity: Die Abhängigkeit zwischen X und Y muss linear sein.
Homoscedasticity: Die Varianz ist für alle Werte gleich
Independence: Der Ausgangswert ist unabhängig der Eingabewerte
Normality: Glockenkurve der Varianz