Cost Function

Gradient Descent

Generic Gradient Descent Algorithm

Repeat until covergence

Learning Rate / Schrittgrösse: $α$

$θ_{j} = θ_{j} - α \frac{\partial}{\partial θ _{j}} J (θ)$

for every j=1..n

$θ_{j} = θ_{j} - α \frac{1}{M} i = 1 \sum m (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}$

Learning Rate

$α$

Zu Beginn grosse Lernrate, um möglichst schnell ans Minimum zu gelangen

### Regeln

Learning Rate $α$ too small -> slow convergence
Learning Rate $α$ too large -> might "jump too far", might not converge or even diverge

### Learning Rate Optimization / Decay

$α = \frac{1}{1 + decay rate * epoch number} α_{0}$

Momentum as Learning Rate Optimizer

Idea: add a fraction of previous update direction to the update: $θ_{j} = θ_{j} - α \frac{\partial}{\partial θ _{j}} J (θ) - γ$

Effect: pushes the "jumps" of SGD in general direction towards the minimum

Regularization

$λ$

Ist $λ$ klein, kann $θ$ gross, somit kann das Polygon möglichst genau den Werten enstsprechen.
$θ_{0}$ wird nicht beeinflusst.

Hypothesis: $θ_{0} (x) = θ^{T} x = j = 1 \sum n θ_{j} x_{j}$

Cost Function: $J (θ) = \frac{1}{2 m} [i = 1 \sum m (y_{m} - θ_{0} (x_{m}))^{2} + λ j = 1 \sum n θ_{j}^{2}]$

Grosses $λ$

Es wäre eine Gerade
Die Gerade wäre möglichst flach bei 0

Hyperparameter sind Einstellungen oder Konfigurationen, die vor dem Training eines maschinellen Lernalgorithmus festgelegt werden müssen. Sie steuern Aspekte des Lernprozesses und beeinflussen, wie ein Modell trainiert wird. Im Gegensatz zu den Modellparametern, die während des Trainings aus den Daten gelernt werden, werden Hyperparameter manuell ausgewählt und können die Leistung und das Verhalten eines Modells erheblich beeinflussen. Beispiele für Hyperparameter sind Lernrate in neuronalen Netzen, Tiefe eines Entscheidungsbaums in Entscheidungsbäumen und die Anzahl der Cluster in k-means Clustering. Die Auswahl geeigneter Hyperparameter ist oft ein wichtiger Schritt beim Entwickeln von Machine-Learning-Modellen.

A hyperparameter in machine learning is a configuration setting that is external to the model and whose value cannot be learned from the data. Examples include learning rate, batch size, and the number of hidden layers in a neural network. Tuning hyperparameters is crucial for optimizing a model's performance.

My ZHAW Notes