通用概念

在机器学习中，模型评估是理解模型性能的关键一步。此过程中的两个关键概念是假设和损失函数。

假设

假设，通常表示为 $h_\theta$ ，代表了给定特定输入数据时，用于预测输出的模型。对于输入 $x^{(i)}$ ，模型预测值为 $h_\theta (x^{(i)})$ 。

损失函数衡量实际值与预测值之间的差异。它们对于模型训练至关重要，为模型的性能提供反馈。常见的损失函数包括：

与每个损失函数相关的图表显示了误差如何相对于预测值 $z$ 随不同实际值 $y$ 的变化而变化。

成本函数，表示为 $J$ ，聚合了所有训练样本的损失，并用于评估模型的性能。它被定义为所有 $m$ 个训练样本的单个损失函数值的总和：

J(\theta) = \sum_{i=1}^{m} L(h_\theta(x^{(i)}), y^{(i)})

其中 $L$ 是所选的损失函数， $h_\theta(x^{(i)})$ 是第 $i$ 个样本的假设， $y^{(i)}$ 是实际值。

这个框架允许通过训练优化模型参数 $\theta$ ，通常使用梯度下降等算法，目标是最小化成本函数 $J(\theta)$ 。

优化算法对于找到机器学习模型的最佳参数至关重要。这些算法旨在最小化成本函数，该函数衡量模型的预测误差。

梯度下降是一种基础的优化方法，通过沿成本函数 $\nabla J(\theta)$ 梯度的反方向更新参数 $\theta$ 来最小化成本函数 $J(\theta)$ 。

图形表示显示了成本函数的同心等高线，梯度指向最陡峭的上升方向。梯度下降沿相反方向移动以达到最小值。

似然函数 $L(\theta)$ 衡量给定一组参数 $\theta$ 的情况下，观测数据有多大的可能性。

牛顿算法，也称为牛顿-拉弗森法，是一种优化技术，通过求解 $\ell'(\theta) = 0$ 来寻找参数 $\theta$ ，其中 $\ell(\theta)$ 通常是损失函数或似然函数。

更新规则 (标量情况)：
$\theta \leftarrow \theta - \frac{\ell'(\theta)}{\ell''(\theta)}$
更新规则 (多维推广)：
$\theta \leftarrow \theta - (\nabla^2\ell(\theta))^{-1} \nabla\ell(\theta)$

这里， $\nabla^2\ell(\theta)$ 是二阶偏导数的Hessian矩阵。这种方法考虑了 $\ell(\theta)$ 的曲率，这可以导致比梯度下降更快的收敛速度，尤其是在表现良好的二次问题中。