Softmax 回归
在之前的章节中,我们探讨了线性回归及其实现,包括从零开始的实现和使用高级API的实现。回归模型通常用于定量输出,例如预测价格、胜场数或患者住院天数。然而,并非所有问题 都适合使用回归模型,这取决于其输出的性质。这导致了对数回归或生存建模等特殊情况。
在之前的章节中,我们探讨了线性回归及其实现,包括从零开始的实现和使用高级API的实现。回归模型通常用于定量输出,例如预测价格、胜场数或患者住院天数。然而,并非所有问题 都适合使用回归模型,这取决于其输出的性质。这导致了对数回归或生存建模等特殊情况。
由 Vaswani 等人(2017)提出的 Transformer 模型是一种完全基于注意力机制的深度架构,省略了传统的卷积层或循环层。它专为序列到序列学习而设计,并已广泛应用于语言、视觉、语音和强化学习领域。该架构支持并行计算,并具有输入和输出之间较短的路径长度,这使其在处理序列数据任务时效率极高。
卷积神经网络 (CNN) 是一种专门设计的神经网络,主要用于处理结构化网格数据,例如图像。CNN 利用数据的固有属性,如空间关系和局部性,来降低从高维数据中学习的复杂性和计算成本。
多层感知机 (MLP) 是一类深度神经网络,其特点是分层结构,包括一个输入层、一个或多个隐藏层以及一个输出层。每个层都包含神经元,这些神经元通过加权连接与后续层中的神经元完全连接。
循环神经网络 (RNN) 是一种旨在通过利用隐藏状态来捕获时间信息以处理序列数据的神经网络。它们特别适用于语言建模等任务,在这些任务中,目标是根据先前标记的历史序列来预测下一个标记。
注意力机制解决了传统神经网络模型(如CNN和RNN)中需要固定输入大小的挑战。它们提供了一种灵活的方法来处理大小和内容各异的输入,例如长文本序列。这种灵活性是通过能够动态关注输入不同部分的机制来实现的。
回归分析 是一种统计方法,用于根据输入特征预测数值。常见的应用包括预测房价、股票价值、患者住院时间以及零售销售预测。