统计学习方法(第2版)(李航)

书:pan.baidu.com/s/1fJBrhrA9R2vswAS_4de6Cg?pwd=uind

  1. 统计学习的定义
    统计学习(statistical learning)是关于计算机基于数据构建统计模型并运用统计方法对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statistical machine learning)。
  2. 统计学习的特点
    统计学习以计算机及网络为平台,是建立在计算机及网络之上的;统计学习以数据为研究对象,是数据驱动的学科;统计学习的目的是对数据进行预测与分析,特别是对未知新数据进行预测与分析。
  3. 统计学习的三要素
    方法=模型+策略+算法。统计学习方法由模型、策略和算法构成,即统计学习方法的三要素。
  4. 监督学习的定义
    监督学习(supervised learning)是从标注的训练数据集中学习预测模型的机器学习技术。标注数据表示输入与输出对之间的映射关系。
  5. 损失函数的定义
    损失函数(loss function)或代价函数(cost function)用以度量预测错误的程度,它是f(X)和Y的非负实值函数,记作L(Y, f(X))。
  6. 风险函数的定义
    风险函数(risk function)或期望损失(expected loss)是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失。
  7. 经验风险最小化的定义
    经验风险最小化(empirical risk minimization, ERM)的策略认为,经验风险最小的模型就是最好的模型。
  8. 结构风险最小化的定义
    结构风险最小化(structural risk minimization, SRM)是为了防止过拟合而提出来的策略。结构风险在经验风险上加上表示模型复杂度的正则化项或罚项。
  9. 决策树的定义
    决策树(decision tree)是一种基本的分类与回归方法。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。
  10. 支持向量机的定义
    支持向量机(support vector machine, SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机。
  11. EM算法的定义
    EM算法(expectation maximization algorithm)是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。
  12. 聚类方法的定义
    聚类(clustering)是将数据集划分为若干组或类的过程,并使得同一个组或类的数据彼此相似,而不同组或类的数据相异。

这些原文段落展示了《统计学习方法》(第2版)中关于统计学习的基本概念、方法、模型和应用等方面的深刻见解和详细阐述。通过阅读这些段落,读者可以更加深入地理解统计学习的本质和内涵。

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注