# 机器学习

# 定义:

  • 机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。 -- google
  • Tom Mitchell 提供了一个更现代的定义:“如果计算机程序在 T 中的任务上的性能(以 P 衡量)随着经验 E 提高,则称该计算机程序从经验 E 中学习某些类别的任务 T 和性能度量 P。 ” -- MIT course

TIP

例子:下棋。

E = 玩多场跳棋的经验

T = 下棋的任务。

P = 程序赢得下一场比赛的概率。

一般来说,任何机器学习问题都可以归为两大类之一:

监督学习和无监督学习。

# 监督学习

在监督学习中,我们得到了一个数据集,并且已经知道我们的正确输出应该是什么样子,并且知道输入和输出之间存在关系。

监督学习问题分为“回归”和“分类”问题。在回归问题中,我们试图预测连续输出中的结果,这意味着我们试图将输入变量映射到某个连续函数。在分类问题中,我们试图在离散输出中预测结果。换句话说,我们试图将输入变量映射到离散类别中。

  • 示例 1:

给定有关房地产市场上房屋大小的数据,尝试预测它们的价格。价格作为规模的函数是一个连续的输出,所以这是一个回归问题。

我们可以把这个例子变成一个分类问题,而是输出关于房子“售价高于还是低于要价”的输出。在这里,我们根据价格将房屋分为两个独立的类别。

  • 示例 2:

(a) 回归——给定一张人的照片,我们必须根据给定的照片预测他们的年龄

(b) 分类——给定一个患有肿瘤的患者,我们必须预测肿瘤是恶性的还是良性的。

# 无监督学习

无监督学习使我们能够在几乎不知道结果应该是什么样子的情况下解决问题。我们可以从数据中推导出结构,而我们不一定知道变量的影响。

我们可以通过基于数据中变量之间的关系对数据进行聚类来推导出这种结构。

对于无监督学习,没有基于预测结果的反馈。

  • 例子:

聚类:收集 1,000,000 个不同的基因,并找到一种方法将这些基因自动分组到不同的变量(如寿命、位置、角色等)之间,这些基因在某种程度上相似或相关。

非聚类:“鸡尾酒会算法”,可让您在混乱的环境中找到结构。(即从鸡尾酒会上的声音网中识别个人声音和音乐)。

# 标签

标签是我们要预测的事物,即简单线性回归中的 y 变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。

# 特征

特征是输入变量,即简单线性回归中的 x 变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征,按如下方式指定:

x1, x2, ... xn

在垃圾邮件检测器示例中,特征可能包括:

  • 电子邮件文本中的字词
  • 发件人的地址
  • 发送电子邮件的时段
  • 电子邮件中包含“一种奇怪的把戏”这样的短语。

# 样本

样本是指数据的特定实例:x。(我们采用粗体 x 表示它是一个矢量。)我们将样本分为以下两类:

  • 有标签样本
  • 无标签样本

# 模型

模型定义了特征与标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。我们来重点介绍一下模型生命周期的两个阶段:

训练是指创建或学习模型。也就是说,向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。

推断是指将训练后的模型应用于无标签样本。也就是说,使用经过训练的模型做出有用的预测 (y')。例如,在推断期间,您可以针对新的无标签样本预测 medianHouseValue。

# 回归与分类

回归模型可预测连续值。例如,回归模型做出的预测可回答如下问题:

  • 加利福尼亚州一栋房产的价值是多少?

  • 用户点击此广告的概率是多少?

  • 分类模型可预测离散值。例如,分类模型做出的预测可回答如下问题:

  • 某个指定电子邮件是垃圾邮件还是非垃圾邮件?

  • 这是一张狗、猫还是仓鼠图片?