机器学习西瓜书 学习笔记

记录自己的学习,以及为期末考试准备一份复习资料,不过复习的主要目的也不是为了那一份资料,而是复习的过程吧。随后的还有模式识别、计算机组成原理、单片机原理。我个人一直都对机器学习的「无中生有」比较感兴趣,正是这样的兴趣推动了我选择了这个专业方向。目前看来,大量的数学公式推导确实让我非常吃力,但是也算是满足了自己一窥端倪的好奇心。

写在最前面

本系列文章都会遵守 中文文案排版指北,愿各位看官和我都能够跟自己爱的人结婚😀。

「有研究显示,打字的时候不喜欢在中文和英文之间加空格的人,感情路都走得很辛苦,有七成的比例会在 34 岁的时候跟自己不爱的人结婚,而其余三成的人最后只能把遗产留给自己的猫。毕竟爱情跟书写都需要适时地留白。

与大家共勉之。」——vinta/paranoid-auto-spacing

绪论

基本术语

假设收集了一批关于西瓜的数据

色泽 根蒂 敲声
青绿 蜷缩 混响
乌黑 稍蜷 沉闷
浅白 硬挺 清脆

数据集:上面这一组数据的集合。

实例/样本:每一条(行)记录是关于一个时间或对象(这里是西瓜)的描述。

属性/特征:反映时间或对象在某方面的表现或性质,例如「色泽」、「根蒂」、「敲声」。

属性值:属性上的取值,例如「青绿」、「乌黑」。

属性空间/样本空间:属性长张成的空间。

特征向量:把每个属性作为一个坐标轴,则它们能够组成一个多维空间,那么每一个实例都能够在空间中找到自己的坐标位置。因为每个点都对应一个坐标向量,因此一个实例也称特征向量。

维数:因为每个属性都作为一个坐标轴,而又因为有多少个坐标轴我们就将这个空间叫做几维空间,所以维数也就是样本有多少个属性。

学习/训练:从数据中学的模型的过程,学习的过程是通过执行某个学习算法来完成的。

训练数据:训练过程中使用的数据。

训练样本:训练过程中每个样本。

训练集:训练样本组成的集合。

假设:学得模型对应关于数据的某种潜在的规律。

标记:样本的好或坏,一般都是布尔值。

样例:拥有标记值的样本。

标记空间/输出空间:所有标记的集合。

分类任务:预测的结果是布尔值的任务。

回归任务:预测的是连续值,比如西瓜的成熟度 0.95、0.37。

二分类任务:只要涉及的类别只有两个,通常一个为正类,另一个为反类。

多分类任务:涉及多个类别,也即是大于两个吧。

测试:使用学得的模型进行预测。

测试样本:被预测的样本。

聚类:将训练集中的西瓜分成若干组,例如高工资、低工资。

簇:被聚类成分成的组,每一组就是一个簇。

监督学习:有标记信息,分类任务和回归任务。

无监督学习:无标记信息,聚类任务。

泛化:学的模型适用于新样本的能力。

术语例题

编号 姓名 年收入 性别 职业 好顾客
1 张三 程序员
2 李四 企业家
3 王五 公务员
4 周六 学生
5 钱七 教师
  • 上表中样本是?
  • 一共有多少样本?
  • 样本的属性都是?
  • 样本标记是?
  • 用户「周六」属性值和标记值是?
  • 样本是顾客。
  • 一共 5 个。
  • 年收入、性别和职业。
  • 是否为顾客(或好顾客)。
  • 属性值&标记值:年收入=低、性别=女和职业=学生。

假设空间

科学推理的两个基本手段:演绎、归纳。

演绎:从一般到特殊的特化,即从基础原理推演出具体状况,例如数学公式就是从一些常识和推理逻辑,推导出了相洽的定理。

归纳:从特殊到一般的泛化过程,就是从具体的事实归结出一般性规律。机器学习也就是用的这种推理方法。

广义的归纳学习:从样例中学习。

狭义的归纳学习:从训练数据中学得概念。

狭义的归纳学习,有时候也成为概念学习。概念学习中最基础的就是布尔概念学习,也就是对「是」「不是」这样的目标概念的学习。

术语中英对照

中文 英文 备注
数据集 data set
实例 instance 每一条记录
样本 sample 又名实例
属性 attribute 描述样本的什么方面
特征 feature 又名属性
属性样本 attribute space
特征向量 feature vector 在空间中确认一个点
维数 dimensionality 样本有多少属性
学习 learning
训练数据 training data
训练样本 training sample
训练集 training set
假设 hypothesis 关于数据的某种规律
标记 label 真假
样例 example 有标记的样本
标记空间 label space 所有标记的集合
分类 classification 预测的布尔值
回归 regression 预测的连续值
二分类 binary classification 预测类别只有两个
多分类 multi-class classification 预测类别有两个以上
测试 testing
测试样本 testing sample
聚类 clustering 给训练集分组
cluster 每个组就是一个簇
监督学习 supervised learning 有标记
无监督学习 unsupervised learning 无标记
泛化 generalization 学习样本的能力
归纳 induction 从具体事实归纳出规律
演绎 deduction 从基础原理推导出具体情况
特化 specialization 描述演绎的过程
归纳学习 inductive learning
概念 concept