当前: 首页 - 图书专区 - 机器学习导论
机器学习导论


  教辅下载
  在线购买
(土耳其)Ethem Alpaydin 著
978-7-111-26524-5
39.00
272
2009年06月12日
范明 昝红英 牛常勇 译
计算机 > 人工智能 > 专家系统
MIT Press
9196
简体中文
16
Introduction to Machine Learning
教材
计算机科学丛书
李俊竹






机器学习及其在统计学、模式识别、神经网络、人工智能、信号处理、控制和数据挖掘等不同领域的应用。可作为高等院校计算机相关专业高年级本科生和研究生的教材,也可供研究机器学习方法的技术人员参考。
机器学习导论
Introduction to Machine Learning
(土耳其) Ethem Alpaydin 著(把作者名字 i 上的点去掉,这不是英语)

  机器学习的目标是对计算机编程,以便使用样本数据或以往的经验来解决给定的问题。已经有许多机器学习的成功应用,包括分析以往销售数据来预测客户行为,人脸识别或语音识别,优化机器人行为以便使用最少的资源来完成任务,以及从生物信息数据中提取知识的各种系统。为了对机器学习问题和解进行统一的论述,本书讨论了机器学习在统计学、模式识别、神经网络、人工智能、信号处理、控制和数据挖掘等不同领域的应用。对所有学习算法都进行了解释,以便读者可以容易地将书中的公式转变为计算机程序。本书可作为高等院校计算机相关专业高年级本科生和研究生的教材,也可供研究机器学习方法的技术人员参考。
  本书对机器学习的定义和应用实例进行了介绍,涵盖了监督学习、贝叶斯决策理论、参数方法、多元方法、维度归约、聚类、非参数方法、决策树、线性判别式、多层感知器、局部模型、隐马尔可夫模型、分类算法评估和比较、组合多学习器以及增强学习等。 

  作者简介
  是土耳其伊斯坦布尔博阿齐奇大学计算机工程系的教授。于1990年在洛桑联邦理工学院获博士学位,之后先后在美国麻省理工和伯克利大学工作和进行博士后研究。Ethem博士主要从事机器学习方面的研究,是剑桥大学的《The Computer Journal》杂志编委和Elsevier的《Pattern Recognition》杂志的副主编。2001年和2002年,Ethem博士先后获得土耳其科学院青年科学家奖和土耳其科学与技术研究委员会科学奖。
机器学习使用实例数据或过去的经验训练计算机,以优化性能标准。当人们不能直接编写计算机程序解决给定的问题,而是需要借助于实例数据或经验时,就需要学习。一种需要学习的情况是人们没有专门技术,或者不能解释他们的专门技术。以语音识别,即将声学语音信号转换成ASCII文本为例。看上去我们可以毫无困难地做这件事,但是我们却不能解释我们是如何做的。由于年龄、性别或口音的差异,不同的人读相同的词发音却不同。在机器学习中,这个问题的解决方法是从不同的人那里收集大量发音样本,并学习将它们映射到词。
  另一种需要学习的情况是要解决的问题随时间变化或依赖于特定的环境。我们希望有一个能够自动适应环境的通用系统,而不是为每个特定的环境编写一个不同的程序。以计算机网络上的包传递为例。最大化服务质量的、从源地到目的地的路径随网络流量的改变而改变。学习路由程序能够通过监视网络流量自动调整到最佳路径。另一个例子是智能用户界面,它能够自动适应用户的生物特征,即用户的口音、笔迹、工作习惯等。
  机器学习在各个领域都有许多成功的应用:已经有了识别语音和笔迹的商用系统。零售商分析他们过去的销售数据,了解顾客行为,以便改善顾客关系管理。金融机构分析过去的交易,以便预测顾客的信用风险。机器人学习优化它们的行为,以便使用最少的资源来完成任务。在生物信息学方面,使用计算机不仅可以分析海量数据,而且还可以提取知识。这些只是我们(即你和我)将在本书讨论的应用的一部分。我们只能想象一下可使用机器学习实现的未来应用:可以在不同的路况、不同的天气条件下自己行驶的汽车,可以实时翻译外语的电话,可以在新环境(例如另一个星球的表面)航行的自动化机器人。机器学习的确是一个令人激动的研究领域!
  本书讨论的许多方法都源于各种领域:统计学、模式识别、神经网络、人工智能、信号处理、控制和数据挖掘。过去,这些不同领域的研究遵循不同的途径,侧重点也不同。本书旨在把它们组合在一起,给出问题的统一处理并提供它们的解。
  本书是一本入门教材,用于高年级本科生和研究生的机器学习课程,以及在业界工作、对这些方法的应用感兴趣的工程技术人员。预备知识是计算机程序设计、概率论、微积分和线性代数方面的课程。本书的目标是充分解释所有的学习算法,使得从本书给出的方程到计算机程序只是一小步。为了使这一任务更容易完成,对于某些情况,我们给出了算法的伪代码。
  适当选取一些章节,本书可用作一学期的课程。再额外讨论一些研究论文的话,本书也可以作为两学期的课程,这时每章后的参考文献将很有用。
  本书网页为http://www.cmpe.boun.edu.tr/~ethem/i2ml/,我将在那里提供一些与本书有关的信息,如勘误表。我真诚地欢迎你将你的反馈意见发到我的邮箱:alpaydin@boun.edu.tr。
  我非常喜欢写这本书;希望你能喜欢读它。
出版者的话
中文版序
译者序
前言
致谢
符号表

第1章 绪论1
 1.1 什么是机器学习1
 1.2 机器学习的应用实例2
  1.2.1 学习关联性2
  1.2.2 分类3
  1.2.3 回归5
  1.2.4 非监督学习6
  1.2.5 增强学习7
 1.3 注释8
 1.4 相关资源9
 1.5 习题10
 1.6 参考文献10
第2章 监督学习11
 2.1 由实例学习类11
 2.2 VC维14
 2.3 概率逼近正确学习15
 2.4 噪声16
 2.5 学习多类18
 2.6 回归19
 2.7 模型选择与泛化20
 2.8 监督机器学习算法的维22
 2.9 注释23
 2.10 习题24
 2.11 参考文献24
第3章 贝叶斯决策定理26
 3.1 引言26
 3.2 分类27
 3.3 损失与风险28
 3.4 判别式函数30
 3.5 效用理论31
 3.6 信息值31
 3.7 贝叶斯网络32
 3.8 影响图36
 3.9 关联规则36
 3.10 注释37
 3.11 习题37
 3.12 参考文献38
第4章 参数方法39
 4.1 引言39
 4.2 最大似然估计39
  4.2.1 伯努利密度40
  4.2.2 多项密度40
  4.2.3 高斯(正态)密度41
 4.3 评价估计:偏倚和方差41
 4.4 贝叶斯估计42
 4.5 参数分类44
 4.6 回归47
 4.7 调整模型的复杂度:偏倚/方差两难
选择49
 4.8 模型选择过程51
 4.9 注释53
 4.10 习题53
 4.11 参考文献54
第5章 多元方法55
 5.1 多元数据55
 5.2 参数估计55
 5.3 缺失值估计56
 5.4 多元正态分布57
 5.5 多元分类59
 5.6 调整复杂度63
 5.7 离散特征64
 5.8 多元回归65
 5.9 注释66
 5.10 习题66
 5.11 参考文献67
第6章 维度归约68
 6.1 引言68
 6.2 子集选择68
 6.3 主成分分析70
 6.4 因子分析74
 6.5 多维定标78
 6.6 线性判别分析80
 6.7 注释83
 6.8 习题84
 6.9 参考文献84
第7章 聚类86
 7.1 引言86
 7.2 混合密度86
 7.3 k-均值聚类87
 7.4 期望最大化算法90
 7.5 潜在变量混合模型93
 7.6 聚类后的监督学习94
 7.7 层次聚类95
 7.8 选择簇个数96
 7.9 注释96
 7.10 习题97
 7.11 参考文献97
第8章 非参数方法99
 8.1 引言99
 8.2 非参数密度估计99
  8.2.1 直方图估计100
  8.2.2 核估计101
  8.2.3 k-最近邻估计102
 8.3 到多变元数据的推广103
 8.4 非参数分类104
 8.5 精简的最近邻105
 8.6 非参数回归:光滑模型106
  8.6.1 移动均值光滑106
  8.6.2 核光滑108
  8.6.3 移动线光滑108
 8.7 如何选择光滑参数109
 8.8 注释110
 8.9 习题110
 8.10 参考文献111
第9章 决策树113
 9.1 引言113
 9.2 单变量树114
  9.2.1 分类树114
  9.2.2 回归树118
 9.3 剪枝119
 9.4 由决策树提取规则120
 9.5 由数据学习规则121
 9.6 多变量树124
 9.7 注释125
 9.8 习题126
 9.9 参考文献127
第10章 线性判别式128
 10.1 引言128
 10.2 推广线性模型129
 10.3 线性判别式的几何意义130
  10.3.1 两类问题130
  10.3.2 多类问题131
 10.4 逐对分离132
 10.5 参数判别式的进一步讨论133
 10.6 梯度下降134
 10.7 逻辑斯谛判别式135
  10.7.1 两类问题135
  10.7.2 多类问题137
 10.8 回归判别式141
 10.9 支持向量机142
  10.9.1 最佳分离超平面142
  10.9.2 不可分情况:软边缘超平面144
  10.9.3 核函数145
  10.9.4 用于回归的支持向量机147
 10.10 注释148
 10.11 习题148
 10.12 参考文献149
第11章 多层感知器150
 11.1 引言150
  11.1.1 理解人脑150
  11.1.2 神经网络作为并行处理的典范…151
 11.2 感知器152
 11.3 训练感知器154
 11.4 学习布尔函数156
 11.5 多层感知器157
 11.6 MLP作为通用逼近器159
 11.7 后向传播算法160
  11.7.1 非线性回归160
  11.7.2 两类判别式163
  11.7.3 多类判别式164
  11.7.4 多个隐藏层164
 11.8 训练过程164
  11.8.1 改善收敛性164
  11.8.2 过分训练165
  11.8.3 构造网络167
  11.8.4 线索168
 11.9 调整网络规模169
 11.10 学习的贝叶斯观点170
 11.11 维度归约171
 11.12 学习时间173
  11.12.1 时间延迟神经网络173
  11.12.2 递归网络174
 11.13 注释175
 11.14 习题176
 11.15 参考文献176
第12章 局部模型179
 12.1 引言179
 12.2 竞争学习179
  12.2.1 在线k-均值179
  12.2.2 自适应共鸣理论182
  12.2.3 自组织映射183
 12.3 径向基函数184
 12.4 结合基于规则的知识188
 12.5 规范化基函数188
 12.6 竞争的基函数190
 12.7 学习向量量化192
 12.8 混合专家模型192
  12.8.1 协同专家模型194
  12.8.2 竞争专家模型194
 12.9 层次混合专家模型195
 12.10 注释195
 12.11 习题196
 12.12 参考文献196
第13章 隐马尔可夫模型198
 13.1 引言198
 13.2 离散马尔可夫过程198
 13.3 隐马尔可夫模型200
 13.4 HMM的三个基本问题202
 13.5 估值问题202
 13.6 寻找状态序列204
 13.7 学习模型参数205
 13.8 连续观测208
 13.9 带输入的HMM208
 13.10 HMM中的模型选择209
 13.11 注释210
 13.12 习题211
 13.13 参考文献211
第14章 分类算法评估和比较213
 14.1 引言213
 14.2 交叉确认和再抽样方法215
  14.2.1  K-折交叉确认215
  14.2.2  5×2交叉确认215
  14.2.3 自助法216
 14.3 误差度量216
 14.4 区间估计217
 14.5 假设检验220
 14.6 评估分类算法的性能221
  14.6.1 二项检验221
  14.6.2 近似正态检验222
  14.6.3 配对t检验222
 14.7 比较两个分类算法223
  14.7.1 McNemar检验223
  14.7.2 K-折交叉确认配对t检验223
  14.7.3 5×2交叉确认配对t检验224
  14.7.4 5×2交叉确认配对F检验225
 14.8 比较多个分类算法:方差分析225
 14.9 注释227
 14.10 习题228
 14.11 参考文献228
第15章 组合多学习器230
 15.1 基本原理230
 15.2 投票法232
 15.3 纠错输出码234
 15.4 装袋235
 15.5 提升236
 15.6 重温混合专家模型238
 15.7 层叠泛化238
 15.8 级联239
 15.9 注释240
 15.10 习题241
 15.11 参考文献241
第16章 增强学习243
 16.1 引言243
 16.2 单状态情况:K臂赌博机问题244
 16.3 增强学习基础245
 16.4 基于模型的学习246
  16.4.1 价值迭代247
  16.4.2 策略迭代247
 16.5 时间差分学习248
  16.5.1 探索策略248
  16.5.2 确定性奖励和动作248
  16.5.3 非确定性奖励和动作250
  16.5.4 资格迹251
 16.6 推广253
 16.7 部分可观测状态254
 16.8 注释255
 16.9 习题256
 16.10 参考文献257
附录A 概率论258
索引266
第1章 绪论1
 1.1 什么是机器学习1
 1.2 机器学习的应用实例2
  1.2.1 学习关联性2
  1.2.2 分类3
  1.2.3 回归5
  1.2.4 非监督学习6
  1.2.5 增强学习7
 1.3 注释8
 1.4 相关资源9
 1.5 习题10
 1.6 参考文献10
第2章 监督学习11
 2.1 由实例学习类11
 2.2 VC维14
 2.3 可能近似正确学习15
 2.4 噪声16
 2.5 学习多类18
 2.6 回归19
 2.7 模型选择与泛化20
 2.8 监督机器学习算法的维22
 2.9 注释23
 2.10 习题24
 2.11 参考文献24
第3章 贝叶斯决策定理26
 3.1 引言26
 3.2 分类27
 3.3 损失与风险28
 3.4 判别式函数30
 3.5 效用理论31
 3.6 信息值31
 3.7 贝叶斯网络32
 3.8 影响图36
 3.9 关联规则36
 3.10 注释37
 3.11 习题37
 3.12 参考文献38
第4章 参数方法39
 4.1 引言39
 4.2 最大似然估计39
  4.2.1 伯努利密度40
  4.2.2 多项密度40
  4.2.3 高斯(正态)密度41
 4.3 评价估计:偏倚和方差41
 4.4 贝叶斯估计43
 4.5 参数分类44
 4.6 回归47
 4.7 调整模型的复杂度:偏倚/方差两难
选择49
 4.8 模型选择过程51
 4.9 注释53
 4.10 习题53
 4.11 参考文献54
第5章 多元方法55
 5.1 多元数据55
 5.2 参数估计55
 5.3 缺失值估计56
 5.4 多元正态分布57
 5.5 多元分类59
 5.6 调整复杂度64
 5.7 离散特征65
 5.8 多元回归65
 5.9 注释66
 5.10 习题67
 5.11 参考文献67
第6章 维度归约68
 6.1 引言68
 6.2 子集选择68
 6.3 主成分分析70
 6.4 因子分析74
 6.5 多维定标78
 6.6 线性判别分析80
 6.7 注释83
 6.8 习题84
 6.9 参考文献84
第7章 聚类86
 7.1 引言86
 7.2 混合密度86
 7.3 k-均值聚类87
 7.4 期望最大化算法90
 7.5 潜在变量混合模型93
 7.6 聚类后的监督学习94
 7.7 层次聚类95
 7.8 选择簇个数96
 7.9 注释96
 7.10 习题97
 7.11 参考文献97
第8章 非参数方法99
 8.1 引言99
 8.2 非参数密度估计99
  8.2.1 直方图估计100
  8.2.2 核估计101
  8.2.3 k-最近邻估计102
 8.3 到多变元数据的推广103
 8.4 非参数分类104
 8.5 精简的最近邻105
 8.6 非参数回归:光滑模型106
  8.6.1 移动均值光滑106
  8.6.2 核光滑108
  8.6.3 移动线光滑108
 8.7 如何选择光滑参数109
 8.8 注释110
 8.9 习题110
 8.10 参考文献111
第9章 决策树113
 9.1 引言113
 9.2 单变量树114
  9.2.1 分类树114
  9.2.2 回归树118
 9.3 剪枝119
 9.4 由决策树提取规则120
 9.5 由数据学习规则121
 9.6 多变量树124
 9.7 注释125
 9.8 习题126
 9.9 参考文献127
第10章 线性判别式128
 10.1 引言128
 10.2 推广线性模型129
 10.3 线性判别式的几何意义130
  10.3.1 两类问题130
  10.3.2 多类问题131
 10.4 逐对分离132
 10.5 参数判别式的进一步讨论133
 10.6 梯度下降134
 10.7 逻辑斯谛判别式135
  10.7.1 两类问题135
  10.7.2 多类问题137
 10.8 回归判别式141
 10.9 支持向量机142
  10.9.1 最佳分离超平面142
  10.9.2 不可分情况:软边缘超平面144
  10.9.3 核函数145
  10.9.4 用于回归的支持向量机147
 10.10 注释148
 10.11 习题148
 10.12 参考文献149
第11章 多层感知器150
 11.1 引言150
  11.1.1 理解人脑150
  11.1.2 神经网络作为并行处理的典范… 151
 11.2 感知器152
 11.3 训练感知器154
 11.4 学习布尔函数156
 11.5 多层感知器157
 11.6 MLP作为通用逼近器159
 11.7 后向传播算法160
  11.7.1 非线性回归160
  11.7.2 两类判别式163
  11.7.3 多类判别式164
  11.7.4 多个隐藏层164
 11.8 训练过程164
  11.8.1 改善收敛性164
  11.8.2 过分训练165
  11.8.3 构造网络167
  11.8.4 线索168
 11.9 调整网络规模169
 11.10 学习的贝叶斯观点170
 11.11 维度归约171
 11.12 学习时间173
  11.12.1 时间延迟神经网络173
  11.12.2 递归网络174
 11.13 注释175
 11.14 习题176
 11.15 参考文献176
第12章 局部模型179
 12.1 引言179
 12.2 竞争学习179
  12.2.1 在线k-均值179
  12.2.2 自适应共鸣理论182
  12.2.3 自组织映射183
 12.3 径向基函数184
 12.4 结合基于规则的知识188
 12.5 规范化基函数188
 12.6 竞争的基函数190
 12.7 学习向量量化192
 12.8 混合专家模型192
  12.8.1 协同专家模型194
  12.8.2 竞争专家模型194
 12.9 层次混合专家模型195
 12.10 注释195
 12.11 习题196
 12.12 参考文献196
第13章 隐马尔可夫模型198
 13.1 引言198
 13.2 离散马尔可夫过程198
 13.3 隐马尔可夫模型200
 13.4 HMM的三个基本问题202
 13.5 估值问题202
 13.6 寻找状态序列204
 13.7 学习模型参数205
 13.8 连续观测208
 13.9 带输入的HMM208
 13.10 HMM中的模型选择209
 13.11 注释210
 13.12 习题211
 13.13 参考文献211
第14章 分类算法评估和比较213
 14.1 引言213
 14.2 交叉确认和再抽样方法215
  14.2.1 K-折交叉确认215
  14.2.2 5×2交叉确认215
  14.2.3 自助法216
 14.3 误差度量216
 14.4 区间估计217
 14.5 假设检验220
 14.6 评估分类算法的性能221
  14.6.1 二项检验221
  14.6.2 近似正态检验222
  14.6.3 配对t检验222
 14.7 比较两个分类算法223
  14.7.1 McNemar检验223
  14.7.2 K-折交叉确认配对t检验223
  14.7.3 5×2交叉确认配对t检验224
  14.7.4 5×2交叉确认配对F检验225
 14.8 比较多个分类算法:方差分析225
 14.9 注释227
 14.10 习题228
 14.11 参考文献228
第15章 组合多学习器230
 15.1 基本原理230
 15.2 投票法232
 15.3 纠错输出码234
 15.4 装袋235
 15.5提升236
 15.6 重温混合专家模型238
 15.7 层叠泛化238
 15.8 级联239
 15.9 注释240
 15.10 习题241
 15.11 参考文献241
第16章 增强学习243
 16.1 引言243
 16.2 单状态情况:K臂赌博机问题244
 16.3 增强学习基础245
 16.4 基于模型的学习246
  16.4.1 价值迭代247
  16.4.2 策略迭代247
 16.5 时间差分学习248
  16.5.1 探索策略248
  16.5.2 确定性奖励和动作248
  16.5.3 非确定性奖励和动作250
  16.5.4 资格迹251
 16.6 推广253
 16.7 部分可观测状态254
 16.8 注释255
 16.9 习题256
 16.10 参考文献257
附录A 概率论258
索引266
机器学习领域在理论和应用两方面都发展迅速。无论是学术界还是产业界,人们都对能够通过实例学习的计算机程序表现出了极大的兴趣,并且所有国家都是如此。因此,看到本书的中文版出版我特别高兴,另外,我感谢范明教授为翻译本书所做出的努力,他在此之前翻译了几本统计学和数据挖掘的名著。我希望本书的读者能觉得它有益处,并且就像我乐于写它一样乐于阅读它。

Ethem Alpaydin
于伊斯坦布尔Bogazici 大学
2008.8


Preface of the Chinese Edition
The field of machine learning is developing rapidly both in theory and applications.There is great interest in computer programs which can learn from examples,both in academia and industry,and this is true for all countries.It therefore gives me great pleasure to see the Chinese language edition of my book in print,and for the effort in dong the translation,I thank Professor Fan who previously have translated several well-known texts on statistics and data mining.I hope that the readers of my book will find it beneficial and enjoy reading it as much as Ienjoyed writing it.

Ethem Alpaydin
Bogazici University,Istanbul
August 2008
自从有计算机以来,人们就希望计算机能够学习。然而,机器学习真正取得实质性进展,能够成功地解决一些实际问题,并最终成为一个学科分支还是近20余年的事。
  对于许多问题,我们的前人和先行者已经知道如何求解。例如,欧几里德告诉我们可以用辗转相除法求两个整数的最大公约数;Dijkstra告诉我们如何有效地求两点之间的最短路径;Hoare向我们展示了怎样将杂乱无章的对象快速排序……对于这些问题,我们清楚地知道求解步骤。因此,让计算机求解这些问题只需要设计算法和数据结构、进行编程,而不需要让计算机学习。
  还有一些事情,人们可以轻而易举地做好,但是却无法解释清楚我们是如何做的。例如,尽管桌子千差万别、用途各异,但是我们一眼就能看出某个物体是否是桌子;尽管不同的人的手写阿拉伯数字大小不一、笔画粗细不同,但是我们还是可以轻易识别一个数字是不是8;尽管声音时大时小、有时可能还有点沙哑,但是我们还是可以不费力气地听出熟人的声音。诸如此类的例子不胜枚举。对于这些问题,我们不知道求解步骤。因此,让计算机来做这些事就需要让计算机学习。
  我们知道桌子不是木材和各种材料的随机堆砌,手写数字不是像素的随机分布,熟人的声音也不是各种声波的随机混合。现实世界总是有规律的。机器学习正是从已知实例中自动发现规律,建立对未知实例的预测模型;根据经验不断提高,不断改进预测性能。
  这是关于机器学习这一主题全面论述的教科书,适合作为高等院校计算机相关专业高年级本科生和研究生机器学习入门课程的教材。该书涵盖了监督学习、贝叶斯决策理论、参数方法、多元方法、维度归约、聚类、非参数方法、决策树、线性判别式、多层感知器、局部模型、隐马尔可夫模型、分类算法评估和比较、组合多学习器以及增强学习。作者对来自统计学、模式识别、神经网络、人工智能、信号处理、控制和数据挖掘等不同领域的机器学习问题和学习方法进行了统一论述。
  现在,学习的本质还不十分清楚。然而,关于学习的理论认识已开始逐步形成,已经建立起来的一些机器学习方法已经成功地解决了许多实际问题。我们能够从这本书中学习机器学习,发现机器学习的新方法,不断提高对学习本质的认识。
  全书共分16章和一个附录。昝红英翻译了第1~6章,牛常勇翻译了第13~16章,范明翻译了其余部分,并对全书译文进行了修改和最后定稿。
  本书的翻译得到了原作者Ethem Alpaydn教授的支持。Ethem教授不仅为中文版写序,而且还耐心地解释了我们的一些疑问。在此,我们向Ethem教授表示感谢。
  译文中的错误和不当之处,敬请读者朋友指正。意见和建议请发至mfan@zzu.edu.cn,我们不胜感激。
计算机科学及应用
读者书评
发表评论



高级搜索
专家系统:原理与编程(原书第4版)
专家系统:原理与编程(英文版 第4版)


版权所有© 2017  北京华章图文信息有限公司 京ICP备08102525号 京公网安备110102004606号
通信地址:北京市百万庄南街1号 邮编:100037
电话:(010)68318309, 88378998 传真:(010)68311602, 68995260
高校教师服务
华章教育微信
诚聘英才
诚聘英才