随着计算机技术迅猛地发展,人工智能与机器学习已经渗透到我们日常生活的各个领域。为此,中国人民大学专门为全校财经和人文专业的学生开设了“人工智能与机器学习”课程,本书的所有作者都参与了该门课程的教学实践,相互配合,总结教学经验,共同打磨而成《人工智能与机器学习》一书。书中通过丰富现实案例的详细讲解,引导学生了解各种机器学习模型的基本原理与实践用法。避开了大量的数学模型和复杂编程知识,让学生熟悉当下流行的一些机器学习和数据处理工具的使用,来解决现实领域遇到的各种数据分析和预测问题。
王秋月,中国人民大学信息学院计算机系讲师。主要研究领域是数据库、信息检索、知识库的构建与应用等。她在香港中文大学取得博士学位,在德国奥格斯堡大学做了两年博士后工作,并于2014年访问德国马克斯普朗克计算机科学研究所一年。她于2010年至2013年负责组织国际信息检索评测会议INEX中的Data-Centric Track和Linked-Data Track,并担任过SIGIR、TKDE等国际会议和杂志的评委,在国内外期刊和会议上发表论文30余篇。主持或参与国家自然科学基金青年项目、面上项目、重点项目及国家重点研发计划项目等多项。
覃雄派,中国人民大学信息学院计算机系副教授。2009年毕业于中国人民大学信息学院,获得工学博士学位。目前主要从事高性能数据库、大数据分析、信息检索等方面的研究工作,主持1项国家自然科学基金面上项目,参与多项国家“863”计划、“973”计划及国家自然科学基金项目,在国内外期刊和会议上发表论文30余篇。
赵素云,中国人民大学信息学院计算机系副教授。2009年毕业于香港理工大学,获博士学位。主要研究方向为机器学习,不确定信息处理,以及隐私保护在数据挖掘中的应用等。主持国家自然科学基金项目两项,并参与国家自然科学基金重点项目、核高基等多项。现已发表学术论文30余篇(其中SCI检索论文10余篇)。目前,文章他引次数合计近1000次。
张静,中国人民大学信息学院计算机系讲师。2016年毕业于清华大学计算机科学与技术系,获博士学位。研究兴趣为数据挖掘。发表多篇数据挖掘国际顶级会议与期刊论文,包括TKDE,TKDD, KDD,IJCAI, AAAI等。Google统计论文引用量达到2000多次。
目录
第1章人工智能简介
11什么是人工智能
12人工智能简史(1956年以前)
13人工智能简史(1956—1980年)
14人工智能简史(1980—2010年)
15人工智能简史(2010年至今)
第2章机器学习简介
21什么是机器学习
22机器学习分类
第3章Python简介
31环境配置
32Python基础编程
33Numpy
34Matplotlib
35Pandas
第4章K近邻
41什么是K近邻
42如何度量距离或者相似性
43数据缩放
44选择合适的K值
45Scikitlearn KNN分类器介绍
46案例一:鸢尾花分类
第5章模型选择
51偏差与方差
52训练集与测试集
53交叉验证
54案例二:鸢尾花分类(案例一续)
第6章线性回归
61什么是线性回归
62损失函数
63增加多项式特征
64正则化
65超参数调优
66案例三:波士顿房价预测
第7章逻辑回归
71什么是逻辑回归
72决策边界
73损失函数
74线性回归和逻辑回归的异同
75多分类
76案例四:泰坦尼克号乘客生还预测
第8章分类评价指标
81混淆矩阵
82查准率与查全率、F1分数
83ROC曲线和AUC
84多分类评价指标
85案例五:泰坦尼克号乘客生还预测(案例四续)
第9章朴素贝叶斯
91贝叶斯定理
92朴素贝叶斯分类器
93不同的朴素贝叶斯模型
94文本分类
95案例六:垃圾邮件识别
第10章支持向量机
101什么是支持向量机
102核函数
103支持向量机的参数优化
104案例七:垃圾邮件识别(案例六续)
105总结
第11章决策树
111什么是决策树
112构建决策树
113修剪决策树
114决策树的优缺点和使用方法
115案例八:泰坦尼克号乘客生还预测
第12章集成学习
121袋装
122提升
123堆叠
124案例九:泰坦尼克号乘客生还预测(案例八续)
第13章聚类
131什么是聚类
132Kmeans算法
133聚类结果的评价
134不同的距离指标
135聚合式层次聚类
136案例十:商场客户聚类
第14章深度学习
141深度学习发展简史
142多层感知器
143损失函数
144优化算法:反向传播算法
145案例十一:手写数字识别
146深度学习技巧
147卷积神经网络
148案例十二:图像识别
第15章Kaggle竞赛
151Kaggle平台简介
152Kaggle竞赛简介
153Kaggle竞赛案例分析:泰坦尼克号乘客生还预测