注册 登录 进入教材巡展 进入在线书城
#
  • #

出版时间:2020年1月

出版社:清华大学出版社

以下为《数据挖掘算法与应用(Python实现)》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 清华大学出版社
  • 9787302563778
  • 409218
  • 2020年1月
作者简介
孙家泽,男,博士,副教授,计算机软件方向硕士研究生导师。1980年7月出生,汉族。2006年至今,西安邮电大学计算机学院任教,2017-2018美国西密歇根大学访问学者,主讲数据挖掘,数据库技术,高级语言程序设计等课程,近5年先后主持多项软件工程和数据分析类的项目,获省市科技进步奖6次,授权国家发明专利2项,正在公开实审发明专利6项,软件著作权5项,学术专著2部,参编教材2部,发表论文30多篇,多篇被SCI/EI检索。主要从事数据挖掘、软件测试和群体智能算法等方面研究。
查看全部
内容简介
本教材以数据挖掘的经典算法为主线,基础部分讲清楚数据挖掘的过程和经典算法:数据探索、数据预处理、分类与回归、聚类分析、关联规则挖掘、偏差检测等。同时增加实现应用部分,在应用实现部分,以Python作为描述语言,以解决某个应用的挖掘目标为前提,介绍案例背景,阐述分析方法与过程,完成模型构建,给出算法的具体实现,通过此项目的方法提升学生的算法理解和应用能力,适应当今大数据时代对于高级工程师的数据分析能力。
目录
第1章数据挖掘导论/1

1.1为什么进行数据挖掘2

1.1.1数据挖掘起源2

1.1.2数据挖掘是数据处理的高级阶段3

1.2什么是数据挖掘4

1.2.1广义技术角度的定义4

1.2.2狭义技术角度的定义5

1.2.3商业角度的定义6

1.2.4数据挖掘与机器学习6

1.3挖掘什么类型的数据7

1.3.1数据库数据7

1.3.2数据仓库数据8

1.3.3事务数据9

1.3.4其他类型的数据9

1.4能挖掘到什么知识10

1.4.1广义知识11

1.4.2关联知识12

1.4.3聚类知识13

1.4.4分类知识13

1.4.5预测型知识14

1.4.6偏差型知识14

1.4.7有价值的知识15

1.5数据挖掘方法15

1.5.1统计学16

1.5.2机器学习16

1.5.3数据库系统和数据仓库18

1.5.4智能优化19

1.6数据挖掘过程20

1.6.1Fayyad数据挖掘模型20

1.6.2CRISPDM模型211.6.3CRISPDM案例25

1.6.4数据挖掘过程的工作量26

1.6.5数据挖掘需要的人员26

1.7数据挖掘应用27

1.7.1数据挖掘在市场营销中的应用27

1.7.2数据挖掘在电信行业的应用28

1.7.3数据挖掘在银行业的应用29

1.7.4数据挖掘在社交网络分析中的应用29

1.7.5数据挖掘在软件工程中的应用30

1.8数据挖掘中的隐私权保护33

1.8.1侵犯隐私权的表现34

1.8.2保护隐私权的对策35

1.9数据挖掘课程学习方法和资源36

1.9.1数据挖掘课程学习方法36

1.9.2开源数据挖掘工具37

1.9.3经典测试数据集39

1.9.4著名国际会议和期刊40

1.10思考与练习41

数据挖掘算法与应用(Python实现)目录第2章数据探索与预处理/43

2.1数据属性类型44

2.2数据的统计描述45

2.2.1中心趋势度量: 均值、中位数和众数45

2.2.2度量数据散布47

2.3统计描述图形49

2.4数据相似性度量53

2.4.1数据矩阵与相异性矩阵53

2.4.2标称属性的相异性度量54

2.4.3二元属性的相异性度量54

2.4.4数值属性的相异性56

2.4.5序数属性的邻近性度量58

2.5数据清洗59

2.5.1缺失值处理59

2.5.2噪声数据处理62

2.5.3异常值处理67

2.6数据集成68

2.6.1实体识别问题68

2.6.2冗余和相关分析69

2.6.3数据值冲突的检测与处理71

2.7数据变换72

2.7.1数据变换策略概述72

2.7.2数据规范化72

2.7.3数据离散化和概念分层74

2.8数据归约78

2.8.1数值归约78

2.8.2属性归约81

2.9对数据预处理的点85

2.10思考与练习86

第3章关联规则挖掘/87

3.1基本概念87

3.2Apriori算法89

3.2.1Apriori算法详解90

3.2.2Apriori算法的例子95

3.2.3Apriori算法总结98

3.3FPGrowth算法98

3.3.1FPGrowth算法详解99

3.3.2FPGrowth算法的例子108

3.4关联规则评价109

3.5思考与练习112

第4章聚类分析/114

4.1聚类分析简介114

4.2基于划分的方法115

4.2.1kmeans算法115

4.2.2kmedoids算法118

4.3基于层次的方法120

4.3.1AGNES算法121

4.3.2DIANA算法122

4.3.3BIRCH算法124

4.4基于密度的方法129

4.5基于概率的聚类133

4.6聚类图数据138

4.6.1聚类图数据度量138

4.6.2复杂网络140

4.7聚类评估143

4.7.1估计聚类趋势144

4.7.2确定簇数145

4.7.3测定聚类质量145

4.8思考与练习152

第5章分类/154

5.1基本概念154

5.1.1什么是分类154

5.1.2分类的过程155

5.1.3分类器常见构造方法157

5.2KNN分类157

5.3贝叶斯分类160

5.3.1贝叶斯定理160

5.3.2朴素贝叶斯分类算法161

5.4决策树分类164

5.4.1相关定义165

5.4.2CART算法原理166

5.4.3CART算法实例167

5.4.4CART算法的优缺点169

5.4.5ID3算法原理169

5.4.6ID3算法实例170

5.4.7ID3算法的优缺点175

5.4.8C4.5算法原理176

5.4.9C4.5算法实例176

5.4.10C4.5算法的优缺点184

5.4.113种算法的比较185

5.5分类算法评价185

5.5.1常用术语185

5.5.2评价指标186

5.5.3分类器性能的表示189

5.5.4分类器性能的评估方法192

5.6思考与练习193

第6章高级分类算法/195

6.1组合分类算法195

6.1.1算法起源195

6.1.2AdaBoost算法基本原理196

6.1.3分类器创建197

6.1.4算法实例199

6.1.5AdaBoost算法的优缺点206

6.2粒子群分类算法206

6.2.1粒子群优化算法简介207

6.2.2基本粒子群优化算法207

6.2.3粒子群优化算法的特点209

6.2.4基于粒子群优化算法的分类器构造210

6.3支持向量机分类算法214

6.3.1支持向量机的基本概念214

6.3.2感知机模型215

6.3.3硬间隔支持向量机215

6.3.4软间隔支持向量机219

6.3.5非线性支持向量机221

6.3.6支持向量机算法实例222

6.3.7支持向量机算法的优缺点224

6.4BP神经网络分类算法224

6.4.1算法起源224

6.4.2BP神经网络的理论基础225

6.4.3BP神经网络基本原理229

6.4.4BP神经网络的学习机制230

6.4.5BP算法步骤233

6.4.6BP算法实例233

6.4.7BP算法的优缺点235

6.5思考与练习235

第7章Python数据分析/237

7.1搭建Python开发平台237

7.2Python数据分析库238

7.2.1NumPy238

7.2.2Pandas246

7.2.3SciPy251

7.2.4ScikitLearn252

7.3Python数据可视化254

7.3.1Matplotlib254

7.3.2Seaborn261

7.3.3Bokeh265

7.4思考与练习267

第8章Python数据挖掘/269

8.1数据探索269

8.2数据预处理270

8.2.1数据清洗271

8.2.2数据集成275

8.2.3数据归约277

8.2.4数据变换278

8.3聚类分析算法280

8.3.1kmeans算法280

8.3.2DBSCAN算法285

8.4关联规则算法288

8.4.1Apriori算法288

8.4.2FP树算法293

8.5分类算法298

8.5.1ID3算法299

8.5.2C4.5算法305

8.5.3KNN算法311

8.6思考与练习317

第9章泰坦尼克号乘客生存率预测/318

9.1背景与挖掘目标318

9.2算法介绍318

9.2.1线性回归算法318

9.2.2逻辑回归算法320

9.2.3随机森林算法322

9.3分析方法与过程326

9.3.1数据抽取326

9.3.2数据探索与分析327

9.3.3数据预处理330

9.3.4模型构建333

9.3.5模型检验335

9.4思考与练习336

第10章基于关联规则的电影推荐/338

10.1选择数据源338

10.2数据探索340

10.2.1异常值分析340

10.2.2周期性分析341

10.2.3统计量分析342

10.3数据预处理344

10.3.1数据加载344

10.3.2缺失值处理344

10.3.3异常值处理345

10.4数据挖掘算法实现346

10.5算法评估346

10.6主要代码348

10.6.1频繁项集生成代码348

10.6.2关联规则生成代码350

10.6.3电影推荐代码351

10.7思考与练习351

第11章航空公司客户价值分析/353

11.1背景与挖掘目标353

11.2分析方法与过程353

11.2.1数据抽取355

11.2.2数据探索356

11.2.3数据预处理357

11.2.4模型构建359

11.2.5模型检验360

11.3思考与练习361

第12章基于协同过滤的音乐推荐/363

12.1推荐系统和协同过滤算法363

12.1.1推荐系统发展概况363

12.1.2基于用户的协同过滤算法365

12.1.3基于项目的协同过滤算法368

12.1.4两种算法的比较369

12.1.5协同过滤算法和基于内容的过滤算法比较370

12.1.6推荐系统的评价370

12.2音乐推荐371

12.2.1数据获取371

12.2.2数据预处理372

12.2.3数据分析及算法设计372

12.2.4结果输出和模型评价375

12.3思考与练习377

第13章基于支持向量机的手写数字识别/378

13.1背景与支持向量机的概念378

13.1.1超平面378

13.1.2软间隔378

13.1.3线性不可分问题379

13.1.4支持向量机类型379

13.1.5支持向量机举例379

13.1.6支持向量机的应用381

13.2分析方法与过程382

13.2.1数据集介绍382

13.2.2数据集读取383

13.2.3数据集可视化383

13.3模型构建384

13.4模型检验386

13.5思考与练习387

第14章基于神经网络的代码坏味检测/388

14.1神经网络388

14.2代码坏味检测389

14.2.1代码坏味简介389

14.2.2代码坏味研究现状391

14.2.3代码坏味公开数据集392

14.3基于神经网络算法的代码坏味检测392

14.3.1准备数据392

14.3.2构建神经网络393

14.3.3训练模型395

14.3.4生成预测结果398

14.4思考与练习399

参考文献/400