注册 登录 进入教材巡展 进入在线书城
#
  • #

出版时间:2016年1月

出版社:清华大学出版社

以下为《数据流分类》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 清华大学出版社
  • 9787302405993
  • 1-1
  • 93044
  • 16开
  • 2016年1月
  • 工学
  • 计算机科学与技术
  • TP274
  • 计算机
  • 本专科、高职高专
内容简介
本书阐述了数据流分类问题的基础理论、技术方法以及应用实践,为面向实际数据流开展分类数据挖掘任务提供了理论与实践基础。全书共分四篇12章。第一篇是引言篇,本篇首先简介数据挖掘的相关概念,然后介绍数据流挖掘的相关定义、应用背景及理论基础与技术,最后重点总结数据流分类挖掘的主要研究进展并归纳了存在的关键问题;第二篇是基础篇,本篇主要阐述了分类挖掘任务中常用的模型与技术,为后续数据流分类方法提供技术基础;第三篇是专题篇: 本篇首先总结分析适宜于数据流环境的几种集成模型,并通过两个示例讲解了基于加权集成模型的数据流分类算法的应用。然后详细介绍若干数据流的概念漂移检测与分类方法、不完全标记数据流分类方法以及面向实际应用数据的特征选择方法,并通过在模拟与实际数据上的大量实验考察了这些方法的分类性能;第四篇是实验资源篇,本篇首先介绍数据流分类算法实验工具ETDSv1.0 的功能与用户使用说明,然后归纳总结目前流行的面向数据流环境的实验平台以及在数据流分类任务中常用的数据集。
本书在数据流中概念漂移检测问题、不完全标记问题、特征选择等方面有许多独到见解,总结归纳了近年来在数据流分类任务上的研究成果,并归纳提炼了数据流分类研究任务中存在的重要开放性问题。
本书可作为计算机软件与理论、计算机应用类的研究生教材,也可供对数据流挖掘等领域感兴趣的相关教师、本科生、研究生以及科技工作者参考。另外,本书介绍的相关实验软件平台已开源,可为从事数据流挖掘等方向的科研工作者提供实践与二次开发平台。
目录
第1章数据挖掘3

1.1KDD定义和过程3

1.2数据挖掘的概念和任务5

1.3数据挖掘中的十大算法6

1.3.1C4.5算法6

1.3.2kMeans算法6

1.3.3SVM算法7

1.3.4Apriori算法8

1.3.5EM算法8

1.3.6PageRank算法9

1.3.7AdaBoost算法9

1.3.8kNN算法10

1.3.9Naive Bayes算法10

1.3.10CART算法11

1.4数据挖掘中的应用热点11

1.5小结12

参考文献13

第2章数据流挖掘15

2.1背景15

2.2数据流的应用领域及定义16

2.3数据流处理的理论基础与挖掘技术17

2.3.1基于数据的方法18

2.3.2基于任务的方法19

2.4数据流挖掘的挑战与任务19

2.4.1传统数据挖掘面临的挑战20

2.4.2数据流挖掘的挑战21

2.4.3数据流的挖掘任务22

2.5小结25目录数据流分类参考文献25

第3章数据流分类的关键研究问题28

3.1引言28

3.2概念描述模型与大纲数据提取问题29

3.2.1概念描述模型29

3.2.2数据流大纲的提取方法与策略30

3.3数据流的概念漂移检测问题31

3.3.1概念漂移的基础知识31

3.3.2概念漂移的处理方法33

3.3.3研究进展35

3.3.4技术方案37

3.4噪音数据流问题38

3.4.1问题描述38

3.4.2研究进展与技术方案39

3.5数据分布不平衡问题39

3.5.1问题描述39

3.5.2不平衡数据分布的处理方法41

3.5.3研究进展44

3.5.4技术方案45

3.6不完全标记数据流分类问题45

3.6.1问题描述45

3.6.2不完全标记数据的处理方法46

3.6.3研究进展47

3.6.4技术方案48

3.7数据流的特征高维稀疏问题50

3.7.1问题描述50

3.7.2研究进展与技术方案50

3.8数据流分类的评价体系51

3.8.1问题描述51

3.8.2概念漂移检测方法的评估指标52

3.8.3数据流分类评估方法52

3.8.4设计方案53

3.9本章小结53

参考文献54基础篇

第4章分类模型与方法65

4.1分类的基本知识65

4.2分类模型的评估方法65

4.3决策树模型66

4.3.1传统的决策树模型66

4.3.2随机决策树模型70

4.4Bayes模型73

4.4.1贝叶斯分类的一般原理73

4.4.2常见的贝叶斯分类模型74

4.5其他分类模型77

4.5.1神经网络77

4.5.2概念格77

4.5.3粗糙集合79

4.6集成方法82

4.6.1集成分类的基本知识82

4.6.2经典的集成分类方法83

参考文献84

第5章特征选择88

5.1研究背景及意义88

5.2特征选择概述90

5.2.1特征选择的相关概念90

5.2.2特征选择的过程91

5.2.3特征选择的分类95

5.3经典特征选择方法概述97

5.3.1Relief方法98

5.3.2信息熵方法98

5.3.3粗糙集合方法99

5.3.4遗传算法100

5.3.5OneR方法101

5.3.6LARS算法102

5.4特征选择面临的挑战104

参考文献104专题篇

第6章数据流的集成分类方法研究111

6.1引言111

6.2数据流分类的集成策略111

6.2.1WE集成方法112

6.2.2AP集成方法113

6.2.3WE与AP混合集成方法113

6.2.4基于WE的混合集成方法114

6.3基于决策树模型的集成分类方法122

6.3.1基于UFFT的集成分类方法123

6.3.2基于随机决策树的集成分类方法130

6.4本章小结148

参考文献149

第7章数据流中概念漂移检测与分类问题研究152

7.1引言152

7.2基于增量式决策树的数据流概念漂移检测与分类方法153

7.2.1CVFDT系列数据流概念漂移检测与分类方法153

7.2.2RDT系列数据流概念漂移检测与分类方法157

7.3面向不同漂移特征的概念漂移数据流分类算法158

7.3.1基于C4.5和Naive Bayes混合模型的概念漂移数据流分类算法158

7.3.2基于变体RDT模型的概念漂移数据流检测与分类方法165

7.3.3CDRDT算法: 一种快速的数据流概念漂移检测与分类算法175

7.3.4基于双层窗口的概念漂移数据流分类算法190

7.4本章小结198

参考文献198

第8章不完全标记数据流分类问题研究205

8.1引言205

8.2不完全标记数据流的处理技术206

8.2.1基于kMeans与增量式决策树的模型207

8.2.2基于kModes与增量式决策树的模型213

8.3不完全标记数据流中的概念漂移检测219

8.3.1研究现状220

8.3.2基于聚类概念簇差异的概念漂移检测机制222

8.3.3实验结果与分析227

8.4不完全标记数据流中的重现概念漂移检测229

8.4.1研究现状229

8.4.2基于聚类概念簇差异的重复再现概念检测机制231

8.4.3实验结果与分析234

8.5算法框架与实验分析237

8.5.1SUN算法框架237

8.5.2SUN算法的实验结果与分析238

8.5.3REDLLA算法框架240

8.5.4REDLLA算法的实验结果与分析241

8.6不完全标记数据流分类任务中的开放性问题245

8.7本章小结246

参考文献246

第9章面向应用数据的特征降维方法研究251

9.1引言251

9.2文本分类中的特征降维252

9.2.1经典文本特征降维算法254

9.2.2基于语义信息的特征降维方法257

9.3基于本体的特征降维算法261

9.3.1相关定义261

9.3.2算法框架263

9.3.3算法技术细节264

9.3.4实验结果与分析266

9.4基于迭代Lasso的肿瘤分类信息基因选择方法278

9.4.1引言278

9.4.2方法 GSIL系统框架280

9.4.3实验结果与分析284

9.4.4小结291

9.5流环境下实时的特征降维方法291

9.5.1引言291

9.5.2IV指标定义293

9.5.3基于IV指标的特征选择方法FSIV296

9.5.4FSIV的实验结果及分析297

9.5.5FSIV在入侵检测数据流中的应用300

9.5.6FSIV在网络交易数据流中的应用303

9.6本章小结305

参考文献306实验资源篇

第10章数据流分类算法实验工具包ETDSv1.0315

10.1引言315

10.2软件的配置、运行与功能316

10.2.1软件的配置与运行316

10.2.2软件功能317

10.3数据生成器318

10.3.1视图界面中数据生成器主菜单319

10.3.2数据库两大生成器菜单功能介绍319

10.4SRMTDS算法322

10.4.1SRMTDS算法参数设定菜单322

10.4.2SRMTDS算法特征数据库读取与算法运行菜单326

10.5SRMTCD(MSRT)算法328

10.5.1SRMTCD(MSRT)算法参数设定菜单328

10.5.2SRMTCD(MSRT)算法特征数据库读取与算法运行菜单331

10.6EDT算法333

10.6.1EDT算法参数设定菜单334

10.6.2EDT算法特征数据库读取与算法运行菜单337

10.7EDTC算法340

10.7.1EDTC算法参数设定菜单340

10.7.2EDTC算法特征数据库读取与算法运行菜单342

10.8CDRDT算法345

10.8.1CDRDT算法参数设定菜单345

10.8.2CDRDT算法特征数据库读取与算法运行菜单347

10.9DWCDS算法349

10.9.1DWCDS算法参数设定菜单349

10.9.2DWCDS算法特征数据库读取与算法运行菜单351说

10.10附录353

10.10.1数据流实验工具算法布局图353

10.10.2数据流分类算法运行流程图353

第11章经典的数据流分类算法实验工具355

11.1VFML355

11.1.1VFDTc算法355

11.1.2CVFDT算法358

11.2MOA364

11.2.1MOA的界面操作365

11.2.2MOA命令行使用方法375

参考文献377

第12章数据流分类算法常用的实验数据集378

12.1非概念漂移数据流378

12.1.1合成数据集378

12.1.2真实数据集378

12.2概念漂移数据集379

12.2.1合成数据集379

12.2.2真实数据集381

参考文献384