Spark大数据技术项目实战 / 新一代信息技术系列教材
¥49.00定价
作者: 邓永生
出版时间:2025-02
出版社:西安电子科技大学出版社
- 西安电子科技大学出版社
- 9787560676029
- 1-1
- 549841
- 16开
- 2025-02
- 自动化技术、计算机技术
- 高职
目录
项目一 搭建Spark集群环境 1
任务1.1 认识Spark 1
1.1.1 Spark概述 2
1.1.2 Spark的特点 3
1.1.3 Spark的应用场景 4
1.1.4 Spark和Hadoop对比 4
任务1.2 搭建Spark集群 6
1.2.1 安装准备 6
1.2.2 Spark的部署方式 7
1.2.3 Spark集群的安装与部署 8
任务1.3 Spark运行架构与原理 12
1.3.1 Spark集群的运行架构 12
1.3.2 Spark运行的基本原理 13
创新学习 15
能力测试 15
项目二 使用Scala实现人事管理系统 16
任务2.1 搭建Scala开发环境 17
2.1.1 Scala简介 17
2.1.2 搭建Scala开发环境 18
2.1.3 Scala代码的运行方式 23
任务2.2 学习Scala基础语法 25
2.2.1 基本语法和结构 25
2.2.2 数据类型和操作 26
2.2.3 面向对象编程 28
2.2.4 函数式编程 31
2.2.5 输入输出和异常处理 34
2.2.6 高级特性 38
任务2.3 实现人事管理系统 41
2.3.1 人事管理系统需求介绍 41
2.3.2 系统架构与技术设计 42
2.3.3 需求功能实现 43
2.3.4 编译与运行 46
2.3.5 代码优化 49
创新学习 55
能力测试 55
项目三 电商用户行为数据分析 56
任务3.1 认识RDD 57
3.1.1 RDD的概念 57
3.1.2 RDD的特点 57
3.1.3 RDD操作的分类 58
任务3.2 RDD操作实践 60
3.2.1 Spark Shell环境实操 60
3.2.2 创建RDD的方式 63
3.2.3 常用转换操作实践 65
3.2.4 常用行动操作实践 67
任务3.3 使用RDD实现电商用户行为分析 70
3.3.1 电商用户行为数据简介 70
3.3.2 功能需求分析 71
3.3.3 需求实现思路分析 71
3.3.4 数据预处理 72
3.3.5 需求功能实现 73
创新学习 76
能力测试 76
项目四 电影数据分析实现 78
任务4.1 搭建Spark开发环境 79
4.1.1 IntelliJ IDEA介绍和安装 79
4.1.2 Zeppelin的安装和基本使用 90
任务4.2 编写第一个Spark程序 94
4.2.1 编程模型介绍 94
4.2.2 Spark WordCount案例分析 95
4.2.3 Spark WordCount代码实现 95
任务4.3 打包并运行Spark程序 97
4.3.1 打包插件介绍 97
4.3.2 打包程序实操 97
4.3.3 提交Spark程序到集群运行 100
任务4.4 编程实现电影数据分析 100
4.4.1 项目背景 100
4.4.2 数据描述 100
4.4.3 功能需求 102
4.4.4 需求实现 102
创新学习 105
能力测试 105
项目五 银行客户数据分析 106
任务5.1 认识Spark SQL 107
5.1.1 Spark SQL概述 107
5.1.2 数据表示与处理 108
5.1.3 SQL查询与优化 109
任务5.2 Spark SQL基础 110
5.2.1 DataFrame API基础操作 110
5.2.2 数据源和格式 114
任务5.3 Spark SQL进阶操作 117
5.3.1 高级操作与功能 117
5.3.2 性能优化与调优 129
5.3.3 扩展与整合 131
任务5.4 分析与统计银行客户数据 133
5.4.1 银行客户数据简介 133
5.4.2 数据预处理和准备 133
5.4.3 数据探索与分析 134
5.4.4 客户行为分析 136
创新学习 140
能力测试 141
项目六 设备故障的实时监控 142
任务6.1 认识Structured Streaming 143
6.1.1 结构化流处理概述 143
6.1.2 数据源和数据接收器 144
6.1.3 实时数据处理和输出 153
任务6.2 模拟生成设备数据 157
6.2.1 设备数据生成工具 157
6.2.2 设备数据流处理 158
任务6.3 实现设备故障的实时监控 161
6.3.1 设备故障监控系统架构 161
6.3.2 设备故障实时监控处理 161
创新学习 165
能力测试 165
项目七 社交媒体评论情感分析 166
任务7.1 了解Spark MLlib 167
7.1.1 Spark MLlib概述 167
7.1.2 机器学习工作流程 168
7.1.3 房产数据处理与输出 169
任务7.2 数据处理与模型应用 173
7.2.1 数据收集与准备 173
7.2.2 特征工程与模型训练 175
7.2.3 模型评估与部署 178
任务7.3 对社交媒体评论数据进行情感分析 180
7.3.1 社交媒体评论数据概述 180
7.3.2 数据收集与预处理 180
7.3.3 情感分析模型训练与评估 186
7.3.4 情感分析结果展示 190
创新学习 192
能力测试 192
项目八 基于Spark MLlib的广告点击率预测 193
任务8.1 项目介绍 194
8.1.1 项目背景 194
8.1.2 项目任务 195
8.1.3 项目实施流程 195
任务8.2 准备数据集 195
任务8.3 数据预处理 197
任务8.4 特征工程实现 198
任务8.5 模型训练与预测 202
任务8.6 模型评估与优化 205
创新学习 207
能力测试 207
参考文献 209
任务1.1 认识Spark 1
1.1.1 Spark概述 2
1.1.2 Spark的特点 3
1.1.3 Spark的应用场景 4
1.1.4 Spark和Hadoop对比 4
任务1.2 搭建Spark集群 6
1.2.1 安装准备 6
1.2.2 Spark的部署方式 7
1.2.3 Spark集群的安装与部署 8
任务1.3 Spark运行架构与原理 12
1.3.1 Spark集群的运行架构 12
1.3.2 Spark运行的基本原理 13
创新学习 15
能力测试 15
项目二 使用Scala实现人事管理系统 16
任务2.1 搭建Scala开发环境 17
2.1.1 Scala简介 17
2.1.2 搭建Scala开发环境 18
2.1.3 Scala代码的运行方式 23
任务2.2 学习Scala基础语法 25
2.2.1 基本语法和结构 25
2.2.2 数据类型和操作 26
2.2.3 面向对象编程 28
2.2.4 函数式编程 31
2.2.5 输入输出和异常处理 34
2.2.6 高级特性 38
任务2.3 实现人事管理系统 41
2.3.1 人事管理系统需求介绍 41
2.3.2 系统架构与技术设计 42
2.3.3 需求功能实现 43
2.3.4 编译与运行 46
2.3.5 代码优化 49
创新学习 55
能力测试 55
项目三 电商用户行为数据分析 56
任务3.1 认识RDD 57
3.1.1 RDD的概念 57
3.1.2 RDD的特点 57
3.1.3 RDD操作的分类 58
任务3.2 RDD操作实践 60
3.2.1 Spark Shell环境实操 60
3.2.2 创建RDD的方式 63
3.2.3 常用转换操作实践 65
3.2.4 常用行动操作实践 67
任务3.3 使用RDD实现电商用户行为分析 70
3.3.1 电商用户行为数据简介 70
3.3.2 功能需求分析 71
3.3.3 需求实现思路分析 71
3.3.4 数据预处理 72
3.3.5 需求功能实现 73
创新学习 76
能力测试 76
项目四 电影数据分析实现 78
任务4.1 搭建Spark开发环境 79
4.1.1 IntelliJ IDEA介绍和安装 79
4.1.2 Zeppelin的安装和基本使用 90
任务4.2 编写第一个Spark程序 94
4.2.1 编程模型介绍 94
4.2.2 Spark WordCount案例分析 95
4.2.3 Spark WordCount代码实现 95
任务4.3 打包并运行Spark程序 97
4.3.1 打包插件介绍 97
4.3.2 打包程序实操 97
4.3.3 提交Spark程序到集群运行 100
任务4.4 编程实现电影数据分析 100
4.4.1 项目背景 100
4.4.2 数据描述 100
4.4.3 功能需求 102
4.4.4 需求实现 102
创新学习 105
能力测试 105
项目五 银行客户数据分析 106
任务5.1 认识Spark SQL 107
5.1.1 Spark SQL概述 107
5.1.2 数据表示与处理 108
5.1.3 SQL查询与优化 109
任务5.2 Spark SQL基础 110
5.2.1 DataFrame API基础操作 110
5.2.2 数据源和格式 114
任务5.3 Spark SQL进阶操作 117
5.3.1 高级操作与功能 117
5.3.2 性能优化与调优 129
5.3.3 扩展与整合 131
任务5.4 分析与统计银行客户数据 133
5.4.1 银行客户数据简介 133
5.4.2 数据预处理和准备 133
5.4.3 数据探索与分析 134
5.4.4 客户行为分析 136
创新学习 140
能力测试 141
项目六 设备故障的实时监控 142
任务6.1 认识Structured Streaming 143
6.1.1 结构化流处理概述 143
6.1.2 数据源和数据接收器 144
6.1.3 实时数据处理和输出 153
任务6.2 模拟生成设备数据 157
6.2.1 设备数据生成工具 157
6.2.2 设备数据流处理 158
任务6.3 实现设备故障的实时监控 161
6.3.1 设备故障监控系统架构 161
6.3.2 设备故障实时监控处理 161
创新学习 165
能力测试 165
项目七 社交媒体评论情感分析 166
任务7.1 了解Spark MLlib 167
7.1.1 Spark MLlib概述 167
7.1.2 机器学习工作流程 168
7.1.3 房产数据处理与输出 169
任务7.2 数据处理与模型应用 173
7.2.1 数据收集与准备 173
7.2.2 特征工程与模型训练 175
7.2.3 模型评估与部署 178
任务7.3 对社交媒体评论数据进行情感分析 180
7.3.1 社交媒体评论数据概述 180
7.3.2 数据收集与预处理 180
7.3.3 情感分析模型训练与评估 186
7.3.4 情感分析结果展示 190
创新学习 192
能力测试 192
项目八 基于Spark MLlib的广告点击率预测 193
任务8.1 项目介绍 194
8.1.1 项目背景 194
8.1.2 项目任务 195
8.1.3 项目实施流程 195
任务8.2 准备数据集 195
任务8.3 数据预处理 197
任务8.4 特征工程实现 198
任务8.5 模型训练与预测 202
任务8.6 模型评估与优化 205
创新学习 207
能力测试 207
参考文献 209