全国大中专教材网络采选系统

推荐纸质教材推荐数字资源

Pyspark应用与开发

￥59.00定价

作者：刘登刚，谌俊燃

出版时间：2023-02

出版社：重庆大学电子音像出版社

以下为《Pyspark应用与开发》的配套数字资源，这些资源在您购买图书后将免费附送给您：

关闭

基本信息评价

出版社：重庆大学电子音像出版社
ISBN：9787894466969
版次：1版
图书编号：468250
本季征订号：68256330-9
开本：16开
出版时间：2023-02
适用专业：计算机类
适用分级：高职

内容简介

本书主要讲解了Spark简介，Spark安装，PySpark，Spark Core，RDD编程进阶，Spark SQL，Spark Streaming和Spark机器学习库。通过本书的学习，学生能掌握Pyspark应用与开发的知识和实际应用。

目录
第1章 Spark简介 1
1.1 Spark 概念 3
1.2 Spark 特点 3
1.3 Spark 的生态 4
1.3.1 Spark Core 5
1.3.2 Spark Streaming 5
1.3.3 Spark SQL 6
1.3.4 Spark MLlib 6
1.3.5 Spark GraphX 6
1.4 Spark 的构架与原理 6
1.4.1 Spark构架 6
1.4.2 Spark运行流程 8
1.4.3 Spark运行特点 8

第2章 Spark安装 11
2.1 准备环境 13
2.1.1 硬件 13
2.1.2 软件 14
2.1.3 虚拟环境 17
2.2 Spark安装 25
2.2.1 Local模式安装 26
2.2.2 Standalone集群模式安装 27
2.3 Spark集群启动与关闭 31
2.3.1 Spark集群启动 31
2.3.2 Spark集群关闭 34
2.4 Spark web监控页面 36
第3章 PySpark 40
3.1 PySpark是什么 42
3.2 PySpark-shell启动与日志设置 42
3.2.1 本地模式启动PySpark-shell 42
3.2.2 集群模式启动PySpark-shell 43
3.2.3 Yarn集群模式启动PySpark-shell 43
3.2.4 日志设置 44
3.3 PySpark开发模块的安装 44
3.3.1 创建Python虚拟环境 44
3.3.2 安装PySpark模块 46
3.4 安装PyCharm 46
3.4.1 安装 46
3.4.2 配置环境 50
3.5 PyCharm编写Spark应用 53
3.5.1 创建PySpark项目 53
3.5.2 创建项目目录框架 55
3.5.3 准备数据 55
3.5.4 编写PySpark程序 56
3.5.5 运行 57

第4章 Spark Core 59
4.1 RDD概述 61
4.2 RDD特征 61
4.3 RDD 的不同数据来源的创建 63
4.3.1 集合并行化创建 63
4.3.2 外部数据集 64
4.4 RDD 的transform算子 64
4.4.1 映射 65
4.4.2 过滤 65
4.4.3 映射并扁平化 66
4.4.4 去重 66
4.4.5 排序 66
4.4.6 分组 68
4.4.7 合并RDD 69
4.4.8 交集 69
4.4.9 差集 70
4.4.10 笛卡儿积 70
4.4.11 聚合 70
4.5 RDD 的Action算子 70
4.5.1 简化 71
4.5.2 收集 71
4.5.3 统计 71
4.5.4 取第一个 71
4.5.5 取元素 72
4.5.6 保存为文本文件 73
4.5.7 保存为Sequence文件 73
4.5.8 遍历 74

第5章 RDD编程进阶 76
5.1 宽依赖与窄依赖 78
5.1.1 窄依赖 78
5.1.2 宽依赖 78
5.1.3 依赖作用 79
5.2 Spark Job 阶段划分 79
5.2.1 Stage 81
5.2.2 Stage划分思路 81
5.2.3 DAG图 82
5.3 Spark 持久化与检查点 82
5.3.1 持久化原理 82
5.3.2 持久化存储级别 83
5.3.3 加入cache缓存对比 84
5.3.4 检查点Checkpoint 85
5.3.5 缓存与检查点区别 86
5.4 共享变量 86
5.4.1 广播变量Broadcast Variable 88
5.4.2 累加器Accumulator 89

第6章 Spark SQL 93
6.1 Spark SQL介绍 95
6.2 SparkSession 95
6.3 DataFrame创建 96
6.3.1 从json文件创建 96
6.3.2 从包含元组列表的RDD创建 97
6.3.3 创建具有显式架构的DataFrame 98
6.3.4 从行列表中创建 98
6.3.5 从Pandas DataFrame创建 98
6.4 DataFrame 两种编程风格 99
6.4.1 DSL风格编程 99
6.4.2 SQL风格编程 102
6.5 DataFrame与RDD相互转换 103
6.5.1 RDD转换为DataFrame 104
6.5.2 DataFrame转换为RDD 104
6.6 从不同数据源获取数据 105
6.6.1 json文件源 105
6.6.2 csv文件源 106
6.6.3 Parquet文件源 107
6.6.4 JDBC源 108
6.6.5 Hive源 109

第7章 Spark Streaming 112
7.1 Spark Streaming概述 114
7.1.1 数据来源 114
7.1.2 工作原理 114
7.1.3 DStream 115
7.2 spark streaming入门案例 115
7.2.1 编写spark streaming程序 115
7.2.2 启动nc监听 116
7.2.3 启动spark streaming程序 117
7.3 Spark Streaming数据源 117
7.3.1 基础的数据源 117
7.3.2 高级的数据源 118
7.4 DStreams上的Transformations转换 118
7.5 DStream的window滑动窗口操作 119
7.6 DStream的updateStateByKey操作 121
7.7 DStream的transform操作 122
7.8 DStreams上的Action动作 123
7.9 Spark Streaming的持久化以及Checkpoint 124
7.9.1 缓存/持久化 124
7.9.2 检查点 124
7.9.3 何时启用检查点 125
7.9.4 如何配置检查点 125
7.10 累加器和广播变量 126
7.11 与Spark SQL结合操作 127

第8章 Spark 机器学习库 130
8.1 Spark机器学习库简介 132
8.1.1 机器学习 132
8.1.2 机器学习的发展历程 132
8.1.3 Spark 机器学习库MLlib 133
8.2 使用MLlib机器学习库 134
8.2.1 MLlib数据集 134
8.2.2 MLlib Statistics统计操作 139
8.2.3 MLlib算法 142
8.2.4 MLlib案例 145
8.3 使用ML机器学习库 148
8.3.1 ML包概述 148
8.3.2 ML案例 152
8.3.3 PySpark ML的其他功能 157