Python数据分析与数据可视化 / 面向新工科高等院校大数据专业系列教材
定价:¥70.00
作者: 井超,张晓华,乔钢柱
出版时间:2025-08
出版社:机械工业出版社
- 机械工业出版社
- 9787111787808
- 1-1
- 550415
- 平装
- 2025-08
- 370
内容简介
本书以Python为工具,除了系统介绍Python程序开发之外,还重点介绍了基于Python的数据分析与数据可视化。全书共8章,内容包括:数据分析与数据可视化,Python与数据分析、数据可视化,Python程序设计基础,Python程序设计进阶,用NumPy生成和处理数据,用Pandas分析数据,Scikit-learn机器学习基础,用Matplotlib实现数据可视化。
本书通用性较强,适合各类开设数据分析、数据可视化相关课程的高等院校作为教材使用,也适合从事Python数据分析与数据可视化工作的读者作为自学参考教程。
本书通用性较强,适合各类开设数据分析、数据可视化相关课程的高等院校作为教材使用,也适合从事Python数据分析与数据可视化工作的读者作为自学参考教程。
目录
目 录
前言
第1章 数据分析与数据可视化 1
1.1 数据分析与数据可视化概述 1
1.1.1 数据、信息与数据分析 1
1.1.2 数据可视化 1
1.1.3 数据分析与数据可视化的关系 3
1.2 数据分析的一般步骤 4
1.2.1 明确分析目的与框架 4
1.2.2 数据收集 4
1.2.3 数据处理 4
1.2.4 数据分析 4
1.2.5 数据展现 5
1.2.6 撰写报告 5
1.3 常用数据分析方法 5
1.3.1 聚类分析(Cluster Analysis) 5
1.3.2 因子分析(Factor Analysis) 5
1.3.3 相关分析(Correlation Analysis) 5
1.3.4 对应分析(Correspondence
Analysis) 6
1.3.5 回归分析(Regressive Analysis) 6
1.3.6 方差分析(Variance Analysis) 6
1.4 数据分析与数据可视化常用工具 6
1.4.1 Microsoft Excel 6
1.4.2 R语言 6
1.4.3 Python语言 7
1.4.4 SAS软件 7
1.4.5 SPSS 7
1.4.6 专用的数据可视化分析工具 7
本章练习 7
第2章 Python与数据分析、数据
可视化 8
2.1 数据分析与数据可视化的利器:
Python 8
2.1.1 Python是什么 8
2.1.2 Python的特点 9
2.1.3 Python可以做什么 10
2.2 基于Python的数据分析与数据
可视化工具 11
2.2.1 NumPy库 11
2.2.2 Pandas库 11
2.2.3 Matplotlib库 12
2.2.4 Seaborn 库 12
2.2.5 Scikit-learn库 12
2.3 Python数据分析初上手 13
2.3.1 数据的导入 13
2.3.2 数据的导出 13
2.3.3 数据预处理 14
2.3.4 数据的选择和运算 17
2.3.5 数据可视化 20
本章练习 21
第3章 Python程序设计基础 22
3.1 Python的安装 22
3.1.1 Python解释器的安装 22
3.1.2 PyCharm集成开发环境的安装 28
3.1.3 Python包管理工具pip 34
3.1.4 Python相关的文件 38
3.2 Python语法基础 39
3.2.1 注释 39
3.2.2 关键字 40
3.2.3 标识符 41
3.2.4 内置常量 42
3.2.5 内置函数 42
3.3 Python引用 44
3.3.1 名字空间 44
3.3.2 模块的导入与使用 46
3.4 Python的基本数据类型 47
3.5 Python的运算符与表达式 51
3.6 Python的代码编写规范 52
本章练习 53
第4章 Python程序设计进阶 54
4.1 Python数据结构、程序流程
控制、函数与文件 54
4.1.1 Python数据结构 54
4.1.2 Python程序流程控制 66
4.1.3 异常处理 75
4.1.4 函数 79
4.1.5 文件 93
4.2 Python面向对象程序设计 101
4.2.1 类 101
4.2.2 类方法、实例方法、静态方法 105
4.2.3 对象 109
4.2.4 封装、继承、多态 110
4.2.5 面向对象案例精析 115
本章练习 119
第5章 用NumPy生成和处理数据 120
5.1 NumPy的安装 120
5.2 NumPy入门 120
5.2.1 数值计算 120
5.2.2 是否使用NumPy的运行时间
对比 122
5.2.3 数组和矩阵计算 123
5.3 NumPy数组操作相关函数 126
5.4 NumPy数学函数 130
5.4.1 NumPy数学函数基础 130
5.4.2 NumPy统计函数 133
5.4.3 NumPy向量和矩阵函数 138
5.5 NumPy数据分类案例 141
5.5.1 线性回归的基本概念 141
5.5.2 损失函数的设置 142
5.5.3 Python程序实现 142
本章练习 146
第6章 用Pandas分析数据 147
6.1 Pandas 147
6.1.1 Pandas的由来 147
6.1.2 安装Pandas库 147
6.2 Series 150
6.2.1 创建Series对象 150
6.2.2 Series属性 151
6.2.3 Series常用方法 152
6.2.4 Series对象数据绘图 153
6.3 DataFrame 155
6.3.1 DataFrame的概念 155
6.3.2 创建DataFrame对象 156
6.3.3 DataFrame的属性 157
6.3.4 DataFrame索引和切片 159
6.3.5 DataFrame数据分析 161
6.3.6 DataFrame对象数据可视化 161
6.4 基于BankMarketing数据集的
营销活动分析 163
6.4.1 数据集概述和数据结构 163
6.4.2 数据的基本信息 164
6.4.3 客户数据分析 164
6.4.4 营销活动数据分析 165
6.4.5 完整代码及运行结果 166
本章练习 168
第7章 Scikit-learn机器学习基础 169
7.1 机器学习的算法和模型 169
7.1.1 特征变量和目标变量 170
7.1.2 模型训练 170
7.1.3 过拟合和欠拟合 172
7.1.4 模型性能度量 173
7.2 Scikit-learn的功能 173
7.2.1 分类 173
7.2.2 回归 173
7.2.3 聚类 174
7.2.4 数据降维 174
7.2.5 模型选择 174
7.2.6 数据预处理 174
7.3 Scikit-learn的常用模块 174
7.3.1 安装Scikit-learn 174
7.3.2 Scikit-learn常用模块介绍 175
7.4 Scikit-learn的使用 175
7.4.1 数据集的导入和处理 175
7.4.2 数据集切分 176
7.4.3 数值数据的标准化 177
7.4.4 数值数据的归一化 178
7.4.5 核心对象类型:评估器 179
7.4.6 高级特性:管道 179
7.4.7 模型保存 180
7.5 使用Scikit-learn实现线性回归
建模 181
本章练习 184
第8章 用Matplotlib实现数据
可视化 185
8.1 Matplotlib基础 185
8.2 Matplotlib常见绘图属性 186
8.2.1 创建绘图区域 186
8.2.2 设定绘图参数 187
8.2.3 设置字体及子图布局 188
8.2.4 其他绘图设置 189
8.3 Matplotlib基本绘图 190
8.3.1 折线图 190
8.3.2 散点图 191
8.3.3 双轴图 192
8.3.4 条形图 193
8.3.5 直方图 194
8.3.6 饼图 196
8.3.7 箱型图 196
8.3.8 泡泡图 198
8.3.9 等高线图 198
8.3.10 3D曲线图 199
8.3.11 3D散点图 200
8.3.12 3D等高线图 201
8.3.13 3D线框图 202
8.3.14 3D曲面图 203
8.4 Matplotlib绘制交互式动态
图形 204
8.4.1 Matplotlib的事件响应 204
8.4.2 Matplotlib常用事件 205
8.4.3 使用Matplotlib绘制动态
图形 206
8.5 使用NumPy、Pandas、Matplotlib进行
电影数据分析与数据可视化 211
8.5.1 获取数据 211
8.5.2 绘制电影评分分布图 212
8.5.3 绘制电影时长分布图 213
8.5.4 统计电影分类 213
本章练习 215
参考文献 216
前言
第1章 数据分析与数据可视化 1
1.1 数据分析与数据可视化概述 1
1.1.1 数据、信息与数据分析 1
1.1.2 数据可视化 1
1.1.3 数据分析与数据可视化的关系 3
1.2 数据分析的一般步骤 4
1.2.1 明确分析目的与框架 4
1.2.2 数据收集 4
1.2.3 数据处理 4
1.2.4 数据分析 4
1.2.5 数据展现 5
1.2.6 撰写报告 5
1.3 常用数据分析方法 5
1.3.1 聚类分析(Cluster Analysis) 5
1.3.2 因子分析(Factor Analysis) 5
1.3.3 相关分析(Correlation Analysis) 5
1.3.4 对应分析(Correspondence
Analysis) 6
1.3.5 回归分析(Regressive Analysis) 6
1.3.6 方差分析(Variance Analysis) 6
1.4 数据分析与数据可视化常用工具 6
1.4.1 Microsoft Excel 6
1.4.2 R语言 6
1.4.3 Python语言 7
1.4.4 SAS软件 7
1.4.5 SPSS 7
1.4.6 专用的数据可视化分析工具 7
本章练习 7
第2章 Python与数据分析、数据
可视化 8
2.1 数据分析与数据可视化的利器:
Python 8
2.1.1 Python是什么 8
2.1.2 Python的特点 9
2.1.3 Python可以做什么 10
2.2 基于Python的数据分析与数据
可视化工具 11
2.2.1 NumPy库 11
2.2.2 Pandas库 11
2.2.3 Matplotlib库 12
2.2.4 Seaborn 库 12
2.2.5 Scikit-learn库 12
2.3 Python数据分析初上手 13
2.3.1 数据的导入 13
2.3.2 数据的导出 13
2.3.3 数据预处理 14
2.3.4 数据的选择和运算 17
2.3.5 数据可视化 20
本章练习 21
第3章 Python程序设计基础 22
3.1 Python的安装 22
3.1.1 Python解释器的安装 22
3.1.2 PyCharm集成开发环境的安装 28
3.1.3 Python包管理工具pip 34
3.1.4 Python相关的文件 38
3.2 Python语法基础 39
3.2.1 注释 39
3.2.2 关键字 40
3.2.3 标识符 41
3.2.4 内置常量 42
3.2.5 内置函数 42
3.3 Python引用 44
3.3.1 名字空间 44
3.3.2 模块的导入与使用 46
3.4 Python的基本数据类型 47
3.5 Python的运算符与表达式 51
3.6 Python的代码编写规范 52
本章练习 53
第4章 Python程序设计进阶 54
4.1 Python数据结构、程序流程
控制、函数与文件 54
4.1.1 Python数据结构 54
4.1.2 Python程序流程控制 66
4.1.3 异常处理 75
4.1.4 函数 79
4.1.5 文件 93
4.2 Python面向对象程序设计 101
4.2.1 类 101
4.2.2 类方法、实例方法、静态方法 105
4.2.3 对象 109
4.2.4 封装、继承、多态 110
4.2.5 面向对象案例精析 115
本章练习 119
第5章 用NumPy生成和处理数据 120
5.1 NumPy的安装 120
5.2 NumPy入门 120
5.2.1 数值计算 120
5.2.2 是否使用NumPy的运行时间
对比 122
5.2.3 数组和矩阵计算 123
5.3 NumPy数组操作相关函数 126
5.4 NumPy数学函数 130
5.4.1 NumPy数学函数基础 130
5.4.2 NumPy统计函数 133
5.4.3 NumPy向量和矩阵函数 138
5.5 NumPy数据分类案例 141
5.5.1 线性回归的基本概念 141
5.5.2 损失函数的设置 142
5.5.3 Python程序实现 142
本章练习 146
第6章 用Pandas分析数据 147
6.1 Pandas 147
6.1.1 Pandas的由来 147
6.1.2 安装Pandas库 147
6.2 Series 150
6.2.1 创建Series对象 150
6.2.2 Series属性 151
6.2.3 Series常用方法 152
6.2.4 Series对象数据绘图 153
6.3 DataFrame 155
6.3.1 DataFrame的概念 155
6.3.2 创建DataFrame对象 156
6.3.3 DataFrame的属性 157
6.3.4 DataFrame索引和切片 159
6.3.5 DataFrame数据分析 161
6.3.6 DataFrame对象数据可视化 161
6.4 基于BankMarketing数据集的
营销活动分析 163
6.4.1 数据集概述和数据结构 163
6.4.2 数据的基本信息 164
6.4.3 客户数据分析 164
6.4.4 营销活动数据分析 165
6.4.5 完整代码及运行结果 166
本章练习 168
第7章 Scikit-learn机器学习基础 169
7.1 机器学习的算法和模型 169
7.1.1 特征变量和目标变量 170
7.1.2 模型训练 170
7.1.3 过拟合和欠拟合 172
7.1.4 模型性能度量 173
7.2 Scikit-learn的功能 173
7.2.1 分类 173
7.2.2 回归 173
7.2.3 聚类 174
7.2.4 数据降维 174
7.2.5 模型选择 174
7.2.6 数据预处理 174
7.3 Scikit-learn的常用模块 174
7.3.1 安装Scikit-learn 174
7.3.2 Scikit-learn常用模块介绍 175
7.4 Scikit-learn的使用 175
7.4.1 数据集的导入和处理 175
7.4.2 数据集切分 176
7.4.3 数值数据的标准化 177
7.4.4 数值数据的归一化 178
7.4.5 核心对象类型:评估器 179
7.4.6 高级特性:管道 179
7.4.7 模型保存 180
7.5 使用Scikit-learn实现线性回归
建模 181
本章练习 184
第8章 用Matplotlib实现数据
可视化 185
8.1 Matplotlib基础 185
8.2 Matplotlib常见绘图属性 186
8.2.1 创建绘图区域 186
8.2.2 设定绘图参数 187
8.2.3 设置字体及子图布局 188
8.2.4 其他绘图设置 189
8.3 Matplotlib基本绘图 190
8.3.1 折线图 190
8.3.2 散点图 191
8.3.3 双轴图 192
8.3.4 条形图 193
8.3.5 直方图 194
8.3.6 饼图 196
8.3.7 箱型图 196
8.3.8 泡泡图 198
8.3.9 等高线图 198
8.3.10 3D曲线图 199
8.3.11 3D散点图 200
8.3.12 3D等高线图 201
8.3.13 3D线框图 202
8.3.14 3D曲面图 203
8.4 Matplotlib绘制交互式动态
图形 204
8.4.1 Matplotlib的事件响应 204
8.4.2 Matplotlib常用事件 205
8.4.3 使用Matplotlib绘制动态
图形 206
8.5 使用NumPy、Pandas、Matplotlib进行
电影数据分析与数据可视化 211
8.5.1 获取数据 211
8.5.2 绘制电影评分分布图 212
8.5.3 绘制电影时长分布图 213
8.5.4 统计电影分类 213
本章练习 215
参考文献 216