全国大中专教材网络采选系统

推荐纸质教材推荐数字资源

数据科学导论——R与Python实现

定价：￥48.00

作者：吴喜之，刘苗

出版时间：2019-11

出版社：高等教育出版社

以下为《数据科学导论——R与Python实现》的配套数字资源，这些资源在您购买图书后将免费附送给您：

关闭

基本信息评价

出版社：高等教育出版社
ISBN：9787040525458
版次：1版
本季征订号：63261034-1
开本：16开
出版时间：2019-11
千字：400
本科门类：经济学
本科专业类：经济学类
职教专业大类：财经商贸大类
职教专业类：统计类
适用专业：经济学
适用分级：本科

内容简介

本书的内容安排基本上按照数据科学的步骤及思维, 所有讨论都基于实际数据案例并通过R和Python两种软件实现. 我们尽可能地给出所有数据集的来源, 读者可以通过相关网址及本书的二维码获取.

本书第一部分为读者介绍了两款软件的基本操作, 帮助读者快速入门. 第二部分内容包括数据及探索性数据分析、数据整理及清理, 我们力求打破传统教科书中的“规整案例”模式, 希望给读者呈现更“真实”的数据预处理的面貌, 并通过图形可视化方法勾勒数据的基本“画像”. 第三部分介绍有监督学习中十余种分类及回归学习方法. 第四部分介绍降维和聚类两类无监督学习方法. 这两部分是本书的核心内容所在. 第五部分通过案例简要介绍网络爬虫技术, 供读者参考.在课程内容的选择、课程进度及授课方式方面, 我们认为必须给任课教师以最大的自由度和自主权, 一切依学生的基础、条件及需要而定, 介绍对学生最有帮助的内容,使学生的思维空间向无限的可能开放.

本书既可作为本科各专业二、三年级数据科学的入门课程教材,也可供广大实际工作者参考.

前辅文
第一部分本书的安排及软件
第1章本书的内容安排及教学建议
1.1 适用对象
1.2 内容及教学建议
1.3 根据需要和疑问调整教学内容
1.3.1 拉动式学习方法
1.3.2 根据学生的需要教学
1.3.3 老师应该让学生产生质疑
第2章软件准备
2.1 软件准备
2.2 R——为领悟而运行
2.2.1 R简介
2.2.2 安装和运行
2.2.3 试试R编程
2.3 Python——为领悟而运行
2.3.1 Python简介
2.3.2 安装和运行
2.3.3 试试Python编程
2.3.4 Numpy模块
2.3.5 Pandas模块
2.3.6 Matplotlib模块
2.4 习题
第二部分数据及探索性数据分析
第3章数据的形式、获得及简单描述
3.1 数据的意义及获取
3.1.1 数据
3.1.2 数据的获取
3.2 标准格式数据
3.2.1 变量和观测值
3.2.2 数据的输入和简单展示
3.2.3 数据阵中的元素
3.2.4 变量的种类
3.2.5 统计与计算机术语的区别
3.3 简单的数据汇总
3.3.1 一些汇总统计量
3.3.2 汇总统计量的计算
3.3.3 从“被平均”谈均值
3.3.4 例3.1数据的简单汇总
3.4 数据的图形描述
3.4.1 程序包的安装和使用
3.4.2 散点图
3.4.3 直方图
3.4.4 盒形图
3.4.5 条形图
3.4.6 三维曲面图及等高线图
3.4.7 更多的图形*
3.5 本章的Python代码
3.6 习题
第4章数据整理和清理案例
4.1 GDP数据案例
4.1.1 形成某年各国的多指标数据
4.1.2 形成某国各个时期不同指标的多元时间序列
4.1.3 形成某指标的各个时期不同国家的多元时间序列
4.2 世界卫生组织案例之一
4.2.1 数据的提取
4.2.2 删除多余的行和列
4.2.3 把多个数据合并成一个数据
4.3 世界卫生组织案例之二
4.3.1 输入并识别数据
4.3.2 删除多余的行和列
4.3.3 合并数据
4.3.4 清理数据中的其他问题
4.4 数据中的缺失值
4.4.1 缺失值的审视与标记
4.4.2 删除缺失值的方法及问题
4.4.3 用认定值或某些准则来填补缺失值
4.4.4 利用可预测模型来填补缺失值
4.5 本章的Python代码
4.5.1 读入例4.1数据形成2016年的各国数据
4.5.2 形成某国各个时期不同指标的多元时间序列
4.5.3 某指标的各个时期不同国家的多元时间序列
4.5.4 世界卫生组织案例一
4.5.5 每个数据集只要一年的数据来合并
4.5.6 世界卫生组织案例二
4.5.7 数据的缺失值
4.6 习题
第三部分有监督学习
第5章有监督学习概论
5.1 “学习”的概念
5.1.1 有监督学习
5.1.2 无监督学习
5.2 模型和拟合
5.2.1 训练决策树模型分类的例子
5.2.2 训练简单最小二乘线性回归模型的例子
5.2.3 模型的普遍意义和过拟合
5.2.4 警告: 训练集的MSE和测试集的MSE的计算不一样!
5.3 模型评价
5.3.1 交叉验证
5.3.2 分类问题交叉验证的预测精度标准
5.3.3 回归问题交叉验证预测精度标准
5.3.4 Z折交叉验证时提取各折下标集的R函数
5.4 本章的Python代码
5.4.1 例5.1数据的决策树分类
5.4.2 例5.2数据的决策树分类
5.4.3 例5.3的简单线性回归
5.4.4 Z折交叉验证时提取各折下标集的Python函数
5.5 习题
第6章最小二乘线性回归
6.1 基本概念
6.2 一个回归实例
6.3 多自变量线性回归系数大小有意义吗?
6.4 本章的Python代码
第7章 Logistic回归
7.1 基本概念
7.2 Logistic回归及ROC曲线
7.3 本章的Python代码
第8章决策树及其组合方法
8.1 决策树
8.1.1 决策树分类
8.1.2 决策树回归
8.2 有放回再抽样简介
8.2.1 有放回再抽样
8.2.2 经验分布
8.2.3 OOB 数据
8.2.4 非等权放回再抽样
8.3 Bagging
8.3.1 Bagging的原理
8.3.2 Bagging分类
8.3.3 Bagging回归
8.4 随机森林
8.4.1 随机森林分类
8.4.2 随机森林回归
8.4.3 一个解释随机森林的程序包*
8.5 AdaBoost分类
8.6 本章的Python代码
8.6.1 决策树分类
8.6.2 决策树回归
8.6.3 Bagging分类
8.6.4 Bagging 回归
8.6.5 随机森林分类
8.6.6 随机森林回归
8.6.7 AdaBoost分类
第9章支持向量机
9.1 支持向量机分类
9.2 支持向量机回归
9.3 本章的Python代码
9.3.1 支持向量机分类
9.3.2 支持向量机回归
第10章人工神经网络
10.1 基本概念
10.2 神经网络分类
10.3 神经网络回归
10.4 本章的Python代码
10.4.1 人工神经网络分类
10.4.2 人工神经网络回归
第11章朴素贝叶斯
11.1 朴素贝叶斯原理
11.2 朴素贝叶斯方法分类
11.3 本章的Python代码
第12章 K最近邻方法
12.1 K最近邻方法概要
12.1.1 K最近邻分类
12.1.2 K最近邻回归
12.2 本章的Python代码
12.2.1 K最近邻方法分类
12.2.2 K最近邻方法回归
第13章有监督学习模型比较案例及第三部分习题
13.1 多分类问题例子
13.1.1 二分类问题
13.1.2 回归问题
13.2 本章的Python代码
13.3 习题
第四部分无监督学习
第14章降维:主成分分析
14.1 变量之间的关系与降维的可能性
14.2 两维空间的降维
14.3 通过特征值问题求各个主成分
14.4 各个观测值在新坐标中的记分
14.5 主成分分析在图像处理中的应用
14.6 本章的Python代码
14.7 习题
第15章聚类分析
15.1 聚类分析概论
15.1.1 点间距离
15.1.2 类间距离
15.1.3 分层聚类
15.1.4 K均值聚类
15.1.5 聚类数目的选择
15.1.6 图像色彩的聚类
15.2 本章的Python代码
15.3 习题
第五部分网络爬虫
第16章网络抓取/网络爬虫入门
16.1 引言
16.1.1 目的
16.1.2 手段
16.2 HTML网页结构
16.2.1 简单的网页
16.2.2 元素(element)和标签(tag)的语法
16.2.3 HTML的属性
16.3 网络抓取的步骤
16.3.1 使用Python软件
16.3.2 使用R软件
16.4 网络爬虫的若干案例
16.4.1 抓取新京报动新闻标题
16.4.2 马克思恩格斯全集文章的抓取
16.4.3 抓取狄更斯小说《双城记》全部原文内容
16.4.4 抓取豆瓣《月亮与六便士》书评
16.4.5 抓取微博账号“公安部儿童失踪信息紧急发布平台”儿童失踪信息
16.5 表格数据爬取
16.6 习题
参考文献