注册 登录 进入教材巡展 进入在线书城
#
  • #

出版时间:2017年8月

出版社:机械工业出版社

以下为《Python数据科学导论》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 机械工业出版社
  • 9787111578260
  • 1版
  • 283897
  • 44219667-1
  • 平装
  • 16开
  • 2017年8月
  • 351
  • 234
  • 计算机科学与技术
  • 计算机通信类
  • 本科
内容简介
本书涵盖的主题非常广泛,介绍了数据科学方方面面的知识,每一章都侧重于介绍数据科学的某一方面,为读者以后的深入学习打下基础。具体内容包括:第1、2章系统介绍大数据科学的背景知识及框架结构;第3~5章介绍机器学习相关知识;第6~9章介绍几个比较有趣的数据科学主题。本书是学习数据科学知识的入门教材,在深入学习本书的实例前,需要掌握SQL、Python及HTML5的入门知识,了解统计学和机器学习相关知识。
目录
目  录译者序前言关于本书关于作者关于封面插图第1章 大数据世界中的数据科学11.1 数据科学和大数据的好处和用途21.2 数据种类31.2.1 结构化数据31.2.2 非结构化数据31.2.3 自然语言数据41.2.4 计算机数据41.2.5 图类数据51.2.6 音频、视频和图像数据51.2.7 流数据61.3 数据科学过程61.3.1 设置研究目标61.3.2 检索数据61.3.3 数据准备71.3.4 数据探索71.3.5 数据建模71.3.6 展示与自动化71.4 大数据生态系统与数据科学71.4.1 分布式文件系统71.4.2 分布式编程框架91.4.3 数据集成框架91.4.4 机器学习框架91.4.5 NoSQL数据库101.4.6 调度工具101.4.7 基准测试工具101.4.8 系统部署111.4.9 服务开发111.4.10 安全111.5 Hadoop工作示例介绍111.6 本章小结16第2章 数据科学过程172.1 数据科学过程概述172.2 步骤1:定义研究目标并创立项目章程192.2.1 了解研究的目标和背景202.2.2 创立项目章程202.3 步骤2:检索数据202.3.1 从存储在公司内部的数据开始212.3.2 不要害怕去购买数据212.3.3 检查数据质量以预防问题发生222.4 步骤3:数据的清洗、整合以及转换222.4.1 数据清洗222.4.2 尽可能早地修正错误272.4.3 从不同的数据源整合数据282.4.4 数据转换302.5 步骤4:探索性数据分析322.6 步骤5:构建模型352.6.1 模型与变量的选择352.6.2 模型执行362.6.3 模型诊断与模型比较392.7 步骤6:展示结果并在其上搭建应用程序402.8 本章小结40第3章 机器学习423.1 什么是机器学习,为什么需要关注它423.1.1 机器学习在数据科学中的应用433.1.2 机器学习在数据科学过程中的使用433.1.3 Python工具在机器学习中的应用443.2 建模过程453.2.1 特征工程以及模型选取463.2.2 模型的训练473.2.3 模型的验证473.2.4 预测新的观测值483.3 机器学习的类型483.3.1 有监督学习483.3.2 无监督学习533.4 半监督学习603.5 本章小结61第4章 单机上处理大数据634.1 大数据处理过程中遇到的难题634.2 处理巨量数据的通用技术644.2.1 选择合适的算法654.2.2 选择合适的数据结构714.2.3 选择合适的工具734.3 处理大数据集的通用编程技巧754.3.1 不必重复发明轮子754.3.2 充分利用硬件764.3.3 减少计算需求764.4 案例研究1:预测恶意URL774.4.1 步骤1:确立研究目标774.4.2 步骤2:获取URL数据774.4.3 步骤4:数据探索784.4.4 步骤5:建模794.5 案例研究2:在数据库中建立一个推荐系统804.5.1 所需的工具及技术804.5.2 步骤1:研究问题824.5.3 步骤3:数据准备824.5.4 步骤5:建模864.5.5 步骤6:展示与自动化864.6 本章小结88第5章 大数据世界的第一步895.1 数据分布存储和框架处理895.1.1 Hadoop:存储和处理大数据集的框架905.1.2 Spark:取代MapReduce以获得更好的性能925.2 案例研究:借贷的风险评估935.2.1 步骤1:研究目标945.2.2 步骤2:数据检索955.2.3 步骤3:数据准备985.2.4 步骤4(数据探索)和步骤6(报告形成)1015.3 本章小结111第6章 了解NoSQL1126.1 NoSQL简介1146.1.1 ACID:关系型数据库核心原则1146.1.2 CAP理论:多节点数据库的问题1156.1.3 NoSQL数据库的BASE原则1166.1.4 NoSQL数据库的种类1176.2 案例研究:这是什么疾病1236.2.1 步骤1:设置研究目标1246.2.2 步骤2和步骤3:数据检索与数据准备1246.2.3 步骤4:数据探索1316.2.4 再回到步骤3:为描述疾病概况做数据准备1376.2.5 再回到步骤4:为描述疾病概况做数据探索1406.2.6 步骤6:展示与自动化1406.3 本章小结141第7章 图数据库的兴起1437.1 互联数据及图数据库概述1437.2 图数据库Neo4j概述1467.3 数据互联案例:食谱推荐引擎1527.3.1 步骤1:设置研究目标1537.3.2 步骤2:数据检索1547.3.3 步骤3:数据准备1557.3.4 步骤4:数据探索1577.3.5 步骤5:数据建模1597.3.6 步骤6:数据展示1627.4 本章小结162第8章 文本挖掘和文本分析1648.1 现实世界中的文本挖掘1658.2 文本挖掘技术1698.2.1 词袋1698.2.2 词干提取和词形还原1708.2.3 决策树分类器1718.3 案例研究:Reddit帖子分类1738.3.1 自然语言工具包1738.3.2 数据科学过程综述及第1步:研究目标1758.3.3 第2步:数据检索1758.3.4 第3步:数据准备1788.3.5 步骤4:数据探索1808.3.6 再回到步骤3:数据准备的调整1828.3.7 步骤5:数据分析1858.3.8 步骤6:展示与自动化1888.4 本章小结189第9章 面向终端用户的数据可视化1919.1 数据可视化选项1929.2 Crossfilter—JavaScript MapReduce库1949.2.1 安装1959.2.2 利用Crossfilter筛选药品数据集1989.3 用创建一个交互式控制面板2019.4 控制面板开发工具2059.5