注册 登录 进入教材巡展 进入在线书城
#
  • #

出版时间:2018年6月

出版社:机械工业出版社

以下为《数据科学与大数据技术导论》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 机械工业出版社
  • 9787111600343
  • 1版
  • 227177
  • 47229793-6
  • 平装
  • 16开
  • 2018年6月
  • 269
  • 192
  • 工学
  • 计算机科学与技术
  • TP274
  • 计算机通信类
  • 本科
内容简介
本书专为数据科学家、开发人员/数据工程师和商业利益相关者而写,这些读者的目标是相同的:使用Hadoop和Spark处理大规模的数据分析。全书分为三部分。第一部分包括前3章,概述了数据科学及其历史演变,阐述了常见的数据科学家成长之路,业务用例如何受现代数据流量、多样性和速度的影响,并涵盖了一些现实的数据科学用例,以帮助读者了解其在各行业和各应用中的优势,以及Hadoop及其多年来的演进史。第二部分包括接下来的3章,重点是数据采集、使用Hadoop进行数据再加工并探索和可视化数据。第三部分包括最后6章,涵盖Hadoop与机器学习、预测建模、聚类、Hadoop异常检测、自然语言处理,以及数据科学与Hadoop的未来。
目录
目  录译者序序前言致谢关于作者第一部分 Hadoop中的数据科学概览第1章 数据科学概述21.1 数据科学究竟是什么21.2 示例:搜索广告31.3 数据科学史一瞥41.3.1 统计学与机器学习41.3.2 互联网巨头的创新51.3.3 现代企业中的数据科学61.4 数据科学家的成长之路61.4.1 数据工程师71.4.2 应用科学家71.4.3 过渡到数据科学家角色81.4.4 数据科学家的软技能91.5 数据科学团队的组建101.6 数据科学项目的生命周期111.6.1 问正确的问题111.6.2 数据摄取121.6.3 数据清洗:注重数据质量121.6.4 探索数据和设计模型特征131.6.5 构建和调整模型131.6.6 部署到生产环境141.7 数据科学项目的管理141.8 小结15第2章 数据科学用例162.1 大数据—变革的驱动力162.1.1 容量:更多可用数据172.1.2 多样性:更多数据类型172.1.3 速度:快速数据摄取182.2 商业用例182.2.1 产品推荐182.2.2 客户流失分析192.2.3 客户细分192.2.4 销售线索的优先级202.2.5 情感分析202.2.6 欺诈检测212.2.7 预测维护222.2.8 购物篮分析222.2.9 预测医学诊断232.2.10 预测患者再入院232.2.11 检测异常访问242.2.12 保险风险分析242.2.13 预测油气井生产水平242.3 小结25第3章 Hadoop与数据科学263.1 Hadoop 究竟为何物263.1.1 分布式文件系统273.1.2 资源管理器和调度程序283.1.3 分布式数据处理框架293.2 Hadoop的演进历史313.3 数据科学的Hadoop工具323.3.1 Apache Sqoop333.3.2 Apache Flume333.3.3 Apache Hive343.3.4 Apache Pig353.3.5 Apache Spark363.3.6 R373.3.7 Python383.3.8 Java机器学习软件包393.4 Hadoop为何对数据科学家有用393.4.1 成本有效的存储393.4.2 读取模式403.4.3 非结构化和半结构化数据403.4.4 多语言工具413.4.5 强大的调度和资源管理功能413.4.6 分布式系统抽象分层423.4.7 可扩展的模型创建423.4.8 模型的可扩展应用433.5 小结43第二部分 用Hadoop准备和可视化数据第4章 将数据导入Hadoop464.1 Hadoop数据湖464.2 Hadoop分布式文件系统474.3 直接传输文件到 HDFS484.4 将数据从文件导入Hive表494.5 使用Spark将数据导入Hive表524.5.1 使用Spark将CSV文件导入Hive524.5.2 使用Spark将JSON文件导入Hive544.6 使用Apache Sqoop获取关系数据554.6.1 使用Sqoop导入和导出数据554.6.2 Apache Sqoop版本更改564.6.3 使用Sqoop版本2:基本示例574.7 使用Apache Flume获取数据流634.8 使用Apache Oozie管理Hadoop工作和数据流674.9 Apache Falcon684.10 数据摄取的下一步是什么694.11 小结70第5章 使用 Hadoop 进行数据再加工 715.1 为什么选择Hadoop做数据再加工725.2 数据质量725.2.1 什么是数据质量725.2.2 处理数据质量问题735.2.3 使用Hadoop进行数据质量控制765.3 特征矩阵785.3.1 选择“正确”的特征785.3.2 抽样:选择实例795.3.3 生成特征805.3.4 文本特征815.3.5 时间序列特征845.3.6 来自复杂数据类型的特征845.3.7 特征操作855.3.8 降维865.4 小结88第6章 探索和可视化数据896.1 为什么要可视化数据896.1.1 示例:可视化网络吞吐量896.1.2 想象未曾发生的突破926.2 创建可视化936.2.1 对比图946.2.2 组成图966.2.3 分布图986.2.4 关系图996.3 针对数据科学使用可视化1016.4 流行的可视化工具1016.4.1 R1016.4.2 Python:Matplotlib、Seaborn和其他1026.4.3 SAS1026.4.4 Matlab1036.4.5 Julia1036.4.6 其他可视化工具1036.5 使用Hadoop可视化大数据1036.6 小结104第三部分 使用Hadoop进行数据建模第7章 Hadoop与机器学习1067.1 机器学习概述1067.2 术语1077.3 机器学习中的任务类型1077.4 大数据和机器学习1087.5 机器学习工具1097.6 机器学习和人工智能的未来1107.7 小结110第8章 预测建模1118.1 预测建模概述1118.2 分类与回归1128.3 评估预测模型1138.3.1 评估分类器1148.3.2 评估回归模型1168.3.3 交叉验证1178.4 有监督学习算法1178.5 构建大数据预测模型的解决方案1188.5.1 模型训练1188.5.2 批量预测1208.5.3 实时预测1208.6 示例:情感分析1218.6.1 推文数据集1218.6.2 数据准备1228.6.3 特征生成1228.6.4 建立一个分类器1258.7 小结126第9章 聚类1279.1 聚类概述1279.2 聚类的使用1289.3 设计相似性度量1289.3.1 距离函数1299.3.2 相似函数1299.4 聚类算法1309.5 示例:聚类算法1319.5.1 k均值聚类1319.5.2 LDA1319.6 评估聚类和选择集群数量1329.7 构建大数据集群解决方案1339.8 示例:使用LDA进行主题建模1349.8.1 特征生成1359.8.2 运行 LDA1369.9 小结137