注册 登录 进入教材巡展 进入在线书城
#
  • #

出版时间:2017年6月

出版社:机械工业出版社

以下为《数据科学R语言实践:面向计算推理与问题求解的案例研究法》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 机械工业出版社
  • 9787111571117
  • 1版
  • 283906
  • 44219676-2
  • 平装
  • 16开
  • 2017年6月
  • 677
  • 451
  • 软件工程
  • 计算机通信类
  • 本科
内容简介
本书带领读者身临其境地体验数据科学领域的日常工作,书中的12章即为12个鲜活的实践案例,包括航班延误数据分析、股票配对交易仿真以及二十一点纸牌游戏策略开发等,涵盖统计学、数据库、机器学习和可视化技术等众多知识点。本书的重点是计算推理和问题求解的思维过程,而不涉及具体编程语言的语法细节。本书适合作为统计计算、数据挖掘等相关课程的补充案例教材,也适合该领域的技术人员阅读参考。
目录
目  录译者序前言致谢作者简介第一部分 数据操作和建模第1章 基于室内定位系统的位置预测21.1 引言21.2 原始数据31.3 数据清洗和建立用于分析的数据表示101.3.1 对于方向数据的探索121.3.2 对于MAC地址数据的探索131.3.3 对于手持设备位置数据的探索151.3.4 数据准备函数的创建171.4 信号强度的分析171.4.1 信号强度的分布181.4.2 信号与距离之间的关系221.5 预测位置的最近邻方法261.5.1 测试数据的准备261.5.2 方向的选择271.5.3 发现最近邻291.5.4 交叉验证和k的选择311.6 练习题34参考文献36第2章 樱花公路赛参赛选手比赛时间建模372.1 引言372.2 将比赛结果表读入R中392.3 数据清洗和变量格式化462.4 探索所有男选手的跑步时间532.4.1 根据大量观察绘制散点图532.4.2 对平均成绩构建拟合模型562.4.3 横截面数据和协变量632.5 为跨年度的个人参赛选手构造记录662.6 对个人跑步时间的变化进行建模742.7 从网上抓取比赛结果782.8 练习题84参考文献86第3章 应用统计学方法识别垃圾邮件873.1 引言873.2 邮件消息解析883.3 读取邮件消息913.4 文本挖掘和朴素贝叶斯分类943.5 在邮件消息中找到单词963.5.1 将消息划分成消息头部与消息正文963.5.2 从消息正文中移除附件973.5.3 从消息正文中抽取单词1033.5.4 完成数据准备过程1053.6 实现朴素贝叶斯分类器1063.6.1 测试数据与训练数据1073.6.2 训练数据的概率估计1083.6.3 分类新消息1103.6.4 计算方面的考虑1143.7 递归划分与分类树1153.8 将电子邮件消息组织成R语言数据结构1173.8.1 处理邮件头部1183.8.2 处理附件1213.8.3 在更多的邮件数据上测试代码1233.8.4 完成处理过程1243.9 从邮件消息中获取变量1263.10 探索邮件特征集合1333.11 使用rpart()模型拟合邮件数据1353.12 练习题139参考文献142第4章 处理机器人和传感器日志文件:寻找圆形目标1434.1 描述1434.2 数据1444.2.1 读取一个完整的日志文件1464.2.2 探索日志文件1504.2.3 可视化路径1544.2.4 探索 ”观察”1574.2.5 范围值的误差分布1604.3 探测圆形目标1624.3.1 连接机器人背后的片段1664.3.2 确定一个片段是否对应于一个圆形1684.4 实时流数据情况下探测目标180参考文献182第5章 针对12GB数据集的分析策略:航班延误案例1835.1 引言1835.2 获取航班数据集1845.3 处理海量数据集:计算航班延误数1845.3.1 R程序设计环境1855.3.2 UNIX shell方法1865.3.3 支持R的SQL数据库1885.3.4 R的bigmemory程序包1915.4 使用并行计算进行数据探索:航班延误的分布1945.4.1 使用foreach编写可并行化的循环1945.4.2 使用”划分-应用-合并”方法获得更好的性能1965.4.3 使用”划分-应用-合并”方法发现航班飞行的最佳时间1965.5 从探索分析到建模:旧飞机会带来较大的延误吗200参考文献201第二部分 仿真研究第6章 股票的配对交易2046.1 问题提出2046.2 数据格式2086.3 金融数据的读取2096.4 时间序列的可视化2116.5 查找开仓点和平仓点2136.5.1 识别仓位2136.5.2 显示仓位2156.5.3 查找所有开/平仓2166.5.4 计算一个仓位的收益2186.5.5 找到k的最优值2206.6 仿真研究2236.6.1 股票价格序列仿真2256.6.2 提升stockSim()函数的运行速度233参考文献235第7章 分支过程的仿真研究2367.1 引言2367.2 随机过程探索2397.3 产生后代2417.3.1 检查结果2447.3.2 考虑其他的实现方式2457.4 性能分析与代码改进2457.5 从一个作业的后代到全部的后代2477.6 单元测试2487.7 函数返回值的结构2497.8 家族树:分支过程仿真2507.9 仿真复制2547.10 练习题260参考文献261第8章 具有相变过程的自组织动态系统2628.1 引言与动机2628.2 模型2638.3 实现BML模型2658.3.1 创建初始网格结构2668.3.2 测试网格创建函数2698.3.3 显示网格2738.3.4 可视化网格2738.3.5 简单方便的面向对象程序设计2768.3.6 移动汽车2788.4 评估代码性能2848.5 用C实现BML模型2958.5.1 用C编写算法2978.5.2 编译、加载和调用C代码3038.6 运行仿真3078.7 实验性编译311参考文献312第9章 模拟二十一点纸牌游戏3139.1 引言3139.2 二十一点游戏基础3149.3 玩一手二十一点游戏3179.4 游戏策略3219.5 玩多手二十一点游戏3269.6 一个更加精确的发牌器3299.7 算牌3339.8 合而为一3359.9 练习题337参考文献338第三部分 数据和Web技术第10章 棒球:探索关系数据库中的数据34010.1 引言34010.2 Sean Lahman数据库34110.3 汇总球员工资得到球队工资总额34310.4 合并工资总额数据与其他表中的信息34810.4.1 在工资总额数据中增加球队名称34810.4.2 在工资总额数据中增加世界大赛记录35110.5 探索极端工资35210.6 练习题354参考文献355第11章 CIA世界概况的混搭应用35711.1 引言35711.2 采集数据35911.3 从不同数据源集成数据36011.4 准备绘图数据36111.5 使用Google Earth绘图36611.6 从CIA的XML文件中抽取人口统计信息37011.7 直接生成KML37611.8 附加的计算任务38111.8.1 创建绘图标识38111.8.2 从字符串生成KML文件的效率38111.8.3 从HTML文件中抽取纬度和经度38311.9 练习题383参考文献386第12章 利用Web抓取和文本挖掘探索数据科学职位招聘信息38812.1 引言与动机38812.2 探索不同的Web网站39012.3 初步/探索性抓取:Kaggle网站的职位招聘列表39512.3.1 处理文本39912.3.2 泛化到其他招聘启事中40012.3.3 抓取Kaggle招聘启事列表40312.4 抓取40412.4.1 从一条招聘启事中提取技能列表40712.4.2 在搜索结果中发现指向招聘启事的链接41112.4.3 查找招聘启事搜索结果的下一页41612.4.4 将这些函数集成在一起41712.5 对任意网站可重用的通用框架41812.6 抓取Career Builder网站42112.7 抓取网站42212.8 分析结果:重要的技能42412.9 Web抓取注意事项43012.10 练习题431参考文献431