注册 登录 进入教材巡展 进入在线书城
#

出版时间:2023-07

出版社:电子工业出版社

以下为《大数据爬取、清洗与可视化教程》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 电子工业出版社
  • 9787121407529
  • 1-4
  • 403049
  • 47245553-4
  • 平塑
  • 16开
  • 2023-07
  • 518
  • 308
  • 工学
  • 计算机科学与技术
  • 计算机科学与技术
  • 本科 研究生(硕士、EMBA、MBA、MPA、博士)
目录
第1章 大数据爬取、清洗与可视化概述 1 1.1 爬虫概述 1 1.1.1 爬虫简介 1 1.1.2 常见爬虫分类和工具 2 1.2 数据清洗概述 2 1.2.1 数据清洗简介 2 1.2.2 常见数据清洗工具 3 1.3 可视化技术概述 3 1.3.1 数据可视化概述 3 1.3.2 常见可视化工具 5 1.4 相关网络技术简介 5 1.4.1 HTTP 5 1.4.2 HTML 7 1.4.3 XML 10 1.4.4 JSON 13 1.4.5 JavaScript 14 1.4.6 正则表达式 17 1.5 Python开发环境配置 21 1.5.1 在Windows中安装Python 22 1.5.2 在Linux中安装Python 24 1.5.3 Python集成开发环境 26 1.5.4 Python第三方库管理 33 本章小结 35 习题 35 第2章 爬虫概述 36 2.1 爬虫基础概述 36 2.1.1 爬虫概念 36 2.1.2 爬虫基本原理 37 2.2 爬虫规范 39 2.2.1 爬虫尺寸 39 2.2.2 Robots协议 39 2.3 爬虫通用结构 43 2.3.1 爬虫通用结构简介 43 2.3.2 爬虫基本工作流程 43 2.3.3 异常处理机制 44 2.4 爬虫技术 46 2.4.1 urllib 3库 46 2.4.2 网页内容查看 51 2.4.3 XPath 56 本章小结 60 习题 60 第3章 Requests库 62 3.1 Requests库简介与安装 62 3.1.1 Requests库简介 62 3.1.2 Requests库安装 62 3.2 Requests库基本使用 63 3.2.1 Requests库的主要方法 63 3.2.2 发送基本请求 66 3.2.3 响应内容 66 3.2.4 访问异常处理方案 67 3.3 Requests库高级用法 69 3.3.1 定制请求头部 69 3.3.2 设置超时 70 3.3.3 传递参数 70 3.3.4 解析JSON 72 3.4 代理设置 72 3.5 模拟登录 73 3.5.1 保持登录机制 73 3.5.2 使用Cookies登录网站 74 3.5.3 登录流程分析 77 3.5.4 Requests会话对象 78 3.5.5 登录网站实例 80 3.6 资源下载 80 3.7 Requests库应用实例 82 3.7.1 具体功能分析 82 3.7.2 具体代码实现 85 本章小结 86 习题 87 第4章 BeautifulSoup爬虫 88 4.1 BeautifulSoup简介与安装 88 4.1.1 BeautifulSoup简介 88 4.1.2 BeautifulSoup4安装方法 88 4.1.3 BeautifulSoup解析器 90 4.1.4 BeautifulSoup初探 92 4.2 BeautifulSoup对象类型 93 4.2.1 Tag 93 4.2.2 NavigableString 95 4.2.3 BeautifulSoup 96 4.2.4 Comment 96 4.3 BeautifulSoup的遍历与搜索 97 4.3.1 遍历文档树 97 4.3.2 搜索文档树 105 4.4 BeautifulSoup应用实例 110 4.4.1 基于BeautifulSoup的独立数据爬取 110 4.4.2 融合正则表达式的数据爬取 112 本章小结 114 习题 115 第5章 自动化测试工具Selenium 116 5.1 Selenium简介与安装 116 5.1.1 Selenium简介 116 5.1.2 Selenium安装 116 5.2 Selenium基本用法 120 5.2.1 声明浏览器对象 120 5.2.2 访问页面 120 5.3 元素 121 5.3.1 定位元素 121 5.3.2 交互操作元素 126 5.3.3 动作链 127 5.3.4 获取元素属性 128 5.4 Selenium高级操作 129 5.4.1 执行JavaScript 129 5.4.2 前进、后退和刷新操作 130 5.4.3 等待操作 130 5.4.4 处理Cookies 132 5.4.5 处理异常 133 5.5 Selenium实例 134 5.5.1 具体功能分析 134 5.5.2 具体代码实现 135 本章小结 136 习题 137 第6章 中型爬虫框架Scrapy 138 6.1 Scrapy框架简介与安装 138 6.1.1 Scrapy运行机制 138 6.1.2 Scrapy框架简介 139 6.1.3 Scrapy安装 140 6.2 Scrapy命令行工具 141 6.2.1 全局命令 142 6.2.2 Project-only命令 144 6.3 选择器 146 6.3.1 选择器简介 147 6.3.2 选择器基础 147 6.3.3 结合正则表达式 151 6.3.4 嵌套选择器 152 6.4 Scrapy项目开发 152 6.4.1 新建项目 153 6.4.2 定义Items 153 6.4.3 制作爬虫 154 6.4.4 爬取数据 156 6.4.5 使用Items 160 6.5 Item Pipeline 161 6.5.1 Item Pipeline简介 161 6.5.2 Item Pipeline应用 162 6.6 中间件 164 6.6.1 下载器中间件 164 6.6.2 爬虫中间件 168 6.7 Scrapy实例 171 6.7.1 具体功能分析 171 6.7.2 具体代码实现 172 本章小结 174 习题 174 第7章 数据存储 176 7.1 数据存储简介 176 7.1.1 现代数据存储的挑战 176 7.1.2 常用工具 177 7.2 文本文件存储 179 7.2.1 文本数据的读写 179 7.2.2 CSV数据的读写 182 7.2.3 Excel数据的读写 187 7.2.4 JSON对象的读写 193 7.3 MongoDB数据库 197 7.3.1 MongoDB简介 197 7.3.2 MongoDB安装 198 7.3.3 MongoDB数据库操作 202 7.4 数据存储实例 207 7.4.1 具体功能分析 207 7.4.2 具体代码实现 208 本章小结 210 习题 210 第8章 数据清洗 212 8.1 数据清洗概述 212 8.1.1 数据清洗原理 212 8.1.2 主要数据类型 212 8.1.3 常用工具 213 8.2 数据清洗方法 215 8.2.1 重复数据处理 215 8.2.2 缺失数据处理 218