大数据技术及应用——基于Python语言
定价:¥69.00
                            								作者: 严宣辉等
出版时间:2022-11
出版社:电子工业出版社
- 电子工业出版社
 - 9787121421693
 - 1-3
 - 421666
 - 48253506-9
 - 平塑
 - 16开
 - 2022-11
 - 576
 - 360
 - 计算机科学与技术
 - 本科 研究生及以上
 
                            目录
                        
                        
                                目录__eol____eol__第1章  绪论	1__eol__1.1  大数据的基本概念	1__eol__1.2  大数据的价值和作用	4__eol__1.3  大数据带来的思维方式变革	7__eol__1.4  大数据处理技术基础	9__eol__1.4.1  大数据处理的主要环节	9__eol__1.4.2  大数据的技术支撑	11__eol__1.4.3  流行的大数据技术	13__eol__1.5  大数据面临的技术挑战	15__eol__1.6  本章小结	16__eol__1.7  习题	16__eol__第2章  大数据实验环境构建	18__eol__2.1  在Windows中安装Linux虚拟机	18__eol__2.1.1  创建虚拟机	19__eol__2.1.2  虚拟机启动初始化	21__eol__2.1.3  克隆虚拟机	22__eol__2.2  Linux操作基础	23__eol__2.2.1  软件包管理工具	23__eol__2.2.2  目录和文件操作	24__eol__2.2.3  用户和权限管理命令	25__eol__2.2.4  修改文件的访问权限	25__eol__2.2.5  压缩和解压缩	27__eol__2.2.6  网络配置命令	27__eol__2.2.7  系统服务命令	28__eol__2.2.8  查找命令	29__eol__2.3  建立Linux集群	29__eol__2.3.1  VMware Workstation的网络模式简介	30__eol__2.3.2  集群规划和网络设置	31__eol__2.3.3    配置虚拟机的网络参数	33__eol__2.3.4  关闭防火墙和SELinux	36__eol__2.3.5  SSH免密登录	37__eol__2.4  Hadoop系统简介	41__eol__2.4.1  Hadoop的生态系统	41__eol__2.4.2  Hadoop集群的类型	42__eol__2.5  构建Hadoop“伪分布式”集群	42__eol__2.5.1  安装JDK	42__eol__2.5.2  安装Hadoop软件	44__eol__2.5.3  配置SSH免密登录	45__eol__2.5.4  配置Hadoop	45__eol__2.5.5  启动Hadoop	48__eol__2.6  构建“完全分布式”Hadoop集群	49__eol__2.6.1  配置Hadoop集群的主节点	49__eol__2.6.2  将配置文件发送到从节点	52__eol__2.7  测试Hadoop集群	52__eol__2.7.1  测试HDFS	52__eol__2.7.2  测试WordCount程序	56__eol__2.8  安装Zookeeper	57__eol__2.8.1  在“伪分布”模式下安装Zookeeper	57__eol__2.8.2  在“完全分布”模式下安装Zookeeper	58__eol__2.9  用Ambari构建和管理Hadoop集群	60__eol__2.9.1  安装Ambari	61__eol__2.9.2  用Ambari管理和配置Hadoop集群	61__eol__2.10  本章小结	63__eol__2.11  习题与实验	63__eol__第3章  大数据采集与预处理	66__eol__3.1  大数据采集概述	66__eol__3.1.1  大数据的来源	66__eol__3.1.2  数据容量的单位	67__eol__3.1.3  大数据采集的基本方法	67__eol__3.2  常用的大数据采集工具简介	68__eol__3.2.1  基于Python的网页采集框架Scrapy	69__eol__3.2.2  日志收集工具Flume	74__eol__3.3  数据属性的类型	79__eol__3.3.1  “属性”的类型	79__eol__3.3.2  属性类型的转换	80__eol__3.4  数据预处理	80__eol__3.4.1  数据变换	81__eol__3.4.2  数据清洗	84__eol__3.4.3  使用OpenRefine清洗数据	86__eol__3.4.4  数据集成	89__eol__3.5  本章小结	91__eol__3.6  习题	91__eol__第4章  Hadoop分布式文件系统	94__eol__4.1  Hadoop	94__eol__4.1.1  Hadoop的发展历史	95__eol__4.1.2  Hadoop的优势	96__eol__4.1.3  Hadoop生态	96__eol__4.1.4  Hadoop的核心组件	97__eol__4.1.5  Hadoop集群与资源管理	99__eol__4.1.6  Hadoop命令结构	102__eol__4.2  HDFS体系结构	104__eol__4.2.1  HDFS的设计目标	104__eol__4.2.2  HDFS中的NameNode和DataNodes	105__eol__4.2.3  文件系统命名空间(The File System Namespace)	108__eol__4.2.4  数据容错	108__eol__4.2.5  副本的管理与使用	109__eol__4.3  HDFS初探	110__eol__4.3.1  开始HDFS旅程	110__eol__4.3.2  添加数据文件	111__eol__4.3.3  从HDFS中下载文件	111__eol__4.3.4  关闭HDFS	111__eol__4.3.5    利用Web Console访问HDFS	111__eol__4.4  HDFS常用CLI命令	113__eol__4.4.1  HDFS CLI总览	113__eol__4.4.2  常用HDFS文件操作命令	115__eol__4.5  利用pyhdfs实现HDFS的文件访问	119__eol__4.5.1  pyhdfs的安装与应用案例	120__eol__4.5.2  pyhdfs的HdfsClient类	120__eol__4.6  pyhdfs应用实战	133__eol__4.7  本章小结	135__eol__4.8  习题与实验	135__eol__第5章  HBase基础与应用	137__eol__5.1  HBase简介	137__eol__5.2  HBase安装	138__eol__5.3  HBase初探	139__eol__5.4  HBase的数据模型	143__eol__5.4.1  HBase数据模型相关术语	143__eol__5.4.2  概念模式/视图(Conceptual View)	145__eol__5.4.3  物理模式/视图(Physical View)	146__eol__5.4.4  命名空间(Namespace)	147__eol__5.5  HBase Shell	147__eol__5.5.1  HBase Shell概述	147__eol__5.5.2  创建表(create)	149__eol__5.5.3  修改表/列族(alter table / column family)	153__eol__5.5.4  添加数据(put)	155__eol__5.5.5  获取行或单元(get)	156__eol__5.5.6  扫描并输出数据(scan)	157__eol__5.5.7  统计表的行数(count)	158__eol__5.5.8  删除指定值(delete)	159__eol__5.5.9  其他常用shell命令	160__eol__5.5.10  HBase Shell中的对象引用	162__eol__5.6  利用Jython实现HBase的访问	162__eol__5.6.1  Jython环境设置	162__eol__5.6.2  Jython访问HBase	163__eol__5.6.3    利用scan变量HBase中的数据	164__eol__5.7  本章小结	165__eol__5.8  习题与实验	165__eol__第6章  Hive基础与应用	167__eol__6.1  Hive简介	167__eol__6.1.1  数据库与数据仓库	168__eol__6.1.2  Hive体系结构与接口	168__eol__6.2  Hive的存储模型	169__eol__6.3  Hive初探	171__eol__6.4  Hive的数据定义—DDL	175__eol__6.4.1  数据库的相关操作	175__eol__6.4.2  数据表的创建	177__eol__6.4.3  数据表和分区的修改	182__eol__6.4.4  数据表的其他操作	189__eol__6.5  Hive的数据操纵——DML	194__eol__6.6  Hive的数据检索——Hive-QL	201__eol__6.7  本章小结	206__eol__6.8  习题与实验	207__eol__第7章  分布式计算框架MapReduce	209__eol__7.1  MapReduce概述	209__eol__7.1.1  第一个MapReduce的Python程序	210__eol__7.1.2  MapReduce工作原理	212__eol__7.1.3                            
                            
                        
                        
                        
                    



