深度学习原理及应用 / 普通高等教育人工智能与大数据系列教材
定价:¥63.80
作者: 殷丽凤,王杨
出版时间:2025-07-21
出版社:机械工业出版社
- 机械工业出版社
- 9787111784678
- 1-1
- 553969
- 平装
- 2025-07-21
- 484
内容简介
本书共3篇,12章,内容涵盖了深度学习的基础理论、重要模型及其在计算机视觉和自然语言处理等领域的应用。第1篇深入讲解了深度学习的基础理论,包括感知机的主要概念及其实现、神经网络的架构与算法,以及参数更新策略、权重初始化方法和正则化技巧。第2篇专注于计算机视觉,介绍了卷积神经网络的结构及其在图像处理方面的广泛应用,同时探讨了经典的卷积网络结构以及先进网络在物体检测与图像分割等领域的应用。 第3篇着眼于自然语言处理,涵盖了语言模型、word2vec模型、RNN模型及其变体、Transformer 模型以及预训练模型在多种任务中的应用。
本书在专业性与可读性之间实现了良好的平衡,不仅向读者提供深度学习领域的综合知识和实际技能,还致力于激发读者的创新思维和实践能力,助力读者在快节奏发展的技术环境中掌握先机,取得更高成就。
本书既可作为高等院校深度学习课程的基础教材,也适合深度学习爱好者进行自学。无论是初学者还是具有一定基础的从业人员,都能从中获得启发和实用的知识。
本书在专业性与可读性之间实现了良好的平衡,不仅向读者提供深度学习领域的综合知识和实际技能,还致力于激发读者的创新思维和实践能力,助力读者在快节奏发展的技术环境中掌握先机,取得更高成就。
本书既可作为高等院校深度学习课程的基础教材,也适合深度学习爱好者进行自学。无论是初学者还是具有一定基础的从业人员,都能从中获得启发和实用的知识。
目录
目录
前言
第1篇深度学习基础篇
第1章感知机
1.1感知机是什么
1.2简单逻辑电路
1.2.1与门
1.2.2与非门和或门
1.3感知机的实现
1.3.1简单的实现
1.3.2导入权重和偏置
1.3.3权重和偏置的实现
1.4感知机的局限性
1.4.1异或门
1.4.2线性和非线性
1.5多层感知机
1.5.1组合门电路配置异或门
1.5.2异或门的实现
1.6本章小结
1.7习题
第2章神经网络
2.1从感知机到神经网络
2.1.1神经网络的结构
2.1.2回顾感知机
2.1.3激活函数简介
2.2阶跃函数
2.2.1阶跃函数的实现
2.2.2Sigmoid函数
2.2.3ReLU函数
2.3神经网络的前向传播
2.3.1符号的含义
2.3.2各层间信号传递的实现
2.3.3代码实现
2.4输出层的设计
2.4.1恒等函数
2.4.2softmax函数
2.4.3输出层的神经元数量
2.5损失函数
2.5.1均方误差
2.5.2交叉熵误差
2.5.3mini-batch学习
2.5.4mini-batch版交叉熵误差的实现
2.6梯度法
2.6.1梯度
2.6.2神经网络的梯度
2.7学习算法的实现
2.7.1两层神经网络的实现
2.7.2两层神经网络解决异或问题
2.7.3基于测试数据的评价
2.8误差反向传播
2.8.1用计算图求解
2.8.2计算图的反向传播
2.8.3加法节点的反向传播
2.8.4乘法节点的反向传播
2.9简单层的实现
2.9.1乘法层的实现
2.9.2加法层的实现
2.10激活函数层的实现
2.10.1ReLU层
2.10.2Sigmoid层
2.11Affine层和softmax层的实现
2.11.1Affine层
2.11.2批版本的Affine层
2.11.3softmax-with-loss层
2.12误差反向传播法的实现
2.12.1神经网络学习的步骤
2.12.2误差反向传播法的神经网络实现
2.12.3误差反向传播法的神经网络训练和推理
2.13本章小结
2.14习题
第3章神经网络的学习方法
3.1参数的更新
3.1.1SGD
3.1.2SGD的缺点
3.1.3Momentum
3.1.4AdaGrad
3.1.5Adam
3.2权重的初始值
3.2.1可以将权重初始值设为0吗?
3.2.2隐藏层的激活值的分布
3.3Batch Normalization
3.4正则化
3.4.1过拟合
3.4.2权值衰减
3.4.3Dropout
3.5超参数的验证
3.5.1验证数据
3.5.2超参数最优化
3.6本章小结
3.7习题
第2篇计算机视觉篇
第4章卷积神经网络
4.1神经网络和卷积神经网络
4.2卷积存在的意义
4.3CNN的整体结构
4.4卷积层
4.4.1全连接层的问题
4.4.2卷积运算
4.4.3CNN的卷积操作
4.4.4三维数据的卷积运算
4.4.5卷积层参数
4.5池化层
4.5.1池化操作
4.5.2池化层特征
4.6卷积层和池化层的实现
4.6.1四维数组
4.6.2im2col
4.6.3卷积层的实现
4.6.4池化层的实现
4.7CNN案例实践分析
4.8本章小结
4.9习题
第5章经典卷积网络结构
5.1LeNet
5.1.1LeNet 简介
5.1.2LeNet 实践案例分析
5.2AlexNet
5.2.1AlexNet 简介
5.2.2AlexNet的改进和优势
5.2.3AlexNet实践案例分析
5.3VGG
5.3.1VGG简介
5.3.2VGG的主要特点
5.3.3VGG实践案例分析
5.4本章小结
5.5习题
第6章经典卷积网络结构进阶
6.1GoogLeNet
6.1.1GoogLeNet简介
6.1.2GoogLeNet实践案例分析
6.2ResNet
6.2.1ResNet简介
6.2.2残差块
6.2.3ResNet实践案例分析
6.3视觉方向的应用
6.3.1物体检测
6.3.2图像分割
6.3.3目标追踪
6.4本章小结
6.5习题
第3篇自然语言处理篇
第7章语言模型
7.1语言模型概述
7.2N-gram语言模型
7.2.1N-gram语言模型简介
7.2.2N-gram语言模型的评估词序列
7.2.3N-gram语言模型的平滑操作
7.2.4N-gram语言模型的应用
7.2.5N-gram语言模型的缺点
7.3词嵌入
7.3.1离散分布表示
7.3.2分布式表示
7.4神经网络语言模型(NNLM)
7.4.1NNLM简介
7.4.2NNLM的输入
7.4.3编码信息转换
7.4.4模型细节详述
7.4.5NNLM的缺点
7.5NNLM的应用
7.5.1数据预处理和批量生成
7.5.2模型结构定义
7.5.3模型参数和超参数
7.5.4模型训练
7.6本章小结
7.7习题
第8章word2vec模型
8.1word2vec模型简介
8.2神经网络的反向传播法
8.3word2vec模型和神经网络
8.4word2vec模型架构
8.4.1简易CBOW架构
8.4.2CBOW架构
8.4.3Skip-gram架构
8.5优化算法
8.5.1层次化softmax
8.5.2负采样优化
8.6word2vec模型应用
8.6.1数据预处理和批量生成
8.6.2word2vec模型的结构定义
8.6.3模型参数和超参数
8.6.4模型训练
8.6.5可视化嵌入和结果展示
8.7本章小结
8.8习题
第9章循环神经网络模型
9.1RNN模型
9.1.1RNN简介
9.1.2RNN和序列数据
9.1.3RNN模型基本结构
9.1.4RNN的反向传播
9.1.5双向RNN
9.1.6双向RNN思考
9.1.7深层双向RNN
9.1.8RNN的梯度消失和梯度爆炸
9.1.9RNN模型应用
9.2LSTM模型
9.2.1LSTM简介
9.2.2LSTM和RNN结构对比
9.2.3LSTM符号说明
9.2.4LSTM与RNN输入差异思考
9.2.5LSTM的并行化
9.2.6LSTM的门控装置
9.2.7LSTM模型应用
9.3GRU模型
9.3.1GRU简介
9.3.2GRU模型架构详解
9.3.3GRU模型应用
9.4本章小结
9.5习题
第10章Transformer模型
10.1Seq2Seq
10.1.1Seq2Seq的基本结构
10.1.2Seq2Seq结构的实现方式
10.2Transformer模型简介
10.2.1Transformer的Seq2Seq架构
10.2.2Transformer的输入
10.2.3Transformer的自注意力机制
10.2.4编码器的结构信息
10.2.5解码器模块的输入
10.2.6解码器的结构信息
10.3本章小结
10.4习题
第11章位置编码
11.1位置编码简介
11.1.1线性归一化位置编码
11.1.2整型值位置编码
11.1.3二进制位置编码
11.1.4周期函数的位置编码
11.1.5sin和cos交替位置编码
11.2Transformer模型的位置编码
11.3Transformer模型的位置编码可视化
11.4Transformer模型应用
11.4.1数据预处理和批量生成
11.4.2Transformer模型结构定义
11.4.3模型参数和超参数
11.4.4编码器构件
11.4.5解码器构件
11.4.6模型训练
11.4.7可视化嵌入和结果展示
11.5本章小结
11.6习题
第12章预训练模型
12.1ELMo模型
12.1.1ELMo模型简介
12.1.2ELMo模型与双向LSTM
12.1.3双向LSTM
12.1.4ELMo结构解析
12.2GPT模型
12.2.1GPT模型简介
12.2.2GPT基础架构选择
12.2.3模型训练
12.3BERT模型
12.3.1BERT模型简介
12.3.2BERT模型基础架构选择
12.3.3BERT模型的输入信息
12.3.4BERT模型的输出信息
12.3.5BERT模型的预训练任务
12.4本章小结
12.5习题
参考文献
前言
第1篇深度学习基础篇
第1章感知机
1.1感知机是什么
1.2简单逻辑电路
1.2.1与门
1.2.2与非门和或门
1.3感知机的实现
1.3.1简单的实现
1.3.2导入权重和偏置
1.3.3权重和偏置的实现
1.4感知机的局限性
1.4.1异或门
1.4.2线性和非线性
1.5多层感知机
1.5.1组合门电路配置异或门
1.5.2异或门的实现
1.6本章小结
1.7习题
第2章神经网络
2.1从感知机到神经网络
2.1.1神经网络的结构
2.1.2回顾感知机
2.1.3激活函数简介
2.2阶跃函数
2.2.1阶跃函数的实现
2.2.2Sigmoid函数
2.2.3ReLU函数
2.3神经网络的前向传播
2.3.1符号的含义
2.3.2各层间信号传递的实现
2.3.3代码实现
2.4输出层的设计
2.4.1恒等函数
2.4.2softmax函数
2.4.3输出层的神经元数量
2.5损失函数
2.5.1均方误差
2.5.2交叉熵误差
2.5.3mini-batch学习
2.5.4mini-batch版交叉熵误差的实现
2.6梯度法
2.6.1梯度
2.6.2神经网络的梯度
2.7学习算法的实现
2.7.1两层神经网络的实现
2.7.2两层神经网络解决异或问题
2.7.3基于测试数据的评价
2.8误差反向传播
2.8.1用计算图求解
2.8.2计算图的反向传播
2.8.3加法节点的反向传播
2.8.4乘法节点的反向传播
2.9简单层的实现
2.9.1乘法层的实现
2.9.2加法层的实现
2.10激活函数层的实现
2.10.1ReLU层
2.10.2Sigmoid层
2.11Affine层和softmax层的实现
2.11.1Affine层
2.11.2批版本的Affine层
2.11.3softmax-with-loss层
2.12误差反向传播法的实现
2.12.1神经网络学习的步骤
2.12.2误差反向传播法的神经网络实现
2.12.3误差反向传播法的神经网络训练和推理
2.13本章小结
2.14习题
第3章神经网络的学习方法
3.1参数的更新
3.1.1SGD
3.1.2SGD的缺点
3.1.3Momentum
3.1.4AdaGrad
3.1.5Adam
3.2权重的初始值
3.2.1可以将权重初始值设为0吗?
3.2.2隐藏层的激活值的分布
3.3Batch Normalization
3.4正则化
3.4.1过拟合
3.4.2权值衰减
3.4.3Dropout
3.5超参数的验证
3.5.1验证数据
3.5.2超参数最优化
3.6本章小结
3.7习题
第2篇计算机视觉篇
第4章卷积神经网络
4.1神经网络和卷积神经网络
4.2卷积存在的意义
4.3CNN的整体结构
4.4卷积层
4.4.1全连接层的问题
4.4.2卷积运算
4.4.3CNN的卷积操作
4.4.4三维数据的卷积运算
4.4.5卷积层参数
4.5池化层
4.5.1池化操作
4.5.2池化层特征
4.6卷积层和池化层的实现
4.6.1四维数组
4.6.2im2col
4.6.3卷积层的实现
4.6.4池化层的实现
4.7CNN案例实践分析
4.8本章小结
4.9习题
第5章经典卷积网络结构
5.1LeNet
5.1.1LeNet 简介
5.1.2LeNet 实践案例分析
5.2AlexNet
5.2.1AlexNet 简介
5.2.2AlexNet的改进和优势
5.2.3AlexNet实践案例分析
5.3VGG
5.3.1VGG简介
5.3.2VGG的主要特点
5.3.3VGG实践案例分析
5.4本章小结
5.5习题
第6章经典卷积网络结构进阶
6.1GoogLeNet
6.1.1GoogLeNet简介
6.1.2GoogLeNet实践案例分析
6.2ResNet
6.2.1ResNet简介
6.2.2残差块
6.2.3ResNet实践案例分析
6.3视觉方向的应用
6.3.1物体检测
6.3.2图像分割
6.3.3目标追踪
6.4本章小结
6.5习题
第3篇自然语言处理篇
第7章语言模型
7.1语言模型概述
7.2N-gram语言模型
7.2.1N-gram语言模型简介
7.2.2N-gram语言模型的评估词序列
7.2.3N-gram语言模型的平滑操作
7.2.4N-gram语言模型的应用
7.2.5N-gram语言模型的缺点
7.3词嵌入
7.3.1离散分布表示
7.3.2分布式表示
7.4神经网络语言模型(NNLM)
7.4.1NNLM简介
7.4.2NNLM的输入
7.4.3编码信息转换
7.4.4模型细节详述
7.4.5NNLM的缺点
7.5NNLM的应用
7.5.1数据预处理和批量生成
7.5.2模型结构定义
7.5.3模型参数和超参数
7.5.4模型训练
7.6本章小结
7.7习题
第8章word2vec模型
8.1word2vec模型简介
8.2神经网络的反向传播法
8.3word2vec模型和神经网络
8.4word2vec模型架构
8.4.1简易CBOW架构
8.4.2CBOW架构
8.4.3Skip-gram架构
8.5优化算法
8.5.1层次化softmax
8.5.2负采样优化
8.6word2vec模型应用
8.6.1数据预处理和批量生成
8.6.2word2vec模型的结构定义
8.6.3模型参数和超参数
8.6.4模型训练
8.6.5可视化嵌入和结果展示
8.7本章小结
8.8习题
第9章循环神经网络模型
9.1RNN模型
9.1.1RNN简介
9.1.2RNN和序列数据
9.1.3RNN模型基本结构
9.1.4RNN的反向传播
9.1.5双向RNN
9.1.6双向RNN思考
9.1.7深层双向RNN
9.1.8RNN的梯度消失和梯度爆炸
9.1.9RNN模型应用
9.2LSTM模型
9.2.1LSTM简介
9.2.2LSTM和RNN结构对比
9.2.3LSTM符号说明
9.2.4LSTM与RNN输入差异思考
9.2.5LSTM的并行化
9.2.6LSTM的门控装置
9.2.7LSTM模型应用
9.3GRU模型
9.3.1GRU简介
9.3.2GRU模型架构详解
9.3.3GRU模型应用
9.4本章小结
9.5习题
第10章Transformer模型
10.1Seq2Seq
10.1.1Seq2Seq的基本结构
10.1.2Seq2Seq结构的实现方式
10.2Transformer模型简介
10.2.1Transformer的Seq2Seq架构
10.2.2Transformer的输入
10.2.3Transformer的自注意力机制
10.2.4编码器的结构信息
10.2.5解码器模块的输入
10.2.6解码器的结构信息
10.3本章小结
10.4习题
第11章位置编码
11.1位置编码简介
11.1.1线性归一化位置编码
11.1.2整型值位置编码
11.1.3二进制位置编码
11.1.4周期函数的位置编码
11.1.5sin和cos交替位置编码
11.2Transformer模型的位置编码
11.3Transformer模型的位置编码可视化
11.4Transformer模型应用
11.4.1数据预处理和批量生成
11.4.2Transformer模型结构定义
11.4.3模型参数和超参数
11.4.4编码器构件
11.4.5解码器构件
11.4.6模型训练
11.4.7可视化嵌入和结果展示
11.5本章小结
11.6习题
第12章预训练模型
12.1ELMo模型
12.1.1ELMo模型简介
12.1.2ELMo模型与双向LSTM
12.1.3双向LSTM
12.1.4ELMo结构解析
12.2GPT模型
12.2.1GPT模型简介
12.2.2GPT基础架构选择
12.2.3模型训练
12.3BERT模型
12.3.1BERT模型简介
12.3.2BERT模型基础架构选择
12.3.3BERT模型的输入信息
12.3.4BERT模型的输出信息
12.3.5BERT模型的预训练任务
12.4本章小结
12.5习题
参考文献