解构大语言模型:从线性回归到通用人工智能
定价:¥159.00
                            								作者: 唐亘
出版时间:2025-07
出版社:电子工业出版社
- 电子工业出版社
 - 9787121477409
 - 1-3
 - 525031
 - 60266893-1
 - 平塑勒
 - 16开
 - 2025-07
 - 432
 - 计算机科学与技术
 - 本科 研究生及以上
 
                            内容简介
                        
                        
                                本书从模型的结构和数据基础两个方面解构大语言模型,以便帮助读者理解和搭建类似ChatGPT的系统。在模型的结构方面,大语言模型属于深度神经网络,其设计核心是注意力机制,因此,本书涵盖了多层感知器、卷积神经网络和循环神经网络等经典模型。在模型的数据基础方面,本书既涉及模型训练的工程基础,如反向传播,又涉及数据的使用方式,如迁移学习、强化学习,以及传统的监督学习和无监督学习。此外,本书还阐述了如何从计量经济学和经典机器学习模型中汲取灵感,以提高模型的稳定性和可解释性。__eol__本书既适用于希望深入了解大语言模型、通过人工智能技术解决实际问题的读者,也适合作为高等院校计算机及相关专业的师生参考用书。                            
                            
                        
                            目录
                        
                        
                                第1章  绪论	2__eol__1.1  是数字鹦鹉,还是自我意识	3__eol__1.1.1  电车难题	3__eol__1.1.2  任务分解	4__eol__1.2  数据基础	5__eol__1.3  模型结构	7__eol__1.4  关于本书	9__eol__第2章  数学基础:不可或缺的知识	12__eol__2.1  向量、矩阵和张量	13__eol__2.1.1  标量、向量、矩阵与张量	13__eol__2.1.2  数学记号与特殊矩阵	14__eol__2.1.3  矩阵运算	15__eol__2.1.4  向量夹角	18__eol__2.1.5  矩阵的秩	19__eol__2.1.6  高维张量运算	20__eol__2.2  概率	21__eol__2.2.1  定义概率:事件和概率空间	22__eol__2.2.2  条件概率:信息的价值	23__eol__2.2.3  随机变量	24__eol__2.2.4  正态分布:殊途同归	27__eol__2.2.5  P-value:自信的猜测	28__eol__2.3  微积分	30__eol__2.3.1  导数和积分	30__eol__2.3.2  极限	32__eol__2.3.3  链式法则	33__eol__2.3.4  偏导数与梯度	34__eol__2.3.5  极值与最值	34__eol__2.4  本章小结	35__eol__第3章  线性回归:模型之母	38__eol__3.1  一个简单的例子	39__eol__3.1.1  机器学习的建模方式	40__eol__3.1.2  统计分析的建模方式	43__eol__3.2  模型实现	47__eol__3.2.1  机器学习的代码实现	47__eol__3.2.2  统计分析的代码实现	49__eol__3.3  模型陷阱	52__eol__3.3.1  过拟合:模型越复杂越好吗	53__eol__3.3.2  假设检验:统计分析的解决方案	56__eol__3.3.3  惩罚项:机器学习的解决方案	57__eol__3.3.4  比较两种方案	60__eol__3.4  面向未来的准备	60__eol__3.4.1  图形表示与数学表达	61__eol__3.4.2  模型的生命周期与持久化	62__eol__3.5  本章小结	63__eol__3.5.1  要点回顾	63__eol__3.5.2  常见面试问题	64__eol__第4章  逻辑回归:隐藏因子	68__eol__4.1  二元分类问题:是与否	68__eol__4.1.1  线性回归:为何失效	69__eol__4.1.2  窗口效应:看不见的才是关键	70__eol__4.1.3  逻辑分布	72__eol__4.1.4  似然函数:统计分析的参数估计	74__eol__4.1.5  损失函数:机器学习的参数估计	75__eol__4.1.6  最终预测:从概率到类别	76__eol__4.2  模型实现	76__eol__4.2.1  初步分析数据:直观印象	77__eol__4.2.2  搭建模型	79__eol__4.2.3  理解模型结果	81__eol__4.3  评估模型效果	82__eol__4.3.1  查准率与查全率	83__eol__4.3.2  F-score	85__eol__4.3.3  ROC空间	86__eol__4.3.4  ROC曲线与AUC	88__eol__4.3.5  AUC的概率解释	89__eol__4.4  非均衡数据集	90__eol__4.4.1  准确度悖论	90__eol__4.4.2  模型效果影响	91__eol__4.4.3  解决方案	93__eol__4.5  多元分类问题:超越是与否	94__eol__4.5.1  多元逻辑回归	94__eol__4.5.2  One-vs.-All:从二元到多元	95__eol__4.5.3  模型实现	96__eol__4.6  本章小结	97__eol__4.6.1  要点回顾	97__eol__4.6.2  常见面试问题	98__eol__第5章  计量经济学的启示:他山之石	100__eol__5.1  定量与定性:特征的数学运算合理吗	101__eol__5.2  定性特征的处理	102__eol__5.2.1  虚拟变量	102__eol__5.2.2  定性特征转换为定量特征	104__eol__5.3  定量特征的处理	105__eol__5.3.1  定量特征转换为定性特征	106__eol__5.3.2  基于卡方检验的方法	108__eol__5.4  多重共线性:多变量的烦恼	109__eol__5.4.1  多重共线性效应	110__eol__5.4.2  检测多重共线性	113__eol__5.4.3  解决方法	114__eol__5.4.4  虚拟变量陷阱	116__eol__5.5  本章小结	117__eol__5.5.1  要点回顾	117__eol__5.5.2  常见面试问题	118__eol__第6章  最优化算法:参数估计	120__eol__6.1  算法思路:模拟滚动	121__eol__6.2  梯度下降法	122__eol__6.2.1  算法使用的窍门	124__eol__6.2.2  算法的局限性:局部最优与鞍点	125__eol__6.3  梯度下降法的代码实现	126__eol__6.3.1  PyTorch基础	127__eol__6.3.2  利用PyTorch的封装函数	130__eol__6.4  随机梯度下降法:更优化的算法	133__eol__6.4.1  算法细节	133__eol__6.4.2  代码实现	134__eol__6.4.3  进一步优化	135__eol__6.5  本章小结	137__eol__6.5.1  要点回顾	137__eol__6.5.2  常见面试问题	138__eol__第7章  反向传播:神经网络的工程基础	140__eol__7.1  计算图和向前传播	141__eol__7.1.1  什么是计算图	141__eol__7.1.2  代码实现	142__eol__7.2  链式法则和反向传播	145__eol__7.2.1  拓扑排序	146__eol__7.2.2  代码实现	146__eol__7.2.3  梯度传播过程	148__eol__7.3  参数估计的全流程	151__eol__7.3.1  随机梯度下降法回顾	151__eol__7.3.2  计算图膨胀	152__eol__7.4  动态优化	155__eol__7.4.1  梯度累积	155__eol__7.4.2  参数冻结	158__eol__7.4.3  随机失活	159__eol__7.5  真实世界:针对大规模模型的优化技巧	162__eol__7.5.1  GPU计算	162__eol__7.5.2  混合精度训练	164__eol__7.5.3  梯度检查点	166__eol__7.5.4  分布式计算	167__eol__7.6  本章小结	170__eol__7.6.1  要点回顾	170__eol__7.6.2  常见面试问题	171__eol__第8章  多层感知器:神经网络的“创世记”	174__eol__8.1  感知器模型	175__eol__8.1.1  神经元的数字孪生	175__eol__8.1.2  图示与计算图	177__eol__8.1.3  Sigmoid感知器与逻辑回归	178__eol__8.1.4  Softmax函数	179__eol__8.2  从神经网络的视角重新理解逻辑回归	181__eol__8.2.1  回顾窗口效应	182__eol__8.2.2  代码实现	183__eol__8.2.3  损失函数为模型注入灵魂	185__eol__8.2.4  神经网络的建模文化:搭积木	186__eol__8.3  多层感知器	187__eol__8.3.1  图形表示	187__eol__8.3.2  数学基础	189__eol__8.3.3  令人惊讶的通用性	192__eol__8.3.4  代码实现	193__eol__8.3.5  模型的联结主义	195__eol__8.4  训练优化的关键:激活函数	197__eol__8.4.1  坏死的神经细胞	198__eol__8.4.2  数学基础	200__eol__8.4.3  监控模型训练	201__eol__8.4.4  不稳定的梯度	205__eol__8.4.5  激活函数的改进	206__eol__8.5  从第一步开始优化训练	208__eol__8.5.1  模型损失的预估	208__eol__8.5.2  参数初始化的初步优化	209__eol__8.5.3  参数初始化的进一步优化	212__eol__8.5.4  归一化层	214__eol__8.6  本章小结	218__eol__8.6.1  要点回顾	218__eol__8.6.2  常见面试问题	219__eol__第9章  卷积神经网络:深度学习的“出埃及记”	222__eol__9.1  利用多层感知器识别数字	223__eol__9.1.1  视觉对象的数字化	223__eol__9.1.2  搭建模型	224__eol__9.1.3  代码实现	226_                            
                            
                        
                        
                        
                    
