当前位置: 首页 > news >正文

网站改版iis301跳转如何做网站制作1000元

网站改版iis301跳转如何做,网站制作1000元,国家注册商标官方网,备案个人可以做视频网站吗本系列目录 《带你自学大语言模型》系列部分目录及计划#xff0c;完整版目录见#xff1a;带你自学大语言模型系列 —— 前言 第一部分 走进大语言模型#xff08;科普向#xff09; 第一章 走进大语言模型 1.1 从图灵机到GPT#xff0c;人工智能经历了什么#xff1…本系列目录 《带你自学大语言模型》系列部分目录及计划完整版目录见带你自学大语言模型系列 —— 前言 第一部分 走进大语言模型科普向 第一章 走进大语言模型 1.1 从图灵机到GPT人工智能经历了什么——《带你自学大语言模型》系列 第二节 如何让机器理解人类语言本篇 第三节 Transformer做对了什么next 第四节 大语言模型大在哪 … … 第二部分 构建大语言模型技术向 第二章 基础知识 2.1 大语言模型的训练过程 —— 《带你自学大语言模型》系列第二节 大模型理论基础Transformernext第三节 大模型硬件基础AI芯片和集群next,next 第三章 预训练 … … 本节目录 1.2.1 语言模型的理论基石1.2.2 基于语法规则20世纪50 - 70年代1.2.3 基于统计的语言模型20世纪70 - 90年代 1.2.3.1 N-gram 1.2.4 基于神经网络的语言模型1990年代中期-至今 1.2.4.1 前馈神经网络1.2.4.2 循环神经网络模型RNN1.2.4.3 词向量1.2.4.4 注意力机制1.2.4.5 Transformer 【思考】 在让机器说人话这件事上人们都做了哪些尝试基于神经网络的语言模型核心的任务有哪几步人理解语言的方式和计算机理解语言的方式有什么相同和不同 欢迎关注同名公众号【陌北有棵树】关注AI最新技术与资讯。 【前言】 语言既是人类的最基础活动同时又是最复杂的信息游戏。如果一个东西同时具有“最基础”和“最复杂”两种属性那么这其中必然隐含了许多隐性的、约定俗成的内在知识。比如下面这些“意思”都代表着不同的意思 “你这是什么意思”“没什么意思意思意思。”“你这就不够意思了。”“小意思小意思。”“你这人真有意思。”“其实也没有别的意思。”“那我就不好意思了。”“是我不好意思。” 尽管我不说但你仍然能心领神会都是什么意思但如果让只认识0和1的计算机去理解这些“意思”那可真是太有意思了。 但是NLP的核心目的就是让计算机去理解这样复杂且抽象的人类语言。 上一节我们回顾了人工智能的发展史与人工智能所经历的发展曲线类似自然语言处理也经历了类似的路径一般称之为从理性主义到经验主义。理性主义基于规则经验主义基于统计。 关于什么是“理性主义”我们不妨思考传统编程下的机器语言这是最极致的“基于规则”本质上就是一个个逻辑判断逻辑和规则被固化在代码的一个个if…else和for循环里计算机做的只是存储数据指令计算它不需要有所谓的“智能”智能在程序员的脑子里通过代码固化下来。 但到了自然语言这里最大的难点在于语言的歧义性和动态变化上面提到的“意思”的例子还只是歧义的一种叫语义歧义。在此之前计算机还要解决结构歧义、省略歧义、指代歧义等等这些在人类看起来根本不是问题的问题。 在传统计算机采用的编码方式下数字并不代表文字背后隐藏的意义电脑也不需要理解文字背后的意义使用电脑的人理解这个意义即可。但是如果一个系统的所有功能都需要预先编码好而不具有学习的能力恐怕很难认为它具有智能。而人工智能试图做的就是代替人类智能的那部分。 本节我们依旧从发展史的角度来看计算机是一步步“学会”人类的语言的。 【正文】 正如人们对于智能的探索一样人们对于语言奥秘的探索也从未停歇。最近读杨立昆的自传《科学之路》读到美国女作家帕梅拉·麦科多克Pamela McCorduck写的一句话人工智能的历史始于“人类扮演上帝的古老愿望” 写的极妙于是人类一直试图创造出带有生命特征的机器。 一直以来语言被认为是人类拥有智能的标志同时用机器做语言翻译又有着极强的需求尤其是在二战和冷战期间所以自然语言处理可以说一直是备受关注。 1.2.1 语言模型的理论基石 一般我们说“语言模型”通常是指基于统计的语言模型。虽然“基于规则”的繁荣期要早于“基于统计”但从时间顺序来看基于统计的萌芽可以追溯到上个世纪初。之所以要花很大篇幅讲这段历史是因为尽管技术日新月异但其所依据的底层原理仍是基于100年前的发现。这个发现最大的意义在于证明了通过统计学方法进行自然语言研究的可能性。 这样一件对自然语言处理NLP领域如此重大的事件起源却是一场关于自由意志与宿命论的神学辩论可以说是无心插柳。 涅克拉索夫是俄国一位具有神学背景的数学家他在1902年发表的一篇论文中为了证明自由意志的存在即人类的恶行和上帝无关他将大数定律注入神学研究的论证中。他的论点大致如下自愿行为是自由意志的表达就像概率论中的独立事件它们之间没有因果联系。大数定律只适用于这样的独立事件。社会科学家收集的数据如犯罪统计数据等符合大数定律。因此个人的基本行为必须是独立和自愿的。 论文传到俄国另一个大名鼎鼎的数学家马尔科夫手中马尔可夫在意识形态立场上可以说是与涅克拉索夫的观点完全对立但是在他发起攻击时却几乎不谈派系或宗教而是直指其中一个数学错误——大数定律需要独立性原则。 尽管自雅各布·伯努利时代以来这一概念一直是概率论的常识马尔可夫却开始证明这个假设是不必要的。如果满足某些标准大数定律同样适用于依赖变量系统。简单来说就是大数定理不需要独立性假设。 于是他的论证方法就是找到不符合独立性假设的事件并证明其中大数定理的存在。他选择了普希金的诗歌小说《尤金·奥涅金》手工统计了元音和辅音的出现规律发现它们的出现频率最终收敛到固定值即大数定律。 同时这本书中的元音和辅音出现的概率分别是是0.28和0.72。首先我们不妨假设元音和辅音的出现都是独立事件那么根据独立事件的乘法定理连续出现两次元音的概率应该是0.28×0.28所以在这本有20多万个字母的书中应该出现大约16500对两个连续的元音。这本书中的真实情况是两个连续的元音只出现了7388对所以元音和辅音的出现是独立事件的假设并不成立但同时他们的统计结果却确实显现了大数定律。 1913 年 1 月 23 日他在圣彼得堡皇家科学院的演讲中总结了他的发现。基于上面的结论进一步扩展把元音和辅音各自看作一个状态而这两个连续字母的四种情况看作是两个状态之间的四种转移方式每种转移都按照一个特定的概率发生这就是马尔可夫链马尔可夫链在当今科学界无处不在比如语音识别、DNA识别、网络搜索等但本文我们只讨论其在自然语言处理领域所起到的开创性作用。 马尔可夫的发现揭示了通过统计方法进行自然语言研究的可能性。这成为今天仍活跃的N-gram模型的前身甚至今天的LLM和ChatGPT本质上也是用前面的词预测后面的词。 虽然这一研究成果极具开创性意义但由于当时客观条件的限制甚至还没有计算机纯粹用纸笔进行统计实在无法激起学者们的兴趣于是又沉寂了35年。 直到1948年香农在《通信的数学原理》中对马尔可夫过程进行了进一步的详细说明。在这篇论文中香农详细地描述了自然语言中存在的马尔可夫随机过程。香农指出语言的统计特性可以被建模同时还可以根据这个概率模型有效地生成语言。 这篇论文中甚至出现了对N-gram模型的描述。 1.2.2 基于语法规则20世纪50 - 70年代 虽然两位如此有影响力的大佬都证明了自然语言的统计特性可以说是开局极好。但在后面的20年自然语言处理领域的进展却是乏善可陈。一方面是客观条件的限制当时计算能力和语料规模都还不足以支撑数理统计的研究另一方面是则是由于主观上人们惯性思维当时的语言学家认为用“简陋”的统计学方法去研究复杂且精密自然语言多少有点“不够严肃”… 而基于规则的自然语言处理方法主要思想是通过词汇、形式文法等制定的规则引入语言学知识从而完成相应的自然语言处理任务。具体的理论与方法并不是本文的重点所以不再详细说明。从某种程度上来说这种方式也是在试图模拟人类完成某个任务时的思维过程。 语言学家们认为解决语言问题的关键是语法试图以将所有语法输入给计算机从而让机器学会说人话但他们似乎忘记了语言的核心是语义有限的符号和语法规则能幻化出无限的语义可能性。试想如果这套方法管用为什么你学了那么多年的英语语法结果还是要靠各种翻译软件了。 但是语言学家们不信邪于是在1950-1970近二十年间与专家系统类似语言学家也在用一种近乎愚公移山的方式试图补全所有语法规则。但是自然语言的复杂性却似乎超出了他们的想像。将庄子那句“吾生也有涯而知也无涯。以有涯随无涯殆已”放在这里同样十分合适。 自然语言生成的研究几乎处于停滞状态除了使用模板生成一些简单的语句并没有什么太有效的解决办法。 1966年美国科学院发表了报告《语言与机器》全面否定机器翻译的可行性并提出停止对机器翻译项目的资金支持的建议。但是由于机器翻译的需求场景真的很大又没有可替代的技术直至80年代之前NLP的主要实现方式还是基于规则。 后来1988年美国工程院院士贾里尼克在自然语言处理评测讨论会上的发言中说过这样的话“ 我每开除一个语言学家, 语音识别系统的性能就会有所提高 ” 1.2.3 基于统计的语言模型20世纪70 - 90年代 如上节结尾所述经历了20多年的挣扎后人们开始对基于规则方法产生了失望于是从70年代开始一部分人开始回到最初的起点从香农和马尔可夫的理论中去寻找灵感想起香农在20多年前提出的N-gram。 随着加入统计派的研究者越来越多研究也越来越深入基于统计学方法的自然语言处理技术在这期间确实取得了相当不错的成绩尽管一定程度上是靠同行衬托得好。 比如在马尔可夫链的基础上人们进一步提出了隐马尔可夫模型并将其应用于语音识别这个自然语言处理的子领域。最终人们将语音识别这个一直被认为几乎无法实现的技术做到了极高的可用性。 尽管如此仅仅通过简单的统计学方法依旧难以应付大千世界语义的复杂。它们的研究也只能限于感知层面而无法在认知层面上取得进展。 其实这与AI整体遇到的困境类似虽然有了理论但是由于网络结构和数据量的限制早期并没有十分亮眼的突破。始终徘徊于“能做但做不好”的状态。 1.2.3.1 N-gram 在基于统计的自然语言方法里一个你会经常听到的概念就是“语言模型”无论是基于统计的语言模型N-gram模型、基于神经网络的语言模型循环神经网络、Transformer、基于预训练的语言模型GPT、BERT、大语言模型都没有超出语言模型的范畴。既然如此它们必然有一个共性存在根据历史上下文对下一时刻的词进行预测。 也可以说它们都是在试图把语文问题转化为数学问题。 尽管NLP发展了几十年技术也演进了好几代但是其本质原理仍然和最初的N-gramN-gram Language ModelN元语言模型一样。那么N-gram具体指的是什么呢 要回答这个我们我也要先抛开N-gram回归到语言模型本身如果让你做一个基于概率统计的语言模型你会怎么做 根据我们的直觉最简单的语言模型就是把一句话拆成一个个单元比如一个词序列被拆成了 w 1 w 2 w 3 . . . . . . w m w_1w_2w_3......w_m w1​w2​w3​......wm​ 我们要想知道 w m w_m wm​是什么就要知道在 w 1 w 2 w 3 . . . . . . w m − 1 w_1w_2w_3......w_{m-1} w1​w2​w3​......wm−1​出现的情况下后面有可能出现什么词每个词出现的概率是多少概率最大的那个就是我们认为最“正确”的 w m w_m wm​。 所以语言模型的目标就是构建它的概率分布 P ( w 1 w 2 w 3 . . . . . . w m ) P(w_1w_2w_3......w_m) P(w1​w2​w3​......wm​) 但是计算联合概率十分困难所以会通过链式法则对概率的求解过程进行分解。 但是计算联合概率十分困难所以会通过链式法则对概率的求解过程进行分解。为了尽量少写公式我们举个例子假设全世界只有下面这几句话“陌小北喜欢喝奶茶”“陌小北喜欢跑步”“陌小北爱看书”“陌小北喜欢古诗词”“陌小北是程序员”“陌小北去霸王茶姬点了一杯伯牙绝弦然后回到工位继续写bug” 用链式法则分解下的表现形式为 P陌小北喜欢喝奶茶 P陌小北× P喜欢|陌小北 ×P喝|陌小北喜欢×P奶茶|陌小北喜欢喝 陌小北后面跟着“爱”“喜欢”“是””去“的概率分别是0.1660.50.1660.166“陌小北喜欢”后面跟着“喝”“跑步”“古诗词”的概率分别是0.3330.333“陌小北喜欢喝”后面跟着“奶茶”的概率是1 P陌小北喜欢喝奶茶 0.5 × 0.333 × 1 0.1665 这样看着还比较简单那么看下面这句 P陌小北去霸王茶姬点了一杯伯牙绝弦然后回到工位继续写bug P陌小北× P去|陌小北×P霸王茶姬|陌小北去× P点了|陌小北去霸王茶姬× P一杯|陌小北去霸王茶姬点了× ...... × Pbug|陌小北去霸王茶姬点了一杯伯牙绝弦然后回到工位继续写 中间我还省略了很多…这还是在假设我们设定了全世界只有这6句话的前提下可想而知随着语料集的增大这个参数量是巨大的。《现代汉语词典第7版》有7万个词条假设平均每句话20个词模型的参数量将达到,跟这个量级一比现在的万亿参数都显得如此娇小可爱恐怕在量子计算机实现之前我们是实现不了让机器理解语言这个梦想了。 并且还有一个问题随着句子变长后面的句子出现的次数会越来越少概率也极有可能为0此时再去计算概率也没有意义了 所以我们需要简化简化的思路是没有必要统计整句一个词出现的概率只与它前面的几个词有关系这就是N-gram的基本假设“下一个词出现的概率只依赖于它前面n−1个词”这被称为马尔可夫假设Markov Assumption。 具体和前面几个词有关系这个N就是几。当n1时不依赖前面的任何词就是unigramn2时只依赖前面一个词就是bigramn3时是trigram。n的取值越大考虑的历史信息越完整结果越精确同时计算量也越大。 根据上面的定义我们把这个长句改为bigram P陌小北去霸王茶姬点了一杯伯牙绝弦然后回到工位继续写bug P陌小北× P去|陌小北×P霸王茶姬|去× P点了|霸王茶姬× P一杯|点了× ...... × Pbug|写 通过上面的例子不难看出训练N-Gram模型的过程其实是统计频率的过程。它并没有用到深度学习和神经网络只是一些统计出来的概率值。这种方式是不是看起来很简单其实早期的NLP就是采用的都是这种模式只是在技术细节上会有优化知道了真相后你是不是知道为什么早期很多对话机器人那么智障了… 另一个问题就是“陌小北喜欢喝奶茶”和“陌小北爱喝奶茶”两句话其实是一个意思但后者的概率就是0这显然是不合理的。 从语言模型的角度来看N元语言模型存在明显的缺点。首先模型容易受到数据稀疏的影响一般需要对模型进行平滑处理其次无法对长度超过N的上下文依赖关系进行建模。 这时NLP需要另一个骑士来拯救… 1.2.4 基于神经网络的语言模型1990年代中期-至今 神经网络的发展同NLP一样一路也是历经坎坷直到本世纪初才逐渐回暖1.1节已经讲过不再赘述。 相比于传统的N-gram的概率统计计算神经网络通过拟合一个概率函数代替了通过统计频率对概率值的估算过程。它通过多层的特征转换可以将原始数据转换为更抽象的表示所以这个简单的结构理论上可包万物。所以在其发展到一定阶段后自然会向这颗“人工智能皇冠上的明珠”发起探索。 随后的事实也一步步证明利用神经网络的语言模型展现出了比N-gram更强的学习能力。 接下来以时间顺序介绍这一阶段的标志事件如果你之前没有相关基础在本节你只需要记住几个关键概念词向量、RNN、Transformer。 正如《技术的本质》这本书里关于“技术循环”的描述那样为解决老问题去采用新技术新技术又引起新问题新问题的解决又要诉诸更新的技术。周而复始… 基于神经网络的模型基本遵循如下的方式首先设定一个目标通过大量数据反复训练直到让其拟合出目标函数通俗来说训练过程就是先让机器“蒙”一个答案然后算出距离正确答案差多远损失函数给机器一个反馈再让它继续蒙重复多次直到它蒙对。 不同的神经网络模型其实就是所设计的目标函数不同我们设计不同目标函数的目的无非就是努力让模型的表达能力更强更能发挥硬件优势… 1.2.4.1 前馈神经网络 2003年约书亚·本吉奥Yoshua Bengio团队在论文《A neural probabilistic language model》中提出了“基于神经概率语言学模型”。这是一个浅层前馈神经网络。 前馈神经网络由输入层、词向量层、隐含层和输出层构成。如下图输入层传入待预测词的前N个词可以理解为前N个词的语义影响了这个词的输出。 从原理来说神经网络语言模型沿用了马尔可夫假设即下一个时刻的词只与过去n-1个词相关其目标可以表示为输入历史词输出词在词表上的概率分布。前馈神经网络语言模型一个明显的问题是对下一个词的预测需要回看多长的历史是由超参数N决定的这个N是固定的。这样处理最大的一个问题是现实情况下不同的词语对历史长度N的期望往往是变化的。 1.2.4.2 循环神经网络模型RNN 循环神经网络模型RNN 正是为了处理这种不定长依赖而设计的一种语言模型。循环神经网络的提出就是为了处理序列数据的正好满足自然语言这一场景。它在每一时刻都维护一个隐含状态该状态蕴含了当前词的所有历史信息且与当前词一起被作为下一时刻的输入。 从2010年Tomas Mikolov及其合作者发表论文《Recurrent neural network based Ianguage model》提出了基于循环神经网络自这时起同时伴随深度学习带来的本轮人工智能热潮自然语言处理进入了高速发展时期。 简单来说循环神经网络可以看作一个具有记忆的神经网络。RNN的基本原理是通过循环来传递隐藏状态信息,从而实现对序列数据的建模。循环神经网络语言模型不再基于马尔可夫假设每一时刻的词都会考虑到过去所有时刻的词词之间的依赖通过隐藏层状态来获取这刚好解决了语言模型需要动态依赖的问题。 但循环神经网络仍然存在一些问题 首先RNN需要顺序执行也就是在上一个词处理完之前无法进行下一个词的计算这限制了机器的并行处理能力从而导致计算效率缓慢。 其次在处理长序列时RNN无法捕捉到长距离之间的依赖关系这是因为整个原始句被压缩成一个固定维度的隐藏状态向量如果句子过长这个固定维度显然无法准确表达每个词的特征。 另外在处理长序列时训练这样的循环神经网络可能会遇到梯度消失或梯度爆炸的问题导致无法进行有效的训练。 1.2.4.3 词向量 讲到这里我们先从语言模型中跳出来想一想自然语言处理核心要做哪几件事概括来讲是两件事第一将文字进行数字化第二让数字化后的数值表达出语义关系。 如果用一句话概括神经网络是如何处理语言问题的那就是使用词向量寻找相似度。 在上一部分介绍基于统计的语言模型时我们忽略了一个非常关键的问题自然语言在计算机中如何被数字化 我们知道计算机的底层是二进制传统的字符编码只考虑了存储与表示并未考虑文字的实际语义。而人工智能则不然它需要理解文字承载的”意义“。具体采用的技术就是“向量化”。 通过这种方式计算机不需要真正理解每个词的实际意义而是利用相似度来建立了另一种意义把每个词都表示为向量然后把它们放到一个多维坐标里面词和词之间的空间关系就会把它们语义上的关系表示出来。 语言学家约翰·R .弗斯John R. Firth, 1957也有一句名言佐证此假设“要知道一个单词的含义就要看它周围是什么单词”。这在自然语言处理领域被称为“分布式假设”。 基于分布式假设后续发展出两种实现方法一种是基于计数的方法另一种是基于推理的方法。 基于计数的方法一次性处理全部学习数据反之基于推理的方法使用部分学习数据逐步学习。 基于计数的方法的思想是根据一个单词周围的单词的出现频数来表示该单词。 这类技术的代表包括采用奇异值分解的隐式语义分析。 基于推理的方法实现方法是使用神经网络来处理单词。首先将单词用独热编码表示为向量接下来将这些向量传递给神经网络的各个层通过全连接层对其进行变换。2013年谷歌团队提出了Word2Vec的词向量技术。从此以词向量Word Embedding为代表的分布式表示的语言模型深刻地影响了自然语言处理领域的其他模型及其应用的变革。 这种将任意文本或非文本符号表示成稠密向量的方法统称Embedding。Embedding可以说是NLP领域甚至于深度学习领域最基础的技术。哪怕到了2023年大模型爆发式增长NeurIPS仍是将时间检验奖颁给了Word2Vec。 从Word2Vec“词到向量”这个名字上就可以看出来他的关注点不是语言模型本身得到词向量这个副产物成为了主要的目的所以严格意义来说它不是一个语言模型。词向量的学习主要利用了语料库中词与词之间的共现信息其背后的核心思想是就是上面提到的分布式语义假设。在一个文本序列中每个词的动态词向量实际上是对该词的上下文进行语义组合后的结果。 向量中的空间方向有承载语义的作用。 我们用一个更直观的例子来说明词向量来说明为什么它在NLP领域如此重要。首先我们假设向量空间是二维的尽管这种简化与实际情况不符例如GPT-3中的向量维度是12288)但这样更便于我们直接观察。 通过这种向量化的方式一是完成了文字在计算机内的存储而是便于寻找”规律“意义相近的词语的空间位置更近。 将词映射到向量还有一个好处在于通过词语间的空间关系反映了它们在现实世界的实际关系。比如「男人」和「女人」这两个向量的向量差可能与「爸爸」和「妈妈」的向量差是相近的。也就是这两组字的语义差可以在向量空间中转为向量差。 所以整个训练过程可以描述如下先将词表里面的词Token随机分布在这个向量空间中然后根据输入的语料不断调整每个词Token的位置直到模型损失函数减小到一定范围内每个词都找到了在空间内的”正确“位置。 前面提到的浅层前馈神经网络循环神经网络本质上都是在让每个词找出”正确“的位置但都或多或少存在一些问题比如如何更好地将一句话的上下文信息融合到向量的坐标中… 1.2.4.4 注意力机制 自2013年Word2Vec诞生直到现在每一代模型的目标本质上都是如何让词语在多维向量空间里找到”正确“的位置并通过计算位置的相似度完成下一个词词的预测。 由于Transformer的影响力以至于很多人会将注意力机制和Transformer深深绑定在一起认为注意力机制是Transformer中首次提出但其实是有偏差的。 在NLP领域注意力机制首先被引入用于Seq2Seq模型Seq2Seq模型具有“编码器-解码器”架构Seq2Seq模型最广泛的应用场景是机器翻译领域但其实也可以被应用在序列到序列相关的所有场景。 Seq2Seq模型是2014年Ilya Sutskever等人在论文《Sequence to Sequence Learning with Neural Networks》中提出接着在2015年在Yoshua Bengio团队在《Neural Machine Translation by Jointly Learning to Align and Translate》中将注意力机制引入Seq2Seq模型。 所谓注意力机制简单来说就是对于输入序列计算出一组能够表达重要性程度的值向量——注意力权重然后通过这个权重对数据项进行加权求和此时应用的还是循环神经网络只是将注意力机制融入了进去 1.2.4.5 Transformer 2017年Transformer以划时代的姿势横空出世之所以用划时代这个词是因为以Transformer作为分水岭在这之前注意力机制的实现方式都是RNN架构而在此之后全部都是基于自注意力机制的Transformer真的正如Transformer论文的标题《Attention Is All You Need》那样你只需要注意力机制还隐藏了后半句你不再需要RNN了。 利用丰富的训练语料、自监督的预训练任务以及Transformer等深度神经网络结构使预训练语言模型具备了通用且强大的自然语言表示能力能够有效地学习到词汇、语法和语义信息。 2018年BERT和GPT的诞生标志着开启了基于预训练的语言模型时代将预训练语言模型应用于下游任务时不需要了解太多的任务细节不需要设计特定的神经网络结构只需要“微调”预训练语言模型即使用具体任务的标注数据在预训练语言模型上进行监督训练就可以获得显著的性能提升。 2020年GPT-3出现又是一个分界点从此后进入大语言模型时代。 此后的故事就是我们正在经历的现在… 虽然GPT的复杂程度早已非最开始的N-gram所能比但细究其本质你会发现两者的工作模式始终未变根据前面的词去预测后续的词而这也正是语言模型的核心目标。 关于Transformer的细节以及后面的演进是本系列的重点但是由于篇幅原因不在本篇展开敬请期待后续… 【关键参考文献】 [1] First Links in the Markov Chain[EB/OL]. [BRIAN HAYES]. www.americanscientist.org/article/first-links-in-the-markov-chain. [2]Shannon C E. A mathematical theory of communication[J]. The Bell system technical journal, 1948, 27(3): 379-423. [3] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013. [4] MIKOLOV T, KARAFIÁT M, BURGET L,et al. Recurrent neural network based Ianguage model.[C]//Interspeech: volume 2.[S.I.]: Makuhari, 2010: 1045-1048. [5] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014. [6] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[J]. Advances in neural information processing systems, 2014, 27. [7] 张奇 / 桂韬 / 黄萱菁. 自然语言处理导论[M]. 电子工业出版社, 2023-8. [8] 车万翔 / 崔一鸣 / 郭江. 自然语言处理基于预训练模型的方法[M]. 电子工业出版社, 2021-7. [9] Russell S, Norvig P. 人工智能现代方法第四版[M]. 人民邮电出版社, 2022.
http://www.yayakq.cn/news/3680/

相关文章:

  • 商业网站建设视频教程菏泽网站备案拍照
  • 孝感公司做网站做消费金融网站
  • 建设银行签名通在网站哪里下载手机麻将软件定制开发
  • 网站如何免费推广网络营销推广方案案例分析
  • iis 创建网站上海市最新消息今天
  • 网站开发具体步骤渝叶购零售客户电商网站
  • 创建网站公司 徐州大连网站建设培训班
  • 衡水企业做网站多少钱装饰设计风格
  • 沙井网站建设公司电子商务网站建设的市场分析
  • 网站怎么做外链知乎徐州建设安全监督网站
  • 购物网站详细设计成都百度竞价推广
  • 网站开发课程昆明seo网站建设
  • 温州网站建设icp备免费1级做爰片打网站
  • 北京h5网站建设报价wordpress step 2
  • 门户网站怎么做优化Wordpress的未来
  • 企业中英文网站开发做网络推广可以通过哪些渠道推广
  • 盐城网站建设哪家快做百度移动网站优化排
  • 网站开发与部署高端大气企业网站
  • 提供佛山顺德网站建设包商科技wordpress
  • 开福区互动网站建设成都网站建设网络
  • 曲靖网站开发微信商城小程序怎么开通
  • 网站设计部浙江高端网站
  • 国外 网站 欣赏软件开发工作
  • 个人网站推广广西住房和城乡建设厅三类人员继续教育
  • 深圳网站建设 卓越迈建设企业网站下载
  • 河南省建设厅官方网站电脑版百度
  • 国外外包网站画册设计1p一般多少钱
  • 西安建设学院网站南山网站设计电话
  • 湖南省百川电力建设有限公司网站wordpress留言代码
  • wordpress共用用户多站点杭州做公司网站哪家好