什么是大型语言模型 (LLM)?

大型语言模型定义

大型语言模型 (LLM) 是一种深度学习算法,可以执行各种自然语言处理 (NLP) 任务。大型语言模型会使用多个转换器模型,并使用海量数据集进行训练,因此规模非常庞大。这也是它们能够识别、翻译、预测或生成文本或其他内容的强大基础所在。

大型语言模型也称为神经网络 (NN),是受人类大脑启发而开发出的计算系统。这些神经网络利用分层的节点网络工作,就像神经元一样。

除了向人工智能 (AI) 应用程序教授人类语言外,还可以训练大型语言模型来执行各种任务,如理解蛋白质结构、编写软件代码等。像人类大脑一样,大型语言模型必须经过预先训练,然后再进行微调,这样它们才能解决文本分类、问题解答、文档摘要和文本生成等问题。它们这些解决问题的能力可应用于医疗保健、金融和娱乐等多种领域;在这些领域中,大型语言模型用于支持各种 NLP 应用程序,例如翻译、聊天机器人、AI 助手等。

大型语言模型也具有大量的参数,类似于模型从训练中学习时收集的各种记忆。我们可以将这些参数视为模型的知识库。


那么,什么是转换器模型呢?

转换器模型是大型语言模型中最常见的架构。它由一个编码器和一个解码器组成。转换器模型通过将输入信息转换为词元来处理数据,然后同时进行数学运算来发现词元之间的关系。这样,计算机就能够看到人类在面对同样查询时所看到的模式。

转换器模型使用自注意力机制工作,与长短期记忆模型等这类传统模型相比,这种模型的学习速度更快。自注意力让转换器模型能够考虑序列的不同部分或句子的整个上下文,从而生成预测。


大型语言模型的关键组件

大型语言模型由多个神经网络层组成。递归层、前馈层、嵌入层和注意力层协同工作,对输入文本进行处理并生成输出内容。

嵌入层会基于输入文本创建嵌入。大型语言模型的这一部分会获取输入内容的语义和句法含义,从而让模型能够理解上下文。

大型语言模型的前馈层 (FFN) 由多个完全互联的层组成,用于转换基于输入文本生成的嵌入。这样,这些层就能够使模型收集更高层级的抽象概念,也就是理解用户输入文本的意图。

递归层会按顺序解读输入文本中的字词,并获取句子中字词之间的关系。

注意力机制能够让语言模型专注于输入文本中与当前任务相关的各个部分。通过这一层,可让模型生成最准确的输出。

在您的搜索应用程序中应用转换器

大型语言模型主要有三种:

  • 通用或原始语言模型会根据训练数据中的语言预测下一个字词。这些语言模型可执行信息检索任务。
  • 指令调优的语言模型经过训练后,可预测输入中所给指令的响应。这可使用它们执行情感分析,或者生成文本或代码。
  • 对话调优的语言模型经过训练后,可通过预测下一个响应来进行对话。例如,聊天机器人或对话 AI。

大型语言模型与生成式 AI 之间的区别?

生成式 AI 是一个总称,是指有能力生成内容的人工智能模型。生成式 AI 可以生成文本、代码、图像、视频和音乐。例如,生成式 AI 有 Midjourney、DALL-E 和 ChatGPT。

大型语言模型是一种生成式 AI,它基于文本进行训练并生成文本内容。ChatGPT 就是一个广为流行的文本生成式 AI 示例。

所有大型语言模型都是生成式 AI1


大型语言模型的工作原理

大型语言模型以转换器模型为基础,其工作原理是:接收输入,对输入进行编码,然后解码以生成输出预测。但是,在大型语言模型能够接收文本输入并生成输出预测之前,需要先对它进行训练,以便执行一些常规功能,然后再进行微调后才能执行特定任务。

训练:大型语言模型会使用维基百科、GitHub 或其他网站的大型文本数据集进行预先训练。这些数据集包含数以万亿计的字词,它们的质量会影响语言模型的性能。在这个阶段,大型语言模型主要进行无监督学习,这意味着它会在没有特定指令的情况下处理输入的数据集。在这个过程中,LLM 的 AI 算法可以学习字词的意思,以及字词之间的关系。此外,它还会根据上下文学习分辨字词。例如,它将学习理解“right”是“正确”的意思,还是“左”的反义词。

微调:为了让大型语言模型执行诸如翻译等特定任务,则必须针对特定活动对它进行微调。微调可优化特定任务的性能。

提示调优的作用与微调类似,也就是通过少样本提示或零样本提示来训练模型执行特定任务。提示是提供给 LLM 的指令。少样本提示会通过使用示例来教模型预测输出。例如,在这个情绪分析练习中,少样本提示将如下所示:

Customer review: This plant is so beautiful!
Customer sentiment: positive

Customer review: This plant is so hideous!
Customer sentiment: negative

语言模型通过“hideous”的语义,并基于提供的一个相反示例,理解第二个示例中的客户情感是“negative”。

另外,零样本提示不会使用示例来教语言模型如何对输入做出响应。相反,它会将问题表述为“The sentiment in 'This plant is so hideous' is….”(“‘这种植物太丑了’中的情感是……” 它会明确指出语言模型应执行的任务,但没有提供解决问题的示例。


大型语言模型用例

大型语言模型可用于多种用途:

  • 信息检索:例如 Bing 或 Google。每当您使用它们的搜索功能时,都是在依赖于一个大型语言模型根据查询来生成响应信息。它能够检索信息,然后总结并以对话方式交流答案。
  • 情感分析作为自然语言处理的应用,公司可利用大型语言模型来分析文本数据的情感。
  • 文本生成:大型语言模型是生成式 AI(如 ChatGPT)的基础,可以根据输入信息生成文本。它们可以根据提示生成文本示例。例如:“用 Emily Dickinson 的风格给我写一首关于棕榈树的诗。”
  • 代码生成:与文本生成一样,代码生成也是生成式 AI 的一种应用。LLM 理解这些模式后便可用于生成代码。
  • 聊天机器人和对话 AI:利用大型语言模型,可支持客户服务聊天机器人或对话 AI 与客户进行互动,解读他们的查询或回复的含义,并依次给予响应。

除了上述这些用例之外,大型语言模型还可以补全句子、回答问题和总结文本。

大型语言模型的应用范围如此广泛,在众多领域中都可以找到它的身影:

  • 科技业:从支持搜索引擎响应查询,到协助开发人员编写代码,大型语言模型可应用于任何地方。
  • 医疗保健和科学:大型语言模型能够理解蛋白质、分子、DNA 和 RNA。在这一领域,可利用 LLM 协助疫苗的研制,寻找疾病的治疗方法,以及改进预防保健药物。LLM 还可用作医疗聊天机器人,接收患者入院或进行基本诊断。
  • 客户服务:LLM 可用于支持各行各业的客户服务,如聊天机器人或对话 AI。
  • 营销:市场营销团队可以使用 LLM 来执行情感分析,以快速生成营销活动创意或文本等,作为推介示例。
  • 法律:从搜索海量文本数据集到生成法律术语,大型语言模型可以为律师、律师助理和法律工作者提供帮助。
  • 银行业:LLM 可以帮助信用卡公司检测欺诈行为。

大型语言模型的优势

大型语言模型的应用范围非常广泛,由于能够以清晰、对话式的方式提供信息,易于用户理解,因此对解决问题非常有益。

应用广泛:它们可用于语言翻译、句子补全、情感分析、问题解答、数学方程等。

持续改进:大型语言模型的性能在不断改进,因为随着越来越多的数据和参数添加进来,性能也会随之提高。换句话说,它学得越多,性能越好。此外,大型语言模型还可以展现出所谓的“语境学习”。 在对 LLM 进行预先训练后,少样本提示就能让模型从提示中学习,无需提供任何额外参数。这样,它就可以持续学习。

它们学得快:当演示语境学习时,大型语言模型的学习速度非常快,因为它们不需要添加额外的权重、资源和参数来进行训练。它之所以快,是因为不需要太多的示例。


大型语言模型的局限性和挑战性

大型语言模型给我们留下印象可能是:它们能理解意思,并可准确地做出响应。但是,它们仍然是一种技术工具;因此,大型语言模型也面临着各种各样的挑战。

幻觉:幻觉是指 LLM 生成的输出是错误的,或者与用户的意图不符。例如,声称自己是人类,有情感,或是爱上了用户。由于大型语言模型会预测下一个语法正确的字词或短语,因此并不能完全解读人类的意思。这导致有时会产生所谓的“幻觉”。

安全:如果管理或监管不当,大型语言模型会带来严重的安全风险。他们可能会泄露人们的私人信息,参与网络钓鱼诈骗,以及产生垃圾邮件。心怀恶意的用户可能会按照自己的意识形态或偏见对 AI 进行重新编程,并助长错误信息的传播。这些不良影响可能会在全球范围内造成毁灭性的后果。

偏见:用于训练语言模型的数据会影响给定模型生成的输出。因此,如果数据只代表单一人群,或者缺乏多样性,那么大型语言模型产生的输出也将缺乏多样性。

同意:大型语言模型是基于数以万亿计的数据集训练的,其中有些数据集可能不是在双方同意的情况下获得的。众说周知,大型语言模型从互联网上抓取数据时,会忽略版权许可,抄袭书面内容,以及在未获得原所有者或艺术家许可的情况下重新使用专有内容。当它生成结果时,没有办法追踪数据的来源,而且通常不注明创作者,这可能会让用户面临版权侵权问题。

它们还可能会从照片的描述中抓取个人数据,比如拍摄对象的名字或摄影师的名字,这可能会侵犯隐私2。LLM 已经遭到侵犯知识产权方面的诉讼,其中就包括 Getty Images3 的一起著名诉讼。

扩展:扩展和维护大型语言模型可能会非常困难,需要耗费大量的时间和资源。

部署:部署大型语言模型需要深度学习、转换器模型、分布式软件和硬件,以及全面的技术专业知识。


大型语言模型中的未来发展

ChatGPT 的出现将大型语言模型推到了风口浪尖,并引发了人们对未来的猜测和激烈辩论。

随着大型语言模型的不断发展,这些模型对自然语言的掌握程度也在不断提高,人们对它们的进步会对就业市场产生什么影响非常关注。很显然,大型语言模型会发展出在某些领域取代工人的能力。

如果用于正当目的,大型语言模型无疑能够提高工作效率和流程效率,但这也给它在人类社会中的使用提出了伦理问题。


Elasticsearch Relevance Engine 介绍

为了解决当前 LLM 的局限性,Elasticsearch Relevance Engine (ESRE) 适时推出,这是一个关联引擎,专为由人工智能提供支持的搜索应用程序而构建。借助 ESRE,开发人员可以构建自己的语义搜索应用程序,利用自己的转换器模型,并结合 NLP生成式 AI 来增强客户的搜索体验。

使用 Elasticsearch Relevance Engine 提升相关性

Diagram illustrating how Elasticsearch uses a large language model to deliver search query results.


大型语言模型资源


脚注

1作者:Myer、Mike;标题:“Are Generative AI and Large Language Models the Same Thing?”(生成式 AI 和大型语言模型是一回事吗?) 发布日期:2023 年 5 月 12 日 (Quiq);网址:quiq.com/blog/generative-ai-vs-large-language-models/。

2作者:Sheng、Ellen;标题:“In generative AI legal Wild West, the courtroom battles are just getting started”(在生成式 AI 的法律荒原中,法庭之争才刚刚开始);发布日期:2023 年 4 月 3 日 (CNBC);网址:https://www.cnbc.com/2023/04/03/in-generative-ai-legal-wild-west-lawsuits-are-just-getting-started.html(2023 年 6 月 29 日访问)

3 Getty Images Statement,Getty Images;发布日期:2023 年 1 月 17 日;网址:https://newsroom.gettyimages.com/en/getty-images/getty-images-statement(2023 年 6 月 29 日访问)