理解 AI 搜索算法

作者

Elastic Platform Team

2024年2月21日

人工智能工具无处不在，这一点也不难理解。它们能执行各种各样的任务，并找到很多日常问题的解决方案。但这些应用程序的效果却完全取决于其 AI 搜索算法。

简单来讲，AI 搜索算法是 AI 工具寻找具体问题的最优解决方案时所用的决策制定公式。搜索算法可能会在速度、相关性或其他加权因素之间做出取舍。它还会考虑查询的限制和目标，并返回它计算之后得出的最优解决方案。

在本篇博文中，我们将会讲解：

AI 搜索算法的重要性和应用场景
AI 搜索算法的组成元素
AI 搜索算法的不同类型
AI 搜索算法的用例
AI 搜索算法的挑战和局限性

阅读完本文后，您将能够清晰地了解什么是 AI 搜索算法，以及您可以如何在自己的 AI 工具中使用它们。

什么是 AI 搜索算法？

AI 搜索算法是通过评估索引数据和文档来理解自然语言查询并找到相关结果的方法。它实现这一目的的方式是探索一系列潜在解决方案，以找出给定查询的最佳答案或解决方案。

想象一下您正在使用人工智能创建一个象棋应用程序，该应用程序能够预测出下一步的最佳走法。为了确定最佳走法，您的 AI 搜索算法必须评估不同的方案以确定哪个方案最好。这意味着，系统性地评估每颗棋子的位置，评估每一种可能的走法组合，并通过计算得出能最大程度提高赢率的策略。

AI 搜索算法的重要性和应用场景

AI 搜索算法在形形色色的领域均发挥着关键作用，从解决计算机科学领域的问题，到物流领域的复杂决策，不一而足。正是由于它用途广泛，所以它才成为应对各种挑战并解决重大问题时不可或缺的元素。

例如，NASA 能够使用 Elastic® 中的 AI 搜索算法来分析在火星执行任务的探测车的数据。相比于手动分析这些数据，这能够让他们以快得多的速度解锁关键洞察并应对复杂挑战。此外，在医疗保健领域，人们正在使用 AI 搜索算法来协助完成医疗诊断、治疗规划和药物发现。这能够提高诊断准确性，更高效地制定治疗计划，并推动开发新疗法。

这些例子均显示出了 AI 搜索算法的重要性和潜力，但是这些算法的应用范围远远超出了刚刚列举的这些用例。金融、制造、法律服务等诸多领域已经在受益于这一新能力，从而处理海量数据并制定明智决策。随着 AI 算法的继续发展，它势必在各行各业发挥更加巨大的作用，并对我们所生活的世界产生重大影响。

AI 搜索算法的组成元素

每个 AI 搜索算法都可以被分解成四个组成元素：状态、行动、目标和路径成本。算法正是借助这一组成元素框架来应对复杂问题并找到最佳解决方案。

状态是问题在特定时间点的快照。状态包括问题在当时的所有相关信息，以便算法能够评估当前情况。可以把它想象成一座迷宫——每个拐弯都代表着迷宫中的一个不同“状态”。所以通过查看状态，您就知道 AI 在算法中的位置。

行动是状态之间的可能过渡方式。还是使用迷宫的比喻，这些行动是可供您选择的前进方向。通过将这些行动结合在一起，您便能够确定在迷宫内行走的不同潜在路径。

目标指搜索过程的最终目的。对于搜索，目标就是针对初始查询的最佳且最相关的答案。这为算法提供了清晰的方向，以便算法集中精力找到最佳结果。回到迷宫的例子，“找到逃出迷宫的最佳路线”这一查询就是目标。

路径成本指针对通往查询答案的路径中的每个步骤或行动，在精准度和召回率之间进行取舍。这一成本表示实现每一步所需完成的工作或所需的资源。算法可以使用成本来排定高效且节省资源的路径的优先级。

AI 搜索算法的类型

自然语言处理 (NLP) 算法

NLP 是搜索的关键组成部分，可在人类沟通和机器理解之间架起一座桥梁，将二者联系起来。这能够支持搜索 AI 理解人们需要 AI 做什么，并让 AI 提供与查询相关且符合上下文的结果。

通过使用 NLP，搜索结果会与用户意图更加相符，而且算法能够通过理解具有细微差异的请求来处理复杂查询。这是因为算法能够识别情感并理解上下文，并基于之前与用户的对话提供个性化的搜索体验。

词嵌入
算法处理文字并找到相似性的方法之一就是使用词嵌入，在这种方法中，词和资产被表示为向量。而且算法会分析诸如文本和图像等非结构化数据，并将其转换为一个数字值。

这方面一个特别热门的例子是 Word2vec，此算法会从巨大的书面文本集合中学习词嵌入。然后，它会分析相邻的文本以确定意思并理解上下文。另一个例子是 GloVe（Global Vectors for Word Representation，词语表示的全球向量），这一算法也经过训练，会根据词语的语义相似性对词语进行映射，从而在不同词语之间建立联系。

语言模型
还有一些语言模型会通过分析大量数据来准确预测词语以不同顺序出现的概率。或者更简单来说，这些算法不仅允许搜索 AI 理解我们在说什么，让能让搜索 AI 以符合人类沟通习惯的方式进行响应。

例如，BERT（Bidirectional Encoder Representations from Transformers，基于 Transformer 的双向编码器表征）是一个热门的语言模型，它能够理解复杂且微妙的语言，然后人们便可以使用此模型来为语义搜索和问题回答提供支持。

k 最近邻 (kNN)

kNN 是一种简单但用途广泛的 AI 搜索算法，可用来识别与新数据点距离最近的数据点（k 个）。然后它会使用这些“邻居”来预测新数据点的类型或值。或者简单来讲，它会分析新数据并在现有数据中找到与它最接近的数据。

这使得它十分适合下列场景：对结果按相关性进行排序；推荐相似的图片或视频；或基于之前的购物记录推荐产品。

尽管它相对简单且易于理解，但是运行这一算法的成本却很高。对于大型数据集，尤其如此，因为它需要计算新数据点与全部既有数据点之间的距离。

近似最近邻 (ANN)

相对于使用 kNN 找到最佳匹配，还有一种替代方案，即针对您的具体需求找到足够好的匹配项。近似最近邻在这种情况下就表现非常出色。这是因为 ANN 会寻找与查询内容非常接近的匹配项，但不一定是最接近的匹配项。所以 ANN 不会费力去分析所有数据，因为这会消耗大量的时间和资源，而是会在找到虽然不是最近但相对而言仍“足够接近”的数据后就停止。

这一算法的优势是您可以创建速度快得多且更高效的相似性搜索。ANN 实现这些“足够接近”结果的方法是推测内容和数据之间的语义关系。

虽然这种方法值得考虑，但是您需要在准确性方面做出一些妥协，因为它不保证会给出最接近的结果。大多数情况下，ANN 将是一个很好的解决方案，但如果您需要保证绝对准确性，则它可能不是最佳选择。

无信息或盲目搜索算法

无信息搜索算法（也称为盲目搜索算法）不知道搜索空间的相关信息。这种算法以系统化的方式解决查询问题，不借助任何指导或领域特定知识。它们完全依赖搜索空间的现有结构来找到解决方案。

有数种不同类型的无信息搜索算法，但最常见的三种是广度优先搜索 (BFS)、深度优先搜索 (DFS) 和统一代价搜索 (UCS)。

有信息或启发式搜索算法

有信息搜索算法（也称为启发式搜索算法）会使用额外信息和领域特定知识来指导其搜索过程。与无信息搜索不同，它们使用启发式方法（即经验和估计值）来帮助排定路径的优先级并避免不必要的探索。

有几种不同类型的有信息搜索算法，但最常见的是贪婪最佳优先搜索、A* 搜索和集束搜索。

AI 搜索算法的应用案例

正如我们提到的，AI 搜索算法正在广泛应用于各个行业以完成各种任务。以下只是一些实际示例，在这些示例中它们产生了巨大影响。

信息检索：NLP 搜索算法可以通过理解查询的上下文和语气来增强搜索结果，从而检索到更有用的信息。
推荐：kNN 算法通常用来根据用户的偏好和过去行为推荐产品、电影或音乐。
语音识别：ANN 算法通常用于识别语音中的模式。这在诸如语音转文字和语言识别等方面非常有用。
医学诊断：AI 搜索算法可以帮助加快医学诊断速度。例如，用户可以使用大量的医疗影像数据集对 AI 搜索算法进行训练，然后此算法可以利用图像识别功能从照片、X 光片、CT 扫描片等中检测异常情况。
路径规划：无信息搜索算法可帮助找到地图或网络上两点之间的最短路径。例如，为司机确定最短送货路线。

AI 搜索算法的挑战和局限性

由于能够帮助高效地解决问题并制定决策，AI 搜索算法可能已经为各行各业带来了革命性的改变，但它们也带来了挑战和局限性。首先，由于涉及的计算十分复杂，这可能使其运行成本极高。这是因为它们需要大量的处理、计算和内存资源来进行搜索。如果存在约束条件，这便会限制其有效性。

另一个问题是，有信息搜索算法的效果完全取决于所使用的启发式方法。如果启发函数不准确，就会导致算法走入错误路径，进而导致次优甚至错误的解决方案。

此外，AI 搜索算法通常被设计用于解决特定类型的问题，如路径规划和满足约束条件。这对某些任务很有用，但在解决问题的范围方面，尤其是在解决更多样化的问题时，仍然存在限制。

理解 AI 搜索，满足未来需求

AI 搜索算法是解决各领域复杂现代问题的重要工具。由于具有多样性和多功能性，所以它们在路径规划、制定计划和 Machine Learning 等任务中已经不可或缺。

尽管正在为机器人技术、医疗保健和金融等行业带来革命性影响，但它们的潜力仍然十分巨大。当前的限制和挑战也是未来发展的机遇。由于人们仍在开展研究来持续提升性能，AI 搜索算法将在解决实际问题并改变科技面貌方面继续发挥日益重要的作用。

您接下来应该怎么做

当您准备好后，我们可以通过下面四种方法帮助您从业务数据中获取见解：

开始免费试用，了解 Elastic 可以为贵公司提供什么方面的帮助。
浏览我们的解决方案，了解 Elasticsearch 平台的运作方式，以及我们的解决方案如何满足您的需求。
了解如何在企业中提供生成式 AI。
通过电子邮件、LinkedIn、Twitter 或 Facebook 向您认识且可能喜欢阅读本篇文章的人分享本篇文章。

继续阅读 AI 搜索相关资源：

本博文所描述的任何特性或功能的发布及上市时间均由 Elastic 自行决定。当前尚未发布的任何特性或功能可能无法按时提供或根本不会提供。

在本博文中，我们可能使用或提到了第三方生成式 AI 工具，这些工具由其各自所有者拥有和运营。Elastic 对第三方工具没有任何控制权，对其内容、操作或使用不承担任何责任或义务，对您使用此类工具可能造成的任何损失或损害也不承担任何责任或义务。在 AI 工具中使用个人、敏感或机密信息时，请务必谨慎。您提交的任何数据都可能用于 AI 训练或其他目的。Elastic 不保证您所提供信息的安全性或保密性。在使用任何生成式 AI 工具之前，您都应自行熟悉其隐私惯例和使用条款。

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 及相关标志为 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。所有其他公司和产品名称均为其相应所有者的商标、徽标或注册商标。

Elasticsearch Platform

ELK Stack

可观测性

安全性

搜索

按行业

按解决方案

理解 AI 搜索算法

什么是 AI 搜索算法？

AI 搜索算法的重要性和应用场景

AI 搜索算法的组成元素

AI 搜索算法的类型

自然语言处理 (NLP) 算法

k 最近邻 (kNN)

近似最近邻 (ANN)

无信息或盲目搜索算法

有信息或启发式搜索算法

AI 搜索算法的应用案例

AI 搜索算法的挑战和局限性

理解 AI 搜索，满足未来需求

您接下来应该怎么做

继续阅读 AI 搜索相关资源：

分享

Sign up for Elastic Cloud free trial

关注我们

关于我们

加入我们

合作伙伴

信任和安全性

投资者关系

卓越奖