¿Qué es la RAG (generación aumentada de recuperación)?

Definición de generación aumentada de recuperación (RAG)

La generación aumentada de recuperación (RAG) es una técnica que complementa la generación de texto con información de fuentes de datos privadas o propietarias. Combina un modelo de recuperación, que está diseñado para buscar grandes sets de datos o bases de conocimiento, con un modelo de generación como un modelo de lenguaje grande (LLM), que toma esa información y genera una respuesta de texto legible.

La generación aumentada de recuperación puede mejorar la relevancia de una experiencia de búsqueda, al agregar contexto de fuentes de datos adicionales y complementando la base de conocimientos original del entrenamiento de un LLM. Esto mejora el resultado del modelo de lenguaje grande, sin tener que volver a entrenar el modelo. Las fuentes de información adicionales pueden variar desde información nueva en Internet en la que el LLM no recibió capacitación hasta contexto comercial propietario o documentos internos confidenciales que pertenecen a empresas.

La RAG es valiosa para tareas como la respuesta a preguntas y la generación de contenido porque permite que los sistemas de AI generativa utilicen fuentes de información externas para producir respuestas más precisas y conscientes del contexto. Implementa métodos de recuperación de búsqueda (normalmente búsqueda semántica o búsqueda híbrida) para responder a la intención del usuario y ofrecer resultados más relevantes.

Profundiza en la generación aumentada de recuperación (RAG) y cómo este enfoque puede vincular tus datos confidenciales y en tiempo real a modelos de AI generativa para mejores experiencias de usuario final y precisión.

Entonces, ¿qué es la recuperación de información?

La recuperación de información (IR) se refiere al proceso de buscar y extraer información relevante de una fuente de conocimiento o un set de datos. Es muy parecido a utilizar un motor de búsqueda para buscar información en Internet. Ingresas una búsqueda y el sistema recupera y te presenta los documentos o páginas web que probablemente contengan la información que estás buscando.

La recuperación de información implica técnicas para indexar y buscar de manera eficiente en grandes sets de datos; esto facilita a las personas el acceso a la información específica que necesitan a partir de un conjunto masivo de datos disponibles. Además de los motores de búsqueda web, la RI se utiliza a menudo en bibliotecas digitales, sistemas de gestión de documentos y diversas apps de acceso a la información.

La evolución de los modelos de lenguaje de AI

Diagrama de evolución del modelo de lenguaje de AI

Los modelos de lenguaje de AI han evolucionado significativamente a lo largo de los años:

  • En las décadas de 1950 y 1960, el campo estaba en pañales, con sistemas básicos basados en reglas que tenían una comprensión lingüística limitada.
  • Las décadas de 1970 y 1980 introdujeron sistemas expertos: estos codificaban el conocimiento humano para la resolución de problemas, pero tenían capacidades lingüísticas muy limitadas.
  • La década de 1990 vio el surgimiento de los métodos estadísticos, que utilizaban enfoques basados en datos para tareas lingüísticas.
  • En la década de 2000, habían surgido técnicas de machine learning como las máquinas de vectores de soporte (que categorizaban diferentes tipos de datos de texto en un espacio de alta dimensión), aunque el aprendizaje profundo todavía estaba en sus primeras etapas.
  • La década de 2010 marcó un cambio importante en el aprendizaje profundo. La arquitectura de transformadores cambió el procesamiento del lenguaje natural con el uso de mecanismos de atención, lo que permitió que el modelo se enfocara en diferentes partes de una secuencia de entrada al procesarla.

Hoy en día, los modelos de transformadores procesan datos de manera que pueden simular el habla humana al predecir qué palabra viene a continuación en una secuencia de palabras. Estos modelos han revolucionado el campo y han llevado al surgimiento de LLM como BERT (Representaciones de codificador bidireccional de transformadores) de Google.

Estamos viendo una combinación de modelos masivos previamente entrenados y modelos especializados diseñados para tareas específicas. Los modelos como RAG continúan ganando terreno, ya que amplían el alcance de los modelos de lenguaje de AI generativa más allá de los límites del entrenamiento estándar. En 2022, OpenAI presentó ChatGPT, que es posiblemente el LLM más conocido basado en arquitectura de transformadores. Su competencia incluye modelos básicos basados en chat como Google Bard y Bing Chat de Microsoft. LLaMa 2 de Meta, que no es un chatbot para consumidores, sino un LLM open source, está disponible gratuitamente para los investigadores que estén familiarizados con el funcionamiento de los LLM.

Cadena suministros de AI que conecta modelos preentrenados y LLM open source

Relacionado: Elegir un LLM: La guía 2024 de primeros pasos con los LLM open source

¿Cómo funciona la RAG?

La generación aumentada de recuperación es un proceso de varios pasos que comienza con la recuperación y luego conduce a la generación. Así es como funciona:

Recuperación

  • La RAG comienza con una búsqueda de entrada. Podría ser la pregunta de un usuario o cualquier fragmento de texto que requiera una respuesta detallada.
  • Un modelo de recuperación toma información pertinente de bases de conocimiento, bases de datos o fuentes externas, o de varias fuentes a la vez. El lugar donde busca el modelo depende de lo que pide la búsqueda de entrada. Esta información recuperada ahora sirve como fuente de referencia para cualquier hecho y contexto que necesite el modelo.
  • La información recuperada se convierte en vectores en un espacio de alta dimensión. Estos vectores de conocimiento se almacenan en una base de datos de vectores.
  • El modelo de recuperación clasifica la información recuperada según su relevancia para la búsqueda de entrada. Los documentos o pasajes con las puntuaciones más altas se seleccionan para su posterior procesamiento.

Generación

  • A continuación, un modelo de generación, como un LLM, utiliza la información recuperada para generar respuestas de texto.
  • El texto generado puede pasar por pasos de posprocesamiento adicionales para garantizar que sea gramaticalmente correcto y coherente.
  • Estas respuestas son, en general, más precisas y tienen más sentido en contexto porque han sido moldeadas por la información complementaria que ha proporcionado el modelo de recuperación. Esta capacidad es especialmente importante en dominios especializados donde los datos públicos de internet son insuficientes.

rag-in-action.jpeg

Beneficios de la RAG

La generación aumentada de recuperación tiene varios beneficios sobre los modelos de lenguaje que funcionan de forma aislada. Aquí hay algunas formas en que ha mejorado la generación de texto y las respuestas:

  • La RAG se asegura de que tu modelo pueda acceder a los datos más recientes y actualizados y a la información relevante porque puede actualizar periódicamente sus referencias externas. Esto garantiza que las respuestas que genera incorporen la información más reciente que podría ser relevante para el usuario que realiza la búsqueda. También puedes implementar seguridad a nivel de documento para controlar el acceso a los datos dentro de un flujo de datos y restringir los permisos de seguridad a documentos particulares.
  • La RAG es una opción más rentable ya que requiere menos computación y almacenamiento, lo que significa que no es necesario tener tu propio LLM ni gastar tiempo y dinero para ajustar tu modelo.
  • Una cosa es afirmar que es exacta y otra es demostrarlo. La RAG puede citar sus fuentes externas y proporcionárselas al usuario para respaldar sus respuestas. Si así lo desea, el usuario puede evaluar las fuentes para confirmar que la respuesta que recibió es precisa.
  • Si bien los chatbots basados en LLM pueden crear respuestas más personalizadas que las respuestas escritas anteriormente, la RAG puede adaptar sus respuestas aún más. Esto se debe a que tiene la capacidad de utilizar métodos de recuperación de búsqueda (generalmente, búsqueda semántica) para hacer referencia a una variedad de puntos informados por el contexto al sintetizar su respuesta midiendo la intención.
  • Cuando se enfrenta a una búsqueda compleja para la que no ha sido capacitado, un LLM a veces puede "alucinar" y proporcionar una respuesta inexacta. Al basar sus respuestas en referencias adicionales de fuentes de datos relevantes, la RAG puede responder con mayor precisión a consultas ambiguas.
  • Los modelos de RAG son versátiles y se pueden aplicar a una amplia gama de tareas de procesamiento del lenguaje natural, incluidos sistemas de diálogo, generación de contenido y recuperación de información.
  • El sesgo puede ser un problema en cualquier AI creada por el hombre. Al confiar en fuentes externas verificadas, la RAG puede ayudar a reducir el sesgo en sus respuestas.

Generación aumentada de recuperación versus ajuste

La generación aumentada de recuperación y el ajuste son dos enfoques diferentes para entrenar modelos de lenguaje de AI. Mientras que la RAG combina la recuperación de una amplia gama de conocimientos externos con la generación de texto, el ajuste se centra en una gama limitada de datos para distintos propósitos.

En el ajuste, un modelo previamente entrenado se entrena aún más con datos especializados para adaptarlo a un subconjunto de tareas. Implica modificar los pesos y parámetros del modelo en función del nuevo set de datos, lo que le permite aprender patrones específicos de tareas mientras conserva el conocimiento de su entrenamiento previo inicial.

El ajuste se puede utilizar para todo tipo de AI. Un ejemplo básico es aprender a reconocer gatitos en el contexto de la identificación de fotografías de gatos en Internet. En los modelos basados en lenguaje, el ajuste puede ayudar con aspectos como la clasificación de texto, el análisis de opiniones y el reconocimiento de entidades con nombre, además de la generación de texto. Sin embargo, este proceso puede llevar mucho tiempo y ser costoso. La RAG acelera el proceso y consolida estos costos con menos necesidades de computación y almacenamiento.

Debido a que tiene acceso a recursos externos, la RAG es particularmente útil cuando una tarea exige incorporar información dinámica o en tiempo real de la web o bases de conocimiento empresariales para generar respuestas fundamentadas. El ajuste tiene diferentes fortalezas: Si la tarea en cuestión está bien definida y el objetivo es optimizar el rendimiento únicamente en esa tarea, el ajuste puede ser muy eficiente. Ambas técnicas tienen la ventaja de no tener que formar un LLM desde cero para cada tarea.

Desafíos y limitaciones de la generación aumentada de recuperación

Si bien la RAG ofrece importantes ventajas, también enfrenta varios desafíos y limitaciones:

  • La RAG se basa en conocimientos externos. Puede producir resultados inexactos si la información recuperada es incorrecta.
  • El componente de recuperación de la RAG implica buscar en grandes bases de conocimiento o en la web, lo que puede ser costoso y lento desde el punto de vista computacional, aunque aún más rápido y menos costoso que el ajuste.
  • La integración perfecta de los componentes de recuperación y generación requiere un diseño y una optimización cuidadosos, lo que puede generar dificultades potenciales en la capacitación y la implementación.
  • Recuperar información de fuentes externas podría generar preocupaciones sobre la privacidad cuando se trata de datos confidenciales. Cumplir con los requisitos de privacidad y cumplimiento también puede limitar a qué fuentes puede acceder la RAG. Sin embargo, esto se puede resolver mediante el acceso a nivel de documento, en el que puede otorgar acceso y permisos de seguridad a roles específicos.
  • La RAG se basa en la exactitud de los hechos. Puede tener dificultades para generar contenido imaginativo o ficticio, lo que limita su uso en la generación de contenido creativo.

Generación aumentada de recuperación con Elasticsearch

Con Elasticsearch, puedes crear búsquedas habilitadas para RAG destinadas a tus experiencias de apps de AI generativas, sitios web, clientes o empleados. Elasticsearch proporciona un conjunto de herramientas completo que te permite hacer lo siguiente:

  • Almacenar y buscar datos propietarios y otras bases de conocimiento externas para extraer contexto
  • Generar resultados de búsqueda altamente relevantes a partir de tus datos a través de una variedad de métodos: búsqueda textual, vectorial, híbrida o semántica
  • Crear respuestas más precisas y experiencias atractivas para tus usuarios

Descubre cómo Elasticsearch puede mejorar la AI generativa para tu negocio