Elegir un LLM: La guía 2024 de primeros pasos con los LLM open source
Sería subestimar mucho decir que la AI despegó en 2023. Se lanzaron miles de nuevas herramientas de AI, se agregaron características de AI en apps existentes y Hollywood se detuvo de repente con inquietudes sobre la tecnología. Incluso existe una herramienta de AI que evalúa qué tan bien cantas como Freddie Mercury, ¡porque claro que la hay!
Pero detrás de cada característica o herramienta de AI, hay un modelo de lenguaje grande (LLM) haciendo todo el trabajo duro, muchos de los cuales son open source. Un LLM es un algoritmo de aprendizaje profundo capaz de consumir grandes cantidades de datos para comprender y generar lenguaje. Están desarrollados sobre una arquitectura de red neuronal, que permite que se entrenen para realizar una variedad de tareas de procesamiento de lenguaje natural (NLP), como generación de contenido, traducción, categorización y muchos otros casos de uso. Esto, en combinación con la disponibilidad de LLM open source, facilita mucho la automatización de tareas comerciales clave (como el desarrollo de chatbots de soporte al cliente, la detección de fraudes o la ayuda a R&D para el desarrollo de vacunas, por ejemplo) y varios otros casos de uso en diversas industrias. Los LLM también pueden tener un rol fundamental en la mejora de la seguridad, la búsqueda y la observabilidad en el cloud expandiendo la manera en que procesamos y analizamos los datos.
Como con cualquier tecnología nueva, el uso de LLM trae aparejado desafíos que deben tenerse en cuenta y abordarse. La calidad de la salida dependerá por completo de la calidad de los datos que se proporcionaron. Muchos LLM se entrenan con grandes repositorios públicos de datos y tienen una tendencia a "alucinar" o brindar respuestas imprecisas cuando no recibieron entrenamiento con datos específicos del dominio. También hay inquietudes sobre privacidad y derechos de autor relacionadas con la recopilación, el almacenamiento y la retención de información personal y contenido generado por el usuario.
Echa un vistazo a nuestra página sobre ¿Qué es un modelo de lenguaje grande? para obtener más información sobre los LLM.
¿Qué es un LLM open source?
Un LLM open source es un LLM disponible de forma gratuita y que todos pueden modificar y personalizar.
Con un LLM open source, cualquier persona o empresa puede usarlo sin tener que pagar licencias. Esto incluye desplegar el LLM en su propia infraestructura y ajustarlo para que se adapte a sus necesidades.
Esto es lo opuesto a un LLM closed source, que es un modelo propietario que es propiedad de una sola persona u organización y no está disponible para el público. El ejemplo más famoso de esto es la serie de modelos GPT de OpenAI.
¿Cuáles son los mejores casos de uso de LLM?
Existen casos de usos potenciales infinitos para los LLM, pero estas son algunas capacidades clave para mostrar la variedad de cosas que pueden hacer:
Análisis de sentimiento: los LLM pueden usarse para identificar y clasificar opiniones subjetivas recopiladas de comentarios, redes sociales, etc.
Creación de contenido: varios LLM pueden generar contenido relevante para el contexto, como artículos, textos publicitarios y descripciones de productos.
Chatbot: puedes ajustar los LLM para usarlos como ayuda de chatbot o para interactuar con tus clientes.
Traducciones: con datos de texto multilingües, los LLM se pueden usar para traducir idiomas humanos a fin de ayudar en la comunicación.
- Investigación: los LLM pueden hacer un trabajo ligero de investigación, dado que pueden consumir y procesar grandes cantidades de datos y devolver la información más relevante.
LLM open source modernos para 2024
Para que te resulte más sencillo elegir un LLM open source para tu empresa o proyecto, resumimos ocho de los LLM open source más interesantes disponibles. Basamos esta lista en las señales de popularidad del vibrante repositorio de machine learning y comunidad de AI, Hugging Face.
1. GPT-NeoX-20B
Desarrollado por EleutherAI, GPT-NeoX-20B es un modelo de lenguaje autorregresivo diseñado para asemejarse arquitectónicamente a GPT-3. Se entrenó usando la biblioteca GPT-NeoX con datos de The Pile, un set de datos open source de 800 GB hospedado por The Eye.
GPT-NeoX-20B se desarrolló en principio con fines de investigación y tiene 20 000 millones de parámetros que puedes usar y personalizar.
¿A quién está dirigido?
GPT-NeoX-20B es ideal para empresas medianas/grandes que necesitan generación de contenido avanzada, como agencias de marketing y empresas de medios. Estas empresas necesitarán contar tanto con personal calificado como con el poder informático necesario para ejecutar un LLM más grande.
¿A quién no está dirigido?
Este LLM no es adecuado para empresas pequeñas o individuos sin los recursos técnicos y financieros para gestionar los requisitos informáticos.
Complejidad de uso
Dado que no está diseñado para su despliegue en las condiciones en que se encuentra, necesitarás el conocimiento técnico para desplegar y ajustar GPT-NeoX-20B para tus tareas y necesidades específicas.
2. GPT-J-6b
También desarrollado por EleutherAI, GPT-J-6b es un modelo de transformadores preentrenados generativo diseñado para producir texto como un humano a partir de una solicitud. Se desarrolló usando el modelo GPT-J y tiene 6000 millones de parámetros que pueden entrenarse (de allí el nombre).
Se entrenó con un set de datos solo en idioma inglés, lo cual hace que no sea adecuado para traducciones o para generar texto en idiomas distintos del inglés.
¿A quién está dirigido?
Dada su facilidad de uso y tamaño relativamente pequeño, GPT-J-6b es adecuado para empresas nuevas y medianas que buscan un equilibrio entre el rendimiento y el consumo de recursos.
¿A quién no está dirigido?
Este LLM puede no ser la mejor opción para empresas que requieren un rendimiento y personalización del modelo más avanzados. Tampoco es indicado para las empresas que necesitan soporte multilingüe.
Complejidad de uso
GPT-J-6b es un LLM moderadamente fácil de usar para los usuarios que se beneficia de una comunidad que brinda soporte, lo cual lo hace accesible para las empresas con conocimiento técnico intermedio.
3. Llama 2
La respuesta de Meta a los LLM populares de Google y OpenAI, Llama 2, está entrenada con fuentes de datos en línea disponibles de forma pública y está diseñada para crear experiencias impulsadas por AI. Puede ajustarse para tareas específicas y es completamente libre para uso comercial y de investigación.
Desarrollado a partir del trabajo de Meta en LLaMA, Llama 2 ofrece tres tamaños de modelos (7000 millones, 13 000 millones y 70 000 millones de parámetros), lo que lo convierte en una opción dinámica y escalable.
¿A quién está dirigido?
Dadas las opciones de tamaño del modelo, Llama 2 es una opción excelente para los investigadores y desarrolladores educativos que desean aprovechar modelos de lenguaje amplios. Incluso puede ejecutarse en computadoras para consumidores, lo que lo convierte en una buena opción para aficionados.
¿A quién no está dirigido?
Llama 2 no es adecuado para aplicaciones de riesgo más alto o un mercado más específico dado que no está diseñado para tareas sumamente especializadas y existen algunas inquietudes sobre la confiabilidad de sus salidas.
Complejidad de uso
Es un LLM relativamente fácil de usar enfocado en aplicaciones educativas, pero probablemente requerirá personalización para resultados óptimos.
4. BLOOM
BLOOM es un modelo de lenguaje de transformadores solo para decodificadores que presume la enorme cantidad de 176 000 millones de parámetros. Está diseñado para generar texto a partir de una solicitud y puede ajustarse para realizar tareas específicas, como la generación de texto, el resumen, las incrustaciones, la clasificación y la búsqueda semántica.
Se entrenó con un set de datos que comprende cientos de fuentes en 46 idiomas diferentes, lo que también lo convierte en una excelente opción para la traducción de idiomas y la salida multilingüe.
¿A quién está dirigido?
BLOOM es excelente para empresas más grandes que se dirigen a una audiencia global y requieren soporte multilingüe. Debido al tamaño del modelo, las empresas también necesitarán tener abundantes recursos disponibles para ejecutarlo.
¿A quién no está dirigido?
Las empresas que operan solo en mercados de habla inglesa pueden encontrar innecesarias sus capacidades multilingües, en especial por la considerable cantidad de recursos necesarios para personalizar y entrenar un modelo tan grande.
Complejidad de uso
Con la necesidad de comprender los matices del idioma y de desplegar en distintos contextos lingüísticos, BLOOM tiene una complejidad de moderada a alta.
5. Falcon
Falcon es un LLM que miró a BLOOM y dijo "Bah, ¿solo 176 000 millones de parámetros".
Bien, en realidad no dijo eso, pero su modelo de lenguaje open source ofrece tres tamaños impresionantes: 7000 millones, 40 000 millones y 180 000 millones.
Con licencia Apache Licence 2.0, Falcon es un LLM autorregresivo diseñado para generar texto a partir de una solicitud y se basa en su set de datos RefinedWeb de alta calidad.
¿A quién está dirigido?
Dado su excelente rendimiento y escalabilidad, Falcon es ideal para empresas más grandes interesadas en soluciones multilingües, como creación de marketing y sitios web, análisis de inversiones y ciberseguridad.
¿A quién no está dirigido?
Si bien existe la opción de 7000 millones, no es lo ideal para empresas que buscan una solución plug-and-play simple para la generación de contenido. El costo de personalizar y entrenar el modelo seguiría siendo alto para estos tipos de tareas.
Complejidad de uso
A pesar del enorme tamaño del modelo más grande, Falcon es relativamente fácil de usar en comparación con algunos otros LLM. Pero aun así necesitas conocer los matices de tus tareas específicas para obtener lo mejor de ellos.
6. CodeGen
Este LLM de Salesforce es diferente de cualquier otro en esta lista debido a que en lugar de generar como salida respuestas de texto o contenido, genera código informático. CodeGen es el acrónimo de "generación de código", y es justamente lo que hace. Se entrenó para generar como salida código basado en código existente o en solicitudes de lenguaje natural.
Disponible en los tamaños de 7000 millones, 13 000 millones y 34 000 millones de parámetros, CodeGen se creó para crear un enfoque optimizado al desarrollo de software.
¿A quién está dirigido?
CodeGen es para las empresas de tecnología y los equipos de desarrollo de software que buscan automatizar las tareas de codificación y mejorar la productividad de los desarrolladores.
¿A quién no está dirigido?
Si tu empresa no escribe ni trabaja con código informático, este LLM no es para ti.
Complejidad de uso
CodeGen puede resultar complejo de integrar en los flujos de trabajo de desarrollo existentes y requiere antecedentes sólidos en ingeniería de software.
7. BERT
Uno de los primeros LLM modernos, BERT es una arquitectura de transformadores solo para codificadores creada por Google en 2018. Está diseñado para comprender, generar y manipular el lenguaje humano.
Google en sí usó BERT para mejorar la comprensión de búsquedas en su búsqueda, y también resultó efectivo en otras tareas, como la generación de texto, la respuesta a preguntas y el análisis de sentimiento.
¿A quién está dirigido?
Teniendo en cuenta que es una parte clave de la búsqueda propia de Google, BERT es la mejor opción para los especialistas de SEO y creadores de contenido que desean optimizar los sitios y el contenido para motores de búsqueda y mejorar la relevancia de contenido.
¿A quién no está dirigido?
Fuera de la SEO, BERT probablemente no será la mejor opción en muchas situaciones debido a su antigüedad, que lo hace redundante en comparación con las alternativas más grandes y nuevas.
Complejidad de uso
BERT es bastante sencillo para quienes están familiarizados con la SEO y la optimización de contenido, pero puede requerir ajustes para seguir el ritmo de los cambios en las recomendaciones de SEO más recientes de Google.
8. T5
T5 (que significa transformador de transferencia de texto a texto) es una arquitectura basada en transformadores que usa un enfoque texto a texto. Convierte los problemas de NLP a un formato en el que la entrada y la salida siempre son cadenas de texto, lo que permite que T5 se use en una variedad de tareas, como traducción, respuestas a preguntas y clasificación. Está disponible en cinco tamaños diferentes que van de 60 millones de parámetros hasta 11 000 millones.
¿A quién está dirigido?
T5 es excelente para empresas que requieren una herramienta versátil para una variedad de tareas de procesamiento de texto a texto, como resumen, traducción y clasificación.
¿A quién no está dirigido?
A pesar de la relativa flexibilidad de T5, no es adecuado para tareas que requieren cualquier tipo de salida que no sea de texto.
Complejidad de uso
T5 se suele considerar fácil de usar en comparación con otros LLM, con una variedad de modelos preentrenados disponibles. Pero aun así puede requerir cierta experiencia para adaptarlo a tareas más concretas o de un mercado más específico.
Descargo de responsabilidad: Todos los parámetros y tamaños de modelos son correctos al momento de la publicación, pueden haberse modificado desde entonces.
Elegir el LLM indicado para tu empresa
Existen varios criterios clave que debes tener en cuenta cuando decides qué LLM open source usar:
Costo: como estos LLM son open source, no necesitas pagar por los modelos en sí. Pero debes pensar en el costo del hospedaje, el entrenamiento, los recursos, etc. Cuanto más grande y complejo sea un LLM, probablemente mayor sea el costo. Esto se debe a que un LLM más grande requerirá más costos de almacenamiento de datos, poder de procesamiento, una infraestructura más grande y costos de mantenimiento.
Exactitud: evaluar la exactitud de tus opciones es esencial. Debes comparar la precisión con la que los distintos LLM pueden llevar a cabo los tipos de tareas que necesitas. Por ejemplo, algunos modelos serán específicos del dominio, y otros pueden mejorarse con ajustes o generación aumentada de recuperación (RAG).
Rendimiento: el rendimiento de un LLM se mide con cosas como la fluidez del idioma, la coherencia y la comprensión de contexto. Cuanto mejor sea el LLM en estas cuestiones, mejor rendimiento tendrá. Esto mejorará la experiencia del usuario y la efectividad de las tareas, y te dará una ventaja competitiva.
Seguridad de datos: la seguridad de tus datos es otra consideración clave. Es especialmente importante si te encargas de datos confidenciales o PII. Esta es otra área en la que una RAG podría ser útil, dado que puedes controlar el acceso a los datos usando seguridad a nivel del documento y restringir los permisos de seguridad a datos particulares.
Específico para una tarea comparado con fines generales: evalúa si necesitas un LLM que resuelva casos de uso más específicos o uno que abarque un espectro de tareas más amplio. Como algunos modelos son específicos del dominio, debes tener cuidado de seleccionar uno dentro de tu dominio o encontrar uno con un alcance más amplio.
Calidad de los datos de entrenamiento: si la calidad de los datos no es buena, los resultados tampoco lo serán. Evalúa los datos que usa cada LLM y elige el que te genere confianza. La RAG también te ayudará con esto, dado que puedes usar datos personalizados, que pueden prepararse y ajustarse para mejorar de forma directa la calidad de la salida.
Conjunto de habilidades: otro factor importante a tener en cuenta es el conjunto de habilidades existente que tienes en el equipo del proyecto. La experiencia en cuestiones como la ciencia de datos, MLOps y NLP es un requisito obligatorio. Cuanto más complejo sea el LLM, más profundo será el conjunto de habilidades que deberá tener tu equipo. Si tienes más limitaciones en este frente, vale la pena enfocarse en los LLM más simples o incluso buscar incorporar más experiencia.
Con estos criterios, deberías poder decidir cuál LLM de los que vimos es el más adecuado para tus circunstancias en particular.
Lo mejor es que te tomes tu tiempo, veas las opciones y las evalúes según cómo pueden ayudarte a resolver tus problemas. Todos estos LLM open source son enormemente poderosos y pueden ser transformadores si se usan de manera efectiva.
El lanzamiento y el plazo de cualquier característica o funcionalidad descrita en este blog quedan a la entera discreción de Elastic. Cualquier característica o funcionalidad que no esté disponible actualmente puede no entregarse a tiempo o no entregarse en absoluto.
En este blog, es posible que hayamos usado o mencionado herramientas de AI generativa de terceros, que son propiedad de sus respectivos propietarios y operadas por estos. Elastic no tiene ningún control sobre las herramientas de terceros, y no somos responsables de su contenido, funcionamiento o uso, ni de ninguna pérdida o daño que pueda resultar del uso de dichas herramientas. Ten cautela al usar herramientas de AI con información personal o confidencial. Cualquier dato que envíes puede ser utilizado para el entrenamiento de AI u otros fines. No hay garantías de que la información que proporciones se mantenga segura o confidencial. Deberías familiarizarte con las prácticas de privacidad y los términos de uso de cualquier herramienta de AI generativa previo a su uso.
Elastic, Elasticsearch, ESRE, Elasticsearch Relevance Engine y las marcas asociadas son marcas comerciales, logotipos o marcas comerciales registradas de Elasticsearch N.V. en los Estados Unidos y otros países. Todos los demás nombres de empresas y productos son marcas comerciales, logotipos o marcas comerciales registradas de sus respectivos propietarios.