O que é um grande modelo de linguagem (LLM)?

Definição de grande modelo de linguagem

Um grande modelo de linguagem (LLM, pelas iniciais em inglês) é um algoritmo de aprendizado profundo que pode executar diversas tarefas de processamento de linguagem natural (PLN). Grandes modelos de linguagem usam modelos transformadores e são treinados com conjuntos de dados volumosos — portanto, grandes. Isso lhes permite reconhecer, traduzir, prever ou gerar texto ou outro conteúdo.

Grandes modelos de linguagem também são chamados de redes neurais (NNs, pelas iniciais em inglês), que são sistemas de computação inspirados no cérebro humano. Essas redes neurais funcionam usando uma rede de nós em camadas, como os neurônios.

Além de ensinar idiomas humanos às aplicações de inteligência artificial (IA), os grandes modelos de linguagem também podem ser treinados para executar uma variedade de tarefas, como compreender estruturas de proteínas, escrever código de software e muito mais. Assim como o cérebro humano, os grandes modelos de linguagem devem ser pré-treinados e depois ajustados para que possam resolver problemas de classificação de texto, resposta a perguntas, resumo de documentos e geração de texto. Suas funcionalidades de resolução de problemas podem ser aplicadas a áreas como saúde, finanças e entretenimento, nas quais os grandes modelos de linguagem atendem a uma variedade de aplicações de PLN, como tradução, chatbots, assistentes de IA e assim por diante.

Os grandes modelos de linguagem também tem um grande número de parâmetros, que são semelhantes às memórias que o modelo coleta conforme vai aprendendo com o treinamento. Pense nesses parâmetros como o banco de conhecimento do modelo.


Então, o que é um modelo transformador?

Um modelo transformador é a arquitetura mais comum de um grande modelo de linguagem. Ele consiste em um codificador e um decodificador. Um modelo transformador processa dados tokenizando a entrada e, em seguida, conduzindo simultaneamente equações matemáticas para descobrir relações entre os tokens. Isso permite que o computador veja os padrões que um ser humano veria se recebesse a mesma consulta.

Os modelos transformadores trabalham com mecanismos de autoatenção, o que lhes permite aprender mais rapidamente do que os modelos tradicionais de memória de longo e curto prazo. A autoatenção é o que possibilita ao modelo transformador considerar diferentes partes da sequência ou todo o contexto de uma frase para gerar previsões.


Principais componentes dos grandes modelos de linguagem

Os grandes modelos de linguagem são compostos de múltiplas camadas de redes neurais. Camadas recorrentes, camadas feedforward, camadas de embedding e camadas de atenção trabalham em conjunto para processar o texto de entrada e gerar o conteúdo de saída.

A camada de embedding cria embeddings a partir do texto de entrada. Essa parte do grande modelo de linguagem captura o significado semântico e sintático da entrada para que o modelo possa compreender o contexto.

A camada feedforward (FFN) de um grande modelo de linguagem é composta de várias camadas totalmente conectadas que transformam os embeddings de entrada. Ao fazer isso, essas camadas permitem que o modelo colete abstrações de nível mais alto — ou seja, entenda a intenção do usuário com a entrada de texto.

A camada recorrente interpreta as palavras no texto de entrada em sequência. Ela captura a relação entre as palavras em uma frase.

O mecanismo de atenção possibilita que um modelo de linguagem se concentre em partes únicas do texto de entrada que sejam relevantes para a tarefa em questão. Com essa camada, o modelo pode gerar os resultados mais precisos.

Aplique transformadores às suas aplicações de busca

Existem três tipos principais de grandes modelos de linguagem:

  • Os modelos de linguagem genéricos ou brutos prevêem a próxima palavra com base no idioma dos dados de treinamento. Esses modelos de linguagem executam tarefas de recuperação de informações.
  • Os modelos de linguagem ajustados por instrução são treinados para prever respostas às instruções fornecidas na entrada. Isso permite que eles realizem análises de sentimentos ou gerem texto ou código.
  • Os modelos de linguagem ajustados por diálogo são treinados para dialogar prevendo a próxima resposta. Os chatbots e a IA conversacional são exemplos de aplicação desses modelos.

Qual é a diferença entre grandes modelos de linguagem e IA generativa?

IA generativa é um termo abrangente que se refere aos modelos de inteligência artificial que têm a capacidade de gerar conteúdo. A IA generativa pode gerar texto, código, imagens, vídeo e música. Como exemplos de IA generativa, podemos citar Midjourney, DALL-E e ChatGPT.

Os grandes modelos de linguagem são um tipo de IA generativa que é treinada em texto e produz conteúdo textual. O ChatGPT é um exemplo popular de IA de texto generativa.

Todos os grandes modelos de linguagem são IA generativa1.


Como funcionam os grandes modelos de linguagem?

Um grande modelo de linguagem é baseado em um modelo transformador e funciona recebendo uma entrada, codificando-a e depois decodificando-a para produzir uma previsão de saída. Mas antes de um grande modelo de linguagem poder receber entrada de texto e gerar uma previsão de saída, ele precisa de treinamento, para poder cumprir funções gerais, e ajuste fino, que lhe permite executar tarefas específicas.

Treinamento. Grandes modelos de linguagem são pré-treinados usando grandes conjuntos de dados textuais de sites como Wikipédia, GitHub ou outros. Esses conjuntos de dados consistem em trilhões de palavras, e sua qualidade afetará o desempenho do modelo de linguagem. Nesta fase, o grande modelo de linguagem entra em aprendizagem não supervisionada, ou seja, ele processa os conjuntos de dados que lhe são fornecidos sem instruções específicas. Durante esse processo, o algoritmo de IA do LLM pode aprender o significado das palavras e das relações entre as palavras. Ele também aprende a distinguir palavras com base no contexto. Por exemplo, ele aprenderia a compreender se “deixar” significa “largar” ou “sair”.

Ajuste fino. Para que um grande modelo de linguagem execute uma tarefa específica, como uma tradução, ele deve ser ajustado para essa atividade específica. O ajuste fino otimiza o desempenho de tarefas específicas.

O ajuste de prompt cumpre uma função semelhante ao ajuste fino, treinando um modelo para executar uma tarefa específica por meio de prompts de poucos disparos ou prompts de disparo zero. Um prompt é uma instrução dada a um LLM. O prompt de poucos disparos ensina o modelo a prever resultados por meio do uso de exemplos. Por exemplo, neste exercício de análise de sentimentos, um prompt de poucos disparos ficaria assim:

Customer review: This plant is so beautiful!
Customer sentiment: positive

Customer review: This plant is so hideous!
Customer sentiment: negative

O modelo de linguagem entenderia, por meio do significado semântico de “hideous” (horrível) e porque foi fornecido um exemplo oposto, que o sentimento do cliente no segundo exemplo é “negativo”.

Alternativamente, o prompt de disparo zero não usa exemplos para ensinar ao modelo de linguagem como responder às entradas. Em vez disso, formula a questão como “O sentimento em 'Esta planta é tão horrível' é….” Ele indica claramente qual tarefa o modelo de linguagem deve executar, mas não fornece exemplos de resolução de problemas.


Casos de uso de grandes modelos de linguagem

Os grandes modelos de linguagem podem ser usados para diversos fins:

  • Recuperação de informações. Pense no Bing ou no Google. Sempre que você usa o recurso de busca, depende de um grande modelo de linguagem para produzir informações em resposta a uma consulta. Ele é capaz de recuperar informações, resumir e comunicar a resposta em estilo coloquial.
  • Análise de sentimentos. Como aplicações de processamento de linguagem natural, os grandes modelos de linguagem permitem que as empresas analisem o sentimento de dados textuais.
  • Geração de texto. Os grandes modelos de linguagem estão por trás da IA generativa, como o ChatGPT, e podem gerar texto com base em entradas. Eles podem produzir um exemplo de texto quando solicitado. Por exemplo: “Escreva-me um poema sobre palmeiras no estilo de Emily Dickinson.”
  • Geração de código. Assim como a geração de texto, a geração de código é uma aplicação da IA generativa. Os LLMs entendem padrões, o que lhes permite gerar código.
  • Chatbots e IA de conversação. Os grandes modelos de linguagem permitem que chatbots ou IA de conversação para atendimento ao cliente interajam com os clientes, interpretem o significado de suas consultas ou respostas e ofereçam respostas.

Além desses casos de uso, os grandes modelos de linguagem podem completar frases, responder a perguntas e resumir textos.

Com uma variedade tão grande, é possível encontrar aplicações de grandes modelos de linguagem em diversos campos:

  • Tecnologia. Os grandes modelos de linguagem têm inúmeros usos, desde permitir que os mecanismos de busca respondam a consultas até ajudar os desenvolvedores a escrever código.
  • Saúde e ciência. Os grandes modelos de linguagem têm a capacidade de compreender proteínas, moléculas, DNA e RNA. Assim, os LLMs podem ajudar a desenvolver vacinas, encontrar curas para doenças e melhorar medicamentos de cuidados preventivos. Os LLMs também são usados como chatbots médicos para realizar admissão de pacientes ou diagnósticos básicos.
  • Atendimento ao cliente. Os LLMs são usados em todos os setores para fins de atendimento ao cliente como chatbots ou IA de conversação.
  • Marketing. As equipes de marketing podem usar os LLMs para realizar análises de sentimentos a fim de gerar rapidamente ideias para campanhas ou textos como exemplos de argumentos de venda e muito mais.
  • Jurídico. Desde a busca em gigantescos conjuntos de dados textuais até a geração de juridiquês, os grandes modelos de linguagem podem ajudar advogados, paralegais e pessoal jurídico.
  • Bancário. Os LLMs podem apoiar as administradoras de cartões de crédito na detecção de fraudes.

Benefícios dos grandes modelos de linguagem

Com uma ampla gama de aplicações, os grandes modelos de linguagem são excepcionalmente benéficos para a solução de problemas, pois fornecem informações em um estilo claro e coloquial, de fácil compreensão para os usuários.

Grande conjunto de aplicações. Eles podem ser usados para tradução de idiomas, conclusão de frases, análise de sentimentos, resposta a perguntas, equações matemáticas e muito mais.

Estão sempre melhorando. O desempenho dos grandes modelos de linguagem melhora continuamente porque aumenta à medida que mais dados e parâmetros são adicionados. Em outras palavras, quanto mais eles aprendem, melhores eles ficam. Além do mais, os grandes modelos de linguagem podem exibir o que é chamado de “aprendizagem em contexto”. Depois que um LLM foi pré-treinado, o prompt de poucos disparos permite que o modelo aprenda com o prompt sem quaisquer parâmetros adicionais. Dessa forma, ele aprende continuamente.

Eles aprendem rápido. Ao demonstrar a aprendizagem em contexto, os grandes modelos de linguagem aprendem rapidamente porque não requerem peso, recursos e parâmetros adicionais para treinamento. É rápido no sentido de que não requerem muitos exemplos.


Limitações e desafios dos grandes modelos de linguagem

Os grandes modelos de linguagem podem nos dar a impressão de que entendem o significado e podem responder a ele com precisão. No entanto, continuam a ser uma ferramenta tecnológica e, como tal, enfrentam vários desafios.

Alucinações. Uma alucinação ocorre quando um LLM produz um resultado falso ou que não corresponde à intenção do usuário. Por exemplo, alegar que é humano, que tem emoções ou que está apaixonado pelo usuário. Como os grandes modelos de linguagem preveem a próxima palavra ou frase sintaticamente correta, não conseguem interpretar totalmente o significado humano. O resultado pode, às vezes, ser o que chamamos de “alucinação”.

Segurança. Os grandes modelos de linguagem apresentam riscos de segurança importantes quando não são gerenciados ou supervisionados adequadamente. Podem vazar informações privadas, participar de golpes de phishing e produzir spam. Usuários com intenções maliciosas podem reprogramar a IA de acordo com suas ideologias ou preconceitos e contribuir para a propagação de desinformação. As repercussões podem ser devastadoras em escala global.

Preconceito. Os dados usados para treinar modelos de linguagem afetarão os resultados produzidos por um determinado modelo. Como tal, se os dados representarem um único grupo demográfico ou não tiverem diversidade, os resultados produzidos pelo grande modelo de linguagem também carecerão de diversidade.

Consentimento. Os grandes modelos de linguagem são treinados em trilhões de conjuntos de dados, alguns dos quais podem não ter sido obtidos consensualmente. Ao extrair dados da internet, já houve casos em que os grandes modelos de linguagem ignoraram licenças de direitos autorais, plagiaram conteúdo escrito e reformularam conteúdo proprietário sem obter permissão dos proprietários ou artistas originais. Quando produzem resultados, não há como rastrear a linhagem dos dados e, muitas vezes, nenhum crédito é dado aos criadores, o que pode expor os usuários a problemas de violação de direitos autorais.

Os grandes modelos de linguagem também podem extrair dados pessoais, como nomes de pessoas ou fotógrafos, das descrições das fotos, o que pode comprometer a privacidade.2 Os LLMs já enfrentaram ações judiciais, incluindo uma da Getty Images3 que teve amplo destaque na mídia, por violação de propriedade intelectual.

Ampliação. Ampliar e manter grandes modelos de linguagem pode ser difícil e consumir muito tempo e recursos.

Implantação. A implantação de grandes modelos de linguagem requer aprendizado profundo, um modelo transformador, software e hardware distribuídos e conhecimento técnico geral.


Avanços futuros em grandes modelos de linguagem

A chegada do ChatGPT trouxe à tona os grandes modelos de linguagem e ativou especulações e debates acalorados sobre como será o futuro.

À medida que os grandes modelos de linguagem continuam a crescer e a melhorar seu domínio da linguagem natural, há muita preocupação sobre o que seu avanço traria ao mercado de trabalho. É claro que os grandes modelos de linguagem desenvolverão a capacidade de substituir trabalhadores em determinadas áreas.

Nas mãos certas, os grandes modelos de linguagem têm a capacidade de aumentar a produtividade e a eficiência dos processos, mas isso trouxe questionamentos éticos para sua utilização na sociedade.


Apresentamos o Elasticsearch Relevance Engine

Para lidar com as limitações atuais dos LLMs, o Elasticsearch Relevance Engine (ESRE) é um mecanismo de relevância criado para aplicações de busca baseadas em inteligência artificial. Com o ESRE, os desenvolvedores podem criar sua própria aplicação de busca semântica, utilizar seus próprios modelos transformadores e combinar o PLN e a IA generativa para aprimorar a experiência de busca de seus clientes.

Aumente sua relevância com o Elasticsearch Relevance Engine

Diagram illustrating how Elasticsearch uses a large language model to deliver search query results.


Recursos sobre grandes modelos de linguagem


Notas de rodapé

1 Myer, Mike. “Are Generative AI and Large Language Models the Same Thing?” Quiq, 12 de maio de 2023, quiq.com/blog/generative-ai-vs-large-language-models/.

2 Sheng, Ellen. “In generative AI legal Wild West, the courtroom battles are just getting started,” CNBC, 3 de abril de 2023, https://www.cnbc.com/2023/04/03/in-generative-ai-legal-wild-west-lawsuits-are-just-getting-started.html (Acessado em 29 de junho de 2023)

3 Declaração da Getty Images, Getty Images, 17 de janeiro de 2023 https://newsroom.gettyimages.com/en/getty-images/getty-images-statement (Acessado em 29 de junho de 2023)