Buscar

Surpresa ChatGPT se transforma em ser terrível no Wordle

Prévia do material em texto

1/3
- Surpresa! ChatGPT se transforma em ser terrível no Wordle
 (Nils
Huenerfuerst/Unsplash)Tradução
O chatbot de IA conhecido como ChatGPT, desenvolvido pela empresa OpenAI, chamou a atenção e a
imaginação do público. Algumas aplicações da tecnologia são realmente impressionantes, como a sua
capacidade de resumir tópicos complexos ou de se envolver em longas conversas.
Não é surpresa que outras empresas de IA tenham se apressado em lançar seus próprios modelos de
idiomas grandes (LLMs) – o nome da tecnologia subjacente aos chatbots como o ChatGPT. Alguns
desses LLMs serão incorporados em outros produtos, como mecanismos de pesquisa.
Com suas capacidades impressionantes em mente, decidi testar o chatbot no Wordle – o jogo de
palavras do New York Times – que eu tenho jogado há algum tempo.
Os jogadores têm seis jogos para adivinhar uma palavra de cinco letras. Em cada palpite, o jogo indica
quais letras, se houver, estão nas posições corretas na palavra.
Usando a última geração, chamada ChatGPT-4, descobri que seu desempenho nesses quebra-cabeças
era surpreendentemente pobre.
Você pode esperar que os jogos de palavras sejam um pedaço de bolo para o GPT-4. Os LLMs são
"treinados" no texto, o que significa que eles estão expostos a informações para que possam melhorar
no que fazem.
O ChatGPT-4 foi treinado em cerca de 500 bilhões de palavras: toda a Wikipédia, todos os livros de
domínio público, grandes volumes de artigos científicos e texto de muitos sites.
Os chatbots de IA podem desempenhar um papel importante em nossas vidas. Entender por que o
ChatGPT-4 luta com o Wordle fornece insights sobre como os LLMs representam e trabalham com as
palavras – juntamente com as limitações que isso traz.
https://unsplash.com/photos/E-IQ1nbpzZo
https://arxiv.org/abs/2302.13817
https://www.forbes.com/sites/bernardmarr/2023/03/01/the-best-examples-of-what-you-can-do-with-chatgpt/
https://www.theatlantic.com/technology/archive/2022/12/openai-chatgpt-chatbot-messages/672411/
https://www.theverge.com/2022/11/2/23434360/google-1000-languages-initiative-ai-llm-research-project
https://en.wikipedia.org/wiki/Large_language_model
https://www.nytimes.com/games/wordle/index.html
https://openai.com/product/gpt-4
2/3
Primeiro, testei o ChatGPT-4 em um quebra-cabeça Wordle onde conheci os locais corretos de duas
letras em uma palavra. O padrão era "E-L", onde "o" representava as letras desconhecidas. A resposta
foi a palavra "mealy".
Cinco das seis respostas do ChatGPT-4 não corresponderam ao padrão. As respostas foram: "beril",
"feral", "heral", "merle", "revel" e "pérola".
Com outras combinações, o chatbot às vezes encontrou soluções válidas. Mas, no geral, foi muito
atingido e erra. No caso de uma palavra que se encaixa no padrão " ?OS", encontrou cinco opções
corretas. Mas quando o padrão era "R-F", propôs duas palavras sem a letra F, e uma palavra - "Traff" -
que não está nos dicionários.
Debaixo do capot
No núcleo do ChatGPT está uma rede neural profunda: uma função matemática complexa – ou regra –
que mapeia entradas para saídas. As entradas e saídas devem ser números. Como o ChatGPT-4
funciona com palavras, elas devem ser “traduzidas” para números para a rede neural trabalhar com elas.
A tradução é realizada por um programa de computador chamado tokenizer, que mantém uma enorme
lista de palavras e sequências de letras, chamada "tokens".
Esses tokens são identificados por números. Uma palavra como "amigo" tem um ID simbólico de 6756,
então uma palavra como "amizade" é dividida nos tokens "amigo" e "navio". Estes são representados
como os identificadores 6756 e 6729.
Quando o usuário insere uma pergunta, as palavras são traduzidas em números antes mesmo de o
ChatGPT-4 começar a processar a solicitação. A rede neural profunda não tem acesso às palavras como
texto, por isso não pode realmente raciocinar sobre as letras.
A tarefa do poema
ChatGPT-4 é bom em trabalhar com as primeiras letras de palavras. Eu pedi para escrever um poema
onde a carta de abertura de cada linha soletrava "Eu amo robôs". Sua resposta foi surpreendentemente
boa. Aqui estão as quatro primeiras linhas:
Eu sou um fã de engrenagens e aço
Amar seus movimentos, tão surreal,
Sobre circuitos, eles governam rapidamente
zada para o conhecimento, eles não são tolos,
Os dados de treinamento para ChatGPT-4 incluem um grande número de livros didáticos, que muitas
vezes incluem índices alfabéticos. Isso poderia ter sido suficiente para o GPT-4 ter aprendido
associações entre as palavras e suas primeiras letras.
https://www.ibm.com/cloud/blog/ai-vs-machine-learning-vs-deep-learning-vs-neural-networks
https://platform.openai.com/tokenizer
https://www.sciencefocus.com/future-technology/gpt-3/
3/3
O tokenizer também parece ter sido modificado para reconhecer solicitações como essa e parece dividir
uma frase como "I Love Robots" em tokens individuais quando os usuários inserem sua solicitação. No
entanto, o ChatGPT-4 não foi capaz de lidar com pedidos para trabalhar com as últimas letras de
palavras.
ChatGPT-4 também é ruim em palindromes. Questionado sobre uma frase palíndromo sobre um robô,
propôs "um robô sot, orba", que não se encaixa na definição de um palíndromo e se baseia em palavras
obscuras.
No entanto, os LLMs são relativamente bons em gerar outros programas de computador. Isso ocorre
porque seus dados de treinamento incluem muitos sites dedicados à programação. Eu pedi ao ChatGPT-
4 para escrever um programa para descobrir as identidades das letras ausentes no Wordle.
O programa inicial que o ChatGPT-4 produziu tinha um bug nele. Cortaram isso quando eu o apontei.
Quando eu executei o programa, ele encontrou 48 palavras válidas correspondentes ao padrão "E-L",
incluindo "tells", "células" e "olá". Quando eu já havia pedido ao GPT-4 diretamente para propor partidas
para esse padrão, ele só havia encontrado um.
Fixações futuras
Pode parecer surpreendente que um modelo de linguagem grande como o ChatGPT-4 tenha dificuldade
em resolver quebra-cabeças de palavras simples ou formular palíndromos, já que os dados de
treinamento incluem quase todas as palavras disponíveis para ele.
No entanto, isso ocorre porque todas as entradas de texto devem ser codificadas como números e o
processo que faz isso não captura a estrutura das letras dentro das palavras. Como as redes neurais
operam puramente com números, a exigência de codificar palavras como números não mudará.
Existem duas maneiras pelas quais os futuros LLMs podem superar isso. Primeiro, o ChatGPT-4 sabe a
primeira letra de cada palavra, então seus dados de treinamento podem ser aumentados para incluir
mapeamentos de cada posição de letras dentro de cada palavra em seu dicionário.
A segunda é uma solução mais emocionante e geral. Os futuros LLMs podem gerar código para resolver
problemas como este, como mostrei. Um artigo recente demonstrou uma ideia chamada Toolformer,
onde um LLM usa ferramentas externas para realizar tarefas onde normalmente lutam, como cálculos
aritméticos.
Estamos nos primeiros dias dessas tecnologias, e insights como esse sobre as limitações atuais podem
levar a tecnologias de IA ainda mais impressionantes.
Michael G. (tradução) Madden, Professor Fundado de Ciência da Computação, Universidade de Galway
Este artigo é republicado de The Conversation sob uma licença Creative Commons. Leia o artigo
original.
https://arxiv.org/abs/2302.04761
https://theconversation.com/profiles/michael-g-madden-1422365
https://theconversation.com/institutions/university-of-galway-2699
https://theconversation.com/
https://theconversation.com/chatgpt-struggles-with-wordle-puzzles-which-says-a-lot-about-how-it-works-201906

Mais conteúdos dessa disciplina