Buscar

Introdução ao Processamento de Linguagem Natural

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 114 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 114 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 114 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

https://t.me/kakashi_copiador
https://t.me/kakashi_copiador
Curso regular Ciência de dados – 
Machine Learning
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
PROCESSAMENTO DE LINGUAGEM 
NATURAL - INTRODUÇÃO
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
❑ Linguagens Naturais: idiomas falados pelos humanos para comunicação. 
Português, inglês, francês...
❑ Como utilizar ML para que a IA possa “entender” e gerar linguagem? 
❑ Por que lidar com linguagem natural é tão difícil se os computadores já 
“entendem” linguagem de programação?
PLN
Prof. Erick Muzart
Processamento de Linguagem Natural
https://t.me/kakashi_copiador
❑ Desafios: polissemia, ambiguidade, contexto, conhecimento sobre o mundo, 
modelo de mente do interlocutor, empatia e bom senso
❑ “João não conseguiu arrumar a espada na caixa porque ela era muito grande.”
a) a espada era muito grande?
b) a caixa era muito grande?
❑ Alan Turing sugere diálogo com humanos como critério para reconhecer 
inteligência artificial geral (1950)
PLN
Prof. Erick Muzart
PLN - Desafios
https://t.me/kakashi_copiador
Um dos desafios do processamento de linguagem natural (PLN) é a polissemia, ou seja, a 
característica de palavras e frases poderem ter mais de um significado.
(C) ou (E)
Extras
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
https://t.me/kakashi_copiador
Um dos desafios do processamento de linguagem natural (PLN) é a polissemia, ou seja, a 
característica de palavras e frases poderem ter mais de um significado.
(C) ou (E)
Essa diversidade de possíveis significados para uma mesma palavra pode resultar em 
ambiguidade, se o contexto textual não for suficiente para deixar explícito a qual desses 
significados a palavra se refere.
Imaginem questões alternativas a essas abordando os diversos desafios para PLN já 
mencionados
Extras
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
https://t.me/kakashi_copiador
❑ PLN: tarefas típicas
❑ Representação de texto
❑ Vetorização sem contexto
❑ Representações com n-gramas
❑ Classificação de textos (e análise de sentimentos)
❑ Modelagem de tópicos latentes
❑ Semântica vetorial
❑ PLN: Estado da Arte
PLN
Prof. Erick Muzart
Processamento de Linguagem Natural
https://t.me/kakashi_copiador
[FIM]PROCESSAMENTO DE LINGUAGEM 
NATURAL - INTRODUÇÃO
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
PLN: TAREFAS TÍPICAS
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
https://t.me/kakashi_copiador
❑ Classificação de texto
❑ Análise de sentimento
❑ Pareamento de entidades: reconhecimento + desambiguação [pareamento de 
dados]
❑ Reconhencimento de fala (transcrição)
❑ Identificação de idioma
❑ Análise gramatical: Part-of-Speech (POS), correção, resolução de coreferência, 
❑ Extração de informação
❑ Semântico: similaridade, análise, identificação de papeis e relações
❑ Modelagem de conhecimento: bom senso, conhecimento sobre o mundo
❑ Geração: paráfrase, tradução, respota a pergunta, resumo (sumarização), diálogo 
(chatbots)PLN - tarefas
Prof. Erick Muzart
PLN: tarefas típicas
nlpprogress.com
https://t.me/kakashi_copiador
❑ Aplicações cada vez mais frequentes no mundo real: corretores de texto, 
tradução automática, assistentes digitais, chatbots, geração automática de 
texto...
❑ Melhoria “explosiva” de PLN nos últimos 4 anos!
Deep Learning, transferência de aprendizado, multi-tarefas: Elmo, ULMFiT, 
BERT, GPT-3, Turing... 
 Ver módulo ‘Estado da Arte’ para resultados de máxima qualidade!
PLN - Tarefas
Prof. Erick Muzart
PLN - Resultados
https://t.me/kakashi_copiador
Um Analista necessita desenvolver uma aplicação chatbot que simula um ser humano na conversação 
com as pessoas. Para isso o Analista deve usar pesquisa em Processamento de Linguagem Natural – 
PLN que envolve três aspectos da comunicação, quais sejam,
A - Som, ligado à fonologia, Estrutura que consiste em análises morfológica e sintática e Significado 
que consiste em análises semântica e pragmática.
B - Áudio, ligado à fonologia, Estrutura que consiste em análises de línguas estrangeiras e Significado 
que consiste em análises semântica e pragmática.
C - Conversação, ligado à tecnologia de chatbot, Semântica que consiste em análises de línguas 
estrangeiras e Arquitetura Spelling que realiza as análises sintática e pragmática.
D - Business Intelligence, ligado à tecnologia OLAP, Mining que consiste em análises de línguas em 
geral e Spelling que realiza as funções de chatbot.
E - Áudio, ligado à fonologia, Estrutura que consiste em análises semântica e pragmática e Significado 
que consiste em análise das línguas em geral.
Extras
Prof. Erick Muzart
FCC/TRF4/2019
https://t.me/kakashi_copiador
Um Analista necessita desenvolver uma aplicação chatbot que simula um ser humano na conversação 
com as pessoas. Para isso o Analista deve usar pesquisa em Processamento de Linguagem Natural – 
PLN que envolve três aspectos da comunicação, quais sejam,
A - Som, ligado à fonologia, Estrutura que consiste em análises morfológica e sintática e Significado 
que consiste em análises semântica e pragmática.
B - Áudio, ligado à fonologia, Estrutura que consiste em análises de línguas estrangeiras e Significado 
que consiste em análises semântica e pragmática.
C - Conversação, ligado à tecnologia de chatbot, Semântica que consiste em análises de línguas 
estrangeiras e Arquitetura Spelling que realiza as análises sintática e pragmática.
D - Business Intelligence, ligado à tecnologia OLAP, Mining que consiste em análises de línguas em 
geral e Spelling que realiza as funções de chatbot.
E - Áudio, ligado à fonologia, Estrutura que consiste em análises semântica e pragmática e Significado 
que consiste em análise das línguas em geral.
Extras
Prof. Erick Muzart
FCC/TRF4/2019
https://t.me/kakashi_copiador
A respeito de inteligência artificial, julgue o item seguinte. 
Aplicações de reconhecimento de voz fazem a transcrição de um áudio para texto diretamente, sem a 
necessidade de nenhum modelo intermediário. 
Certo
Errado
Extras
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
https://t.me/kakashi_copiador
A respeito de inteligência artificial, julgue o item seguinte. 
Aplicações de reconhecimento de voz fazem a transcrição de um áudio para texto diretamente, sem a 
necessidade de nenhum modelo intermediário. 
Certo
Errado
Pergunta fraca que consiste em assimilar uma afirmação dentro de um contexto e momento histórico de 
desenvolvimento científico como se fosse um fato absoluto e imutável!
Tradicionalmente, os modelos de reconhecimento de voz passavam por uma etapa de modelagem 
acústica/fonética com reconhecimento de fonemas por um modelo Hidden Markov para então serem 
identificadas as palavras correspondentes mais prováveis por um modelo de linguagem.
Mas, desde 2014 foram desenvolvidos sistemas ponto a ponto em redes neurais profundas, que aprendem 
conjuntamente todas as etapas de um reconhecimento de fala, sem modelo intermediário: 
https://arxiv.org/abs/1610.03035
https://arxiv.org/pdf/2106.07447.pdf https://github.com/syhw/wer_are_weExtras
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
https://t.me/kakashi_copiador
[FIM]PLN: TAREFAS TÍPICAS
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
REPRESENTAÇÃO DE TEXTO
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
❑ Texto é armazenado no computador como uma sequência de caracteres
❑ Para que texto possa ser utilizado para aproximação semântica é preciso 
representá-lo de forma a facilitar a identificação de padrões estatísticos
❑ Representações de texto, em 3 níveis crescentes de complexidade:
• conjunto (não ordenado) de palavras (categorias ou símbolos atômicos): 
bag-of-words (saco de palavras)
• conjunto de vetores representando significados de uma palavra por 
regularidade estatística de vizinhança com outras palavras: word embedding 
vetorial
• sequências de vetores codificadas em estados de redes neurais, com 
contexto: RNN, LSTM, Transformer
Representação de texto
Prof. Erick Muzart
Representação de textohttps://t.me/kakashi_copiador
❑ Em função do tipo de representação, podem ser aplicadas etapas de 
pré-processamento:
- Remoção de pontuação e caracteres especiais (não tipicamente letras)
- Recorte do texto em palavras: tokenização (caracteres separados por espaços, 
em português)
- Padronização de palavras com caracteres minúsculos
- Correção ortográfica e expansão de abreviações
- Substituir flexões de um mesmo radical:
• Pelo radical da palavra: stemização (stemming)
• Pela palavra base subjacente: lematização (lemmatization)
- Remoção de palavras comuns de pouco significado próprio (stop words)
Representação de texto
Prof. Erick Muzart
Pré-processamento
https://t.me/kakashi_copiador
No contexto da recuperação das informações em bancos de dados
textuais, um processo consiste em aplicar operações em uma palavra para encontrar sua raiz
gramatical, como, por exemplo: “recuperar” é raiz de “recuperação”, “recuperações”,
“recuperam” e “recuperado”. Além de ser útil para encontrar possíveis textos relevantes, esse
processo também ajuda a reduzir o tamanho da estrutura de indexação, já que diminui o número
de índices distintos e é denominado:
a) sheering
b) sweeping
c) stemming
d) smashing
e) streaming
Extras
Prof. Erick Muzart
Funcab/MDA/2014
https://t.me/kakashi_copiador
No contexto da recuperação das informações em bancos de dados
textuais, um processo consiste em aplicar operações em uma palavra para encontrar sua raiz
gramatical, como, por exemplo: “recuperar” é raiz de “recuperação”, “recuperações”,
“recuperam” e “recuperado”. Além de ser útil para encontrar possíveis textos relevantes, esse
processo também ajuda a reduzir o tamanho da estrutura de indexação, já que diminui o número
de índices distintos e é denominado:
a) sheering
b) sweeping
c) stemming
d) smashing
e) streaming
Extras
Prof. Erick Muzart
Funcab/MDA/2014
https://t.me/kakashi_copiador
Em sistemas de Recuperação de Informação, os termos de indexação podem ser extraídos 
diretamente do texto dos documentos, fornecendo uma visão lógica dos documentos. Assinale a 
alternativa que apresenta corretamente uma das operações realizadas para obter as palavras-chaves. 
A - No processo de reconhecimento da estrutura, ocorre a análise léxica e a remoção de palavras sem 
semântica associada. 
B - O processo de quebra do texto em palavras (tokenização) é dependente da stoplist, um dicionário 
próprio aplicado à separação das palavras.
C - A classificação de grupos nominais visa a identificação dos verbos e remoção das demais palavras, 
através de listas de palavras, etiquetadores automáticos e um thesaurus da língua ou do domínio. 
D - Acentos, espaçamento e demais símbolos são delimitadores considerados naturais no processo de 
stemming. 
E - O processo de stemming consiste em remover os afixos, preservando o radical e possibilitando o 
casamento entre variações de uma mesma palavra. 
Extras
Prof. Erick Muzart
NC-UFPR/Itaipu/2018
https://t.me/kakashi_copiador
Em sistemas de Recuperação de Informação, os termos de indexação podem ser extraídos 
diretamente do texto dos documentos, fornecendo uma visão lógica dos documentos. Assinale a 
alternativa que apresenta corretamente uma das operações realizadas para obter as palavras-chaves. 
A - No processo de reconhecimento da estrutura, ocorre a análise léxica e a remoção de palavras sem 
semântica associada. 
B - O processo de quebra do texto em palavras (tokenização) é dependente da stoplist, um dicionário 
próprio aplicado à separação das palavras.
C - A classificação de grupos nominais visa a identificação dos verbos e remoção das demais palavras, 
através de listas de palavras, etiquetadores automáticos e um thesaurus da língua ou do domínio. 
D - Acentos, espaçamento e demais símbolos são delimitadores considerados naturais no processo de 
stemming. 
E - O processo de stemming consiste em remover os afixos, preservando o radical e possibilitando o 
casamento entre variações de uma mesma palavra. 
Extras
Prof. Erick Muzart
NC-UFPR/Itaipu/2018
https://t.me/kakashi_copiador
Com relação a banco de dados textuais, julgue os itens seguintes.
Stop words integram uma lista universal de palavras utilizadas para identificar as paradas ou finais de 
textos, de modo a auxiliar na análise semântica.
Certo ou Errado
Extras
Prof. Erick Muzart
Cespe/MEC/2015
https://t.me/kakashi_copiador
Com relação a banco de dados textuais, julgue os itens seguintes.
Stop words integram uma lista universal de palavras utilizadas para identificar as paradas ou finais de 
textos, de modo a auxiliar na análise semântica.
Certo ou Errado
Extras
Prof. Erick Muzart
Cespe/MEC/2015
https://t.me/kakashi_copiador
81 Stop-words constituem um conjunto de palavras que proporcionam pouca informação para o 
significado de uma frase. 
Certo ou Errado?
Classificação
Prof. Erick Muzart
Cebraspe/Petrobras/2021
https://t.me/kakashi_copiador
81 Stop-words constituem um conjunto de palavras que proporcionam pouca informação para o 
significado de uma frase. 
Certo ou Errado?
Classificação
Prof. Erick Muzart
Cebraspe/Petrobras/2021
https://t.me/kakashi_copiador
[FIM]REPRESENTAÇÃO DE TEXTO
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
VETORIZAÇÃO (SEM CONTEXTO)
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
❑ Técnica mais simples para transformar texto em sequência de atributos 
numéricos (vetorização): cada palavra torna-se uma variável e conta-se o 
número de ocorrências no texto
"Sou como você me vê. Posso ser leve como uma brisa ou forte como uma 
ventania, depende de quando e como você me vê passar.” Clarice Lispector
['brisa’, 'como’, 'como’, 'como’, 'como’, 'de’, 'depende’, 'e’, 'forte’, 'leve', 'me’, 
'me’, 'ou’, 'passar’, 'posso’, 'quando', 'ser', 'sou', 'uma', 'uma', 'ventania’, 'você', 
'você', 'vê', 'vê’] -> tokenização
Matriz de co-ocorrência
Bag-of-words
Prof. Erick Muzart
Bag-of-words (BoW)
brisa como de depende ... você vê
Texto1 1 4 1 1 2 2
Texto2 0 2 2 0 3 0
Texto3 0 0 1 1 1 0
https://t.me/kakashi_copiador
❑ Em vez de apenas contar as ocorrências de palavras no BoW, podemos dividir 
pelo número de palavras de cada texto e obter assim a frequência de cada 
palavra para cada texto: Term Frequency: TF (t, d)
❑ É de se esperar que as palavras de maior frequência sejam conectores sem 
muito significado, como as palavras stopwords. 
❑ Para reduzir o valor numérico dessas palavras e destacar palavras mais 
relevantes para cada documento, podemos dividir cada valor pelo inverso da 
frequência do termo no conjunto dos documentos: Inverse Document 
Frequency: IDF(t)
❑ TF-IDF = TF (t, d) x IDF(t) = TF (t, d) x log (n/df(t)) 
❑ Frequentemente, elimina-se do vocabulário palavras com baixo tf-idf, o que 
geralmente elimina ou reduz a importância das stopwords
Tf-idf
Prof. Erick Muzart
TF-IDF
https://t.me/kakashi_copiador
Tf-idf
Prof. Erick Muzart
TF-IDF
brisa
1/3
como
2/3
de
3/3
depende
2/3
.
.
.
você
3/3
Vê
1/3
Texto1 1/6 4/6 1/6 1/6 2/6 2/6
Texto2 0 2/3 2/3 0 3/3 0
Texto3 0 0 1/3 1/3 1/3 0
Matriz com a contagem de termos
Matriz com as frequências de termos em 
cada texto
Matriz dividida pela frequência de 
ocorrência de termo no conjunto dos 
textos (corpus)
brisa como de depende ... você vê
Texto1 1 4 1 1 2 2
Texto2 0 2 2 0 3 0
Texto3 0 0 1 1 1 0
brisa
1/3
como
2/3
de
3/3
depende
2/3
.
.
.
você
3/3
Vê
1/3
Texto1 3/6 12/12 1/6 3/12 2/6 6/6
Texto2 0 6/6 2/3 0 3/3 0
Texto3 0 0 1/3 3/6 1/3 0
https://t.me/kakashi_copiador
Tf-idf
Prof. Erick Muzart
TF-IDF
Matriz com a contagem de termos
Matriz TF-IDF (aproximadamente, pois não 
aplicamos o log)
Assim, valores elevados correspondem a 
palavras significativas para aquele documento, 
por aparecer com frequência mais elevada do 
que no conjunto dos demais documentos.
Essa importância relativa das palavras pode 
então ser utilizada para classificar cada 
documento!
brisa como de depende ... você vê
Texto1 1 4 1 1 2 2
Texto2 0 2 20 3 0
Texto3 0 0 1 1 1 0
brisa como de depende .. você vê
Texto1 1/2 1 1/6 1/4 1/3 1
Texto2 0 1 2/3 0 1 0
Texto3 0 0 1/3 1/2 1/3 0
https://t.me/kakashi_copiador
Em relação a banco de dados textual é correto afirmar:
A - nos arquivos invertidos, o vocabulário é uma estrutura de busca contendo todos os termos 
existentes, de forma não indexada.
B - Stop Words é uma matriz onde cada linha representa um documento e cada coluna representa um 
termo.
C - BOW (Bag of Words) é o processo em que substantivos, adjetivos, pronomes e verbos são 
reduzidos aos seus radicais.
D - leitura, extração, contagem e cálculo de frequência dos termos, são etapas típicas do método 
Stemming.
E - índices para a próxima palavra é um dos métodos principais de busca por frases em bancos 
textuais.
Extras
Prof. Erick Muzart
FCC/TRE-RN/2011
https://t.me/kakashi_copiador
Em relação a banco de dados textual é correto afirmar:
A - nos arquivos invertidos, o vocabulário é uma estrutura de busca contendo todos os termos 
existentes, de forma não indexada.
B - Stop Words é uma matriz onde cada linha representa um documento e cada coluna representa um 
termo.
C - BOW (Bag of Words) é o processo em que substantivos, adjetivos, pronomes e verbos são 
reduzidos aos seus radicais.
D - leitura, extração, contagem e cálculo de frequência dos termos, são etapas típicas do método 
Stemming.
E - índices para a próxima palavra é um dos métodos principais de busca por frases em bancos 
textuais.
Extras
Prof. Erick Muzart
FCC/TRE-RN/2011
https://t.me/kakashi_copiador
83 Suponha que a palavra amor ocorra 1.000 vezes no último livro escrito por certo autor, que 
escreveu, no total, 10 livros.
Nesse caso, se a palavra amor for encontrada em todos os livros desse autor, então o valor do 
TF-IDF (term frequency inverse document frequency) referente à palavra amor no último livro 
escrito será igual a 1/1.000.
Certo ou Errado?
Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
83 Suponha que a palavra amor ocorra 1.000 vezes no último livro escrito por certo autor, que 
escreveu, no total, 10 livros.
Nesse caso, se a palavra amor for encontrada em todos os livros desse autor, então o valor do 
TF-IDF (term frequency inverse document frequency) referente à palavra amor no último livro 
escrito será igual a 1/1.000.
Certo ou Errado?
Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Questão 83 A fórmula para o cálculo tf-idf é: TF-IDF = TF (t, d) x IDF(t)
Onde TF é “term frequency” ou o número de vezes em que a palavra t aparece no documento d
IDF é “inverse document frequency” ou o inverso da frequência de documento, na fórmula: 
log (n/df(t)), com n o número de documentos e df(t) o número de documentos que contém a palavra t. 
Com os dados do enunciado temos: TF(‘amor’, d) = 1000, n = 10 e df(d, ‘amor’) = 10 (pois todos os 10 
documentos possuem a palavra ‘amor’).
Assim, temos: TF-IDF = 1000 * (log (10/10)) = 1000 * 0 TF-IDF = 0
Nessa questão, acredito que não era necessário fazer o cálculo exato com o log, mas apenas entender que o número 
de ocorrências da palavra ‘amor’ estaria no numerador e não no denominador do TF-IDF e portanto que não 
poderia ser 1/1000 como na afirmativa!
Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
83 Suponha que a palavra amor ocorra 1.000 vezes no último livro escrito por certo autor, que 
escreveu, no total, 10 livros.
Nesse caso, se a palavra amor for encontrada em todos os livros desse autor, então o valor do 
TF-IDF (term frequency inverse document frequency) referente à palavra amor no último livro 
escrito será igual a 1/1.000.
Certo ou Errado?
Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
[FIM]VETORIZAÇÃO (SEM CONTEXTO)
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
REPRESENTAÇÕES COM N-GRAMAS
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
❑ Um (dos múltiplos) defeitos de BoW e TF-IDF é que eles não capturam o 
contexto de ocorrência de uma palavra, que pode modificar totalmente seu 
sentido! Ex: “cachorro” e “cachorro quente”
❑ N-gramas permitem captar contexto reunindo tokens vizinhos como se 
fossem um única unidade. 
❑ "Sou como você me vê. Posso ser...” com bigramas (N=2):
“Sou como”, “como você”, “você me”, “me vê”, “vê posso”...
N-gramas
Prof. Erick Muzart
N-gramas
brisa como de depende ... você vê sou 
como
como 
você
você 
me
me 
vê
vê 
posso
T1 1 4 1 1 2 2 1 1 1 1 1
T2 0 2 2 0 3 0 0 1 0 0 0
T3 0 0 1 1 1 0 0 0 0 0 0
https://t.me/kakashi_copiador
❑ "Sou como você me vê. Posso ser...” 
trigramas (N=3): “Sou como você”, “como você me”, “você me vê”, “me vê posso”...
4-gramas: “Sou como você me”, “como você me vê”, “você me vê posso”...
❑ Assim, reforçamos nosso modelo construído por tokens sem qualquer ordem, com 
expressões adicionais que trazem uma sequência das palavras originais.
❑ Isso permite trazer um pouco de contexto àquilo que seriam palavras isoladas na 
sacola de palavras (BoW)
❑ O uso de n-gramas tem o defeito de aumentar muito o tamanho do vocabulário, com 
expressões de baixa frequência (em relação às palavras contidas na expressão).
N-gramas
Prof. Erick Muzart
N-gramas
https://t.me/kakashi_copiador
[FIM]REPRESENTAÇÕES COM N-GRAMAS
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
CLASSIFICAÇÃO DE TEXTOS
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
❑ Uma vez construída uma representação vetorial do texto, seja com 
bag-of-words seja com tf-idf, a matriz numérica resultante pode ser utilizada 
como dado de entrada para qualquer algoritmo de ML visto anteriormente; 
inclusive de forma supervisionada com target categórico, ou seja, para 
classificação!
Classificação
Prof. Erick Muzart
Classificação de texto
https://t.me/kakashi_copiador
❑ Assim, tudo o que vimos anteriormente em ML geral aplica-se diretamente 
no contexto de NLP: 
• validação e avaliação por separação treino-teste
• underfitting/overfitting
• regularização, otimização de hiperparâmetros
• redução de dimensionalidade
• modelos: lineares, árvores de decisão, redes neurais, naive Bayes...
Classificação
Prof. Erick Muzart
Classificação de texto
https://t.me/kakashi_copiador
❑ A classificação de texto baseada em atributos BoW ou tf-idf acaba 
identificando padrões estatísticos nas ocorrências de palavras (ou expressões 
n-gramas) associadas à categoria de interesse
❑ Assim, o modelo pode descobrir a existência de associações fortes de 
algumas palavras com alguma classem, que podem então ser 
extraídas/interpretadas
❑ Como textos possuem vocabulários com grande número de palavras, a 
matriz com esses dados é de alta dimensionalidade e pode assim se 
beneficiar de um tratamento para reduzir o tamanho desse vocabulário. Cf 
redução de dimensionalidade
Classificação
Prof. Erick Muzart
Classificação de texto
https://t.me/kakashi_copiador
❑ Treinar um classificador de texto simples com TF-IDF pode ser feito em 
poucas linhas utilizando funções disponíveis na biblioteca sklearn: 
Classificação
Prof. Erick Muzart
Classificação de texto
https://t.me/kakashi_copiador
❑ O limitante para treinar um classificador de texto costuma ser a 
disponibilidade de anotações em quantidade suficiente.
❑ Modelos simples como regressão logística ou árvore de decisão treinados 
sobre textos vetorizados por BoW ou tf-idf costumam dar bons resultados 
para tarefas simples mesmo com poucos dados.
❑ Para tarefas mais complexas, que requerem aproximar noções semânticas 
mais sutis, pode-se utilizar modelos mais complexos de Deep Learning, 
treinados com quantidades muito maiores de dados ou utilizando 
transferência de aprendizado (transfer learning)
Classificação
Prof. Erick Muzart
Classificação de texto
https://t.me/kakashi_copiador
❑ Classificação de ementas jurisprudenciais do TCU em 4 temas principais 
('Pessoal', 'Licitação', 'Responsabilidade','Direito_Processual’): 
96% de acurácia, com 10k textos extraídos de 
https://pesquisa.apps.tcu.gov.br/#/pesquisa/jurisprudencia-selecionada
Classificação
Prof. Erick Muzart
Classificação de texto - exemplo
https://t.me/kakashi_copiador
❑ Análise de sentimento a partir de texto nada mais é do que um caso 
particular de classificação com apenas 2 ou 3 classes, que refletem o 
sentimento, positivo, negativo ou neutro de um texto
❑ Para evitar anotar manualmente um grande conjunto de textos em relação ao 
sentimento expresso, procura-se gerar essas anotações a partir de dados que 
já tenham alguma avaliação. Ex: resenhas associadas a notas de avaliação: 
IMDB para filmes, Yelp para restaurantes, Amazon para livros
❑ Interpretando a importância de atributos de uma árvore de decisão ou 
regressão logística treinada sobre um dataset de texto associado a 
sentimento, verifica-se, sem maior surpresa, que palavras tipicamente 
positivas (ótimo, maravilha...) tornam-se associadas à classe positiva e 
inversamente para palavras negativas (péssimo, horrível...)Classificação
Prof. Erick Muzart
Análise de sentimento
https://t.me/kakashi_copiador
A escolha de qual modelo deve-se usar para se analisar um
conjunto de dados depende do domínio do problema analisado. Acerca dessa escolha de
modelos, na análise de dados no domínio de textos em linguagem natural, é correto afirmar que
A - n-grams são modelos muito utilizados por serem simples e, em geral, produzirem bons
resultados.
B - bag-of-words é considerado um modelo complexo quando comparado com outros de análise
de texto, sendo de difícil implementação.
C - textos em linguagem natural não podem ser analisados, pois são compostos de letras e não
números.
D - o modelo TFIDF produz bons resultados, mas não pode ser usado para classificação.
E - redes neurais não podem ser utilizadas no domínio de texto.
Extras
Prof. Erick Muzart
Iades/Apex/2018
https://t.me/kakashi_copiador
A escolha de qual modelo deve-se usar para se analisar um
conjunto de dados depende do domínio do problema analisado. Acerca dessa escolha de
modelos, na análise de dados no domínio de textos em linguagem natural, é correto afirmar que
A - n-grams são modelos muito utilizados por serem simples e, em geral, produzirem bons
resultados.
B - bag-of-words é considerado um modelo complexo quando comparado com outros de análise
de texto, sendo de difícil implementação.
C - textos em linguagem natural não podem ser analisados, pois são compostos de letras e não
números.
D - o modelo TFIDF produz bons resultados, mas não pode ser usado para classificação.
E - redes neurais não podem ser utilizadas no domínio de texto.
Extras
Prof. Erick Muzart
Iades/Apex/2018
https://t.me/kakashi_copiador
Prof. Erick Muzart
FGV/TCU/2021
https://t.me/kakashi_copiador
Prof. Erick Muzart
FGV/TCU/2021
TF-IDF = TF (t, d) x IDF(t)
Onde TF é “term frequency” ou o número de 
vezes em que a palavra t aparece no 
documento d
IDF é “inverse document frequency” ou o 
inverso da frequência de documento, na 
fórmula: log (n/df(t)), com n o número de 
documentos e df(t) o número de 
documentos que contém a palavra t.
Cada texto texto tem 11 palavras
IDF(rosas) = log(2/2) = log(1) = 0
IDF(choram) = IDF(sorriem) = log(2/1) = 
log(2)
Alternativa (C)
https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransfo
rmer.html
ocorrrên
cias
rosas choram sorriem
A 1 1 0
B 1 0 1
frequên
cias
rosas choram sorriem
A 1/11 1/11 0
B 1/11 0 1/11
TF-IDF rosas choram sorriem
A 0 (log 2)/11 0
B 0 0 (log 2)/11
https://t.me/kakashi_copiador
[FIM]CLASSIFICAÇÃO DE TEXTOS
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
MODELAGEM DE TÓPICOS LATENTES
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
❑ Lembram o que falamos de redução de dimensionalidade no módulo anterior 
de ML? (cf. PCA)
❑ Podemos aplicar PCA em PLN sobre a matriz de ocorrência de palavras, ou 
matriz Termo-Documento, para identificar “dimensões de variação de 
palavras” que irão compor “tópicos” com alguma semântica comum!
❑ Hipótese distribuitiva: palavras de semântica similar aparecem em contextos 
similares, ou seja, rodeadas pelo mesmo conjunto de palavras!
Semântica vetorial
Prof. Erick Muzart
Redução de dimensionalidade - PLN
https://t.me/kakashi_copiador
❑ Modelagem de tópicos: tecnicas não supervisionadas que permitem extrair 
“tópicos” a partir das palavras dos textos e grupar os textos nesses tópicos
❑ “Tópicos” obtidos por modelagem: conjuntos de palavras que ocorrem 
frequentemente juntas e mais raramente com outros conjuntos de palavras.
Tópicos latentes
Prof. Erick Muzart
Modelagem de tópicos latentes
❑ Ex: tópicos extraídos de corpus de 
matérias jornalísticas
https://t.me/kakashi_copiador
❑ Utiliza representação de texto como saco de palavras (BoW) transformado 
em frequências tf-idf
❑ Duas formas mais comuns de modelagem de tópicos:
• Latent Semantic Analysis (LSA)
• Latent Dirichlet Allocation (LDA)
Tópicos latentes
Prof. Erick Muzart
Modelagem de tópicos latentes
https://t.me/kakashi_copiador
❑ LSA é a aplicação de PCA à matriz documento-termo (tf-idf) como redução 
de dimensionalidade do espaço de palavras para um espaço menor de tópicos 
(composição de termos)
Tópicos latentes
Prof. Erick Muzart
Latent Semantic Analysis (LSA)
https://t.me/kakashi_copiador
❑ Matrix documento-termo decomposta, por SVD (Singular Value 
Decomposition), em um produto de 3 matrizes U x D x Vt
U: matriz documento-tópico
D: matriz diagonal da importância de um tópico em um documento
Vt: matriz termo-tópico
Tópicos latentes
Prof. Erick Muzart
Latent Semantic Analysis (LSA)
https://t.me/kakashi_copiador
❑ Seleciona-se os t valores mais elevados da matriz D (truncated SVD), que 
serão os tópicos principais extraídos do corpus.
❑ t é a dimensão da projeção do espaço de palavras para o espaço de tópicos 
principais
Tópicos latentes
Prof. Erick Muzart
Latent Semantic Analysis (LSA)
https://t.me/kakashi_copiador
❑ Paper de 2003: https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf
❑ Atribui a cada palavra (termo) uma probabilidade de compor um tópico
❑ LDA procura identificar a composição de tópicos presentes em um 
documento
Tópicos latentes
Prof. Erick Muzart
Latent Dirichlet Allocation (LDA)
https://t.me/kakashi_copiador
❑ LSA não assume qualquer pressuposto quanto à distribuição probabilística 
de tópicos em documentos. Modelo pouco interpretável
❑ LDA assume que a distribuição de tópicos em documentos segue uma 
distribuição probabilística específica, de Dirichlet
❑ Hyperparâmetros LDA:
• alpha: influencia na quantidade de tópicos por documento
• beta: influencia na quantidade de palavras por tópico (similaridade entre 
tópicos)
• Número de tópicos procurados
Tópicos latentes
Prof. Erick Muzart
Diferenças LSA - LDA
https://t.me/kakashi_copiador
LDA
Prof. Erick Muzart
FGV/TCU/2021
Um analista do TCU gostaria de aplicar um modelo de Latent 
Dirichlet Allocation (LDA) em um conjunto de textos.
A alternativa que melhor descreve o resultado do modelo é:
(A) uma lista de tópicos, cada um com um título diferente;
(B) uma lista das palavras mais importantes no conjunto de 
documentos;
(C) cada documento é classificado em somente um tópico, onde 
cada tópico é formado por uma lista de palavras;
(D) cada documento possui uma distribuição de probabilidade de 
pertencer a algum dos tópicos, onde cada tópico é formado por 
uma lista de palavras e cada palavra pertence a somente um tópico;
(E) cada documento possui uma distribuição de probabilidade de 
pertencer a algum dos tópicos, onde cada tópico é formado por 
uma distribuição de probabilidade sobre todas as palavras 
presentes nos documentos.
https://t.me/kakashi_copiador
LDA
Prof. Erick Muzart
FGV/TCU/2021
LDA:
- tópico: distribuição de probabilidade sobre o 
vocabulário -> lista de palavras +importantes
- Cada documento é uma “mistura” (distr. prob) 
de múltiplostópicos
- todas as palavras tem algum peso para todos os 
tópicos; uma mesma palavra pode ser 
importante para múltiplos tópicos
- tópicos não possuem “título” próprio; um título 
pode ser atribuído por compreensão de temas 
comuns a múltiplas palavras importantes que 
compõem um tópico
- Resultado LDA: 2 matrizes: tópico x palavras e 
tópico x documentos
Um analista do TCU gostaria de aplicar um modelo de Latent 
Dirichlet Allocation (LDA) em um conjunto de textos.
A alternativa que melhor descreve o resultado do modelo é:
(A) uma lista de tópicos, cada um com um título diferente;
(B) uma lista das palavras mais importantes no conjunto de 
documentos;
(C) cada documento é classificado em somente um tópico, onde 
cada tópico é formado por uma lista de palavras;
(D) cada documento possui uma distribuição de probabilidade 
de pertencer a algum dos tópicos, onde cada tópico é formado 
por uma lista de palavras e cada palavra pertence a somente 
um tópico;
(E) cada documento possui uma distribuição de probabilidade 
de pertencer a algum dos tópicos, onde cada tópico é formado 
por uma distribuição de probabilidade sobre todas as palavras 
presentes nos documentos.
https://t.me/kakashi_copiador
[FIM]MODELAGEM DE TÓPICOS LATENTES
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
SEMÂNTICA VETORIAL
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
❑ Cada texto foi representado como um vetor de números correspondentes a 
frequências de palavras
❑ Mostramos a representação de texto por Bag-of-Words seguida por 
transformação de frequência tf-idf gerando matriz Termo-Documento
❑ Problemas: alta dimensionalidade, muitos valores nulos e sem representação 
semântica das palavras.
Semântica vetorial
Prof. Erick Muzart
Semântica vetorial
brisa como de depende ... você vê
Texto1 1/2 1 1/6 1/4 1/3 1
Texto2 0 1 2/3 0 1 0
Texto3 0 0 1/3 1/2 1/3 0
❑ Como adaptar essa ideia de 
representação por vetor de números 
de tal forma que reflita a semântica 
de uma palavra?
https://t.me/kakashi_copiador
❑ Gostaríamos que cada palavra fosse representada por um vetor de números de tal 
forma que palavras sinônimas tivessem vetores próximos em termos de distância!
❑ Como representar similaridade semântica entre palavras? O que palavras similares 
teriam em comum, numa perspectiva estatística?
Semântica vetorial
Prof. Erick Muzart
Semântica vetorial
https://t.me/kakashi_copiador
❑ Contexto!
❑ “Você conhecerá uma palavra pela companhia que mantém.” JR Firth
❑ Definir significado de palavra pelo contexo, de outras palavras, em que se 
encontra!
Semântica vetorial
Prof. Erick Muzart
Semântica vetorial
https://t.me/kakashi_copiador
Olhou pela _____ do carro
❑ Possíveis opções: janela, porta, abertura… 
❑ As palavras que “cabem semânticamente” nesse espaço são as palavras que 
ocorrerão mais frequentemente nesse contexto de uso, definindo assim, 
indiretamente, palavras que são similares ou intercambiáveis. (CBOW)
❑ Daí podemos concluir que “janela”, “porta” e “abertura” devem ter significados 
próximos por aparecerem em contextos similares, formados por mesmas palavras
Semântica vetorial
Prof. Erick Muzart
Semântica vetorial
https://t.me/kakashi_copiador
❑ Word Embedding: “embutir” palavras em um espaço vetorial numérico
❑ Usa-se uma arquitetura de rede neural para prever palavras de contexto a partir de 
palavras alvo 
❑ Word2Vec: cbow ou skip-gram
Semântica vetorial
Prof. Erick Muzart
Word Embedding
https://t.me/kakashi_copiador
❑ A partir da palavra central 
“janela”, procura-se prever as 
palavras de contexto: “Olhou pela 
_____ do carro”
ref: https://arxiv.org/pdf/1301.3781.pdf Mikolov
Semântica vetorial
Prof. Erick Muzart
Skip-Gram
https://t.me/kakashi_copiador
❑ Inverso do skip-gram, a partir do 
contexto: “Olhou pela _____ do carro” 
procura-se prever o termo central “janela”
ref: https://arxiv.org/pdf/1301.3781.pdf Mikolov
Semântica vetorial
Prof. Erick Muzart
CBoW
https://t.me/kakashi_copiador
❑ Skip-gram: funciona bem até com poucos dados de treino, representa bem até 
palavras pouco frequentes.
❑ CBOW: treinamento muito mais rápido do que skip-gram, acurácia levemente 
melhor para palavras frequentes.
❑ Janela de contexto: skip-gram cerca de 10; CBOW cerca de 5
Semântica vetorial
Prof. Erick Muzart
CBOW x Skip-gram
https://t.me/kakashi_copiador
❑ Arquitetura de rede neural para prever palavras de contexto a partir de 
palavras alvo (skip-gram)
Semântica vetorial
Prof. Erick Muzart
Word Embedding
https://t.me/kakashi_copiador
Semântica vetorial
Prof. Erick Muzart
Word2Vec
https://medium.com/@hari4om/word-embedding-d816f643140
https://t.me/kakashi_copiador
❑ Tendo poucos dados para uma tarefa específica de NLP, pode-se utilizar 
embeddings já existentes, adaptando-os para sua aplicação!
❑ Principais métodos: Word2Vec (2013), GloVe (2014), Wang2Vec (2015) e 
FastText (2016)
❑ Versões pré-treinadas em português: NILC-Embeddings e CoNLL17
https://www.davidsbatista.net/blog/2019/11/03/Portuguese-Embeddings/
http://www.nilc.icmc.usp.br/embeddings
Semântica vetorial
Prof. Erick Muzart
Word Embedding pré-treinados
https://t.me/kakashi_copiador
MODELOS DE SEQUÊNCIA
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
82 O CBOW é um modelo de aprendizado de máquina desenhado para prever contexto com base 
em determinada palavra
Certo ou Errado?
Word Embedding
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
82 O CBOW é um modelo de aprendizado de máquina desenhado para prever contexto com base 
em determinada palavra
Certo ou Errado?
Word Embedding
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
82 O CBOW é um modelo de aprendizado de máquina desenhado para prever contexto com base 
em determinada palavra
Certo ou Errado?
Word Embedding
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
82 O CBOW é um modelo de aprendizado de máquina desenhado para prever contexto com base 
em determinada palavra
Certo ou Errado?
Aqui o correto seria skip-gram e não CBoW!
Word Embedding
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Uma organização está implementando um sistema de busca de informações interno, e a equipe de 
desenvolvimento resolveu avaliar diferentes modelos de linguagem vetoriais que ajudariam a conectar 
melhor documentos e consultas em departamentos que usam terminologias distintas em áreas de 
negócio que se sobrepõem. Um dos analistas ressaltou que seria interessante guardar os vetores de 
todo o vocabulário do modelo em um cache, de forma a aumentar a eficiência de acesso e reduzir certos 
custos de implantação. Das alternativas abaixo, aquela que lista apenas os modelos compatíveis com 
essa estratégia de caching é: 
(A) TF-IDF, BERT; 
(B) Word2Vec, BERT, GPT-2; 
(C) GloVe, GPT-2; 
(D) Word2Vec, GloVe; 
(E) GPT-2, BERT.
Word Embedding
Prof. Erick Muzart
FGV/TCU/2021
https://t.me/kakashi_copiador
Uma organização está implementando um sistema de busca de informações interno, e a equipe de 
desenvolvimento resolveu avaliar diferentes modelos de linguagem vetoriais que ajudariam a conectar 
melhor documentos e consultas em departamentos que usam terminologias distintas em áreas de 
negócio que se sobrepõem. Um dos analistas ressaltou que seria interessante guardar os vetores de 
todo o vocabulário do modelo em um cache, de forma a aumentar a eficiência de acesso e reduzir certos 
custos de implantação. Das alternativas abaixo, aquela que lista apenas os modelos compatíveis com 
essa estratégia de caching é: 
(A) TF-IDF, BERT; 
(B) Word2Vec, BERT, GPT-2; 
(C) GloVe, GPT-2; 
(D) Word2Vec, GloVe; 
(E) GPT-2, BERT.
Word Embedding
Prof. Erick Muzart
FGV/TCU/2021
Dicionário estático de palavra para vetor semântico: Word2Vec e 
GloVe, FastText
TF-IDF não utiliza representação vetorial para palavras, mas 
textos
BERT e GPT-2 são modelos sequenciais que utilizam 
Transformers paraadaptar a representação vetorial das palavras 
pelo contexto de outras palavras no qual se encontra. Assim, esses 
vetores para palavras não são constantes 
https://t.me/kakashi_copiador
[FIM]SEMÂNTICA VETORIAL
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
PLN: ESTADO DA ARTE
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
❑ GLUE e SuperGLUE: meta benchmark composto por 11 tarefas 
padronizadas de compreensão de linguagem:
- CoLA: reconhecer frases gramaticalmente bem formadas
- SST-2: análise de sentimento sobre resenhas de filmes
- MRPC e QQP: equivalência semântica entre frases
- STS-B: grau de similaridade semântica entre frases
- MNLI: inferência lógica entre premissa e hipótese
- QNLI: perguntas e respostas
- WNLI: desambiguação de pronomes
PLN – Estado da Arte
Prof. Erick Muzart
PLN - Benchmark
https://t.me/kakashi_copiador
B
en
ch
m
ar
k 
Su
pe
rG
L
U
E
nlpprogress.com
https://t.me/kakashi_copiador
❑ SQuAD: Stanford Question Answering Dataset
❑ 100k perguntas criadas por crowdworkers sobre 500 artigos da 
wikipedia + 50k perguntas adversariais, similares às primeiras, 
mas sem resposta no texto
❑ testa a capacidade de um sistema não apenas de responder a 
perguntas de compreensão de leitura, mas também de se abster 
quando confrontado com uma pergunta que não pode ser 
respondida com base no parágrafo fornecido.
PLN – Estado da Arte
Prof. Erick Muzart
Compreensão de texto: SQuAD
https://t.me/kakashi_copiador
SQuAD: Stanford Question Answering 
Dataset
- 100k perguntas criadas por crowdworkers 
sobre 500 artigos da wikipedia + 50k 
perguntas adversariais, similares às 
primeiras, mas sem resposta no texto
- testa a capacidade de um sistema não 
apenas de responder a perguntas de 
compreensão de leitura, mas também de se 
abster quando confrontado com uma 
pergunta que não pode ser respondida com 
base no parágrafo fornecido.
PLN – Estado da Arte
Prof. Erick Muzart
Compreensão de texto: 
SQuAD
https://t.me/kakashi_copiador
❑ RACE: ReAding Comprehension from English Examinations.
Conjunto de perguntas de provas de compreensão de texto em inglês para alunos 
chineses do ensino médio (12 a 18 anos): 28k trechos, 100k perguntas. Ênfase em 
raciocínio sobre o texto. Exemplos:
Qual seria um bom título para o trecho de texto? (Resumo)
Qual foi a atitude do autor em relação aos prêmios da indústria? (Inferência)
Qual das seguintes afirmações está errada de acordo com o texto? (Dedução)
Se o texto fosse publicado em jornal, qual seção seria a mais adequada? (Inferência)
O primeiro selo postal foi feito em ___. (Correspondência de contexto)
PLN – Estado da Arte
Prof. Erick Muzart
Compreensão de texto: RACE
https://t.me/kakashi_copiador
Era uma noite fria. O taxista não levou sequer um passageiro o dia todo. Quando ele passou 
pela estação ferroviária, ele viu um jovem saindo com duas malas nas mãos. Então o taxista foi 
até ele e perguntou: "aonde você está indo, senhor?" "Para o Hotel Vermelho", o jovem 
respondeu. Quando o taxista ouviu isso, ele não se sentiu mais feliz. O jovem lhe daria apenas 
três dólares porque o hotel ficava perto da estação de trem. Mas de repente, ele teve uma 
ideia. Ele levou o jovem através de muitas ruas da cidade grande. Depois de muito tempo, 
chegaram ao hotel. "Aqui estamos! Você precisa me pagar quinze dólares, por favor." O taxista 
disse ao jovem. "O quê? Quinze dólares! Você acha que eu sou um tolo? Só na semana 
passada, peguei um táxi da estação de trem para este hotel e só paguei doze dólares. Eu sei o 
quanto eu tenho que pagar pela viagem.”
Q1: Provavelmente o motorista de taxi recebeu finalmente X dólares.
Opções: 3, 2, 12 ou 15
Q2: Qual das opções seguintes é verdadeira?
- Os dois motoristas de taxi eram ambos honestos.
- Os dois motoristas de taxi enganaram o jovem passageiro.
- É muito longe entre a estação de trem e o Hotel Vermelho.
- O jovem conhecia a distância entre a estação de trem e o Hotel Vermelho.
https://t.me/kakashi_copiador
PLN – Estado da Arte
Prof. Erick Muzart
https://t.me/kakashi_copiador
❑ RACE: ReAding Comprehension from English Examinations.
Conjunto de perguntas de provas de compreensão de texto em inglês para alunos 
chineses do ensino médio (12 a 18 anos): 28k trechos, 100k perguntas. Ênfase em 
raciocínio sobre o texto. Exemplos:
Qual seria um bom título para o trecho de texto? (Resumo)
Qual foi a atitude do autor em relação aos prêmios da indústria? (Inferência)
Qual das seguintes afirmações está errada de acordo com o texto? (Dedução)
Se o texto fosse publicado em jornal, qual seção seria a mais adequada? (Inferência)
O primeiro selo postal foi feito em ___. (Correspondência de contexto)
PLN – Estado da Arte
Prof. Erick Muzart
Compreensão de texto: RACE
https://t.me/kakashi_copiador
❑ Que mudança provavelmente causaria uma diminuição no número de esquilos que 
vivem em uma área?
(1) uma diminuição no número de predadores
(2) uma diminuição na competição entre os esquilos
(3) aumento de alimentos disponíveis
(4) um aumento no número de incêndios florestais
PLN – Estado da Arte
Prof. Erick Muzart
AI2 Aristo: provas de ciência
https://t.me/kakashi_copiador
❑ 2016: competição DARPA, menos de 60% de acerto em provas de nível médio, 
crianças de 13 anos.
❑ 2019: 90%, 13 anos, 83%, 17 anos
PLN – Estado da Arte
Prof. Erick Muzart
AI2 Aristo: provas de ciência
https://t.me/kakashi_copiador
❑ Não diretamente comparável com inteligência humana
❑ Alto desempenho nessas tarefas não comprova compreensão “profunda” ou “real”
❑ Exemplos adversariais focando compreensão de conceitos básicos frequentemente 
tem baixo desempenho
PLN – Estado da Arte
Prof. Erick Muzart
Ressalvas
https://t.me/kakashi_copiador
❑ Modelo treinado unicamente para prever a próxima palavra de uma frase
❑ 40 GB de texto raspados da Internet (8 milhões de páginas Reddit)
❑ Baseado no modelo de linguagem Transformers, com 1,5 bilhão de parâmetros (10x 
mais parâmetros e dados que o GTP ‘1’)
❑ Exige muito poder computacional para treinamento
❑ Acesso liberado para o GPT-3: https://beta.openai.com/playground
PLN – Estado da Arte
Prof. Erick Muzart
Geração de texto: GPT-2 e 3
https://t.me/kakashi_copiador
GPT-2
https://t.me/kakashi_copiador
❑ Ponto de partida:
“Em um achado chocante, um cientista descobriu uma manada de unicórnios vivendo 
em um remoto vale anteriormente inexplorado, na Cordilheira dos Andes. Ainda mais 
surpreendente para o pesquisador foi o fato de que os unicórnios falavam inglês 
perfeitamente.”
PLN – Estado da Arte
Prof. Erick Muzart
GPT-2: teste
https://t.me/kakashi_copiador
“O cientista nomeou a população, baseado em seu chifre distintivo, o Unicórnio de 
Ovídio. Esses unicórnios de quatro chifres e branco-prateado eram anteriormente 
desconhecidos para a ciência.
Agora, depois de quase dois séculos, o mistério do que desencadeou esse estranho 
fenômeno está finalmente resolvido.
Dr. Jorge Pérez, um biólogo evolucionário da Universidade de La Paz, e vários 
companheiros, estavam explorando a Cordilheira dos Andes quando encontraram 
um pequeno vale, sem outros animais ou humanos. Pérez notou que o vale tinha o 
que parecia ser uma fonte natural, cercada por dois picos de rocha e neve 
prateada.
Em seguida, Pérez e os outros se aventuraram no vale. "Quando chegamos ao topo de 
um pico, a água parecia azul, com alguns cristais no topo", disse Pérez.
Pérez e seus amigos ficaram surpresos ao ver a manada de unicórnios. Essas criaturas 
podiam ser vistas do ar sem ter que se mover muito para vê-las - elas estavam tão 
perto que podiam tocar seus chifres. 108
https://t.me/kakashi_copiador
“Ao examinar essas criaturas bizarras, os cientistas descobriram que as criaturas 
também falavam um inglês bastante regular. Pérez afirmou: "Podemos ver, por 
exemplo, que eles têm uma" linguagem "comum, algo como um dialeto ou dialética".
O Dr. Pérez acredita que os unicórnios podem ter se originado na Argentina, onde 
se acreditava que os animais eramdescendentes de uma raça perdida de pessoas 
que viviam lá antes da chegada dos humanos naquelas partes da América do Sul.
Embora suas origens ainda não sejam claras, alguns acreditam que talvez as 
criaturas tenham sido criadas quando um humano e um unicórnio se conheceram 
em um tempo antes da civilização humana. Segundo Pérez, “na América do Sul, 
esses incidentes parecem ser bastante comuns”.
No entanto, Pérez também apontou que é provável que a única maneira de saber com 
certeza se os unicórnios são de fato descendentes de uma raça alienígena perdida é 
através do DNA. “Mas eles parecem conseguir se comunicar em inglês muito bem, o 
que eu acredito ser um sinal de evolução, ou pelo menos uma mudança na organização 
social”, disse o cientista.” 109
https://t.me/kakashi_copiador
Tradução Não Supervisionada
https://t.me/kakashi_copiador
❑ Aproximação do nível semântico da linguagem por meio de análise de grandes 
quantidades de texto
❑ Aborda os problemas: ambiguidade, conhecimento sobre o mundo, modelo de mente 
do interlocutor, empatia e bom senso
❑ Aproveita repositórios de conhecimento existentes
❑ Poderia atingir alto desempenho (AGI?) sem requerer avanço disruptivo em novas 
tecnologias de IA?
❑ NLP português: necessidade de publicar bons datasets e benchmarks!
PLN – Estado da Arte
Prof. Erick Muzart
Conclusão NLP
https://t.me/kakashi_copiador
[FIM]PLN: ESTADO DA ARTE
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
OBRIGADO
Prof. Erick 
Muzart
https://t.me/kakashi_copiador
https://t.me/kakashi_copiador