Introdução ao Processamento de Linguagem Natural

•

UEPB

Áurea Cristina Garcia dos Santos

24/06/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 114 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 114 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 114 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

https://t.me/kakashi_copiador
https://t.me/kakashi_copiador
Curso regular Ciência de dados –
Machine Learning
Prof. Erick
Muzart
https://t.me/kakashi_copiador
PROCESSAMENTO DE LINGUAGEM
NATURAL - INTRODUÇÃO
Prof. Erick
Muzart
https://t.me/kakashi_copiador
❑ Linguagens Naturais: idiomas falados pelos humanos para comunicação.
Português, inglês, francês...
❑ Como utilizar ML para que a IA possa “entender” e gerar linguagem?
❑ Por que lidar com linguagem natural é tão difícil se os computadores já
“entendem” linguagem de programação?
PLN
Prof. Erick Muzart
Processamento de Linguagem Natural
https://t.me/kakashi_copiador
❑ Desafios: polissemia, ambiguidade, contexto, conhecimento sobre o mundo,
modelo de mente do interlocutor, empatia e bom senso
❑ “João não conseguiu arrumar a espada na caixa porque ela era muito grande.”
a) a espada era muito grande?
b) a caixa era muito grande?
❑ Alan Turing sugere diálogo com humanos como critério para reconhecer
inteligência artificial geral (1950)
PLN
Prof. Erick Muzart
PLN - Desafios
https://t.me/kakashi_copiador
Um dos desafios do processamento de linguagem natural (PLN) é a polissemia, ou seja, a
característica de palavras e frases poderem ter mais de um significado.
(C) ou (E)
Extras
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
https://t.me/kakashi_copiador
Um dos desafios do processamento de linguagem natural (PLN) é a polissemia, ou seja, a
característica de palavras e frases poderem ter mais de um significado.
(C) ou (E)
Essa diversidade de possíveis significados para uma mesma palavra pode resultar em
ambiguidade, se o contexto textual não for suficiente para deixar explícito a qual desses
significados a palavra se refere.
Imaginem questões alternativas a essas abordando os diversos desafios para PLN já
mencionados
Extras
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
https://t.me/kakashi_copiador
❑ PLN: tarefas típicas
❑ Representação de texto
❑ Vetorização sem contexto
❑ Representações com n-gramas
❑ Classificação de textos (e análise de sentimentos)
❑ Modelagem de tópicos latentes
❑ Semântica vetorial
❑ PLN: Estado da Arte
PLN
Prof. Erick Muzart
Processamento de Linguagem Natural
https://t.me/kakashi_copiador
[FIM]PROCESSAMENTO DE LINGUAGEM
NATURAL - INTRODUÇÃO
Prof. Erick
Muzart
https://t.me/kakashi_copiador
PLN: TAREFAS TÍPICAS
Prof. Erick
Muzart
https://t.me/kakashi_copiador
https://t.me/kakashi_copiador
❑ Classificação de texto
❑ Análise de sentimento
❑ Pareamento de entidades: reconhecimento + desambiguação [pareamento de
dados]
❑ Reconhencimento de fala (transcrição)
❑ Identificação de idioma
❑ Análise gramatical: Part-of-Speech (POS), correção, resolução de coreferência,
❑ Extração de informação
❑ Semântico: similaridade, análise, identificação de papeis e relações
❑ Modelagem de conhecimento: bom senso, conhecimento sobre o mundo
❑ Geração: paráfrase, tradução, respota a pergunta, resumo (sumarização), diálogo
(chatbots)PLN - tarefas
Prof. Erick Muzart
PLN: tarefas típicas
nlpprogress.com
https://t.me/kakashi_copiador
❑ Aplicações cada vez mais frequentes no mundo real: corretores de texto,
tradução automática, assistentes digitais, chatbots, geração automática de
texto...
❑ Melhoria “explosiva” de PLN nos últimos 4 anos!
Deep Learning, transferência de aprendizado, multi-tarefas: Elmo, ULMFiT,
BERT, GPT-3, Turing...
Ver módulo ‘Estado da Arte’ para resultados de máxima qualidade!
PLN - Tarefas
Prof. Erick Muzart
PLN - Resultados
https://t.me/kakashi_copiador
Um Analista necessita desenvolver uma aplicação chatbot que simula um ser humano na conversação
com as pessoas. Para isso o Analista deve usar pesquisa em Processamento de Linguagem Natural –
PLN que envolve três aspectos da comunicação, quais sejam,
A - Som, ligado à fonologia, Estrutura que consiste em análises morfológica e sintática e Significado
que consiste em análises semântica e pragmática.
B - Áudio, ligado à fonologia, Estrutura que consiste em análises de línguas estrangeiras e Significado
que consiste em análises semântica e pragmática.
C - Conversação, ligado à tecnologia de chatbot, Semântica que consiste em análises de línguas
estrangeiras e Arquitetura Spelling que realiza as análises sintática e pragmática.
D - Business Intelligence, ligado à tecnologia OLAP, Mining que consiste em análises de línguas em
geral e Spelling que realiza as funções de chatbot.
E - Áudio, ligado à fonologia, Estrutura que consiste em análises semântica e pragmática e Significado
que consiste em análise das línguas em geral.
Extras
Prof. Erick Muzart
FCC/TRF4/2019
https://t.me/kakashi_copiador
Um Analista necessita desenvolver uma aplicação chatbot que simula um ser humano na conversação
com as pessoas. Para isso o Analista deve usar pesquisa em Processamento de Linguagem Natural –
PLN que envolve três aspectos da comunicação, quais sejam,
A - Som, ligado à fonologia, Estrutura que consiste em análises morfológica e sintática e Significado
que consiste em análises semântica e pragmática.
B - Áudio, ligado à fonologia, Estrutura que consiste em análises de línguas estrangeiras e Significado
que consiste em análises semântica e pragmática.
C - Conversação, ligado à tecnologia de chatbot, Semântica que consiste em análises de línguas
estrangeiras e Arquitetura Spelling que realiza as análises sintática e pragmática.
D - Business Intelligence, ligado à tecnologia OLAP, Mining que consiste em análises de línguas em
geral e Spelling que realiza as funções de chatbot.
E - Áudio, ligado à fonologia, Estrutura que consiste em análises semântica e pragmática e Significado
que consiste em análise das línguas em geral.
Extras
Prof. Erick Muzart
FCC/TRF4/2019
https://t.me/kakashi_copiador
A respeito de inteligência artificial, julgue o item seguinte.
Aplicações de reconhecimento de voz fazem a transcrição de um áudio para texto diretamente, sem a
necessidade de nenhum modelo intermediário.
Certo
Errado
Extras
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
https://t.me/kakashi_copiador
A respeito de inteligência artificial, julgue o item seguinte.
Aplicações de reconhecimento de voz fazem a transcrição de um áudio para texto diretamente, sem a
necessidade de nenhum modelo intermediário.
Certo
Errado
Pergunta fraca que consiste em assimilar uma afirmação dentro de um contexto e momento histórico de
desenvolvimento científico como se fosse um fato absoluto e imutável!
Tradicionalmente, os modelos de reconhecimento de voz passavam por uma etapa de modelagem
acústica/fonética com reconhecimento de fonemas por um modelo Hidden Markov para então serem
identificadas as palavras correspondentes mais prováveis por um modelo de linguagem.
Mas, desde 2014 foram desenvolvidos sistemas ponto a ponto em redes neurais profundas, que aprendem
conjuntamente todas as etapas de um reconhecimento de fala, sem modelo intermediário:
https://arxiv.org/abs/1610.03035
https://arxiv.org/pdf/2106.07447.pdf https://github.com/syhw/wer_are_weExtras
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
https://t.me/kakashi_copiador
[FIM]PLN: TAREFAS TÍPICAS
Prof. Erick
Muzart
https://t.me/kakashi_copiador
REPRESENTAÇÃO DE TEXTO
Prof. Erick
Muzart
https://t.me/kakashi_copiador
❑ Texto é armazenado no computador como uma sequência de caracteres
❑ Para que texto possa ser utilizado para aproximação semântica é preciso
representá-lo de forma a facilitar a identificação de padrões estatísticos
❑ Representações de texto, em 3 níveis crescentes de complexidade:
• conjunto (não ordenado) de palavras (categorias ou símbolos atômicos):
bag-of-words (saco de palavras)
• conjunto de vetores representando significados de uma palavra por
regularidade estatística de vizinhança com outras palavras: word embedding
vetorial
• sequências de vetores codificadas em estados de redes neurais, com
contexto: RNN, LSTM, Transformer
Representação de texto
Prof. Erick Muzart
Representação de textohttps://t.me/kakashi_copiador
❑ Em função do tipo de representação, podem ser aplicadas etapas de
pré-processamento:
- Remoção de pontuação e caracteres especiais (não tipicamente letras)
- Recorte do texto em palavras: tokenização (caracteres separados por espaços,
em português)
- Padronização de palavras com caracteres minúsculos
- Correção ortográfica e expansão de abreviações
- Substituir flexões de um mesmo radical:
• Pelo radical da palavra: stemização (stemming)
• Pela palavra base subjacente: lematização (lemmatization)
- Remoção de palavras comuns de pouco significado próprio (stop words)
Representação de texto
Prof. Erick Muzart
Pré-processamento
https://t.me/kakashi_copiador
No contexto da recuperação das informações em bancos de dados
textuais, um processo consiste em aplicar operações em uma palavra para encontrar sua raiz
gramatical, como, por exemplo: “recuperar” é raiz de “recuperação”, “recuperações”,
“recuperam” e “recuperado”. Além de ser útil para encontrar possíveis textos relevantes, esse
processo também ajuda a reduzir o tamanho da estrutura de indexação, já que diminui o número
de índices distintos e é denominado:
a) sheering
b) sweeping
c) stemming
d) smashing
e) streaming
Extras
Prof. Erick Muzart
Funcab/MDA/2014
https://t.me/kakashi_copiador
No contexto da recuperação das informações em bancos de dados
textuais, um processo consiste em aplicar operações em uma palavra para encontrar sua raiz
gramatical, como, por exemplo: “recuperar” é raiz de “recuperação”, “recuperações”,
“recuperam” e “recuperado”. Além de ser útil para encontrar possíveis textos relevantes, esse
processo também ajuda a reduzir o tamanho da estrutura de indexação, já que diminui o número
de índices distintos e é denominado:
a) sheering
b) sweeping
c) stemming
d) smashing
e) streaming
Extras
Prof. Erick Muzart
Funcab/MDA/2014
https://t.me/kakashi_copiador
Em sistemas de Recuperação de Informação, os termos de indexação podem ser extraídos
diretamente do texto dos documentos, fornecendo uma visão lógica dos documentos. Assinale a
alternativa que apresenta corretamente uma das operações realizadas para obter as palavras-chaves.
A - No processo de reconhecimento da estrutura, ocorre a análise léxica e a remoção de palavras sem
semântica associada.
B - O processo de quebra do texto em palavras (tokenização) é dependente da stoplist, um dicionário
próprio aplicado à separação das palavras.
C - A classificação de grupos nominais visa a identificação dos verbos e remoção das demais palavras,
através de listas de palavras, etiquetadores automáticos e um thesaurus da língua ou do domínio.
D - Acentos, espaçamento e demais símbolos são delimitadores considerados naturais no processo de
stemming.
E - O processo de stemming consiste em remover os afixos, preservando o radical e possibilitando o
casamento entre variações de uma mesma palavra.
Extras
Prof. Erick Muzart
NC-UFPR/Itaipu/2018
https://t.me/kakashi_copiador
Em sistemas de Recuperação de Informação, os termos de indexação podem ser extraídos
diretamente do texto dos documentos, fornecendo uma visão lógica dos documentos. Assinale a
alternativa que apresenta corretamente uma das operações realizadas para obter as palavras-chaves.
A - No processo de reconhecimento da estrutura, ocorre a análise léxica e a remoção de palavras sem
semântica associada.
B - O processo de quebra do texto em palavras (tokenização) é dependente da stoplist, um dicionário
próprio aplicado à separação das palavras.
C - A classificação de grupos nominais visa a identificação dos verbos e remoção das demais palavras,
através de listas de palavras, etiquetadores automáticos e um thesaurus da língua ou do domínio.
D - Acentos, espaçamento e demais símbolos são delimitadores considerados naturais no processo de
stemming.
E - O processo de stemming consiste em remover os afixos, preservando o radical e possibilitando o
casamento entre variações de uma mesma palavra.
Extras
Prof. Erick Muzart
NC-UFPR/Itaipu/2018
https://t.me/kakashi_copiador
Com relação a banco de dados textuais, julgue os itens seguintes.
Stop words integram uma lista universal de palavras utilizadas para identificar as paradas ou finais de
textos, de modo a auxiliar na análise semântica.
Certo ou Errado
Extras
Prof. Erick Muzart
Cespe/MEC/2015
https://t.me/kakashi_copiador
Com relação a banco de dados textuais, julgue os itens seguintes.
Stop words integram uma lista universal de palavras utilizadas para identificar as paradas ou finais de
textos, de modo a auxiliar na análise semântica.
Certo ou Errado
Extras
Prof. Erick Muzart
Cespe/MEC/2015
https://t.me/kakashi_copiador
81 Stop-words constituem um conjunto de palavras que proporcionam pouca informação para o
significado de uma frase.
Certo ou Errado?
Classificação
Prof. Erick Muzart
Cebraspe/Petrobras/2021
https://t.me/kakashi_copiador
81 Stop-words constituem um conjunto de palavras que proporcionam pouca informação para o
significado de uma frase.
Certo ou Errado?
Classificação
Prof. Erick Muzart
Cebraspe/Petrobras/2021
https://t.me/kakashi_copiador
[FIM]REPRESENTAÇÃO DE TEXTO
Prof. Erick
Muzart
https://t.me/kakashi_copiador
VETORIZAÇÃO (SEM CONTEXTO)
Prof. Erick
Muzart
https://t.me/kakashi_copiador
❑ Técnica mais simples para transformar texto em sequência de atributos
numéricos (vetorização): cada palavra torna-se uma variável e conta-se o
número de ocorrências no texto
"Sou como você me vê. Posso ser leve como uma brisa ou forte como uma
ventania, depende de quando e como você me vê passar.” Clarice Lispector
['brisa’, 'como’, 'como’, 'como’, 'como’, 'de’, 'depende’, 'e’, 'forte’, 'leve', 'me’,
'me’, 'ou’, 'passar’, 'posso’, 'quando', 'ser', 'sou', 'uma', 'uma', 'ventania’, 'você',
'você', 'vê', 'vê’] -> tokenização
Matriz de co-ocorrência
Bag-of-words
Prof. Erick Muzart
Bag-of-words (BoW)
brisa como de depende ... você vê
Texto1 1 4 1 1 2 2
Texto2 0 2 2 0 3 0
Texto3 0 0 1 1 1 0
https://t.me/kakashi_copiador
❑ Em vez de apenas contar as ocorrências de palavras no BoW, podemos dividir
pelo número de palavras de cada texto e obter assim a frequência de cada
palavra para cada texto: Term Frequency: TF (t, d)
❑ É de se esperar que as palavras de maior frequência sejam conectores sem
muito significado, como as palavras stopwords.
❑ Para reduzir o valor numérico dessas palavras e destacar palavras mais
relevantes para cada documento, podemos dividir cada valor pelo inverso da
frequência do termo no conjunto dos documentos: Inverse Document
Frequency: IDF(t)
❑ TF-IDF = TF (t, d) x IDF(t) = TF (t, d) x log (n/df(t))
❑ Frequentemente, elimina-se do vocabulário palavras com baixo tf-idf, o que
geralmente elimina ou reduz a importância das stopwords
Tf-idf
Prof. Erick Muzart
TF-IDF
https://t.me/kakashi_copiador
Tf-idf
Prof. Erick Muzart
TF-IDF
brisa
1/3
como
2/3
de
3/3
depende
2/3
.
.
.
você
3/3
Vê
1/3
Texto1 1/6 4/6 1/6 1/6 2/6 2/6
Texto2 0 2/3 2/3 0 3/3 0
Texto3 0 0 1/3 1/3 1/3 0
Matriz com a contagem de termos
Matriz com as frequências de termos em
cada texto
Matriz dividida pela frequência de
ocorrência de termo no conjunto dos
textos (corpus)
brisa como de depende ... você vê
Texto1 1 4 1 1 2 2
Texto2 0 2 2 0 3 0
Texto3 0 0 1 1 1 0
brisa
1/3
como
2/3
de
3/3
depende
2/3
.
.
.
você
3/3
Vê
1/3
Texto1 3/6 12/12 1/6 3/12 2/6 6/6
Texto2 0 6/6 2/3 0 3/3 0
Texto3 0 0 1/3 3/6 1/3 0
https://t.me/kakashi_copiador
Tf-idf
Prof. Erick Muzart
TF-IDF
Matriz com a contagem de termos
Matriz TF-IDF (aproximadamente, pois não
aplicamos o log)
Assim, valores elevados correspondem a
palavras significativas para aquele documento,
por aparecer com frequência mais elevada do
que no conjunto dos demais documentos.
Essa importância relativa das palavras pode
então ser utilizada para classificar cada
documento!
brisa como de depende ... você vê
Texto1 1 4 1 1 2 2
Texto2 0 2 20 3 0
Texto3 0 0 1 1 1 0
brisa como de depende .. você vê
Texto1 1/2 1 1/6 1/4 1/3 1
Texto2 0 1 2/3 0 1 0
Texto3 0 0 1/3 1/2 1/3 0
https://t.me/kakashi_copiador
Em relação a banco de dados textual é correto afirmar:
A - nos arquivos invertidos, o vocabulário é uma estrutura de busca contendo todos os termos
existentes, de forma não indexada.
B - Stop Words é uma matriz onde cada linha representa um documento e cada coluna representa um
termo.
C - BOW (Bag of Words) é o processo em que substantivos, adjetivos, pronomes e verbos são
reduzidos aos seus radicais.
D - leitura, extração, contagem e cálculo de frequência dos termos, são etapas típicas do método
Stemming.
E - índices para a próxima palavra é um dos métodos principais de busca por frases em bancos
textuais.
Extras
Prof. Erick Muzart
FCC/TRE-RN/2011
https://t.me/kakashi_copiador
Em relação a banco de dados textual é correto afirmar:
A - nos arquivos invertidos, o vocabulário é uma estrutura de busca contendo todos os termos
existentes, de forma não indexada.
B - Stop Words é uma matriz onde cada linha representa um documento e cada coluna representa um
termo.
C - BOW (Bag of Words) é o processo em que substantivos, adjetivos, pronomes e verbos são
reduzidos aos seus radicais.
D - leitura, extração, contagem e cálculo de frequência dos termos, são etapas típicas do método
Stemming.
E - índices para a próxima palavra é um dos métodos principais de busca por frases em bancos
textuais.
Extras
Prof. Erick Muzart
FCC/TRE-RN/2011
https://t.me/kakashi_copiador
83 Suponha que a palavra amor ocorra 1.000 vezes no último livro escrito por certo autor, que
escreveu, no total, 10 livros.
Nesse caso, se a palavra amor for encontrada em todos os livros desse autor, então o valor do
TF-IDF (term frequency inverse document frequency) referente à palavra amor no último livro
escrito será igual a 1/1.000.
Certo ou Errado?
Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
83 Suponha que a palavra amor ocorra 1.000 vezes no último livro escrito por certo autor, que
escreveu, no total, 10 livros.
Nesse caso, se a palavra amor for encontrada em todos os livros desse autor, então o valor do
TF-IDF (term frequency inverse document frequency) referente à palavra amor no último livro
escrito será igual a 1/1.000.
Certo ou Errado?
Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Questão 83 A fórmula para o cálculo tf-idf é: TF-IDF = TF (t, d) x IDF(t)
Onde TF é “term frequency” ou o número de vezes em que a palavra t aparece no documento d
IDF é “inverse document frequency” ou o inverso da frequência de documento, na fórmula:
log (n/df(t)), com n o número de documentos e df(t) o número de documentos que contém a palavra t.
Com os dados do enunciado temos: TF(‘amor’, d) = 1000, n = 10 e df(d, ‘amor’) = 10 (pois todos os 10
documentos possuem a palavra ‘amor’).
Assim, temos: TF-IDF = 1000 * (log (10/10)) = 1000 * 0 TF-IDF = 0
Nessa questão, acredito que não era necessário fazer o cálculo exato com o log, mas apenas entender que o número
de ocorrências da palavra ‘amor’ estaria no numerador e não no denominador do TF-IDF e portanto que não
poderia ser 1/1000 como na afirmativa!
Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
83 Suponha que a palavra amor ocorra 1.000 vezes no último livro escrito por certo autor, que
escreveu, no total, 10 livros.
Nesse caso, se a palavra amor for encontrada em todos os livros desse autor, então o valor do
TF-IDF (term frequency inverse document frequency) referente à palavra amor no último livro
escrito será igual a 1/1.000.
Certo ou Errado?
Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
[FIM]VETORIZAÇÃO (SEM CONTEXTO)
Prof. Erick
Muzart
https://t.me/kakashi_copiador
REPRESENTAÇÕES COM N-GRAMAS
Prof. Erick
Muzart
https://t.me/kakashi_copiador
❑ Um (dos múltiplos) defeitos de BoW e TF-IDF é que eles não capturam o
contexto de ocorrência de uma palavra, que pode modificar totalmente seu
sentido! Ex: “cachorro” e “cachorro quente”
❑ N-gramas permitem captar contexto reunindo tokens vizinhos como se
fossem um única unidade.
❑ "Sou como você me vê. Posso ser...” com bigramas (N=2):
“Sou como”, “como você”, “você me”, “me vê”, “vê posso”...
N-gramas
Prof. Erick Muzart
N-gramas
brisa como de depende ... você vê sou
como
como
você
você
me
me
vê
vê
posso
T1 1 4 1 1 2 2 1 1 1 1 1
T2 0 2 2 0 3 0 0 1 0 0 0
T3 0 0 1 1 1 0 0 0 0 0 0
https://t.me/kakashi_copiador
❑ "Sou como você me vê. Posso ser...”
trigramas (N=3): “Sou como você”, “como você me”, “você me vê”, “me vê posso”...
4-gramas: “Sou como você me”, “como você me vê”, “você me vê posso”...
❑ Assim, reforçamos nosso modelo construído por tokens sem qualquer ordem, com
expressões adicionais que trazem uma sequência das palavras originais.
❑ Isso permite trazer um pouco de contexto àquilo que seriam palavras isoladas na
sacola de palavras (BoW)
❑ O uso de n-gramas tem o defeito de aumentar muito o tamanho do vocabulário, com
expressões de baixa frequência (em relação às palavras contidas na expressão).
N-gramas
Prof. Erick Muzart
N-gramas
https://t.me/kakashi_copiador
[FIM]REPRESENTAÇÕES COM N-GRAMAS
Prof. Erick
Muzart
https://t.me/kakashi_copiador
CLASSIFICAÇÃO DE TEXTOS
Prof. Erick
Muzart
https://t.me/kakashi_copiador
❑ Uma vez construída uma representação vetorial do texto, seja com
bag-of-words seja com tf-idf, a matriz numérica resultante pode ser utilizada
como dado de entrada para qualquer algoritmo de ML visto anteriormente;
inclusive de forma supervisionada com target categórico, ou seja, para
classificação!
Classificação
Prof. Erick Muzart
Classificação de texto
https://t.me/kakashi_copiador
❑ Assim, tudo o que vimos anteriormente em ML geral aplica-se diretamente
no contexto de NLP:
• validação e avaliação por separação treino-teste
• underfitting/overfitting
• regularização, otimização de hiperparâmetros
• redução de dimensionalidade
• modelos: lineares, árvores de decisão, redes neurais, naive Bayes...
Classificação
Prof. Erick Muzart
Classificação de texto
https://t.me/kakashi_copiador
❑ A classificação de texto baseada em atributos BoW ou tf-idf acaba
identificando padrões estatísticos nas ocorrências de palavras (ou expressões
n-gramas) associadas à categoria de interesse
❑ Assim, o modelo pode descobrir a existência de associações fortes de
algumas palavras com alguma classem, que podem então ser
extraídas/interpretadas
❑ Como textos possuem vocabulários com grande número de palavras, a
matriz com esses dados é de alta dimensionalidade e pode assim se
beneficiar de um tratamento para reduzir o tamanho desse vocabulário. Cf
redução de dimensionalidade
Classificação
Prof. Erick Muzart
Classificação de texto
https://t.me/kakashi_copiador
❑ Treinar um classificador de texto simples com TF-IDF pode ser feito em
poucas linhas utilizando funções disponíveis na biblioteca sklearn:
Classificação
Prof. Erick Muzart
Classificação de texto
https://t.me/kakashi_copiador
❑ O limitante para treinar um classificador de texto costuma ser a
disponibilidade de anotações em quantidade suficiente.
❑ Modelos simples como regressão logística ou árvore de decisão treinados
sobre textos vetorizados por BoW ou tf-idf costumam dar bons resultados
para tarefas simples mesmo com poucos dados.
❑ Para tarefas mais complexas, que requerem aproximar noções semânticas
mais sutis, pode-se utilizar modelos mais complexos de Deep Learning,
treinados com quantidades muito maiores de dados ou utilizando
transferência de aprendizado (transfer learning)
Classificação
Prof. Erick Muzart
Classificação de texto
https://t.me/kakashi_copiador
❑ Classificação de ementas jurisprudenciais do TCU em 4 temas principais
('Pessoal', 'Licitação', 'Responsabilidade','Direito_Processual’):
96% de acurácia, com 10k textos extraídos de
https://pesquisa.apps.tcu.gov.br/#/pesquisa/jurisprudencia-selecionada
Classificação
Prof. Erick Muzart
Classificação de texto - exemplo
https://t.me/kakashi_copiador
❑ Análise de sentimento a partir de texto nada mais é do que um caso
particular de classificação com apenas 2 ou 3 classes, que refletem o
sentimento, positivo, negativo ou neutro de um texto
❑ Para evitar anotar manualmente um grande conjunto de textos em relação ao
sentimento expresso, procura-se gerar essas anotações a partir de dados que
já tenham alguma avaliação. Ex: resenhas associadas a notas de avaliação:
IMDB para filmes, Yelp para restaurantes, Amazon para livros
❑ Interpretando a importância de atributos de uma árvore de decisão ou
regressão logística treinada sobre um dataset de texto associado a
sentimento, verifica-se, sem maior surpresa, que palavras tipicamente
positivas (ótimo, maravilha...) tornam-se associadas à classe positiva e
inversamente para palavras negativas (péssimo, horrível...)Classificação
Prof. Erick Muzart
Análise de sentimento
https://t.me/kakashi_copiador
A escolha de qual modelo deve-se usar para se analisar um
conjunto de dados depende do domínio do problema analisado. Acerca dessa escolha de
modelos, na análise de dados no domínio de textos em linguagem natural, é correto afirmar que
A - n-grams são modelos muito utilizados por serem simples e, em geral, produzirem bons
resultados.
B - bag-of-words é considerado um modelo complexo quando comparado com outros de análise
de texto, sendo de difícil implementação.
C - textos em linguagem natural não podem ser analisados, pois são compostos de letras e não
números.
D - o modelo TFIDF produz bons resultados, mas não pode ser usado para classificação.
E - redes neurais não podem ser utilizadas no domínio de texto.
Extras
Prof. Erick Muzart
Iades/Apex/2018
https://t.me/kakashi_copiador
A escolha de qual modelo deve-se usar para se analisar um
conjunto de dados depende do domínio do problema analisado. Acerca dessa escolha de
modelos, na análise de dados no domínio de textos em linguagem natural, é correto afirmar que
A - n-grams são modelos muito utilizados por serem simples e, em geral, produzirem bons
resultados.
B - bag-of-words é considerado um modelo complexo quando comparado com outros de análise
de texto, sendo de difícil implementação.
C - textos em linguagem natural não podem ser analisados, pois são compostos de letras e não
números.
D - o modelo TFIDF produz bons resultados, mas não pode ser usado para classificação.
E - redes neurais não podem ser utilizadas no domínio de texto.
Extras
Prof. Erick Muzart
Iades/Apex/2018
https://t.me/kakashi_copiador
Prof. Erick Muzart
FGV/TCU/2021
https://t.me/kakashi_copiador
Prof. Erick Muzart
FGV/TCU/2021
TF-IDF = TF (t, d) x IDF(t)
Onde TF é “term frequency” ou o número de
vezes em que a palavra t aparece no
documento d
IDF é “inverse document frequency” ou o
inverso da frequência de documento, na
fórmula: log (n/df(t)), com n o número de
documentos e df(t) o número de
documentos que contém a palavra t.
Cada texto texto tem 11 palavras
IDF(rosas) = log(2/2) = log(1) = 0
IDF(choram) = IDF(sorriem) = log(2/1) =
log(2)
Alternativa (C)
https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransfo
rmer.html
ocorrrên
cias
rosas choram sorriem
A 1 1 0
B 1 0 1
frequên
cias
rosas choram sorriem
A 1/11 1/11 0
B 1/11 0 1/11
TF-IDF rosas choram sorriem
A 0 (log 2)/11 0
B 0 0 (log 2)/11
https://t.me/kakashi_copiador
[FIM]CLASSIFICAÇÃO DE TEXTOS
Prof. Erick
Muzart
https://t.me/kakashi_copiador
MODELAGEM DE TÓPICOS LATENTES
Prof. Erick
Muzart
https://t.me/kakashi_copiador
❑ Lembram o que falamos de redução de dimensionalidade no módulo anterior
de ML? (cf. PCA)
❑ Podemos aplicar PCA em PLN sobre a matriz de ocorrência de palavras, ou
matriz Termo-Documento, para identificar “dimensões de variação de
palavras” que irão compor “tópicos” com alguma semântica comum!
❑ Hipótese distribuitiva: palavras de semântica similar aparecem em contextos
similares, ou seja, rodeadas pelo mesmo conjunto de palavras!
Semântica vetorial
Prof. Erick Muzart
Redução de dimensionalidade - PLN
https://t.me/kakashi_copiador
❑ Modelagem de tópicos: tecnicas não supervisionadas que permitem extrair
“tópicos” a partir das palavras dos textos e grupar os textos nesses tópicos
❑ “Tópicos” obtidos por modelagem: conjuntos de palavras que ocorrem
frequentemente juntas e mais raramente com outros conjuntos de palavras.
Tópicos latentes
Prof. Erick Muzart
Modelagem de tópicos latentes
❑ Ex: tópicos extraídos de corpus de
matérias jornalísticas
https://t.me/kakashi_copiador
❑ Utiliza representação de texto como saco de palavras (BoW) transformado
em frequências tf-idf
❑ Duas formas mais comuns de modelagem de tópicos:
• Latent Semantic Analysis (LSA)
• Latent Dirichlet Allocation (LDA)
Tópicos latentes
Prof. Erick Muzart
Modelagem de tópicos latentes
https://t.me/kakashi_copiador
❑ LSA é a aplicação de PCA à matriz documento-termo (tf-idf) como redução
de dimensionalidade do espaço de palavras para um espaço menor de tópicos
(composição de termos)
Tópicos latentes
Prof. Erick Muzart
Latent Semantic Analysis (LSA)
https://t.me/kakashi_copiador
❑ Matrix documento-termo decomposta, por SVD (Singular Value
Decomposition), em um produto de 3 matrizes U x D x Vt
U: matriz documento-tópico
D: matriz diagonal da importância de um tópico em um documento
Vt: matriz termo-tópico
Tópicos latentes
Prof. Erick Muzart
Latent Semantic Analysis (LSA)
https://t.me/kakashi_copiador
❑ Seleciona-se os t valores mais elevados da matriz D (truncated SVD), que
serão os tópicos principais extraídos do corpus.
❑ t é a dimensão da projeção do espaço de palavras para o espaço de tópicos
principais
Tópicos latentes
Prof. Erick Muzart
Latent Semantic Analysis (LSA)
https://t.me/kakashi_copiador
❑ Paper de 2003: https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf
❑ Atribui a cada palavra (termo) uma probabilidade de compor um tópico
❑ LDA procura identificar a composição de tópicos presentes em um
documento
Tópicos latentes
Prof. Erick Muzart
Latent Dirichlet Allocation (LDA)
https://t.me/kakashi_copiador
❑ LSA não assume qualquer pressuposto quanto à distribuição probabilística
de tópicos em documentos. Modelo pouco interpretável
❑ LDA assume que a distribuição de tópicos em documentos segue uma
distribuição probabilística específica, de Dirichlet
❑ Hyperparâmetros LDA:
• alpha: influencia na quantidade de tópicos por documento
• beta: influencia na quantidade de palavras por tópico (similaridade entre
tópicos)
• Número de tópicos procurados
Tópicos latentes
Prof. Erick Muzart
Diferenças LSA - LDA
https://t.me/kakashi_copiador
LDA
Prof. Erick Muzart
FGV/TCU/2021
Um analista do TCU gostaria de aplicar um modelo de Latent
Dirichlet Allocation (LDA) em um conjunto de textos.
A alternativa que melhor descreve o resultado do modelo é:
(A) uma lista de tópicos, cada um com um título diferente;
(B) uma lista das palavras mais importantes no conjunto de
documentos;
(C) cada documento é classificado em somente um tópico, onde
cada tópico é formado por uma lista de palavras;
(D) cada documento possui uma distribuição de probabilidade de
pertencer a algum dos tópicos, onde cada tópico é formado por
uma lista de palavras e cada palavra pertence a somente um tópico;
(E) cada documento possui uma distribuição de probabilidade de
pertencer a algum dos tópicos, onde cada tópico é formado por
uma distribuição de probabilidade sobre todas as palavras
presentes nos documentos.
https://t.me/kakashi_copiador
LDA
Prof. Erick Muzart
FGV/TCU/2021
LDA:
- tópico: distribuição de probabilidade sobre o
vocabulário -> lista de palavras +importantes
- Cada documento é uma “mistura” (distr. prob)
de múltiplostópicos
- todas as palavras tem algum peso para todos os
tópicos; uma mesma palavra pode ser
importante para múltiplos tópicos
- tópicos não possuem “título” próprio; um título
pode ser atribuído por compreensão de temas
comuns a múltiplas palavras importantes que
compõem um tópico
- Resultado LDA: 2 matrizes: tópico x palavras e
tópico x documentos
Um analista do TCU gostaria de aplicar um modelo de Latent
Dirichlet Allocation (LDA) em um conjunto de textos.
A alternativa que melhor descreve o resultado do modelo é:
(A) uma lista de tópicos, cada um com um título diferente;
(B) uma lista das palavras mais importantes no conjunto de
documentos;
(C) cada documento é classificado em somente um tópico, onde
cada tópico é formado por uma lista de palavras;
(D) cada documento possui uma distribuição de probabilidade
de pertencer a algum dos tópicos, onde cada tópico é formado
por uma lista de palavras e cada palavra pertence a somente
um tópico;
(E) cada documento possui uma distribuição de probabilidade
de pertencer a algum dos tópicos, onde cada tópico é formado
por uma distribuição de probabilidade sobre todas as palavras
presentes nos documentos.
https://t.me/kakashi_copiador
[FIM]MODELAGEM DE TÓPICOS LATENTES
Prof. Erick
Muzart
https://t.me/kakashi_copiador
SEMÂNTICA VETORIAL
Prof. Erick
Muzart
https://t.me/kakashi_copiador
❑ Cada texto foi representado como um vetor de números correspondentes a
frequências de palavras
❑ Mostramos a representação de texto por Bag-of-Words seguida por
transformação de frequência tf-idf gerando matriz Termo-Documento
❑ Problemas: alta dimensionalidade, muitos valores nulos e sem representação
semântica das palavras.
Semântica vetorial
Prof. Erick Muzart
Semântica vetorial
brisa como de depende ... você vê
Texto1 1/2 1 1/6 1/4 1/3 1
Texto2 0 1 2/3 0 1 0
Texto3 0 0 1/3 1/2 1/3 0
❑ Como adaptar essa ideia de
representação por vetor de números
de tal forma que reflita a semântica
de uma palavra?
https://t.me/kakashi_copiador
❑ Gostaríamos que cada palavra fosse representada por um vetor de números de tal
forma que palavras sinônimas tivessem vetores próximos em termos de distância!
❑ Como representar similaridade semântica entre palavras? O que palavras similares
teriam em comum, numa perspectiva estatística?
Semântica vetorial
Prof. Erick Muzart
Semântica vetorial
https://t.me/kakashi_copiador
❑ Contexto!
❑ “Você conhecerá uma palavra pela companhia que mantém.” JR Firth
❑ Definir significado de palavra pelo contexo, de outras palavras, em que se
encontra!
Semântica vetorial
Prof. Erick Muzart
Semântica vetorial
https://t.me/kakashi_copiador
Olhou pela _____ do carro
❑ Possíveis opções: janela, porta, abertura…
❑ As palavras que “cabem semânticamente” nesse espaço são as palavras que
ocorrerão mais frequentemente nesse contexto de uso, definindo assim,
indiretamente, palavras que são similares ou intercambiáveis. (CBOW)
❑ Daí podemos concluir que “janela”, “porta” e “abertura” devem ter significados
próximos por aparecerem em contextos similares, formados por mesmas palavras
Semântica vetorial
Prof. Erick Muzart
Semântica vetorial
https://t.me/kakashi_copiador
❑ Word Embedding: “embutir” palavras em um espaço vetorial numérico
❑ Usa-se uma arquitetura de rede neural para prever palavras de contexto a partir de
palavras alvo
❑ Word2Vec: cbow ou skip-gram
Semântica vetorial
Prof. Erick Muzart
Word Embedding
https://t.me/kakashi_copiador
❑ A partir da palavra central
“janela”, procura-se prever as
palavras de contexto: “Olhou pela
_____ do carro”
ref: https://arxiv.org/pdf/1301.3781.pdf Mikolov
Semântica vetorial
Prof. Erick Muzart
Skip-Gram
https://t.me/kakashi_copiador
❑ Inverso do skip-gram, a partir do
contexto: “Olhou pela _____ do carro”
procura-se prever o termo central “janela”
ref: https://arxiv.org/pdf/1301.3781.pdf Mikolov
Semântica vetorial
Prof. Erick Muzart
CBoW
https://t.me/kakashi_copiador
❑ Skip-gram: funciona bem até com poucos dados de treino, representa bem até
palavras pouco frequentes.
❑ CBOW: treinamento muito mais rápido do que skip-gram, acurácia levemente
melhor para palavras frequentes.
❑ Janela de contexto: skip-gram cerca de 10; CBOW cerca de 5
Semântica vetorial
Prof. Erick Muzart
CBOW x Skip-gram
https://t.me/kakashi_copiador
❑ Arquitetura de rede neural para prever palavras de contexto a partir de
palavras alvo (skip-gram)
Semântica vetorial
Prof. Erick Muzart
Word Embedding
https://t.me/kakashi_copiador
Semântica vetorial
Prof. Erick Muzart
Word2Vec
https://medium.com/@hari4om/word-embedding-d816f643140
https://t.me/kakashi_copiador
❑ Tendo poucos dados para uma tarefa específica de NLP, pode-se utilizar
embeddings já existentes, adaptando-os para sua aplicação!
❑ Principais métodos: Word2Vec (2013), GloVe (2014), Wang2Vec (2015) e
FastText (2016)
❑ Versões pré-treinadas em português: NILC-Embeddings e CoNLL17
https://www.davidsbatista.net/blog/2019/11/03/Portuguese-Embeddings/
http://www.nilc.icmc.usp.br/embeddings
Semântica vetorial
Prof. Erick Muzart
Word Embedding pré-treinados
https://t.me/kakashi_copiador
MODELOS DE SEQUÊNCIA
Prof. Erick
Muzart
https://t.me/kakashi_copiador
82 O CBOW é um modelo de aprendizado de máquina desenhado para prever contexto com base
em determinada palavra
Certo ou Errado?
Word Embedding
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
82 O CBOW é um modelo de aprendizado de máquina desenhado para prever contexto com base
em determinada palavra
Certo ou Errado?
Word Embedding
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
82 O CBOW é um modelo de aprendizado de máquina desenhado para prever contexto com base
em determinada palavra
Certo ou Errado?
Word Embedding
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
82 O CBOW é um modelo de aprendizado de máquina desenhado para prever contexto com base
em determinada palavra
Certo ou Errado?
Aqui o correto seria skip-gram e não CBoW!
Word Embedding
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
https://t.me/kakashi_copiador
Uma organização está implementando um sistema de busca de informações interno, e a equipe de
desenvolvimento resolveu avaliar diferentes modelos de linguagem vetoriais que ajudariam a conectar
melhor documentos e consultas em departamentos que usam terminologias distintas em áreas de
negócio que se sobrepõem. Um dos analistas ressaltou que seria interessante guardar os vetores de
todo o vocabulário do modelo em um cache, de forma a aumentar a eficiência de acesso e reduzir certos
custos de implantação. Das alternativas abaixo, aquela que lista apenas os modelos compatíveis com
essa estratégia de caching é:
(A) TF-IDF, BERT;
(B) Word2Vec, BERT, GPT-2;
(C) GloVe, GPT-2;
(D) Word2Vec, GloVe;
(E) GPT-2, BERT.
Word Embedding
Prof. Erick Muzart
FGV/TCU/2021
https://t.me/kakashi_copiador
Uma organização está implementando um sistema de busca de informações interno, e a equipe de
desenvolvimento resolveu avaliar diferentes modelos de linguagem vetoriais que ajudariam a conectar
melhor documentos e consultas em departamentos que usam terminologias distintas em áreas de
negócio que se sobrepõem. Um dos analistas ressaltou que seria interessante guardar os vetores de
todo o vocabulário do modelo em um cache, de forma a aumentar a eficiência de acesso e reduzir certos
custos de implantação. Das alternativas abaixo, aquela que lista apenas os modelos compatíveis com
essa estratégia de caching é:
(A) TF-IDF, BERT;
(B) Word2Vec, BERT, GPT-2;
(C) GloVe, GPT-2;
(D) Word2Vec, GloVe;
(E) GPT-2, BERT.
Word Embedding
Prof. Erick Muzart
FGV/TCU/2021
Dicionário estático de palavra para vetor semântico: Word2Vec e
GloVe, FastText
TF-IDF não utiliza representação vetorial para palavras, mas
textos
BERT e GPT-2 são modelos sequenciais que utilizam
Transformers paraadaptar a representação vetorial das palavras
pelo contexto de outras palavras no qual se encontra. Assim, esses
vetores para palavras não são constantes
https://t.me/kakashi_copiador
[FIM]SEMÂNTICA VETORIAL
Prof. Erick
Muzart
https://t.me/kakashi_copiador
PLN: ESTADO DA ARTE
Prof. Erick
Muzart
https://t.me/kakashi_copiador
❑ GLUE e SuperGLUE: meta benchmark composto por 11 tarefas
padronizadas de compreensão de linguagem:
- CoLA: reconhecer frases gramaticalmente bem formadas
- SST-2: análise de sentimento sobre resenhas de filmes
- MRPC e QQP: equivalência semântica entre frases
- STS-B: grau de similaridade semântica entre frases
- MNLI: inferência lógica entre premissa e hipótese
- QNLI: perguntas e respostas
- WNLI: desambiguação de pronomes
PLN – Estado da Arte
Prof. Erick Muzart
PLN - Benchmark
https://t.me/kakashi_copiador
B
en
ch
m
ar
k
Su
pe
rG
L
U
E
nlpprogress.com
https://t.me/kakashi_copiador
❑ SQuAD: Stanford Question Answering Dataset
❑ 100k perguntas criadas por crowdworkers sobre 500 artigos da
wikipedia + 50k perguntas adversariais, similares às primeiras,
mas sem resposta no texto
❑ testa a capacidade de um sistema não apenas de responder a
perguntas de compreensão de leitura, mas também de se abster
quando confrontado com uma pergunta que não pode ser
respondida com base no parágrafo fornecido.
PLN – Estado da Arte
Prof. Erick Muzart
Compreensão de texto: SQuAD
https://t.me/kakashi_copiador
SQuAD: Stanford Question Answering
Dataset
- 100k perguntas criadas por crowdworkers
sobre 500 artigos da wikipedia + 50k
perguntas adversariais, similares às
primeiras, mas sem resposta no texto
- testa a capacidade de um sistema não
apenas de responder a perguntas de
compreensão de leitura, mas também de se
abster quando confrontado com uma
pergunta que não pode ser respondida com
base no parágrafo fornecido.
PLN – Estado da Arte
Prof. Erick Muzart
Compreensão de texto:
SQuAD
https://t.me/kakashi_copiador
❑ RACE: ReAding Comprehension from English Examinations.
Conjunto de perguntas de provas de compreensão de texto em inglês para alunos
chineses do ensino médio (12 a 18 anos): 28k trechos, 100k perguntas. Ênfase em
raciocínio sobre o texto. Exemplos:
Qual seria um bom título para o trecho de texto? (Resumo)
Qual foi a atitude do autor em relação aos prêmios da indústria? (Inferência)
Qual das seguintes afirmações está errada de acordo com o texto? (Dedução)
Se o texto fosse publicado em jornal, qual seção seria a mais adequada? (Inferência)
O primeiro selo postal foi feito em ___. (Correspondência de contexto)
PLN – Estado da Arte
Prof. Erick Muzart
Compreensão de texto: RACE
https://t.me/kakashi_copiador
Era uma noite fria. O taxista não levou sequer um passageiro o dia todo. Quando ele passou
pela estação ferroviária, ele viu um jovem saindo com duas malas nas mãos. Então o taxista foi
até ele e perguntou: "aonde você está indo, senhor?" "Para o Hotel Vermelho", o jovem
respondeu. Quando o taxista ouviu isso, ele não se sentiu mais feliz. O jovem lhe daria apenas
três dólares porque o hotel ficava perto da estação de trem. Mas de repente, ele teve uma
ideia. Ele levou o jovem através de muitas ruas da cidade grande. Depois de muito tempo,
chegaram ao hotel. "Aqui estamos! Você precisa me pagar quinze dólares, por favor." O taxista
disse ao jovem. "O quê? Quinze dólares! Você acha que eu sou um tolo? Só na semana
passada, peguei um táxi da estação de trem para este hotel e só paguei doze dólares. Eu sei o
quanto eu tenho que pagar pela viagem.”
Q1: Provavelmente o motorista de taxi recebeu finalmente X dólares.
Opções: 3, 2, 12 ou 15
Q2: Qual das opções seguintes é verdadeira?
- Os dois motoristas de taxi eram ambos honestos.
- Os dois motoristas de taxi enganaram o jovem passageiro.
- É muito longe entre a estação de trem e o Hotel Vermelho.
- O jovem conhecia a distância entre a estação de trem e o Hotel Vermelho.
https://t.me/kakashi_copiador
PLN – Estado da Arte
Prof. Erick Muzart
https://t.me/kakashi_copiador
❑ RACE: ReAding Comprehension from English Examinations.
Conjunto de perguntas de provas de compreensão de texto em inglês para alunos
chineses do ensino médio (12 a 18 anos): 28k trechos, 100k perguntas. Ênfase em
raciocínio sobre o texto. Exemplos:
Qual seria um bom título para o trecho de texto? (Resumo)
Qual foi a atitude do autor em relação aos prêmios da indústria? (Inferência)
Qual das seguintes afirmações está errada de acordo com o texto? (Dedução)
Se o texto fosse publicado em jornal, qual seção seria a mais adequada? (Inferência)
O primeiro selo postal foi feito em ___. (Correspondência de contexto)
PLN – Estado da Arte
Prof. Erick Muzart
Compreensão de texto: RACE
https://t.me/kakashi_copiador
❑ Que mudança provavelmente causaria uma diminuição no número de esquilos que
vivem em uma área?
(1) uma diminuição no número de predadores
(2) uma diminuição na competição entre os esquilos
(3) aumento de alimentos disponíveis
(4) um aumento no número de incêndios florestais
PLN – Estado da Arte
Prof. Erick Muzart
AI2 Aristo: provas de ciência
https://t.me/kakashi_copiador
❑ 2016: competição DARPA, menos de 60% de acerto em provas de nível médio,
crianças de 13 anos.
❑ 2019: 90%, 13 anos, 83%, 17 anos
PLN – Estado da Arte
Prof. Erick Muzart
AI2 Aristo: provas de ciência
https://t.me/kakashi_copiador
❑ Não diretamente comparável com inteligência humana
❑ Alto desempenho nessas tarefas não comprova compreensão “profunda” ou “real”
❑ Exemplos adversariais focando compreensão de conceitos básicos frequentemente
tem baixo desempenho
PLN – Estado da Arte
Prof. Erick Muzart
Ressalvas
https://t.me/kakashi_copiador
❑ Modelo treinado unicamente para prever a próxima palavra de uma frase
❑ 40 GB de texto raspados da Internet (8 milhões de páginas Reddit)
❑ Baseado no modelo de linguagem Transformers, com 1,5 bilhão de parâmetros (10x
mais parâmetros e dados que o GTP ‘1’)
❑ Exige muito poder computacional para treinamento
❑ Acesso liberado para o GPT-3: https://beta.openai.com/playground
PLN – Estado da Arte
Prof. Erick Muzart
Geração de texto: GPT-2 e 3
https://t.me/kakashi_copiador
GPT-2
https://t.me/kakashi_copiador
❑ Ponto de partida:
“Em um achado chocante, um cientista descobriu uma manada de unicórnios vivendo
em um remoto vale anteriormente inexplorado, na Cordilheira dos Andes. Ainda mais
surpreendente para o pesquisador foi o fato de que os unicórnios falavam inglês
perfeitamente.”
PLN – Estado da Arte
Prof. Erick Muzart
GPT-2: teste
https://t.me/kakashi_copiador
“O cientista nomeou a população, baseado em seu chifre distintivo, o Unicórnio de
Ovídio. Esses unicórnios de quatro chifres e branco-prateado eram anteriormente
desconhecidos para a ciência.
Agora, depois de quase dois séculos, o mistério do que desencadeou esse estranho
fenômeno está finalmente resolvido.
Dr. Jorge Pérez, um biólogo evolucionário da Universidade de La Paz, e vários
companheiros, estavam explorando a Cordilheira dos Andes quando encontraram
um pequeno vale, sem outros animais ou humanos. Pérez notou que o vale tinha o
que parecia ser uma fonte natural, cercada por dois picos de rocha e neve
prateada.
Em seguida, Pérez e os outros se aventuraram no vale. "Quando chegamos ao topo de
um pico, a água parecia azul, com alguns cristais no topo", disse Pérez.
Pérez e seus amigos ficaram surpresos ao ver a manada de unicórnios. Essas criaturas
podiam ser vistas do ar sem ter que se mover muito para vê-las - elas estavam tão
perto que podiam tocar seus chifres. 108
https://t.me/kakashi_copiador
“Ao examinar essas criaturas bizarras, os cientistas descobriram que as criaturas
também falavam um inglês bastante regular. Pérez afirmou: "Podemos ver, por
exemplo, que eles têm uma" linguagem "comum, algo como um dialeto ou dialética".
O Dr. Pérez acredita que os unicórnios podem ter se originado na Argentina, onde
se acreditava que os animais eramdescendentes de uma raça perdida de pessoas
que viviam lá antes da chegada dos humanos naquelas partes da América do Sul.
Embora suas origens ainda não sejam claras, alguns acreditam que talvez as
criaturas tenham sido criadas quando um humano e um unicórnio se conheceram
em um tempo antes da civilização humana. Segundo Pérez, “na América do Sul,
esses incidentes parecem ser bastante comuns”.
No entanto, Pérez também apontou que é provável que a única maneira de saber com
certeza se os unicórnios são de fato descendentes de uma raça alienígena perdida é
através do DNA. “Mas eles parecem conseguir se comunicar em inglês muito bem, o
que eu acredito ser um sinal de evolução, ou pelo menos uma mudança na organização
social”, disse o cientista.” 109
https://t.me/kakashi_copiador
Tradução Não Supervisionada
https://t.me/kakashi_copiador
❑ Aproximação do nível semântico da linguagem por meio de análise de grandes
quantidades de texto
❑ Aborda os problemas: ambiguidade, conhecimento sobre o mundo, modelo de mente
do interlocutor, empatia e bom senso
❑ Aproveita repositórios de conhecimento existentes
❑ Poderia atingir alto desempenho (AGI?) sem requerer avanço disruptivo em novas
tecnologias de IA?
❑ NLP português: necessidade de publicar bons datasets e benchmarks!
PLN – Estado da Arte
Prof. Erick Muzart
Conclusão NLP
https://t.me/kakashi_copiador
[FIM]PLN: ESTADO DA ARTE
Prof. Erick
Muzart
https://t.me/kakashi_copiador
OBRIGADO
Prof. Erick
Muzart
https://t.me/kakashi_copiador
https://t.me/kakashi_copiador