Prévia do material em texto
https://t.me/kakashi_copiador https://t.me/kakashi_copiador Curso regular Ciência de dados – Machine Learning Prof. Erick Muzart https://t.me/kakashi_copiador PROCESSAMENTO DE LINGUAGEM NATURAL - INTRODUÇÃO Prof. Erick Muzart https://t.me/kakashi_copiador ❑ Linguagens Naturais: idiomas falados pelos humanos para comunicação. Português, inglês, francês... ❑ Como utilizar ML para que a IA possa “entender” e gerar linguagem? ❑ Por que lidar com linguagem natural é tão difícil se os computadores já “entendem” linguagem de programação? PLN Prof. Erick Muzart Processamento de Linguagem Natural https://t.me/kakashi_copiador ❑ Desafios: polissemia, ambiguidade, contexto, conhecimento sobre o mundo, modelo de mente do interlocutor, empatia e bom senso ❑ “João não conseguiu arrumar a espada na caixa porque ela era muito grande.” a) a espada era muito grande? b) a caixa era muito grande? ❑ Alan Turing sugere diálogo com humanos como critério para reconhecer inteligência artificial geral (1950) PLN Prof. Erick Muzart PLN - Desafios https://t.me/kakashi_copiador Um dos desafios do processamento de linguagem natural (PLN) é a polissemia, ou seja, a característica de palavras e frases poderem ter mais de um significado. (C) ou (E) Extras Prof. Erick Muzart Cespe/Sefaz-CE/2021 https://t.me/kakashi_copiador Um dos desafios do processamento de linguagem natural (PLN) é a polissemia, ou seja, a característica de palavras e frases poderem ter mais de um significado. (C) ou (E) Essa diversidade de possíveis significados para uma mesma palavra pode resultar em ambiguidade, se o contexto textual não for suficiente para deixar explícito a qual desses significados a palavra se refere. Imaginem questões alternativas a essas abordando os diversos desafios para PLN já mencionados Extras Prof. Erick Muzart Cespe/Sefaz-CE/2021 https://t.me/kakashi_copiador ❑ PLN: tarefas típicas ❑ Representação de texto ❑ Vetorização sem contexto ❑ Representações com n-gramas ❑ Classificação de textos (e análise de sentimentos) ❑ Modelagem de tópicos latentes ❑ Semântica vetorial ❑ PLN: Estado da Arte PLN Prof. Erick Muzart Processamento de Linguagem Natural https://t.me/kakashi_copiador [FIM]PROCESSAMENTO DE LINGUAGEM NATURAL - INTRODUÇÃO Prof. Erick Muzart https://t.me/kakashi_copiador PLN: TAREFAS TÍPICAS Prof. Erick Muzart https://t.me/kakashi_copiador https://t.me/kakashi_copiador ❑ Classificação de texto ❑ Análise de sentimento ❑ Pareamento de entidades: reconhecimento + desambiguação [pareamento de dados] ❑ Reconhencimento de fala (transcrição) ❑ Identificação de idioma ❑ Análise gramatical: Part-of-Speech (POS), correção, resolução de coreferência, ❑ Extração de informação ❑ Semântico: similaridade, análise, identificação de papeis e relações ❑ Modelagem de conhecimento: bom senso, conhecimento sobre o mundo ❑ Geração: paráfrase, tradução, respota a pergunta, resumo (sumarização), diálogo (chatbots)PLN - tarefas Prof. Erick Muzart PLN: tarefas típicas nlpprogress.com https://t.me/kakashi_copiador ❑ Aplicações cada vez mais frequentes no mundo real: corretores de texto, tradução automática, assistentes digitais, chatbots, geração automática de texto... ❑ Melhoria “explosiva” de PLN nos últimos 4 anos! Deep Learning, transferência de aprendizado, multi-tarefas: Elmo, ULMFiT, BERT, GPT-3, Turing... Ver módulo ‘Estado da Arte’ para resultados de máxima qualidade! PLN - Tarefas Prof. Erick Muzart PLN - Resultados https://t.me/kakashi_copiador Um Analista necessita desenvolver uma aplicação chatbot que simula um ser humano na conversação com as pessoas. Para isso o Analista deve usar pesquisa em Processamento de Linguagem Natural – PLN que envolve três aspectos da comunicação, quais sejam, A - Som, ligado à fonologia, Estrutura que consiste em análises morfológica e sintática e Significado que consiste em análises semântica e pragmática. B - Áudio, ligado à fonologia, Estrutura que consiste em análises de línguas estrangeiras e Significado que consiste em análises semântica e pragmática. C - Conversação, ligado à tecnologia de chatbot, Semântica que consiste em análises de línguas estrangeiras e Arquitetura Spelling que realiza as análises sintática e pragmática. D - Business Intelligence, ligado à tecnologia OLAP, Mining que consiste em análises de línguas em geral e Spelling que realiza as funções de chatbot. E - Áudio, ligado à fonologia, Estrutura que consiste em análises semântica e pragmática e Significado que consiste em análise das línguas em geral. Extras Prof. Erick Muzart FCC/TRF4/2019 https://t.me/kakashi_copiador Um Analista necessita desenvolver uma aplicação chatbot que simula um ser humano na conversação com as pessoas. Para isso o Analista deve usar pesquisa em Processamento de Linguagem Natural – PLN que envolve três aspectos da comunicação, quais sejam, A - Som, ligado à fonologia, Estrutura que consiste em análises morfológica e sintática e Significado que consiste em análises semântica e pragmática. B - Áudio, ligado à fonologia, Estrutura que consiste em análises de línguas estrangeiras e Significado que consiste em análises semântica e pragmática. C - Conversação, ligado à tecnologia de chatbot, Semântica que consiste em análises de línguas estrangeiras e Arquitetura Spelling que realiza as análises sintática e pragmática. D - Business Intelligence, ligado à tecnologia OLAP, Mining que consiste em análises de línguas em geral e Spelling que realiza as funções de chatbot. E - Áudio, ligado à fonologia, Estrutura que consiste em análises semântica e pragmática e Significado que consiste em análise das línguas em geral. Extras Prof. Erick Muzart FCC/TRF4/2019 https://t.me/kakashi_copiador A respeito de inteligência artificial, julgue o item seguinte. Aplicações de reconhecimento de voz fazem a transcrição de um áudio para texto diretamente, sem a necessidade de nenhum modelo intermediário. Certo Errado Extras Prof. Erick Muzart Cespe/Sefaz-CE/2021 https://t.me/kakashi_copiador A respeito de inteligência artificial, julgue o item seguinte. Aplicações de reconhecimento de voz fazem a transcrição de um áudio para texto diretamente, sem a necessidade de nenhum modelo intermediário. Certo Errado Pergunta fraca que consiste em assimilar uma afirmação dentro de um contexto e momento histórico de desenvolvimento científico como se fosse um fato absoluto e imutável! Tradicionalmente, os modelos de reconhecimento de voz passavam por uma etapa de modelagem acústica/fonética com reconhecimento de fonemas por um modelo Hidden Markov para então serem identificadas as palavras correspondentes mais prováveis por um modelo de linguagem. Mas, desde 2014 foram desenvolvidos sistemas ponto a ponto em redes neurais profundas, que aprendem conjuntamente todas as etapas de um reconhecimento de fala, sem modelo intermediário: https://arxiv.org/abs/1610.03035 https://arxiv.org/pdf/2106.07447.pdf https://github.com/syhw/wer_are_weExtras Prof. Erick Muzart Cespe/Sefaz-CE/2021 https://t.me/kakashi_copiador [FIM]PLN: TAREFAS TÍPICAS Prof. Erick Muzart https://t.me/kakashi_copiador REPRESENTAÇÃO DE TEXTO Prof. Erick Muzart https://t.me/kakashi_copiador ❑ Texto é armazenado no computador como uma sequência de caracteres ❑ Para que texto possa ser utilizado para aproximação semântica é preciso representá-lo de forma a facilitar a identificação de padrões estatísticos ❑ Representações de texto, em 3 níveis crescentes de complexidade: • conjunto (não ordenado) de palavras (categorias ou símbolos atômicos): bag-of-words (saco de palavras) • conjunto de vetores representando significados de uma palavra por regularidade estatística de vizinhança com outras palavras: word embedding vetorial • sequências de vetores codificadas em estados de redes neurais, com contexto: RNN, LSTM, Transformer Representação de texto Prof. Erick Muzart Representação de textohttps://t.me/kakashi_copiador ❑ Em função do tipo de representação, podem ser aplicadas etapas de pré-processamento: - Remoção de pontuação e caracteres especiais (não tipicamente letras) - Recorte do texto em palavras: tokenização (caracteres separados por espaços, em português) - Padronização de palavras com caracteres minúsculos - Correção ortográfica e expansão de abreviações - Substituir flexões de um mesmo radical: • Pelo radical da palavra: stemização (stemming) • Pela palavra base subjacente: lematização (lemmatization) - Remoção de palavras comuns de pouco significado próprio (stop words) Representação de texto Prof. Erick Muzart Pré-processamento https://t.me/kakashi_copiador No contexto da recuperação das informações em bancos de dados textuais, um processo consiste em aplicar operações em uma palavra para encontrar sua raiz gramatical, como, por exemplo: “recuperar” é raiz de “recuperação”, “recuperações”, “recuperam” e “recuperado”. Além de ser útil para encontrar possíveis textos relevantes, esse processo também ajuda a reduzir o tamanho da estrutura de indexação, já que diminui o número de índices distintos e é denominado: a) sheering b) sweeping c) stemming d) smashing e) streaming Extras Prof. Erick Muzart Funcab/MDA/2014 https://t.me/kakashi_copiador No contexto da recuperação das informações em bancos de dados textuais, um processo consiste em aplicar operações em uma palavra para encontrar sua raiz gramatical, como, por exemplo: “recuperar” é raiz de “recuperação”, “recuperações”, “recuperam” e “recuperado”. Além de ser útil para encontrar possíveis textos relevantes, esse processo também ajuda a reduzir o tamanho da estrutura de indexação, já que diminui o número de índices distintos e é denominado: a) sheering b) sweeping c) stemming d) smashing e) streaming Extras Prof. Erick Muzart Funcab/MDA/2014 https://t.me/kakashi_copiador Em sistemas de Recuperação de Informação, os termos de indexação podem ser extraídos diretamente do texto dos documentos, fornecendo uma visão lógica dos documentos. Assinale a alternativa que apresenta corretamente uma das operações realizadas para obter as palavras-chaves. A - No processo de reconhecimento da estrutura, ocorre a análise léxica e a remoção de palavras sem semântica associada. B - O processo de quebra do texto em palavras (tokenização) é dependente da stoplist, um dicionário próprio aplicado à separação das palavras. C - A classificação de grupos nominais visa a identificação dos verbos e remoção das demais palavras, através de listas de palavras, etiquetadores automáticos e um thesaurus da língua ou do domínio. D - Acentos, espaçamento e demais símbolos são delimitadores considerados naturais no processo de stemming. E - O processo de stemming consiste em remover os afixos, preservando o radical e possibilitando o casamento entre variações de uma mesma palavra. Extras Prof. Erick Muzart NC-UFPR/Itaipu/2018 https://t.me/kakashi_copiador Em sistemas de Recuperação de Informação, os termos de indexação podem ser extraídos diretamente do texto dos documentos, fornecendo uma visão lógica dos documentos. Assinale a alternativa que apresenta corretamente uma das operações realizadas para obter as palavras-chaves. A - No processo de reconhecimento da estrutura, ocorre a análise léxica e a remoção de palavras sem semântica associada. B - O processo de quebra do texto em palavras (tokenização) é dependente da stoplist, um dicionário próprio aplicado à separação das palavras. C - A classificação de grupos nominais visa a identificação dos verbos e remoção das demais palavras, através de listas de palavras, etiquetadores automáticos e um thesaurus da língua ou do domínio. D - Acentos, espaçamento e demais símbolos são delimitadores considerados naturais no processo de stemming. E - O processo de stemming consiste em remover os afixos, preservando o radical e possibilitando o casamento entre variações de uma mesma palavra. Extras Prof. Erick Muzart NC-UFPR/Itaipu/2018 https://t.me/kakashi_copiador Com relação a banco de dados textuais, julgue os itens seguintes. Stop words integram uma lista universal de palavras utilizadas para identificar as paradas ou finais de textos, de modo a auxiliar na análise semântica. Certo ou Errado Extras Prof. Erick Muzart Cespe/MEC/2015 https://t.me/kakashi_copiador Com relação a banco de dados textuais, julgue os itens seguintes. Stop words integram uma lista universal de palavras utilizadas para identificar as paradas ou finais de textos, de modo a auxiliar na análise semântica. Certo ou Errado Extras Prof. Erick Muzart Cespe/MEC/2015 https://t.me/kakashi_copiador 81 Stop-words constituem um conjunto de palavras que proporcionam pouca informação para o significado de uma frase. Certo ou Errado? Classificação Prof. Erick Muzart Cebraspe/Petrobras/2021 https://t.me/kakashi_copiador 81 Stop-words constituem um conjunto de palavras que proporcionam pouca informação para o significado de uma frase. Certo ou Errado? Classificação Prof. Erick Muzart Cebraspe/Petrobras/2021 https://t.me/kakashi_copiador [FIM]REPRESENTAÇÃO DE TEXTO Prof. Erick Muzart https://t.me/kakashi_copiador VETORIZAÇÃO (SEM CONTEXTO) Prof. Erick Muzart https://t.me/kakashi_copiador ❑ Técnica mais simples para transformar texto em sequência de atributos numéricos (vetorização): cada palavra torna-se uma variável e conta-se o número de ocorrências no texto "Sou como você me vê. Posso ser leve como uma brisa ou forte como uma ventania, depende de quando e como você me vê passar.” Clarice Lispector ['brisa’, 'como’, 'como’, 'como’, 'como’, 'de’, 'depende’, 'e’, 'forte’, 'leve', 'me’, 'me’, 'ou’, 'passar’, 'posso’, 'quando', 'ser', 'sou', 'uma', 'uma', 'ventania’, 'você', 'você', 'vê', 'vê’] -> tokenização Matriz de co-ocorrência Bag-of-words Prof. Erick Muzart Bag-of-words (BoW) brisa como de depende ... você vê Texto1 1 4 1 1 2 2 Texto2 0 2 2 0 3 0 Texto3 0 0 1 1 1 0 https://t.me/kakashi_copiador ❑ Em vez de apenas contar as ocorrências de palavras no BoW, podemos dividir pelo número de palavras de cada texto e obter assim a frequência de cada palavra para cada texto: Term Frequency: TF (t, d) ❑ É de se esperar que as palavras de maior frequência sejam conectores sem muito significado, como as palavras stopwords. ❑ Para reduzir o valor numérico dessas palavras e destacar palavras mais relevantes para cada documento, podemos dividir cada valor pelo inverso da frequência do termo no conjunto dos documentos: Inverse Document Frequency: IDF(t) ❑ TF-IDF = TF (t, d) x IDF(t) = TF (t, d) x log (n/df(t)) ❑ Frequentemente, elimina-se do vocabulário palavras com baixo tf-idf, o que geralmente elimina ou reduz a importância das stopwords Tf-idf Prof. Erick Muzart TF-IDF https://t.me/kakashi_copiador Tf-idf Prof. Erick Muzart TF-IDF brisa 1/3 como 2/3 de 3/3 depende 2/3 . . . você 3/3 Vê 1/3 Texto1 1/6 4/6 1/6 1/6 2/6 2/6 Texto2 0 2/3 2/3 0 3/3 0 Texto3 0 0 1/3 1/3 1/3 0 Matriz com a contagem de termos Matriz com as frequências de termos em cada texto Matriz dividida pela frequência de ocorrência de termo no conjunto dos textos (corpus) brisa como de depende ... você vê Texto1 1 4 1 1 2 2 Texto2 0 2 2 0 3 0 Texto3 0 0 1 1 1 0 brisa 1/3 como 2/3 de 3/3 depende 2/3 . . . você 3/3 Vê 1/3 Texto1 3/6 12/12 1/6 3/12 2/6 6/6 Texto2 0 6/6 2/3 0 3/3 0 Texto3 0 0 1/3 3/6 1/3 0 https://t.me/kakashi_copiador Tf-idf Prof. Erick Muzart TF-IDF Matriz com a contagem de termos Matriz TF-IDF (aproximadamente, pois não aplicamos o log) Assim, valores elevados correspondem a palavras significativas para aquele documento, por aparecer com frequência mais elevada do que no conjunto dos demais documentos. Essa importância relativa das palavras pode então ser utilizada para classificar cada documento! brisa como de depende ... você vê Texto1 1 4 1 1 2 2 Texto2 0 2 20 3 0 Texto3 0 0 1 1 1 0 brisa como de depende .. você vê Texto1 1/2 1 1/6 1/4 1/3 1 Texto2 0 1 2/3 0 1 0 Texto3 0 0 1/3 1/2 1/3 0 https://t.me/kakashi_copiador Em relação a banco de dados textual é correto afirmar: A - nos arquivos invertidos, o vocabulário é uma estrutura de busca contendo todos os termos existentes, de forma não indexada. B - Stop Words é uma matriz onde cada linha representa um documento e cada coluna representa um termo. C - BOW (Bag of Words) é o processo em que substantivos, adjetivos, pronomes e verbos são reduzidos aos seus radicais. D - leitura, extração, contagem e cálculo de frequência dos termos, são etapas típicas do método Stemming. E - índices para a próxima palavra é um dos métodos principais de busca por frases em bancos textuais. Extras Prof. Erick Muzart FCC/TRE-RN/2011 https://t.me/kakashi_copiador Em relação a banco de dados textual é correto afirmar: A - nos arquivos invertidos, o vocabulário é uma estrutura de busca contendo todos os termos existentes, de forma não indexada. B - Stop Words é uma matriz onde cada linha representa um documento e cada coluna representa um termo. C - BOW (Bag of Words) é o processo em que substantivos, adjetivos, pronomes e verbos são reduzidos aos seus radicais. D - leitura, extração, contagem e cálculo de frequência dos termos, são etapas típicas do método Stemming. E - índices para a próxima palavra é um dos métodos principais de busca por frases em bancos textuais. Extras Prof. Erick Muzart FCC/TRE-RN/2011 https://t.me/kakashi_copiador 83 Suponha que a palavra amor ocorra 1.000 vezes no último livro escrito por certo autor, que escreveu, no total, 10 livros. Nesse caso, se a palavra amor for encontrada em todos os livros desse autor, então o valor do TF-IDF (term frequency inverse document frequency) referente à palavra amor no último livro escrito será igual a 1/1.000. Certo ou Errado? Classificação Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador 83 Suponha que a palavra amor ocorra 1.000 vezes no último livro escrito por certo autor, que escreveu, no total, 10 livros. Nesse caso, se a palavra amor for encontrada em todos os livros desse autor, então o valor do TF-IDF (term frequency inverse document frequency) referente à palavra amor no último livro escrito será igual a 1/1.000. Certo ou Errado? Classificação Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador Questão 83 A fórmula para o cálculo tf-idf é: TF-IDF = TF (t, d) x IDF(t) Onde TF é “term frequency” ou o número de vezes em que a palavra t aparece no documento d IDF é “inverse document frequency” ou o inverso da frequência de documento, na fórmula: log (n/df(t)), com n o número de documentos e df(t) o número de documentos que contém a palavra t. Com os dados do enunciado temos: TF(‘amor’, d) = 1000, n = 10 e df(d, ‘amor’) = 10 (pois todos os 10 documentos possuem a palavra ‘amor’). Assim, temos: TF-IDF = 1000 * (log (10/10)) = 1000 * 0 TF-IDF = 0 Nessa questão, acredito que não era necessário fazer o cálculo exato com o log, mas apenas entender que o número de ocorrências da palavra ‘amor’ estaria no numerador e não no denominador do TF-IDF e portanto que não poderia ser 1/1000 como na afirmativa! Classificação Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador 83 Suponha que a palavra amor ocorra 1.000 vezes no último livro escrito por certo autor, que escreveu, no total, 10 livros. Nesse caso, se a palavra amor for encontrada em todos os livros desse autor, então o valor do TF-IDF (term frequency inverse document frequency) referente à palavra amor no último livro escrito será igual a 1/1.000. Certo ou Errado? Classificação Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador [FIM]VETORIZAÇÃO (SEM CONTEXTO) Prof. Erick Muzart https://t.me/kakashi_copiador REPRESENTAÇÕES COM N-GRAMAS Prof. Erick Muzart https://t.me/kakashi_copiador ❑ Um (dos múltiplos) defeitos de BoW e TF-IDF é que eles não capturam o contexto de ocorrência de uma palavra, que pode modificar totalmente seu sentido! Ex: “cachorro” e “cachorro quente” ❑ N-gramas permitem captar contexto reunindo tokens vizinhos como se fossem um única unidade. ❑ "Sou como você me vê. Posso ser...” com bigramas (N=2): “Sou como”, “como você”, “você me”, “me vê”, “vê posso”... N-gramas Prof. Erick Muzart N-gramas brisa como de depende ... você vê sou como como você você me me vê vê posso T1 1 4 1 1 2 2 1 1 1 1 1 T2 0 2 2 0 3 0 0 1 0 0 0 T3 0 0 1 1 1 0 0 0 0 0 0 https://t.me/kakashi_copiador ❑ "Sou como você me vê. Posso ser...” trigramas (N=3): “Sou como você”, “como você me”, “você me vê”, “me vê posso”... 4-gramas: “Sou como você me”, “como você me vê”, “você me vê posso”... ❑ Assim, reforçamos nosso modelo construído por tokens sem qualquer ordem, com expressões adicionais que trazem uma sequência das palavras originais. ❑ Isso permite trazer um pouco de contexto àquilo que seriam palavras isoladas na sacola de palavras (BoW) ❑ O uso de n-gramas tem o defeito de aumentar muito o tamanho do vocabulário, com expressões de baixa frequência (em relação às palavras contidas na expressão). N-gramas Prof. Erick Muzart N-gramas https://t.me/kakashi_copiador [FIM]REPRESENTAÇÕES COM N-GRAMAS Prof. Erick Muzart https://t.me/kakashi_copiador CLASSIFICAÇÃO DE TEXTOS Prof. Erick Muzart https://t.me/kakashi_copiador ❑ Uma vez construída uma representação vetorial do texto, seja com bag-of-words seja com tf-idf, a matriz numérica resultante pode ser utilizada como dado de entrada para qualquer algoritmo de ML visto anteriormente; inclusive de forma supervisionada com target categórico, ou seja, para classificação! Classificação Prof. Erick Muzart Classificação de texto https://t.me/kakashi_copiador ❑ Assim, tudo o que vimos anteriormente em ML geral aplica-se diretamente no contexto de NLP: • validação e avaliação por separação treino-teste • underfitting/overfitting • regularização, otimização de hiperparâmetros • redução de dimensionalidade • modelos: lineares, árvores de decisão, redes neurais, naive Bayes... Classificação Prof. Erick Muzart Classificação de texto https://t.me/kakashi_copiador ❑ A classificação de texto baseada em atributos BoW ou tf-idf acaba identificando padrões estatísticos nas ocorrências de palavras (ou expressões n-gramas) associadas à categoria de interesse ❑ Assim, o modelo pode descobrir a existência de associações fortes de algumas palavras com alguma classem, que podem então ser extraídas/interpretadas ❑ Como textos possuem vocabulários com grande número de palavras, a matriz com esses dados é de alta dimensionalidade e pode assim se beneficiar de um tratamento para reduzir o tamanho desse vocabulário. Cf redução de dimensionalidade Classificação Prof. Erick Muzart Classificação de texto https://t.me/kakashi_copiador ❑ Treinar um classificador de texto simples com TF-IDF pode ser feito em poucas linhas utilizando funções disponíveis na biblioteca sklearn: Classificação Prof. Erick Muzart Classificação de texto https://t.me/kakashi_copiador ❑ O limitante para treinar um classificador de texto costuma ser a disponibilidade de anotações em quantidade suficiente. ❑ Modelos simples como regressão logística ou árvore de decisão treinados sobre textos vetorizados por BoW ou tf-idf costumam dar bons resultados para tarefas simples mesmo com poucos dados. ❑ Para tarefas mais complexas, que requerem aproximar noções semânticas mais sutis, pode-se utilizar modelos mais complexos de Deep Learning, treinados com quantidades muito maiores de dados ou utilizando transferência de aprendizado (transfer learning) Classificação Prof. Erick Muzart Classificação de texto https://t.me/kakashi_copiador ❑ Classificação de ementas jurisprudenciais do TCU em 4 temas principais ('Pessoal', 'Licitação', 'Responsabilidade','Direito_Processual’): 96% de acurácia, com 10k textos extraídos de https://pesquisa.apps.tcu.gov.br/#/pesquisa/jurisprudencia-selecionada Classificação Prof. Erick Muzart Classificação de texto - exemplo https://t.me/kakashi_copiador ❑ Análise de sentimento a partir de texto nada mais é do que um caso particular de classificação com apenas 2 ou 3 classes, que refletem o sentimento, positivo, negativo ou neutro de um texto ❑ Para evitar anotar manualmente um grande conjunto de textos em relação ao sentimento expresso, procura-se gerar essas anotações a partir de dados que já tenham alguma avaliação. Ex: resenhas associadas a notas de avaliação: IMDB para filmes, Yelp para restaurantes, Amazon para livros ❑ Interpretando a importância de atributos de uma árvore de decisão ou regressão logística treinada sobre um dataset de texto associado a sentimento, verifica-se, sem maior surpresa, que palavras tipicamente positivas (ótimo, maravilha...) tornam-se associadas à classe positiva e inversamente para palavras negativas (péssimo, horrível...)Classificação Prof. Erick Muzart Análise de sentimento https://t.me/kakashi_copiador A escolha de qual modelo deve-se usar para se analisar um conjunto de dados depende do domínio do problema analisado. Acerca dessa escolha de modelos, na análise de dados no domínio de textos em linguagem natural, é correto afirmar que A - n-grams são modelos muito utilizados por serem simples e, em geral, produzirem bons resultados. B - bag-of-words é considerado um modelo complexo quando comparado com outros de análise de texto, sendo de difícil implementação. C - textos em linguagem natural não podem ser analisados, pois são compostos de letras e não números. D - o modelo TFIDF produz bons resultados, mas não pode ser usado para classificação. E - redes neurais não podem ser utilizadas no domínio de texto. Extras Prof. Erick Muzart Iades/Apex/2018 https://t.me/kakashi_copiador A escolha de qual modelo deve-se usar para se analisar um conjunto de dados depende do domínio do problema analisado. Acerca dessa escolha de modelos, na análise de dados no domínio de textos em linguagem natural, é correto afirmar que A - n-grams são modelos muito utilizados por serem simples e, em geral, produzirem bons resultados. B - bag-of-words é considerado um modelo complexo quando comparado com outros de análise de texto, sendo de difícil implementação. C - textos em linguagem natural não podem ser analisados, pois são compostos de letras e não números. D - o modelo TFIDF produz bons resultados, mas não pode ser usado para classificação. E - redes neurais não podem ser utilizadas no domínio de texto. Extras Prof. Erick Muzart Iades/Apex/2018 https://t.me/kakashi_copiador Prof. Erick Muzart FGV/TCU/2021 https://t.me/kakashi_copiador Prof. Erick Muzart FGV/TCU/2021 TF-IDF = TF (t, d) x IDF(t) Onde TF é “term frequency” ou o número de vezes em que a palavra t aparece no documento d IDF é “inverse document frequency” ou o inverso da frequência de documento, na fórmula: log (n/df(t)), com n o número de documentos e df(t) o número de documentos que contém a palavra t. Cada texto texto tem 11 palavras IDF(rosas) = log(2/2) = log(1) = 0 IDF(choram) = IDF(sorriem) = log(2/1) = log(2) Alternativa (C) https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransfo rmer.html ocorrrên cias rosas choram sorriem A 1 1 0 B 1 0 1 frequên cias rosas choram sorriem A 1/11 1/11 0 B 1/11 0 1/11 TF-IDF rosas choram sorriem A 0 (log 2)/11 0 B 0 0 (log 2)/11 https://t.me/kakashi_copiador [FIM]CLASSIFICAÇÃO DE TEXTOS Prof. Erick Muzart https://t.me/kakashi_copiador MODELAGEM DE TÓPICOS LATENTES Prof. Erick Muzart https://t.me/kakashi_copiador ❑ Lembram o que falamos de redução de dimensionalidade no módulo anterior de ML? (cf. PCA) ❑ Podemos aplicar PCA em PLN sobre a matriz de ocorrência de palavras, ou matriz Termo-Documento, para identificar “dimensões de variação de palavras” que irão compor “tópicos” com alguma semântica comum! ❑ Hipótese distribuitiva: palavras de semântica similar aparecem em contextos similares, ou seja, rodeadas pelo mesmo conjunto de palavras! Semântica vetorial Prof. Erick Muzart Redução de dimensionalidade - PLN https://t.me/kakashi_copiador ❑ Modelagem de tópicos: tecnicas não supervisionadas que permitem extrair “tópicos” a partir das palavras dos textos e grupar os textos nesses tópicos ❑ “Tópicos” obtidos por modelagem: conjuntos de palavras que ocorrem frequentemente juntas e mais raramente com outros conjuntos de palavras. Tópicos latentes Prof. Erick Muzart Modelagem de tópicos latentes ❑ Ex: tópicos extraídos de corpus de matérias jornalísticas https://t.me/kakashi_copiador ❑ Utiliza representação de texto como saco de palavras (BoW) transformado em frequências tf-idf ❑ Duas formas mais comuns de modelagem de tópicos: • Latent Semantic Analysis (LSA) • Latent Dirichlet Allocation (LDA) Tópicos latentes Prof. Erick Muzart Modelagem de tópicos latentes https://t.me/kakashi_copiador ❑ LSA é a aplicação de PCA à matriz documento-termo (tf-idf) como redução de dimensionalidade do espaço de palavras para um espaço menor de tópicos (composição de termos) Tópicos latentes Prof. Erick Muzart Latent Semantic Analysis (LSA) https://t.me/kakashi_copiador ❑ Matrix documento-termo decomposta, por SVD (Singular Value Decomposition), em um produto de 3 matrizes U x D x Vt U: matriz documento-tópico D: matriz diagonal da importância de um tópico em um documento Vt: matriz termo-tópico Tópicos latentes Prof. Erick Muzart Latent Semantic Analysis (LSA) https://t.me/kakashi_copiador ❑ Seleciona-se os t valores mais elevados da matriz D (truncated SVD), que serão os tópicos principais extraídos do corpus. ❑ t é a dimensão da projeção do espaço de palavras para o espaço de tópicos principais Tópicos latentes Prof. Erick Muzart Latent Semantic Analysis (LSA) https://t.me/kakashi_copiador ❑ Paper de 2003: https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf ❑ Atribui a cada palavra (termo) uma probabilidade de compor um tópico ❑ LDA procura identificar a composição de tópicos presentes em um documento Tópicos latentes Prof. Erick Muzart Latent Dirichlet Allocation (LDA) https://t.me/kakashi_copiador ❑ LSA não assume qualquer pressuposto quanto à distribuição probabilística de tópicos em documentos. Modelo pouco interpretável ❑ LDA assume que a distribuição de tópicos em documentos segue uma distribuição probabilística específica, de Dirichlet ❑ Hyperparâmetros LDA: • alpha: influencia na quantidade de tópicos por documento • beta: influencia na quantidade de palavras por tópico (similaridade entre tópicos) • Número de tópicos procurados Tópicos latentes Prof. Erick Muzart Diferenças LSA - LDA https://t.me/kakashi_copiador LDA Prof. Erick Muzart FGV/TCU/2021 Um analista do TCU gostaria de aplicar um modelo de Latent Dirichlet Allocation (LDA) em um conjunto de textos. A alternativa que melhor descreve o resultado do modelo é: (A) uma lista de tópicos, cada um com um título diferente; (B) uma lista das palavras mais importantes no conjunto de documentos; (C) cada documento é classificado em somente um tópico, onde cada tópico é formado por uma lista de palavras; (D) cada documento possui uma distribuição de probabilidade de pertencer a algum dos tópicos, onde cada tópico é formado por uma lista de palavras e cada palavra pertence a somente um tópico; (E) cada documento possui uma distribuição de probabilidade de pertencer a algum dos tópicos, onde cada tópico é formado por uma distribuição de probabilidade sobre todas as palavras presentes nos documentos. https://t.me/kakashi_copiador LDA Prof. Erick Muzart FGV/TCU/2021 LDA: - tópico: distribuição de probabilidade sobre o vocabulário -> lista de palavras +importantes - Cada documento é uma “mistura” (distr. prob) de múltiplostópicos - todas as palavras tem algum peso para todos os tópicos; uma mesma palavra pode ser importante para múltiplos tópicos - tópicos não possuem “título” próprio; um título pode ser atribuído por compreensão de temas comuns a múltiplas palavras importantes que compõem um tópico - Resultado LDA: 2 matrizes: tópico x palavras e tópico x documentos Um analista do TCU gostaria de aplicar um modelo de Latent Dirichlet Allocation (LDA) em um conjunto de textos. A alternativa que melhor descreve o resultado do modelo é: (A) uma lista de tópicos, cada um com um título diferente; (B) uma lista das palavras mais importantes no conjunto de documentos; (C) cada documento é classificado em somente um tópico, onde cada tópico é formado por uma lista de palavras; (D) cada documento possui uma distribuição de probabilidade de pertencer a algum dos tópicos, onde cada tópico é formado por uma lista de palavras e cada palavra pertence a somente um tópico; (E) cada documento possui uma distribuição de probabilidade de pertencer a algum dos tópicos, onde cada tópico é formado por uma distribuição de probabilidade sobre todas as palavras presentes nos documentos. https://t.me/kakashi_copiador [FIM]MODELAGEM DE TÓPICOS LATENTES Prof. Erick Muzart https://t.me/kakashi_copiador SEMÂNTICA VETORIAL Prof. Erick Muzart https://t.me/kakashi_copiador ❑ Cada texto foi representado como um vetor de números correspondentes a frequências de palavras ❑ Mostramos a representação de texto por Bag-of-Words seguida por transformação de frequência tf-idf gerando matriz Termo-Documento ❑ Problemas: alta dimensionalidade, muitos valores nulos e sem representação semântica das palavras. Semântica vetorial Prof. Erick Muzart Semântica vetorial brisa como de depende ... você vê Texto1 1/2 1 1/6 1/4 1/3 1 Texto2 0 1 2/3 0 1 0 Texto3 0 0 1/3 1/2 1/3 0 ❑ Como adaptar essa ideia de representação por vetor de números de tal forma que reflita a semântica de uma palavra? https://t.me/kakashi_copiador ❑ Gostaríamos que cada palavra fosse representada por um vetor de números de tal forma que palavras sinônimas tivessem vetores próximos em termos de distância! ❑ Como representar similaridade semântica entre palavras? O que palavras similares teriam em comum, numa perspectiva estatística? Semântica vetorial Prof. Erick Muzart Semântica vetorial https://t.me/kakashi_copiador ❑ Contexto! ❑ “Você conhecerá uma palavra pela companhia que mantém.” JR Firth ❑ Definir significado de palavra pelo contexo, de outras palavras, em que se encontra! Semântica vetorial Prof. Erick Muzart Semântica vetorial https://t.me/kakashi_copiador Olhou pela _____ do carro ❑ Possíveis opções: janela, porta, abertura… ❑ As palavras que “cabem semânticamente” nesse espaço são as palavras que ocorrerão mais frequentemente nesse contexto de uso, definindo assim, indiretamente, palavras que são similares ou intercambiáveis. (CBOW) ❑ Daí podemos concluir que “janela”, “porta” e “abertura” devem ter significados próximos por aparecerem em contextos similares, formados por mesmas palavras Semântica vetorial Prof. Erick Muzart Semântica vetorial https://t.me/kakashi_copiador ❑ Word Embedding: “embutir” palavras em um espaço vetorial numérico ❑ Usa-se uma arquitetura de rede neural para prever palavras de contexto a partir de palavras alvo ❑ Word2Vec: cbow ou skip-gram Semântica vetorial Prof. Erick Muzart Word Embedding https://t.me/kakashi_copiador ❑ A partir da palavra central “janela”, procura-se prever as palavras de contexto: “Olhou pela _____ do carro” ref: https://arxiv.org/pdf/1301.3781.pdf Mikolov Semântica vetorial Prof. Erick Muzart Skip-Gram https://t.me/kakashi_copiador ❑ Inverso do skip-gram, a partir do contexto: “Olhou pela _____ do carro” procura-se prever o termo central “janela” ref: https://arxiv.org/pdf/1301.3781.pdf Mikolov Semântica vetorial Prof. Erick Muzart CBoW https://t.me/kakashi_copiador ❑ Skip-gram: funciona bem até com poucos dados de treino, representa bem até palavras pouco frequentes. ❑ CBOW: treinamento muito mais rápido do que skip-gram, acurácia levemente melhor para palavras frequentes. ❑ Janela de contexto: skip-gram cerca de 10; CBOW cerca de 5 Semântica vetorial Prof. Erick Muzart CBOW x Skip-gram https://t.me/kakashi_copiador ❑ Arquitetura de rede neural para prever palavras de contexto a partir de palavras alvo (skip-gram) Semântica vetorial Prof. Erick Muzart Word Embedding https://t.me/kakashi_copiador Semântica vetorial Prof. Erick Muzart Word2Vec https://medium.com/@hari4om/word-embedding-d816f643140 https://t.me/kakashi_copiador ❑ Tendo poucos dados para uma tarefa específica de NLP, pode-se utilizar embeddings já existentes, adaptando-os para sua aplicação! ❑ Principais métodos: Word2Vec (2013), GloVe (2014), Wang2Vec (2015) e FastText (2016) ❑ Versões pré-treinadas em português: NILC-Embeddings e CoNLL17 https://www.davidsbatista.net/blog/2019/11/03/Portuguese-Embeddings/ http://www.nilc.icmc.usp.br/embeddings Semântica vetorial Prof. Erick Muzart Word Embedding pré-treinados https://t.me/kakashi_copiador MODELOS DE SEQUÊNCIA Prof. Erick Muzart https://t.me/kakashi_copiador 82 O CBOW é um modelo de aprendizado de máquina desenhado para prever contexto com base em determinada palavra Certo ou Errado? Word Embedding Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador 82 O CBOW é um modelo de aprendizado de máquina desenhado para prever contexto com base em determinada palavra Certo ou Errado? Word Embedding Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador 82 O CBOW é um modelo de aprendizado de máquina desenhado para prever contexto com base em determinada palavra Certo ou Errado? Word Embedding Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador 82 O CBOW é um modelo de aprendizado de máquina desenhado para prever contexto com base em determinada palavra Certo ou Errado? Aqui o correto seria skip-gram e não CBoW! Word Embedding Prof. Erick Muzart Cesbraspe/Petrobras/2021 https://t.me/kakashi_copiador Uma organização está implementando um sistema de busca de informações interno, e a equipe de desenvolvimento resolveu avaliar diferentes modelos de linguagem vetoriais que ajudariam a conectar melhor documentos e consultas em departamentos que usam terminologias distintas em áreas de negócio que se sobrepõem. Um dos analistas ressaltou que seria interessante guardar os vetores de todo o vocabulário do modelo em um cache, de forma a aumentar a eficiência de acesso e reduzir certos custos de implantação. Das alternativas abaixo, aquela que lista apenas os modelos compatíveis com essa estratégia de caching é: (A) TF-IDF, BERT; (B) Word2Vec, BERT, GPT-2; (C) GloVe, GPT-2; (D) Word2Vec, GloVe; (E) GPT-2, BERT. Word Embedding Prof. Erick Muzart FGV/TCU/2021 https://t.me/kakashi_copiador Uma organização está implementando um sistema de busca de informações interno, e a equipe de desenvolvimento resolveu avaliar diferentes modelos de linguagem vetoriais que ajudariam a conectar melhor documentos e consultas em departamentos que usam terminologias distintas em áreas de negócio que se sobrepõem. Um dos analistas ressaltou que seria interessante guardar os vetores de todo o vocabulário do modelo em um cache, de forma a aumentar a eficiência de acesso e reduzir certos custos de implantação. Das alternativas abaixo, aquela que lista apenas os modelos compatíveis com essa estratégia de caching é: (A) TF-IDF, BERT; (B) Word2Vec, BERT, GPT-2; (C) GloVe, GPT-2; (D) Word2Vec, GloVe; (E) GPT-2, BERT. Word Embedding Prof. Erick Muzart FGV/TCU/2021 Dicionário estático de palavra para vetor semântico: Word2Vec e GloVe, FastText TF-IDF não utiliza representação vetorial para palavras, mas textos BERT e GPT-2 são modelos sequenciais que utilizam Transformers paraadaptar a representação vetorial das palavras pelo contexto de outras palavras no qual se encontra. Assim, esses vetores para palavras não são constantes https://t.me/kakashi_copiador [FIM]SEMÂNTICA VETORIAL Prof. Erick Muzart https://t.me/kakashi_copiador PLN: ESTADO DA ARTE Prof. Erick Muzart https://t.me/kakashi_copiador ❑ GLUE e SuperGLUE: meta benchmark composto por 11 tarefas padronizadas de compreensão de linguagem: - CoLA: reconhecer frases gramaticalmente bem formadas - SST-2: análise de sentimento sobre resenhas de filmes - MRPC e QQP: equivalência semântica entre frases - STS-B: grau de similaridade semântica entre frases - MNLI: inferência lógica entre premissa e hipótese - QNLI: perguntas e respostas - WNLI: desambiguação de pronomes PLN – Estado da Arte Prof. Erick Muzart PLN - Benchmark https://t.me/kakashi_copiador B en ch m ar k Su pe rG L U E nlpprogress.com https://t.me/kakashi_copiador ❑ SQuAD: Stanford Question Answering Dataset ❑ 100k perguntas criadas por crowdworkers sobre 500 artigos da wikipedia + 50k perguntas adversariais, similares às primeiras, mas sem resposta no texto ❑ testa a capacidade de um sistema não apenas de responder a perguntas de compreensão de leitura, mas também de se abster quando confrontado com uma pergunta que não pode ser respondida com base no parágrafo fornecido. PLN – Estado da Arte Prof. Erick Muzart Compreensão de texto: SQuAD https://t.me/kakashi_copiador SQuAD: Stanford Question Answering Dataset - 100k perguntas criadas por crowdworkers sobre 500 artigos da wikipedia + 50k perguntas adversariais, similares às primeiras, mas sem resposta no texto - testa a capacidade de um sistema não apenas de responder a perguntas de compreensão de leitura, mas também de se abster quando confrontado com uma pergunta que não pode ser respondida com base no parágrafo fornecido. PLN – Estado da Arte Prof. Erick Muzart Compreensão de texto: SQuAD https://t.me/kakashi_copiador ❑ RACE: ReAding Comprehension from English Examinations. Conjunto de perguntas de provas de compreensão de texto em inglês para alunos chineses do ensino médio (12 a 18 anos): 28k trechos, 100k perguntas. Ênfase em raciocínio sobre o texto. Exemplos: Qual seria um bom título para o trecho de texto? (Resumo) Qual foi a atitude do autor em relação aos prêmios da indústria? (Inferência) Qual das seguintes afirmações está errada de acordo com o texto? (Dedução) Se o texto fosse publicado em jornal, qual seção seria a mais adequada? (Inferência) O primeiro selo postal foi feito em ___. (Correspondência de contexto) PLN – Estado da Arte Prof. Erick Muzart Compreensão de texto: RACE https://t.me/kakashi_copiador Era uma noite fria. O taxista não levou sequer um passageiro o dia todo. Quando ele passou pela estação ferroviária, ele viu um jovem saindo com duas malas nas mãos. Então o taxista foi até ele e perguntou: "aonde você está indo, senhor?" "Para o Hotel Vermelho", o jovem respondeu. Quando o taxista ouviu isso, ele não se sentiu mais feliz. O jovem lhe daria apenas três dólares porque o hotel ficava perto da estação de trem. Mas de repente, ele teve uma ideia. Ele levou o jovem através de muitas ruas da cidade grande. Depois de muito tempo, chegaram ao hotel. "Aqui estamos! Você precisa me pagar quinze dólares, por favor." O taxista disse ao jovem. "O quê? Quinze dólares! Você acha que eu sou um tolo? Só na semana passada, peguei um táxi da estação de trem para este hotel e só paguei doze dólares. Eu sei o quanto eu tenho que pagar pela viagem.” Q1: Provavelmente o motorista de taxi recebeu finalmente X dólares. Opções: 3, 2, 12 ou 15 Q2: Qual das opções seguintes é verdadeira? - Os dois motoristas de taxi eram ambos honestos. - Os dois motoristas de taxi enganaram o jovem passageiro. - É muito longe entre a estação de trem e o Hotel Vermelho. - O jovem conhecia a distância entre a estação de trem e o Hotel Vermelho. https://t.me/kakashi_copiador PLN – Estado da Arte Prof. Erick Muzart https://t.me/kakashi_copiador ❑ RACE: ReAding Comprehension from English Examinations. Conjunto de perguntas de provas de compreensão de texto em inglês para alunos chineses do ensino médio (12 a 18 anos): 28k trechos, 100k perguntas. Ênfase em raciocínio sobre o texto. Exemplos: Qual seria um bom título para o trecho de texto? (Resumo) Qual foi a atitude do autor em relação aos prêmios da indústria? (Inferência) Qual das seguintes afirmações está errada de acordo com o texto? (Dedução) Se o texto fosse publicado em jornal, qual seção seria a mais adequada? (Inferência) O primeiro selo postal foi feito em ___. (Correspondência de contexto) PLN – Estado da Arte Prof. Erick Muzart Compreensão de texto: RACE https://t.me/kakashi_copiador ❑ Que mudança provavelmente causaria uma diminuição no número de esquilos que vivem em uma área? (1) uma diminuição no número de predadores (2) uma diminuição na competição entre os esquilos (3) aumento de alimentos disponíveis (4) um aumento no número de incêndios florestais PLN – Estado da Arte Prof. Erick Muzart AI2 Aristo: provas de ciência https://t.me/kakashi_copiador ❑ 2016: competição DARPA, menos de 60% de acerto em provas de nível médio, crianças de 13 anos. ❑ 2019: 90%, 13 anos, 83%, 17 anos PLN – Estado da Arte Prof. Erick Muzart AI2 Aristo: provas de ciência https://t.me/kakashi_copiador ❑ Não diretamente comparável com inteligência humana ❑ Alto desempenho nessas tarefas não comprova compreensão “profunda” ou “real” ❑ Exemplos adversariais focando compreensão de conceitos básicos frequentemente tem baixo desempenho PLN – Estado da Arte Prof. Erick Muzart Ressalvas https://t.me/kakashi_copiador ❑ Modelo treinado unicamente para prever a próxima palavra de uma frase ❑ 40 GB de texto raspados da Internet (8 milhões de páginas Reddit) ❑ Baseado no modelo de linguagem Transformers, com 1,5 bilhão de parâmetros (10x mais parâmetros e dados que o GTP ‘1’) ❑ Exige muito poder computacional para treinamento ❑ Acesso liberado para o GPT-3: https://beta.openai.com/playground PLN – Estado da Arte Prof. Erick Muzart Geração de texto: GPT-2 e 3 https://t.me/kakashi_copiador GPT-2 https://t.me/kakashi_copiador ❑ Ponto de partida: “Em um achado chocante, um cientista descobriu uma manada de unicórnios vivendo em um remoto vale anteriormente inexplorado, na Cordilheira dos Andes. Ainda mais surpreendente para o pesquisador foi o fato de que os unicórnios falavam inglês perfeitamente.” PLN – Estado da Arte Prof. Erick Muzart GPT-2: teste https://t.me/kakashi_copiador “O cientista nomeou a população, baseado em seu chifre distintivo, o Unicórnio de Ovídio. Esses unicórnios de quatro chifres e branco-prateado eram anteriormente desconhecidos para a ciência. Agora, depois de quase dois séculos, o mistério do que desencadeou esse estranho fenômeno está finalmente resolvido. Dr. Jorge Pérez, um biólogo evolucionário da Universidade de La Paz, e vários companheiros, estavam explorando a Cordilheira dos Andes quando encontraram um pequeno vale, sem outros animais ou humanos. Pérez notou que o vale tinha o que parecia ser uma fonte natural, cercada por dois picos de rocha e neve prateada. Em seguida, Pérez e os outros se aventuraram no vale. "Quando chegamos ao topo de um pico, a água parecia azul, com alguns cristais no topo", disse Pérez. Pérez e seus amigos ficaram surpresos ao ver a manada de unicórnios. Essas criaturas podiam ser vistas do ar sem ter que se mover muito para vê-las - elas estavam tão perto que podiam tocar seus chifres. 108 https://t.me/kakashi_copiador “Ao examinar essas criaturas bizarras, os cientistas descobriram que as criaturas também falavam um inglês bastante regular. Pérez afirmou: "Podemos ver, por exemplo, que eles têm uma" linguagem "comum, algo como um dialeto ou dialética". O Dr. Pérez acredita que os unicórnios podem ter se originado na Argentina, onde se acreditava que os animais eramdescendentes de uma raça perdida de pessoas que viviam lá antes da chegada dos humanos naquelas partes da América do Sul. Embora suas origens ainda não sejam claras, alguns acreditam que talvez as criaturas tenham sido criadas quando um humano e um unicórnio se conheceram em um tempo antes da civilização humana. Segundo Pérez, “na América do Sul, esses incidentes parecem ser bastante comuns”. No entanto, Pérez também apontou que é provável que a única maneira de saber com certeza se os unicórnios são de fato descendentes de uma raça alienígena perdida é através do DNA. “Mas eles parecem conseguir se comunicar em inglês muito bem, o que eu acredito ser um sinal de evolução, ou pelo menos uma mudança na organização social”, disse o cientista.” 109 https://t.me/kakashi_copiador Tradução Não Supervisionada https://t.me/kakashi_copiador ❑ Aproximação do nível semântico da linguagem por meio de análise de grandes quantidades de texto ❑ Aborda os problemas: ambiguidade, conhecimento sobre o mundo, modelo de mente do interlocutor, empatia e bom senso ❑ Aproveita repositórios de conhecimento existentes ❑ Poderia atingir alto desempenho (AGI?) sem requerer avanço disruptivo em novas tecnologias de IA? ❑ NLP português: necessidade de publicar bons datasets e benchmarks! PLN – Estado da Arte Prof. Erick Muzart Conclusão NLP https://t.me/kakashi_copiador [FIM]PLN: ESTADO DA ARTE Prof. Erick Muzart https://t.me/kakashi_copiador OBRIGADO Prof. Erick Muzart https://t.me/kakashi_copiador https://t.me/kakashi_copiador