Buscar

Importância do Processamento de Linguagem Natural

Prévia do material em texto

SÍNTESE DE PROCESSAMENTO DE LINGUAGEM NATURAL 
Olá. Meu nome é José Cruvinel, e neste podcast nós vamos explicar um pouquinho o que é PLN e 
por que ele tem sido tão importante na atualidade. 
PLN é processamento de texto em linguagem natural ou simplesmente processamento de 
linguagem natural, é uma técnica que está sendo utilizada pelas empresas as quais querem 
aproveitar os dados não estruturados. 
Existem muitos textos ou documentos digitalizados nas empresas, às vezes são arquivos PDF, por 
exemplo, e que essas empresas não utilizam nas tomadas de decisão, muitas vezes porque é difícil 
extrair informação ali de dentro daqueles documentos. 
Com o PLN a gente aprende várias técnicas pelas quais é possível a você extrair informação desse 
texto de forma a depois tomar decisões. Normalmente, pega-se um texto ou um documento não 
estruturado e, após extração de informação, você consegue tomar decisões com base em dados 
estruturados. 
Então, para que a gente possa aproveitar esse texto, a primeira coisa a ser feita é fazer um pré-
processamento do texto. O pré-processamento pode ser feito de várias formas, você pode reduzir 
a quantidade de palavras, remover aquelas palavras que não são tão relevantes na interpretação 
do texto, remover pontuações, pode fazer alguma análise estatística da linguagem para que, 
então, depois do texto ser resumido, simplificado, deixar apenas o que for realmente relevante, 
você passa à criação dos modelos utilizando, por exemplo, técnicas de machine learning, 
aprendizado de máquina para criar modelos de classificação, comparação de textos, interpretação 
de texto, tradução e várias outras aplicações. 
A importância do pré-processamento, no PLN, é muito grande, porque se você não faz um pré-
processamento adequado, você entra para os modelos com textos com lixo, informação não 
relevante e isso pode confundir os seus modelos. Essa etapa de pré-processamento é 
fundamental. 
É muito importante que técnicas, por exemplo, bag-of-words, eneagrama, TFDF, e várias outras 
deverão ser utilizadas, remoção de pontuação e várias palavras também, que a gente chama de 
stopwords, sejam removidos do texto e, é claro, a cada projeto você tem que avaliar as técnicas 
que serão utilizadas. 
 
 
Uma vez que o texto é pré-processado, você pode utilizar e criar vários outros modelos em cima 
disso. Essa área de PLN é uma área em constante crescimento, evolução, então, muitas dessas 
técnicas que você tem, são técnicas já conhecidas, renomadas e o pessoal já utiliza em projetos. 
Mas, a cada dia surgem novas técnicas, então, é muito importante que o aluno tenha o 
entendimento de que esta é uma área em evolução, em construção e a cada dia são publicados 
novos artigos, publicações, estudos. 
Diversas universidades pelo mundo têm lançado vários estudos e documentos a respeito do 
assunto com novas técnicas e a cada nova técnica que é lançada, normalmente, se melhora a 
eficácia dos modelos, a cada dia se descobrem novas tecnologias, redes neurais, técnicas de pré-
processamento de texto que fazem com que os modelos se comportem melhor e deem um 
resultado mais adequado para as empresas. 
Mas, de qualquer maneira, a importância do PLN para as empresas é muito grande, porque você 
passa a aproveitar uma série de ativos que não estão sendo utilizados, ativos de informações que 
estão escondidas nos documentos e que levaria muito tempo para uma pessoa ler esses 
documentos e fazer alguma análise em cima, mas com a máquina, com machine learning, com 
essas técnicas que a gente conhece de PLN é possível que o computador faça esse trabalho para a 
gente extrair informação relevante, organize essas informações de uma forma que seja facilmente 
entendida pelos tomadores de decisão. 
Fiquem atentos também às novidades que são lançadas a cada dia. É muito importante saber que 
essas técnicas que são lançadas, são publicadas em sites conhecidos e até mesmo os códigos-
fontes de exemplos que as pessoas, os pesquisadores inventam novas tecnologias são publicados 
em sites como, GITHUB, por exemplo. Não apenas as técnicas são publicadas em artigos, mas 
também os códigos são disponibilizados gratuitamente, para que você possa baixar, testar e 
utilizar. 
Esse foi o nosso podcast!

Mais conteúdos dessa disciplina