Prévia do material em texto
SÍNTESE DE PROCESSAMENTO DE LINGUAGEM NATURAL Olá. Meu nome é José Cruvinel, e neste podcast nós vamos explicar um pouquinho o que é PLN e por que ele tem sido tão importante na atualidade. PLN é processamento de texto em linguagem natural ou simplesmente processamento de linguagem natural, é uma técnica que está sendo utilizada pelas empresas as quais querem aproveitar os dados não estruturados. Existem muitos textos ou documentos digitalizados nas empresas, às vezes são arquivos PDF, por exemplo, e que essas empresas não utilizam nas tomadas de decisão, muitas vezes porque é difícil extrair informação ali de dentro daqueles documentos. Com o PLN a gente aprende várias técnicas pelas quais é possível a você extrair informação desse texto de forma a depois tomar decisões. Normalmente, pega-se um texto ou um documento não estruturado e, após extração de informação, você consegue tomar decisões com base em dados estruturados. Então, para que a gente possa aproveitar esse texto, a primeira coisa a ser feita é fazer um pré- processamento do texto. O pré-processamento pode ser feito de várias formas, você pode reduzir a quantidade de palavras, remover aquelas palavras que não são tão relevantes na interpretação do texto, remover pontuações, pode fazer alguma análise estatística da linguagem para que, então, depois do texto ser resumido, simplificado, deixar apenas o que for realmente relevante, você passa à criação dos modelos utilizando, por exemplo, técnicas de machine learning, aprendizado de máquina para criar modelos de classificação, comparação de textos, interpretação de texto, tradução e várias outras aplicações. A importância do pré-processamento, no PLN, é muito grande, porque se você não faz um pré- processamento adequado, você entra para os modelos com textos com lixo, informação não relevante e isso pode confundir os seus modelos. Essa etapa de pré-processamento é fundamental. É muito importante que técnicas, por exemplo, bag-of-words, eneagrama, TFDF, e várias outras deverão ser utilizadas, remoção de pontuação e várias palavras também, que a gente chama de stopwords, sejam removidos do texto e, é claro, a cada projeto você tem que avaliar as técnicas que serão utilizadas. Uma vez que o texto é pré-processado, você pode utilizar e criar vários outros modelos em cima disso. Essa área de PLN é uma área em constante crescimento, evolução, então, muitas dessas técnicas que você tem, são técnicas já conhecidas, renomadas e o pessoal já utiliza em projetos. Mas, a cada dia surgem novas técnicas, então, é muito importante que o aluno tenha o entendimento de que esta é uma área em evolução, em construção e a cada dia são publicados novos artigos, publicações, estudos. Diversas universidades pelo mundo têm lançado vários estudos e documentos a respeito do assunto com novas técnicas e a cada nova técnica que é lançada, normalmente, se melhora a eficácia dos modelos, a cada dia se descobrem novas tecnologias, redes neurais, técnicas de pré- processamento de texto que fazem com que os modelos se comportem melhor e deem um resultado mais adequado para as empresas. Mas, de qualquer maneira, a importância do PLN para as empresas é muito grande, porque você passa a aproveitar uma série de ativos que não estão sendo utilizados, ativos de informações que estão escondidas nos documentos e que levaria muito tempo para uma pessoa ler esses documentos e fazer alguma análise em cima, mas com a máquina, com machine learning, com essas técnicas que a gente conhece de PLN é possível que o computador faça esse trabalho para a gente extrair informação relevante, organize essas informações de uma forma que seja facilmente entendida pelos tomadores de decisão. Fiquem atentos também às novidades que são lançadas a cada dia. É muito importante saber que essas técnicas que são lançadas, são publicadas em sites conhecidos e até mesmo os códigos- fontes de exemplos que as pessoas, os pesquisadores inventam novas tecnologias são publicados em sites como, GITHUB, por exemplo. Não apenas as técnicas são publicadas em artigos, mas também os códigos são disponibilizados gratuitamente, para que você possa baixar, testar e utilizar. Esse foi o nosso podcast!