Buscar

Questão 10/10 - Natural Language Processing Corpora são grandes coleções de textos escritos por humanos em alguma determinada língua. Para a língua...

Questão 10/10 - Natural Language Processing

Corpora são grandes coleções de textos escritos por humanos em alguma determinada língua. Para a língua portuguesa dois dos maiores corpora são o corpus MacMorpho e o Floresta Sinta(c)tica Corpus. Ambos estão disponíveis pela biblioteca NLTK e são anotados.

Sobre o trabalho de anotação de um corpus, assinale a alternativa correta.

A) Um corpus anotado é criado automaticamente com base em uma gramática padrão simples e este processo de criação das anotações é o início de nossa análise de NLP.

B) Um corpus se torna anotado após o treinamento de uma rede neural para que as anotações sejam criadas. Este processo é extremamente automatizado, porém demorado por conta da grande demanda de processamento computacional.

C) Um corpus se torna anotado após profissionais de linguística e letras realizarem manualmente a análise e inclusão das anotações. Tendo em vista que corpora normalmente possuem mais de um milhão de palavras e as linguagens estão em constante mudança, este trabalho pode levar anos ou nunca findar.

D) De forma geral, a estrutura de anotações de um corpus pode variar bastante, sendo desde classificações simples de sentimento das sentenças até anotações de símbolos terminais como verbos, artigos e substantivos. Este trabalho é sempre desenvolvido por profissionais de TI que precisam realizar a análise NLP dos dados.

E) As anotações de um corpus são informações gerais sobre os contextos de cada sentença e dados estatísticos como quantidades de palavras e distribuição estatística de cada palavra. A criação destas anotações é feita pela equipe de TI que fará o NLP.

Respostas

2 pessoas visualizaram e tiraram suas dúvidas aqui
User badge image

Ed Verified user icon

A anotação de um corpus é um processo importante para a análise de NLP (Processamento de Linguagem Natural). A anotação consiste em adicionar informações específicas a cada palavra ou sentença do corpus, como classificações de sentimento, símbolos terminais, dados estatísticos, entre outros. Analisando as alternativas: A) Um corpus anotado é criado automaticamente com base em uma gramática padrão simples e este processo de criação das anotações é o início de nossa análise de NLP. - Esta alternativa não é correta, pois a anotação de um corpus é um processo manual e não é criado automaticamente. B) Um corpus se torna anotado após o treinamento de uma rede neural para que as anotações sejam criadas. Este processo é extremamente automatizado, porém demorado por conta da grande demanda de processamento computacional. - Esta alternativa também não é correta, pois embora o uso de redes neurais possa ser útil em alguns casos, a anotação de um corpus ainda é um processo manual. C) Um corpus se torna anotado após profissionais de linguística e letras realizarem manualmente a análise e inclusão das anotações. Tendo em vista que corpora normalmente possuem mais de um milhão de palavras e as linguagens estão em constante mudança, este trabalho pode levar anos ou nunca findar. - Esta alternativa é a correta, pois a anotação de um corpus é um processo manual que envolve profissionais de linguística e letras. D) De forma geral, a estrutura de anotações de um corpus pode variar bastante, sendo desde classificações simples de sentimento das sentenças até anotações de símbolos terminais como verbos, artigos e substantivos. Este trabalho é sempre desenvolvido por profissionais de TI que precisam realizar a análise NLP dos dados. - Esta alternativa não é correta, pois a anotação de um corpus é um processo manual que envolve profissionais de linguística e letras, e não profissionais de TI. E) As anotações de um corpus são informações gerais sobre os contextos de cada sentença e dados estatísticos como quantidades de palavras e distribuição estatística de cada palavra. A criação destas anotações é feita pela equipe de TI que fará o NLP. - Esta alternativa não é correta, pois a anotação de um corpus é um processo manual e não é feito pela equipe de TI. Portanto, a alternativa correta é a letra C) Um corpus se torna anotado após profissionais de linguística e letras realizarem manualmente a análise e inclusão das anotações.

0
Dislike0

Experimente
o Premium! 🤩

Libere respostas sem pagar

✏️ Responder

SetasNegritoItálicoSublinhadoTachadoCitaçãoCódigoLista numeradaLista com marcadoresSubscritoSobrescritoDiminuir recuoAumentar recuoCor da fonteCor de fundoAlinhamentoLimparInserir linkImagemFórmula

Para escrever sua resposta aqui, entre ou crie uma conta

User badge image

Mais conteúdos dessa disciplina