Buscar

Exercício - Treinamento para aprendizagem de máquina

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

Treinamento para aprendizagem de máquina
Exercícios
1. Métodos para validar os resultados obtidos em algoritmos de aprendizado de
máquina são fundamentais para garantir a validade e a reprodutibilidade dos
experimentos realizados. Dessa forma, o conhecimento das diferentes técnicas é de
suma importância para o desenvolvimento do analista de dados.
Sendo assim, indique a alternativa que expressa corretamente o funcionamento da
validação cruzada:
Resposta incorreta.
A. Para  o método  da  validação  cruzada é  necessário  dividir  o  conjunto  de  dados  em
partição de treino e testes. O algoritmo é então treinado e posteriormente testado com
todo o conjunto de dados.
Resposta incorreta.
B. Para  o  método  da  validação  cruzada é  necessário  dividir  o   conjunto  de  dados  de
maneira a obter uma distribuição normal para as partições de treino e teste. O algoritmo é
então treinado e testado apenas uma vez.
Resposta incorreta.
C. Para o método da validação cruzada não é necessário dividir o conjunto de dados. O
algoritmo é então treinado e testado com todo o conjunto de dados, de modo a apresentar
o melhor resultado possível.
Você acertou!
D. Para  o método  da validação  cruzada é necessário  dividir  o  conjunto  de dados  em
diferentes partições, onde o algoritmo é treinado e testado até que todas as partições
tenham sido utilizadas no teste.
O conjunto de dados base é dividido em r partições, onde o algoritmo é executado
r  vezes.  Em cada  iteração são separadas   r-1  partições  para  o   treinamento  do
algoritmo e a partição complementar é utilizada para o teste. O método é então
repetido até que todas as r partições tenham sido utilizadas no teste. Para finalizar,
é calculada a média e o desvio padrão para os r testes realizados.
Resposta incorreta.
E. Para  o método  da  validação  cruzada é  necessário  dividir  o  conjunto  de  dados  em
diferentes partições, onde o algoritmo é treinado e testado até que o melhor resultado
possível seja atingido.
2. No contexto de aprendizado de máquina, a tarefa a ser executada tem papel
fundamental na escolha do algoritmo. Isso tem relação com o paradigma de
aprendizado ao qual o problema está atrelado. Saber identificar esses paradigmas é
imprescindível para a correta utilização dos métodos de aprendizado de máquina.
Dessa forma, indique a alternativa que apresenta corretamente as diferenças entre
um classificador e um regressor: 
Você acertou!
A. Classificador é o nome dado ao estimador capaz de aproximar uma função em que o
seu domínio é limitado pelo conjunto de valores nominais. Regressor é o nome dado ao
estimador capaz de aproximar uma função em que o seu domínio é limitado pelo conjunto
infinito e ordenado de valores.
Um algoritmo de aprendizado de máquina é chamado de classificador quando se
deseja estimar uma função em que o seu domínio está limitado pelo conjunto de
valores discretos não ordenados. Quando a função a ser aproximada apresenta o
seu domínio como o conjunto infinito de valores ordenados, é dado o nome de
regressor.
Resposta incorreta.
B. Classificador é o nome dado ao estimador capaz de aproximar uma função em que o
seu domínio é limitado pelo conjunto infinito e ordenado de valores. Regressor é o nome
dado ao estimador capaz de aproximar uma função em que o seu domínio é limitado pelo
conjunto de valores nominais.
Resposta incorreta.
C. Classificador   é   o   nome   dado   ao   algoritmo   de   aprendizado   de  máquina capaz   de
encontrar  grupos de objetos semelhantes no conjunto de dados.  Regressor  é o nome
dado ao estimador capaz de aproximar uma função em que o seu domínio é limitado pelo
conjunto infinito e ordenado de valores.
Resposta incorreta.
D. Classificador é o nome dado ao estimador capaz de aproximar uma função em que o
seu domínio é limitado pelo conjunto de valores nominais. Regressor é o nome dado ao
algoritmo de aprendizado de máquina capaz de encontrar grupos de objetos semelhantes
no conjunto de dados.
Resposta incorreta.
E. Classificador é o nome dado ao estimador capaz de aproximar uma função onde seu
domínio  é   limitado  pelo  conjunto  de  valores  nominais.  Regressor  é  o  nome dado ao
algoritmo de aprendizado que tem por meta reforçar uma ação considerada positiva e
punir a ação negativa para o seu treinamento.
3. Medidas para a visualização do desempenho de um classificador são obtidas por 
meio do uso de matrizes de confusão. Esta matriz ilustra o número de predições 
corretas e incorretas do classificador. Dessa forma, é possível calcular facilmente 
diferentes métricas para o algoritmo.
Sendo assim, calcule as métricas de acurácia, precisão e revocação para a seguinte
matriz de confusão:
Resposta incorreta.
A. Acurácia = 0,72, precisão = 0,85 e revocação = 0,80
Resposta incorreta.
B. Acurácia = 1,00, precisão = 0,68 e revocação = 0,78.
Você acertou!
C. Acurácia = 0,82, precisão = 0,80 e revocação = 0,85.
Uma vez que é apresentada a matriz de confusão, basta utilizarmos as seguintes 
fórmulas para o cálculo da acurácia, precisão e revocação:
Resposta incorreta.
D. Acurácia = 0,85, precisão = 0,83 e revocação = 0,82.
Resposta incorreta.
E. Acurácia = 0,90, precisão = 0,75 e revocação = 0,63.
4. Uma técnica de amostragem para a validação de algoritmos é o método holdout.
Nessa estratégia, divide-se o conjunto de dados em diferentes proporções para o
treinamento e para o teste. Um problema comum com esse tipo de estratégia é a
possível dependência da partição adotada para o treino e/ou teste.
Indique a alternativa que apresenta corretamente uma solução para a utilização do
método holdout:
Resposta incorreta.
A. Para que os resultados apresentem menor dependência da partição, pode-se utilizar a
seleção   adequada   para   os   objetos   que   irão   para   o   conjunto   de   teste,   de  modo   a
avaliarmos o algoritmo com precisão para esses objetos.
Resposta incorreta.
B. Para   que   os   resultados   apresentem   menor   dependência   da   partição,   pode-se
utilizar uma seleção dos objetos da base, de modo a treinar o algoritmo para o pior caso
encontrado, facilitando o seu teste.
Resposta incorreta.
C. Para que os resultados apresentem menor dependência da partição, pode-se utilizar
uma proporção de 50% para o treino e 50% para o teste, garantindo, assim, uma melhor
relação entre as partições.
Resposta incorreta.
D. Para que os resultados apresentem menor dependência da partição, pode-se utilizar
todos   os   objetos   da   base   para   o   treinamento   e   a   avaliação   do   algoritmo,  método
conhecido como ressubstituição.
Você acertou!
E. Para que os resultados apresentem menor dependência da partição, pode-se utilizar o
método de random subsampling, no qual as partições são formadas por objetos aleatórios
da base.
Para evitar que as partições para o método holdout apresentem algum viés, pode-
se utilizar o método de random subsampling. Por meio da divisão dos dados da
base em diferentes conjuntos de treino e teste, nos quais cada par de conjunto é
preenchido com objetos selecionados aleatoriamente da base,  é possível  obter
uma média de desempenho em holdout, de modo a tornar os resultados menos
dependentes das partições.
5. Quando se treina um algoritmo de aprendizado de máquina, deseja-se que
ele apresente capacidade de generalização, ou seja, capacidade de prever a classe
ou o valor de objetos não usados para o seu treinamento.
Nesse contexto, indique a alternativa que explica adequadamente o processo de
subajuste e sobreajuste da curva aos dados usados no treinamento:
Você acertou!
A. Sobreajuste é o nome dado ao ajuste  completo da curva aos dados,  diminuindo a
capacidade   da   rede   de   generalizar   objetos   futuros. Subajuste   é   o   nome   dado
à construção de um modelo simplista em relação aos dados, apresentando desempenho
inferior mesmo durante a fase de treinamento.
Sobreajuste é o processo que ocorre quando o algoritmo se adapta totalmente aos
objetos de treinamento,de modo a perder a sua capacidade de generalização
para   novos   objetos.   Todavia,   o   subajuste   é   a   incapacidade   do   algoritmo   de
estabelecer   as   relações   necessárias   entre   os   dados,   criando   um   modelo
demasiadamente simples.
Resposta incorreta.
B. Subajuste   é   o   nome  dado  ao  ajuste   completo   da   curva  aos  dados,   diminuindo   a
capacidade   da   rede   de   generalizar   objetos   futuros. Sobreajuste   é   o   nome   dado
à construção de um modelo simplista em relação aos dados, apresentando desempenho
inferior mesmo durante a fase de treinamento.
Resposta incorreta.
C. Sobreajuste é o nome dado à construção de modelo de maior complexidade que os
dados   apresentados,   de   modo   a   aumentar   a   capacidade   de   generalização   da
rede. Subajuste é o nome dado à construção de um modelo simplista em relação aos
dados, apresentando desempenho inferior mesmo durante a fase de treinamento.
Resposta incorreta.
D. Sobreajuste é o nome dado ao ajuste completo da curva aos dados,  diminuindo a
capacidade   da   rede   de   generalizar   objetos   futuros. Subajuste   é   o   nome   dado
à construção de um modelo simplista em relação aos dados, de modo a garantir um poder
de generalização ainda maior ao algoritmo.
Resposta incorreta.
E. Sobreajuste é o nome dado ao ajuste  completo da curva aos dados,  diminuindo a
capacidade da rede de generalizar objetos futuros. Subajuste é o nome dado ao método
de correção para o problema de sobreajuste, devolvendo o balanceamento da capacidade
de generalização ao algoritmo.
	Treinamento para aprendizagem de máquina
	Exercícios

Mais conteúdos dessa disciplina