Exercício - Treinamento para aprendizagem de máquina

•

IESB

robson.gm

15/08/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

Prévia do material em texto

Treinamento para aprendizagem de máquina
Exercícios
1. Métodos para validar os resultados obtidos em algoritmos de aprendizado de
máquina são fundamentais para garantir a validade e a reprodutibilidade dos
experimentos realizados. Dessa forma, o conhecimento das diferentes técnicas é de
suma importância para o desenvolvimento do analista de dados.
Sendo assim, indique a alternativa que expressa corretamente o funcionamento da
validação cruzada:
Resposta incorreta.
A. Para o método da validação cruzada é necessário dividir o conjunto de dados em
partição de treino e testes. O algoritmo é então treinado e posteriormente testado com
todo o conjunto de dados.
Resposta incorreta.
B. Para o método da validação cruzada é necessário dividir o conjunto de dados de
maneira a obter uma distribuição normal para as partições de treino e teste. O algoritmo é
então treinado e testado apenas uma vez.
Resposta incorreta.
C. Para o método da validação cruzada não é necessário dividir o conjunto de dados. O
algoritmo é então treinado e testado com todo o conjunto de dados, de modo a apresentar
o melhor resultado possível.
Você acertou!
D. Para o método da validação cruzada é necessário dividir o conjunto de dados em
diferentes partições, onde o algoritmo é treinado e testado até que todas as partições
tenham sido utilizadas no teste.
O conjunto de dados base é dividido em r partições, onde o algoritmo é executado
r vezes. Em cada iteração são separadas r-1 partições para o treinamento do
algoritmo e a partição complementar é utilizada para o teste. O método é então
repetido até que todas as r partições tenham sido utilizadas no teste. Para finalizar,
é calculada a média e o desvio padrão para os r testes realizados.
Resposta incorreta.
E. Para o método da validação cruzada é necessário dividir o conjunto de dados em
diferentes partições, onde o algoritmo é treinado e testado até que o melhor resultado
possível seja atingido.
2. No contexto de aprendizado de máquina, a tarefa a ser executada tem papel
fundamental na escolha do algoritmo. Isso tem relação com o paradigma de
aprendizado ao qual o problema está atrelado. Saber identificar esses paradigmas é
imprescindível para a correta utilização dos métodos de aprendizado de máquina.
Dessa forma, indique a alternativa que apresenta corretamente as diferenças entre
um classificador e um regressor:
Você acertou!
A. Classificador é o nome dado ao estimador capaz de aproximar uma função em que o
seu domínio é limitado pelo conjunto de valores nominais. Regressor é o nome dado ao
estimador capaz de aproximar uma função em que o seu domínio é limitado pelo conjunto
infinito e ordenado de valores.
Um algoritmo de aprendizado de máquina é chamado de classificador quando se
deseja estimar uma função em que o seu domínio está limitado pelo conjunto de
valores discretos não ordenados. Quando a função a ser aproximada apresenta o
seu domínio como o conjunto infinito de valores ordenados, é dado o nome de
regressor.
Resposta incorreta.
B. Classificador é o nome dado ao estimador capaz de aproximar uma função em que o
seu domínio é limitado pelo conjunto infinito e ordenado de valores. Regressor é o nome
dado ao estimador capaz de aproximar uma função em que o seu domínio é limitado pelo
conjunto de valores nominais.
Resposta incorreta.
C. Classificador é o nome dado ao algoritmo de aprendizado de máquina capaz de
encontrar grupos de objetos semelhantes no conjunto de dados. Regressor é o nome
dado ao estimador capaz de aproximar uma função em que o seu domínio é limitado pelo
conjunto infinito e ordenado de valores.
Resposta incorreta.
D. Classificador é o nome dado ao estimador capaz de aproximar uma função em que o
seu domínio é limitado pelo conjunto de valores nominais. Regressor é o nome dado ao
algoritmo de aprendizado de máquina capaz de encontrar grupos de objetos semelhantes
no conjunto de dados.
Resposta incorreta.
E. Classificador é o nome dado ao estimador capaz de aproximar uma função onde seu
domínio é limitado pelo conjunto de valores nominais. Regressor é o nome dado ao
algoritmo de aprendizado que tem por meta reforçar uma ação considerada positiva e
punir a ação negativa para o seu treinamento.
3. Medidas para a visualização do desempenho de um classificador são obtidas por
meio do uso de matrizes de confusão. Esta matriz ilustra o número de predições
corretas e incorretas do classificador. Dessa forma, é possível calcular facilmente
diferentes métricas para o algoritmo.
Sendo assim, calcule as métricas de acurácia, precisão e revocação para a seguinte
matriz de confusão:
Resposta incorreta.
A. Acurácia = 0,72, precisão = 0,85 e revocação = 0,80
Resposta incorreta.
B. Acurácia = 1,00, precisão = 0,68 e revocação = 0,78.
Você acertou!
C. Acurácia = 0,82, precisão = 0,80 e revocação = 0,85.
Uma vez que é apresentada a matriz de confusão, basta utilizarmos as seguintes
fórmulas para o cálculo da acurácia, precisão e revocação:
Resposta incorreta.
D. Acurácia = 0,85, precisão = 0,83 e revocação = 0,82.
Resposta incorreta.
E. Acurácia = 0,90, precisão = 0,75 e revocação = 0,63.
4. Uma técnica de amostragem para a validação de algoritmos é o método holdout.
Nessa estratégia, divide-se o conjunto de dados em diferentes proporções para o
treinamento e para o teste. Um problema comum com esse tipo de estratégia é a
possível dependência da partição adotada para o treino e/ou teste.
Indique a alternativa que apresenta corretamente uma solução para a utilização do
método holdout:
Resposta incorreta.
A. Para que os resultados apresentem menor dependência da partição, pode-se utilizar a
seleção adequada para os objetos que irão para o conjunto de teste, de modo a
avaliarmos o algoritmo com precisão para esses objetos.
Resposta incorreta.
B. Para que os resultados apresentem menor dependência da partição, pode-se
utilizar uma seleção dos objetos da base, de modo a treinar o algoritmo para o pior caso
encontrado, facilitando o seu teste.
Resposta incorreta.
C. Para que os resultados apresentem menor dependência da partição, pode-se utilizar
uma proporção de 50% para o treino e 50% para o teste, garantindo, assim, uma melhor
relação entre as partições.
Resposta incorreta.
D. Para que os resultados apresentem menor dependência da partição, pode-se utilizar
todos os objetos da base para o treinamento e a avaliação do algoritmo, método
conhecido como ressubstituição.
Você acertou!
E. Para que os resultados apresentem menor dependência da partição, pode-se utilizar o
método de random subsampling, no qual as partições são formadas por objetos aleatórios
da base.
Para evitar que as partições para o método holdout apresentem algum viés, pode-
se utilizar o método de random subsampling. Por meio da divisão dos dados da
base em diferentes conjuntos de treino e teste, nos quais cada par de conjunto é
preenchido com objetos selecionados aleatoriamente da base, é possível obter
uma média de desempenho em holdout, de modo a tornar os resultados menos
dependentes das partições.
5. Quando se treina um algoritmo de aprendizado de máquina, deseja-se que
ele apresente capacidade de generalização, ou seja, capacidade de prever a classe
ou o valor de objetos não usados para o seu treinamento.
Nesse contexto, indique a alternativa que explica adequadamente o processo de
subajuste e sobreajuste da curva aos dados usados no treinamento:
Você acertou!
A. Sobreajuste é o nome dado ao ajuste completo da curva aos dados, diminuindo a
capacidade da rede de generalizar objetos futuros. Subajuste é o nome dado
à construção de um modelo simplista em relação aos dados, apresentando desempenho
inferior mesmo durante a fase de treinamento.
Sobreajuste é o processo que ocorre quando o algoritmo se adapta totalmente aos
objetos de treinamento,de modo a perder a sua capacidade de generalização
para novos objetos. Todavia, o subajuste é a incapacidade do algoritmo de
estabelecer as relações necessárias entre os dados, criando um modelo
demasiadamente simples.
Resposta incorreta.
B. Subajuste é o nome dado ao ajuste completo da curva aos dados, diminuindo a
capacidade da rede de generalizar objetos futuros. Sobreajuste é o nome dado
à construção de um modelo simplista em relação aos dados, apresentando desempenho
inferior mesmo durante a fase de treinamento.
Resposta incorreta.
C. Sobreajuste é o nome dado à construção de modelo de maior complexidade que os
dados apresentados, de modo a aumentar a capacidade de generalização da
rede. Subajuste é o nome dado à construção de um modelo simplista em relação aos
dados, apresentando desempenho inferior mesmo durante a fase de treinamento.
Resposta incorreta.
D. Sobreajuste é o nome dado ao ajuste completo da curva aos dados, diminuindo a
capacidade da rede de generalizar objetos futuros. Subajuste é o nome dado
à construção de um modelo simplista em relação aos dados, de modo a garantir um poder
de generalização ainda maior ao algoritmo.
Resposta incorreta.
E. Sobreajuste é o nome dado ao ajuste completo da curva aos dados, diminuindo a
capacidade da rede de generalizar objetos futuros. Subajuste é o nome dado ao método
de correção para o problema de sobreajuste, devolvendo o balanceamento da capacidade
de generalização ao algoritmo.
Treinamento para aprendizagem de máquina
Exercícios