Prévia do material em texto
Treinamento para aprendizagem de máquina Exercícios 1. Métodos para validar os resultados obtidos em algoritmos de aprendizado de máquina são fundamentais para garantir a validade e a reprodutibilidade dos experimentos realizados. Dessa forma, o conhecimento das diferentes técnicas é de suma importância para o desenvolvimento do analista de dados. Sendo assim, indique a alternativa que expressa corretamente o funcionamento da validação cruzada: Resposta incorreta. A. Para o método da validação cruzada é necessário dividir o conjunto de dados em partição de treino e testes. O algoritmo é então treinado e posteriormente testado com todo o conjunto de dados. Resposta incorreta. B. Para o método da validação cruzada é necessário dividir o conjunto de dados de maneira a obter uma distribuição normal para as partições de treino e teste. O algoritmo é então treinado e testado apenas uma vez. Resposta incorreta. C. Para o método da validação cruzada não é necessário dividir o conjunto de dados. O algoritmo é então treinado e testado com todo o conjunto de dados, de modo a apresentar o melhor resultado possível. Você acertou! D. Para o método da validação cruzada é necessário dividir o conjunto de dados em diferentes partições, onde o algoritmo é treinado e testado até que todas as partições tenham sido utilizadas no teste. O conjunto de dados base é dividido em r partições, onde o algoritmo é executado r vezes. Em cada iteração são separadas r-1 partições para o treinamento do algoritmo e a partição complementar é utilizada para o teste. O método é então repetido até que todas as r partições tenham sido utilizadas no teste. Para finalizar, é calculada a média e o desvio padrão para os r testes realizados. Resposta incorreta. E. Para o método da validação cruzada é necessário dividir o conjunto de dados em diferentes partições, onde o algoritmo é treinado e testado até que o melhor resultado possível seja atingido. 2. No contexto de aprendizado de máquina, a tarefa a ser executada tem papel fundamental na escolha do algoritmo. Isso tem relação com o paradigma de aprendizado ao qual o problema está atrelado. Saber identificar esses paradigmas é imprescindível para a correta utilização dos métodos de aprendizado de máquina. Dessa forma, indique a alternativa que apresenta corretamente as diferenças entre um classificador e um regressor: Você acertou! A. Classificador é o nome dado ao estimador capaz de aproximar uma função em que o seu domínio é limitado pelo conjunto de valores nominais. Regressor é o nome dado ao estimador capaz de aproximar uma função em que o seu domínio é limitado pelo conjunto infinito e ordenado de valores. Um algoritmo de aprendizado de máquina é chamado de classificador quando se deseja estimar uma função em que o seu domínio está limitado pelo conjunto de valores discretos não ordenados. Quando a função a ser aproximada apresenta o seu domínio como o conjunto infinito de valores ordenados, é dado o nome de regressor. Resposta incorreta. B. Classificador é o nome dado ao estimador capaz de aproximar uma função em que o seu domínio é limitado pelo conjunto infinito e ordenado de valores. Regressor é o nome dado ao estimador capaz de aproximar uma função em que o seu domínio é limitado pelo conjunto de valores nominais. Resposta incorreta. C. Classificador é o nome dado ao algoritmo de aprendizado de máquina capaz de encontrar grupos de objetos semelhantes no conjunto de dados. Regressor é o nome dado ao estimador capaz de aproximar uma função em que o seu domínio é limitado pelo conjunto infinito e ordenado de valores. Resposta incorreta. D. Classificador é o nome dado ao estimador capaz de aproximar uma função em que o seu domínio é limitado pelo conjunto de valores nominais. Regressor é o nome dado ao algoritmo de aprendizado de máquina capaz de encontrar grupos de objetos semelhantes no conjunto de dados. Resposta incorreta. E. Classificador é o nome dado ao estimador capaz de aproximar uma função onde seu domínio é limitado pelo conjunto de valores nominais. Regressor é o nome dado ao algoritmo de aprendizado que tem por meta reforçar uma ação considerada positiva e punir a ação negativa para o seu treinamento. 3. Medidas para a visualização do desempenho de um classificador são obtidas por meio do uso de matrizes de confusão. Esta matriz ilustra o número de predições corretas e incorretas do classificador. Dessa forma, é possível calcular facilmente diferentes métricas para o algoritmo. Sendo assim, calcule as métricas de acurácia, precisão e revocação para a seguinte matriz de confusão: Resposta incorreta. A. Acurácia = 0,72, precisão = 0,85 e revocação = 0,80 Resposta incorreta. B. Acurácia = 1,00, precisão = 0,68 e revocação = 0,78. Você acertou! C. Acurácia = 0,82, precisão = 0,80 e revocação = 0,85. Uma vez que é apresentada a matriz de confusão, basta utilizarmos as seguintes fórmulas para o cálculo da acurácia, precisão e revocação: Resposta incorreta. D. Acurácia = 0,85, precisão = 0,83 e revocação = 0,82. Resposta incorreta. E. Acurácia = 0,90, precisão = 0,75 e revocação = 0,63. 4. Uma técnica de amostragem para a validação de algoritmos é o método holdout. Nessa estratégia, divide-se o conjunto de dados em diferentes proporções para o treinamento e para o teste. Um problema comum com esse tipo de estratégia é a possível dependência da partição adotada para o treino e/ou teste. Indique a alternativa que apresenta corretamente uma solução para a utilização do método holdout: Resposta incorreta. A. Para que os resultados apresentem menor dependência da partição, pode-se utilizar a seleção adequada para os objetos que irão para o conjunto de teste, de modo a avaliarmos o algoritmo com precisão para esses objetos. Resposta incorreta. B. Para que os resultados apresentem menor dependência da partição, pode-se utilizar uma seleção dos objetos da base, de modo a treinar o algoritmo para o pior caso encontrado, facilitando o seu teste. Resposta incorreta. C. Para que os resultados apresentem menor dependência da partição, pode-se utilizar uma proporção de 50% para o treino e 50% para o teste, garantindo, assim, uma melhor relação entre as partições. Resposta incorreta. D. Para que os resultados apresentem menor dependência da partição, pode-se utilizar todos os objetos da base para o treinamento e a avaliação do algoritmo, método conhecido como ressubstituição. Você acertou! E. Para que os resultados apresentem menor dependência da partição, pode-se utilizar o método de random subsampling, no qual as partições são formadas por objetos aleatórios da base. Para evitar que as partições para o método holdout apresentem algum viés, pode- se utilizar o método de random subsampling. Por meio da divisão dos dados da base em diferentes conjuntos de treino e teste, nos quais cada par de conjunto é preenchido com objetos selecionados aleatoriamente da base, é possível obter uma média de desempenho em holdout, de modo a tornar os resultados menos dependentes das partições. 5. Quando se treina um algoritmo de aprendizado de máquina, deseja-se que ele apresente capacidade de generalização, ou seja, capacidade de prever a classe ou o valor de objetos não usados para o seu treinamento. Nesse contexto, indique a alternativa que explica adequadamente o processo de subajuste e sobreajuste da curva aos dados usados no treinamento: Você acertou! A. Sobreajuste é o nome dado ao ajuste completo da curva aos dados, diminuindo a capacidade da rede de generalizar objetos futuros. Subajuste é o nome dado à construção de um modelo simplista em relação aos dados, apresentando desempenho inferior mesmo durante a fase de treinamento. Sobreajuste é o processo que ocorre quando o algoritmo se adapta totalmente aos objetos de treinamento,de modo a perder a sua capacidade de generalização para novos objetos. Todavia, o subajuste é a incapacidade do algoritmo de estabelecer as relações necessárias entre os dados, criando um modelo demasiadamente simples. Resposta incorreta. B. Subajuste é o nome dado ao ajuste completo da curva aos dados, diminuindo a capacidade da rede de generalizar objetos futuros. Sobreajuste é o nome dado à construção de um modelo simplista em relação aos dados, apresentando desempenho inferior mesmo durante a fase de treinamento. Resposta incorreta. C. Sobreajuste é o nome dado à construção de modelo de maior complexidade que os dados apresentados, de modo a aumentar a capacidade de generalização da rede. Subajuste é o nome dado à construção de um modelo simplista em relação aos dados, apresentando desempenho inferior mesmo durante a fase de treinamento. Resposta incorreta. D. Sobreajuste é o nome dado ao ajuste completo da curva aos dados, diminuindo a capacidade da rede de generalizar objetos futuros. Subajuste é o nome dado à construção de um modelo simplista em relação aos dados, de modo a garantir um poder de generalização ainda maior ao algoritmo. Resposta incorreta. E. Sobreajuste é o nome dado ao ajuste completo da curva aos dados, diminuindo a capacidade da rede de generalizar objetos futuros. Subajuste é o nome dado ao método de correção para o problema de sobreajuste, devolvendo o balanceamento da capacidade de generalização ao algoritmo. Treinamento para aprendizagem de máquina Exercícios