Prévia do material em texto
Aprendizagem de Máquina Unidade 1 Deixe seu like !!! Introdução à aprendizagem de máquina 1- Em aprendizado de máquina, tanto a qualidade quanto a quantidade de informações disponíveis têm impacto direto sobre o resultado do algoritmo. Há situações em que o excesso de amostras, não necessariamente de valores parecidos, pode fazer com que o algoritmo se especialize naquele conjunto de dados e seja incapaz de generalizar suas previsões ou descrições. Essa situação é conhecida como: A. Overfitting. 2- O aprendizado lida, principalmente, com o reconhecimento e a identificação de padrões que permitem relacionar diferentes instâncias de um conjunto de dados a diferentes finalidades. Para os humanos, não é diferente. Exercite sua capacidade de reconhecer padrões: identifique o padrão de mudança entre os quadrados da imagem e, a partir dele, determine a imagem correta para o último objeto. . A. 3- O algoritmo de aprendizado de máquina pode ser classificado segundo o tipo de resultado que é retornado. Considerando o gráfico da imagem a seguir, determine qual dos tipos de aprendizado de máquina é utilizado. . A. Classificação. 4- Parte essencial do processo de aprendizado de máquina são as tarefas utilizadas para aplicar o modelo aprendido sobre um conjunto de dados. As tarefas são diversas, mas duas delas abrangem vários algoritmos diferentes e são muito utilizadas: classificação e regressão. Considerando os tipos de tarefas citados, quais deles podem ser utilizados na previsão dos conceitos-alvo para as tabelas 1, 2 e 3, respectivamente? A. 1: Regressão. 2: Classificação. 3: Classificação. 5- A quantidade de exemplos influencia o reconhecimento de padrões do agente. Padrões encontrados em um pequeno conjunto de exemplos podem não se repetir à medida que o conjunto de dados aumenta, mas, em contrapartida, novos padrões podem ser observados, permitindo inferir outras soluções que eventualmente irão coincidir com a resolução do problema. A partir da tabela a seguir, identifique o padrão que relaciona os valores de cada célula e determine os valores de X, Y e Z. A. X = 36; Y = 44; Z = 52. Abordagens de aprendizagem de máquina e principais tarefas 1- O aprendizado de máquina costuma ser classificado conforme o indicador utilizado para determinar se a tarefa está mais próxima ou mais distante do seu alvo. Neste sentido, as tarefas de classificação e regressão são mais comumente encontradas em: A.aprendizado supervisionado. 2- O aprendizado semissupervisionado faz uma mescla entre as abordagens supervisionada e não supervisionada. Como são caracterizados os dados fornecidos neste tipo de abordagem? A. Parte dos dados são acompanhados de atributo-alvo e parte não. 3- Diferentemente das tarefas de classificação, uma tarefa de regressão retorna valores contínuos que podem ser expressos na forma de retas e curvas em um gráfico em que estão dispostas as instâncias. Considerando os pontos em amarelo da imagem, qual das retas melhor define a regressão linear para este conjunto de dados? A. Azul. 4- Uma rede social está tentando aprimorar o engajamento dos seus usuários filtrando o conteúdo que é exibido de forma que estes vejam postagens de maior interesse. Sabe-se que o usuário interage marcando as postagens que mais lhe chamaram a atenção como “gostei”. Qual das alternativas a seguir apresenta uma escolha adequada para implementar este algoritmo por meio de aprendizado de máquina? A. Tarefas de classificação “gostei” como atributo-alvo. 5- O aprendizado por reforço difere do não supervisionado por receber informações além dos próprios dados, mas também difere do supervisionado por não ter rótulos definidos para o alvo. Em qual das alternativas a seguir o aprendizado por reforço pode ser melhor aplicado? B. Em um jogo de batalha no qual a máquina aprende a jogar interagindo com o ambiente. Aprendizagem não supervisionada: agrupamento 1- Nem todos os problemas de abordagem não supervisionada são adequados ao uso do algoritmo k-means. Qual das situações abaixo pode ser resolvida com o uso do algoritmo k-means? E. Dados distribuídos em regiões densas e vazias bem distintas. 2- Observe os gráficos a seguir e a forma como os dados foram classificados. Considerando o que você aprendeu a respeito do algoritmo k-means, qual dos gráficos pode ter sido criado a partir dele? D. 3- A validação de grupos é passo importante que permite refinar os parâmetros e melhor adequar o algoritmo ao problema. No algoritmo k-means, o parâmetro K deve ser selecionado pelo usuário, mas o método de Elbow auxilia nessa escolha. Considerando o gráfico abaixo, utilize o critério de Elbow para escolher o valor mais recomendado para K. D. 3. 4- Considerando os valores de centroide dos cinco grupos da tabela abaixo, determine a qual cluster deve ser atribuído o ponto P (1,5, 0,5). Considere a distância euclidiana como parâmetro. Cluster X Y Cluster 1 0,2 1 Cluster 2 1 0,5 Cluster 3 0,3 1,5 Cluster 4 2 0,8 Cluster 5 1,2 1,3 B. Cluster 2. 5- A tabela abaixo apresenta a posição dos pares de instâncias e o cluster a que pertencem. Cluster Instância 1 Instância 2 Cluster 1 (4,0, 4,0) (3,0, 4,1) Cluster 2 (3,2, 3,5) (5,0, 3,7) Cluster 3 (2,4, 3,7) (1,5, 2,3) Cluster 4 (0,8, 1,7) (0,5, 0,9) Cluster 5 (1,2, 1,1) (1,0, 2,0) A partir desses dados, são calculadas as distâncias entre cada uma das instâncias. DISTÂNCIAS ENTRE AS INSTÂNCIAS C1O1 C1O2 C2O1 C2O2 C3O1 C3O2 C4O1 C4O2 C5O1 C5O2 C1O1 - 1,005 0,943 1,044 1,628 3,023 3,941 4,675 4,031 3,606 C1O2 1,005 - 0,632 2,040 0,721 2,343 3,256 4,061 3,499 2,900 C2O1 0,943 0,632 - 1,811 0,825 2,081 3,000 3,748 3,124 2,663 C2O2 1,044 2,040 1,811 - 2,600 3,770 4,652 5,300 4,604 4,346 C3O1 1,628 0,721 0,825 2,600 - 1,664 2,561 3,384 2,864 2,202 C3O2 3,023 2,343 2,081 3,770 1,664 - 0,922 1,720 1,237 0,583 C4O1 3,941 3,256 3,000 4,652 2,561 0,922 - 0,854 0,721 0,361 C4O2 4,675 4,061 3,748 5,300 3,384 1,720 0,854 - 0,728 1,208 C5O1 4,031 3,499 3,124 4,604 2,864 1,237 0,721 0,728 - 0,922 C5O2 3,606 2,900 2,663 4,346 2,202 0,583 0,361 1,208 0,922 - Considerando as informações acima, determine, segundo o critério da silhueta, as instâncias que estão melhor e pior agrupadas. A. Melhor: instância 1 do cluster 1 (C1O1). Pior: instância 1 do cluster 2 (C2O1). Aprendizagem não supervisionada: aplicação do k-means 1. Muitas vezes apenas a visualização da distribuição dos dados é suficiente para iniciar as investigações em aprendizado de máquina não supervisionado. Considerando a distribuição segundo os atributos A, B, C e D plotados aos pares, utilizando um algoritmo de k-means, qual das alternativas apresenta o par de atributos que, se utilizado, resultará em um agrupamento que terá maiores chances de encontrar clusters similares ao conjunto de dados original? A. C e D. 2. O aprendizado não supervisionado descreve o conjunto de dados a partir de características intrínsecas a ele devido à falta de atributos-alvo. Nesses casos, qual métrica pode ser usada para avaliar o desempenho em tarefas de agrupamento? A. Silhueta. 3. Dados os valores de silhueta e índice de Calinski-Harabasz, qual dos agrupamentos tem maior probabilidade de ter encontrado grupos válidos? D. Silhueta: 0,7.Calinski-Harabasz: 1.500. 4. Assinale a linha de código que cria um objeto do algoritmo de k-means configurado para: 1. utilizar todos os 16 núcleos de processamento disponíveis; 2. reduzir a quantidade de cálculo necessário para determinar a distância entre as instâncias; 3. reduzir a quantidade de iterações necessárias para convergir. A. KMeans(3, n_jobs=-1, algorithm='elkan'). 5. Implemente o código abaixo e utilize os dados de cada conjunto X,y para treinar um algoritmo de k-means e avaliar qual é o valor aproximado do índice de Calinski-Harabasz e qual conjunto de dados apresenta o melhor índice. X1, y1 = make_blobs(n_samples=200,n_features=4, centers=4, cluster_std=2, random_state=150) X2, y2 = make_blobs(n_samples=200, n_features=4, centers=4, cluster_std=2, random_state=250) X3, y3 = make_blobs(n_samples=200, n_features=4, centers=4, cluster_std=2, random_state=350) X4, y4 = make_blobs(n_samples=200, n_features=4, centers=4, cluster_std=2, random_state=450) A. Conjunto de dados X1 com índice de 594,65.