Aprendizagem de Máquina (Unidade 1)

•

IESB

subnove468

19/05/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 9 páginas

Prévia do material em texto

Aprendizagem de Máquina
Unidade 1
Deixe seu like !!!
Introdução à aprendizagem de máquina
1- Em aprendizado de máquina, tanto a qualidade quanto a quantidade de informações disponíveis têm impacto direto sobre o resultado do algoritmo. Há situações em que o excesso de amostras, não necessariamente de valores parecidos, pode fazer com que o algoritmo se especialize naquele conjunto de dados e seja incapaz de generalizar suas previsões ou descrições. Essa situação é conhecida como:
A. Overfitting.
2- O aprendizado lida, principalmente, com o reconhecimento e a identificação de padrões que permitem relacionar diferentes instâncias de um conjunto de dados a diferentes finalidades. Para os humanos, não é diferente. Exercite sua capacidade de reconhecer padrões: identifique o padrão de mudança entre os quadrados da imagem e, a partir dele, determine a imagem correta para o último objeto. 
 	.
A. 
3- O algoritmo de aprendizado de máquina pode ser classificado segundo o tipo de resultado que é retornado. Considerando o gráfico da imagem a seguir, determine qual dos tipos de aprendizado de máquina é utilizado.
.
A. 
Classificação.
4- Parte essencial do processo de aprendizado de máquina são as tarefas utilizadas para aplicar o modelo aprendido sobre um conjunto de dados. As tarefas são diversas, mas duas delas abrangem vários algoritmos diferentes e são muito utilizadas: classificação e regressão. Considerando os tipos de tarefas citados, quais deles podem ser utilizados na previsão dos conceitos-alvo para as tabelas 1, 2 e 3, respectivamente?
A. 
1: Regressão.
2: Classificação.
 3: Classificação.
5- A quantidade de exemplos influencia o reconhecimento de padrões do agente. Padrões encontrados em um pequeno conjunto de exemplos podem não se repetir à medida que o conjunto de dados aumenta, mas, em contrapartida, novos padrões podem ser observados, permitindo inferir outras soluções que eventualmente irão coincidir com a resolução do problema.
A partir da tabela a seguir, identifique o padrão que relaciona os valores de cada célula e determine os valores de X, Y e Z.
A. X = 36; Y = 44; Z = 52.
Abordagens de aprendizagem de máquina e principais tarefas
1- O aprendizado de máquina costuma ser classificado conforme o indicador utilizado para determinar se a tarefa está mais próxima ou mais distante do seu alvo.
Neste sentido, as tarefas de classificação e regressão são mais comumente encontradas em:
A.aprendizado supervisionado.
2- O aprendizado semissupervisionado faz uma mescla entre as abordagens supervisionada e não supervisionada. Como são caracterizados os dados fornecidos neste tipo de abordagem?
A. Parte dos dados são acompanhados de atributo-alvo e parte não.
3- Diferentemente das tarefas de classificação, uma tarefa de regressão retorna valores contínuos que podem ser expressos na forma de retas e curvas em um gráfico em que estão dispostas as instâncias. Considerando os pontos em amarelo da imagem, qual das retas melhor define a regressão linear para este conjunto de dados?
A. Azul.
4- Uma rede social está tentando aprimorar o engajamento dos seus usuários filtrando o conteúdo que é exibido de forma que estes vejam postagens de maior interesse. Sabe-se que o usuário interage marcando as postagens que mais lhe chamaram a atenção como “gostei”.
Qual das alternativas a seguir apresenta uma escolha adequada para implementar este algoritmo por meio de aprendizado de máquina?
A. Tarefas de classificação “gostei” como atributo-alvo.
5- O aprendizado por reforço difere do não supervisionado por receber informações além dos próprios dados, mas também difere do supervisionado por não ter rótulos definidos para o alvo.
Em qual das alternativas a seguir o aprendizado por reforço pode ser melhor aplicado?
B. Em um jogo de batalha no qual a máquina aprende a jogar interagindo com o ambiente.
Aprendizagem não supervisionada: agrupamento
1- Nem todos os problemas de abordagem não supervisionada são adequados ao uso do algoritmo k-means. Qual das situações abaixo pode ser resolvida com o uso do algoritmo k-means?
E. Dados distribuídos em regiões densas e vazias bem distintas.
2- Observe os gráficos a seguir e a forma como os dados foram classificados.
Considerando o que você aprendeu a respeito do algoritmo k-means, qual dos gráficos pode ter sido criado a partir dele?
D.
3- A validação de grupos é passo importante que permite refinar os parâmetros e melhor adequar o algoritmo ao problema. No algoritmo k-means, o parâmetro K deve ser selecionado pelo usuário, mas o método de Elbow auxilia nessa escolha.
Considerando o gráfico abaixo, utilize o critério de Elbow para escolher o valor mais recomendado para K.
D. 3.
4- Considerando os valores de centroide dos cinco grupos da tabela abaixo, determine a qual cluster deve ser atribuído o ponto P (1,5, 0,5). Considere a distância euclidiana como parâmetro.
	Cluster
	X
	Y
	Cluster 1
	0,2
	1
	Cluster 2
	1
	0,5
	Cluster 3
	0,3
	1,5
	Cluster 4
	2
	0,8
	Cluster 5
	1,2
	1,3
B. Cluster 2.
5- A tabela abaixo apresenta a posição dos pares de instâncias e o cluster a que pertencem.
	Cluster
	Instância 1
	Instância 2
	Cluster 1
	(4,0, 4,0)
	(3,0, 4,1)
	Cluster 2
	(3,2, 3,5)
	(5,0, 3,7)
	Cluster 3
	(2,4, 3,7)
	(1,5, 2,3)
	Cluster 4
	(0,8, 1,7)
	(0,5, 0,9)
	Cluster 5
	(1,2, 1,1)
	(1,0, 2,0)
A partir desses dados, são calculadas as distâncias entre cada uma das instâncias.
	DISTÂNCIAS ENTRE AS INSTÂNCIAS
	
	C1O1
	C1O2
	C2O1
	C2O2
	C3O1
	C3O2
	C4O1
	C4O2
	C5O1
	C5O2
	C1O1
	-
	1,005
	0,943
	1,044
	1,628
	3,023
	3,941
	4,675
	4,031
	3,606
	C1O2
	1,005
	-
	0,632
	2,040
	0,721
	2,343
	3,256
	4,061
	3,499
	2,900
	C2O1
	0,943
	0,632
	-
	1,811
	0,825
	2,081
	3,000
	3,748
	3,124
	2,663
	C2O2
	1,044
	2,040
	1,811
	-
	2,600
	3,770
	4,652
	5,300
	4,604
	4,346
	C3O1
	1,628
	0,721
	0,825
	2,600
	-
	1,664
	2,561
	3,384
	2,864
	2,202
	C3O2
	3,023
	2,343
	2,081
	3,770
	1,664
	-
	0,922
	1,720
	1,237
	0,583
	C4O1
	3,941
	3,256
	3,000
	4,652
	2,561
	0,922
	-
	0,854
	0,721
	0,361
	C4O2
	4,675
	4,061
	3,748
	5,300
	3,384
	1,720
	0,854
	-
	0,728
	1,208
	C5O1
	4,031
	3,499
	3,124
	4,604
	2,864
	1,237
	0,721
	0,728
	-
	0,922
	C5O2
	3,606
	2,900
	2,663
	4,346
	2,202
	0,583
	0,361
	1,208
	0,922
	-
Considerando as informações acima, determine, segundo o critério da silhueta, as instâncias que estão melhor e pior agrupadas.
A. Melhor: instância 1 do cluster 1 (C1O1).
Pior: instância 1 do cluster 2 (C2O1).
Aprendizagem não supervisionada: aplicação do k-means
1. Muitas vezes apenas a visualização da distribuição dos dados é suficiente para iniciar as investigações em aprendizado de máquina não supervisionado. Considerando a distribuição segundo os atributos A, B, C e D plotados aos pares, utilizando um algoritmo de k-means, qual das alternativas apresenta o par de atributos que, se utilizado, resultará em um agrupamento que terá maiores chances de encontrar clusters similares ao conjunto de dados original?
A. C e D.
2. O aprendizado não supervisionado descreve o conjunto de dados a partir de características intrínsecas a ele devido à falta de atributos-alvo.
Nesses casos, qual métrica pode ser usada para avaliar o desempenho em tarefas de agrupamento?
A. Silhueta.
3. Dados os valores de silhueta e índice de Calinski-Harabasz, qual dos agrupamentos tem maior probabilidade de ter encontrado grupos válidos?
D. Silhueta: 0,7.Calinski-Harabasz: 1.500.
4. Assinale a linha de código que cria um objeto do algoritmo de k-means configurado para:
1. utilizar todos os 16 núcleos de processamento disponíveis;
2. reduzir a quantidade de cálculo necessário para determinar a distância entre as instâncias;
3. reduzir a quantidade de iterações necessárias para convergir.
A. KMeans(3, n_jobs=-1, algorithm='elkan').
5. Implemente o código abaixo e utilize os dados de cada conjunto X,y para treinar um algoritmo de k-means e avaliar qual é o valor aproximado do índice de Calinski-Harabasz e qual conjunto de dados apresenta o melhor índice.
X1, y1 = make_blobs(n_samples=200,n_features=4, centers=4, cluster_std=2, random_state=150)
X2, y2 = make_blobs(n_samples=200, n_features=4, centers=4, cluster_std=2, random_state=250)
X3, y3 = make_blobs(n_samples=200, n_features=4, centers=4, cluster_std=2, random_state=350)
X4, y4 = make_blobs(n_samples=200, n_features=4, centers=4, cluster_std=2, random_state=450)
A. Conjunto de dados X1 com índice de 594,65.