Buscar

Prévia do material em texto

1
42
1
Prof. Antonio Willian Sousa
Inteligência Artificial Aplicada - 
Machine Learning
Aula 1
42
2
Conversa Inicial
42
3
Surgimento da área de IA
Aprendizagem de máquina e ciência de dados
Dado, informação e atributo
Tipos de aprendizagem
Ferramentas necessárias
42
4
Conceitos básicos
42
5
A inteligência está relacionada com a nossa 
capacidade de raciocínio
O que é inteligência?
Uma pergunta lançada em 1950: uma 
máquina pode ser dotada de inteligência?
Inteligência artificial
42
6
Alan Turing 
Teste de Turing
Um entrevistador interage com uma 
entidade, sem conseguir vê-la
Passa a perguntar por escrito
Ao final da entrevista, lhe é pedido que 
identifique se é um humano ou uma 
máquina
1 2
3 4
5 6
2
42
7
Capacidades necessárias para ser aprovado 
(Russel; Selvig, 2013)
Capacidade robótica
Visão computacional
Processamento de linguagem natural
Representação do conhecimento
Raciocínio automatizado
Aprendizado de máquina
42
8
Décadas de 1950-60
Década de 1970
Década de 1980
De 1995 até hoje
Evolução da área
42
9
Detecção de spam
Planejamentos logísticos
Tradução automática de voz e texto
Jogos de computador
Reconhecimento de voz
Identificação de trajetos para robôs
Reconhecimento facial
O que pode fazer?
42
10
Área estabelecida
Dados e modelos disponíveis
Barateamento do armazenamento
Barateamento do processamento
Ubiquidade
Uma área em expansão
42
11
Machine Learning e Data Science
42
12
“Machine Learning é um campo de 
estudo que dá aos computadores a 
capacidade de aprender sem que 
tenham sido explicitamente 
programados para tal” (Arthur Lee Samuel)
A aprendizagem de máquina
7 8
9 10
11 12
3
42
13
Sistema baseado em regras
Sistema em
produção
Estudo do 
problema
Definição e 
codificação 
das regras
Avaliação de 
erros e falhas 
do sistema
Avaliação do 
desempenho 
do sistema
42
14
Sistema baseado em 
aprendizagem de máquina
Atualização 
dos dados
Estudo do 
problema
Treinamento 
do modelo de 
aprendizagem
Avaliação de 
erros e falhas 
do sistema
Avaliação do 
desempenho 
do sistema
Idade Nacionalidade Altura Peso Sexo Gosta de futebol Salário
0 22 0 1,70 75 0 1 2500
1 52 1 1,75 80 0 1 2500
2 31 1 1,50 65 1 1 4500
3 65 1 1,95 86 0 0 6500
4 17 0 1,81 95 0 1 1500
5 54 0 1,65 80 1 0 3500
6 30 0 1,90 105 1 1 1200
7 25 1 1,85 65 1 1 2245
8 49 0 1,71 75 0 0 25000
9 26 1 1,81 80 1 1 8000
Dados
42
15
Foca no dados
Busca insights
Usa Machine Learning
Usa outros tipos de IA
Usa estatística
A ciência de dados
42
16
As duas precisam analisar, explorar e 
manipular dados
Com focos distintos
Ciência de dados usa aprendizagem de 
máquina
Diferentes, semelhantes e complementares
42
17
Dado, informação e atributos
42
18
Dados se referem às medições ou registros 
de observação, anotados a partir de uma 
determinada escala, conjunto de valores ou 
por uma representação numérica
Exemplo: 10 de julho de 1998
13 14
15 16
17 18
4
42
19
Dados quando processados geram 
informação
Exemplo: data de nascimento – 10 de julho 
de 1998, ano atual – 2020, idade 22 anos
42
20
Informação – quando analisada, agregada e 
cruzada – gera conhecimento
Exemplo: pessoa nascida em 10 de julho de 
1998 + nacionalidade brasileira + idade 22 
anos = direito ao voto
42
21
Dados podem ser agrupados em numéricos e 
categóricos
Dados numéricos: quaisquer valores ou 
observações que possam ser mensurados 
(altura, peso, número de filhos e outros)
Dados categóricos: dado que representa 
descritores (gênero, estado civil e outros)
Tipos de dados
42
22
Dados numéricos
Discretos: não podem ser medidos, mas 
podem ser contados
Contínuos: não podem ser contados, mas 
podem ser medidos
42
23
Dados categóricos
Nominais: valores discretos que não 
envolvem valor quantitativo e não possuem 
relação de ordem entre si (idiomas que 
uma pessoa fala)
Ordinais: valores discretos que possuem 
relação de ordem entre si (grau de 
instrução)
42
24
Atributo: propriedade de um fenômeno ou 
entidade que pode ser mensurada 
Atributo pode ser dado ou informação
Attribute = feature
Atributos e características
19 20
21 22
23 24
5
42
25
Posição 1: idade (em anos)
Posição 2: nacionalidade (0 – brasil, 1 -
outro)
Posição 3: altura (em metros) 
Posição 4: peso (em quilos)
Posição 5: sexo (0 – masculino, 1 – feminino)
Posição 6: gosta de futebol (0 – não, 1 – sim)
Posição 7: salário (em reais)
Atributos
42
26
posição 1 2 3 4 5 6 7
dados 22 0 1,70 75 0 1 2.500,00
Cliente: Marcel da Silva (homem brasileiro, 
22 anos de idade, altura de 1,70 m, peso 75 
kg, gosta de futebol e recebe R$ 2.500,00 de 
salário)
Vetor de características
42
27
Conjunto de vetor de características
Idade Nacionalidade Altura Peso Sexo Gosta de futebol Salário
0 22 0 1,70 75 0 1 2500
1 52 1 1,75 80 0 1 2500
2 31 1 1,50 65 1 1 4500
3 65 1 1,95 86 0 0 6500
4 17 0 1,81 95 0 1 1500
5 54 0 1,65 80 1 0 3500
6 30 0 1,90 105 1 1 1200
7 25 1 1,85 65 1 1 2245
8 49 0 1,71 75 0 0 25000
9 26 1 1,81 80 1 1 8000
42
28
0
5000
10000
15000
20000
25000
30000
0 10 20 30 40 50 60 70 80
S
a
lá
ri
o
idade
Distribuição do gosto por futebol por idade e salário
Separar e categorizar os dados
Não gosta de futebol
Gosta de futebol
42
29
Tipos de aprendizagem
42
30
Métodos supervisionados ou preditivos
Métodos não supervisionados ou descritivos
Métodos semissupervisionados
Métodos de aprendizagem por reforço
25 26
27 28
29 30
6
42
31
Os dados fornecidos incluem exemplos 
indicando a solução desejada
O conjunto de dados é composto de 
instâncias
Cada instância é identificada por um 
rótulo/classe
Aprendizagem supervisionada
42
32
POSIÇÃO ATRIBUTO VALORES POSSÍVEIS
1 ID da Mensagem 00001 - 10000
2 Remetente conhecido? 0 – não, 1 – sim
3 Idioma 0 – Português, 1 - Outros
4 Palavras como herança, prêmio ou pagamento aparecem no texto? 0 – não, 1 – sim
5 Quantidade de erros gramaticais? 0 - 1000
6 Quantidade de vezes que seu nome aparece no texto? 0 - 1000
7 Mensagem tem assinatura? 0 – não, 1 – sim
8 Classe/Rótulo 0 – spam, 1 - não-spam
Detecção de spam – atributos
42
33
ATRIBUTOS (1-7) CLASSE
mensagem 01 01 0 1 1 10 0 0 0 (spam)
mensagem 02 02 0 1 1 5 0 0 0 (spam)
mensagem 03 03 0 0 1 19 0 0 0 (spam)
mensagem 04 04 1 0 0 0 1 1 1 (não-spam)
mensagem 05 05 1 0 0 1 2 1 1 (não-spam)
Detecção de spam – vetores de 
características
42
34
ATRIBUTOS (1-7) CLASSE
mensagem 06 06 0 1 1 20 0 0 ?
Possui os mesmo atributos das instâncias 
usadas na aprendizagem
Exceto a indicação de classe
Detecção de spam – nova instância
42
35
Detecção de spam usando Machine Learning
Modelo de 
classificação 
de e-mails
Dados de aprendizagem
msg 06
msg 06
spam
msg 04
não-spam
msg 01
spam
msg 02
spam
msg 05
não-spam
msg 03
spam
42
36
Não em informação de rótulo/classe
Tenta aprender sozinho
Busca aprender relações entre os dados
Aprendizagem não supervisionada
31 32
33 34
35 36
7
42
37
Não traz indicação de classe
Dados não rotulados
id Idade Gosta de esportes Gosta de ler Gosta de filmes Código município Sexo
0 1 22 0 0 1 4106902 1
1 2 18 1 1 1 4105508 0
2 3 40 0 1 1 4106902 1
3 4 35 0 1 1 4105508 1
4 5 26 0 0 1 4106902 0
42
38
0
1
2
3
4
5
0 10 20 30 40 50 60 70 80
Agrupamentos de usuários
Tenta aprender formas de agrupar
Dados não rotulados
Grupo 01
Grupo 02
id 1 id 5 
id 2 
id 4 id 3 
42
39
Ferramentas necessárias
42
40
Linguagem de programação
Tratamento de manipulação de dados
Processamento numérico
Visualização de dados
Algoritmos de aprendizagem de máquina
Ferramentas do profissional
42
41
Python é interpretada
Python é orientado a objetos
Python é portável
Python é escalável
Python possui biblioteca para quase tudo
Linguagem de programação
42
42
Bibliotecas do Python
Pandas: manipulação de dados
NumPy: cálculo computacional
Matplotlib: visualização de dados
Scikit-Learn: aprendizagem de máquina
37 38
39 40
41 42
8
42
43
43

Mais conteúdos dessa disciplina