Prévia do material em texto
1 42 1 Prof. Antonio Willian Sousa Inteligência Artificial Aplicada - Machine Learning Aula 1 42 2 Conversa Inicial 42 3 Surgimento da área de IA Aprendizagem de máquina e ciência de dados Dado, informação e atributo Tipos de aprendizagem Ferramentas necessárias 42 4 Conceitos básicos 42 5 A inteligência está relacionada com a nossa capacidade de raciocínio O que é inteligência? Uma pergunta lançada em 1950: uma máquina pode ser dotada de inteligência? Inteligência artificial 42 6 Alan Turing Teste de Turing Um entrevistador interage com uma entidade, sem conseguir vê-la Passa a perguntar por escrito Ao final da entrevista, lhe é pedido que identifique se é um humano ou uma máquina 1 2 3 4 5 6 2 42 7 Capacidades necessárias para ser aprovado (Russel; Selvig, 2013) Capacidade robótica Visão computacional Processamento de linguagem natural Representação do conhecimento Raciocínio automatizado Aprendizado de máquina 42 8 Décadas de 1950-60 Década de 1970 Década de 1980 De 1995 até hoje Evolução da área 42 9 Detecção de spam Planejamentos logísticos Tradução automática de voz e texto Jogos de computador Reconhecimento de voz Identificação de trajetos para robôs Reconhecimento facial O que pode fazer? 42 10 Área estabelecida Dados e modelos disponíveis Barateamento do armazenamento Barateamento do processamento Ubiquidade Uma área em expansão 42 11 Machine Learning e Data Science 42 12 “Machine Learning é um campo de estudo que dá aos computadores a capacidade de aprender sem que tenham sido explicitamente programados para tal” (Arthur Lee Samuel) A aprendizagem de máquina 7 8 9 10 11 12 3 42 13 Sistema baseado em regras Sistema em produção Estudo do problema Definição e codificação das regras Avaliação de erros e falhas do sistema Avaliação do desempenho do sistema 42 14 Sistema baseado em aprendizagem de máquina Atualização dos dados Estudo do problema Treinamento do modelo de aprendizagem Avaliação de erros e falhas do sistema Avaliação do desempenho do sistema Idade Nacionalidade Altura Peso Sexo Gosta de futebol Salário 0 22 0 1,70 75 0 1 2500 1 52 1 1,75 80 0 1 2500 2 31 1 1,50 65 1 1 4500 3 65 1 1,95 86 0 0 6500 4 17 0 1,81 95 0 1 1500 5 54 0 1,65 80 1 0 3500 6 30 0 1,90 105 1 1 1200 7 25 1 1,85 65 1 1 2245 8 49 0 1,71 75 0 0 25000 9 26 1 1,81 80 1 1 8000 Dados 42 15 Foca no dados Busca insights Usa Machine Learning Usa outros tipos de IA Usa estatística A ciência de dados 42 16 As duas precisam analisar, explorar e manipular dados Com focos distintos Ciência de dados usa aprendizagem de máquina Diferentes, semelhantes e complementares 42 17 Dado, informação e atributos 42 18 Dados se referem às medições ou registros de observação, anotados a partir de uma determinada escala, conjunto de valores ou por uma representação numérica Exemplo: 10 de julho de 1998 13 14 15 16 17 18 4 42 19 Dados quando processados geram informação Exemplo: data de nascimento – 10 de julho de 1998, ano atual – 2020, idade 22 anos 42 20 Informação – quando analisada, agregada e cruzada – gera conhecimento Exemplo: pessoa nascida em 10 de julho de 1998 + nacionalidade brasileira + idade 22 anos = direito ao voto 42 21 Dados podem ser agrupados em numéricos e categóricos Dados numéricos: quaisquer valores ou observações que possam ser mensurados (altura, peso, número de filhos e outros) Dados categóricos: dado que representa descritores (gênero, estado civil e outros) Tipos de dados 42 22 Dados numéricos Discretos: não podem ser medidos, mas podem ser contados Contínuos: não podem ser contados, mas podem ser medidos 42 23 Dados categóricos Nominais: valores discretos que não envolvem valor quantitativo e não possuem relação de ordem entre si (idiomas que uma pessoa fala) Ordinais: valores discretos que possuem relação de ordem entre si (grau de instrução) 42 24 Atributo: propriedade de um fenômeno ou entidade que pode ser mensurada Atributo pode ser dado ou informação Attribute = feature Atributos e características 19 20 21 22 23 24 5 42 25 Posição 1: idade (em anos) Posição 2: nacionalidade (0 – brasil, 1 - outro) Posição 3: altura (em metros) Posição 4: peso (em quilos) Posição 5: sexo (0 – masculino, 1 – feminino) Posição 6: gosta de futebol (0 – não, 1 – sim) Posição 7: salário (em reais) Atributos 42 26 posição 1 2 3 4 5 6 7 dados 22 0 1,70 75 0 1 2.500,00 Cliente: Marcel da Silva (homem brasileiro, 22 anos de idade, altura de 1,70 m, peso 75 kg, gosta de futebol e recebe R$ 2.500,00 de salário) Vetor de características 42 27 Conjunto de vetor de características Idade Nacionalidade Altura Peso Sexo Gosta de futebol Salário 0 22 0 1,70 75 0 1 2500 1 52 1 1,75 80 0 1 2500 2 31 1 1,50 65 1 1 4500 3 65 1 1,95 86 0 0 6500 4 17 0 1,81 95 0 1 1500 5 54 0 1,65 80 1 0 3500 6 30 0 1,90 105 1 1 1200 7 25 1 1,85 65 1 1 2245 8 49 0 1,71 75 0 0 25000 9 26 1 1,81 80 1 1 8000 42 28 0 5000 10000 15000 20000 25000 30000 0 10 20 30 40 50 60 70 80 S a lá ri o idade Distribuição do gosto por futebol por idade e salário Separar e categorizar os dados Não gosta de futebol Gosta de futebol 42 29 Tipos de aprendizagem 42 30 Métodos supervisionados ou preditivos Métodos não supervisionados ou descritivos Métodos semissupervisionados Métodos de aprendizagem por reforço 25 26 27 28 29 30 6 42 31 Os dados fornecidos incluem exemplos indicando a solução desejada O conjunto de dados é composto de instâncias Cada instância é identificada por um rótulo/classe Aprendizagem supervisionada 42 32 POSIÇÃO ATRIBUTO VALORES POSSÍVEIS 1 ID da Mensagem 00001 - 10000 2 Remetente conhecido? 0 – não, 1 – sim 3 Idioma 0 – Português, 1 - Outros 4 Palavras como herança, prêmio ou pagamento aparecem no texto? 0 – não, 1 – sim 5 Quantidade de erros gramaticais? 0 - 1000 6 Quantidade de vezes que seu nome aparece no texto? 0 - 1000 7 Mensagem tem assinatura? 0 – não, 1 – sim 8 Classe/Rótulo 0 – spam, 1 - não-spam Detecção de spam – atributos 42 33 ATRIBUTOS (1-7) CLASSE mensagem 01 01 0 1 1 10 0 0 0 (spam) mensagem 02 02 0 1 1 5 0 0 0 (spam) mensagem 03 03 0 0 1 19 0 0 0 (spam) mensagem 04 04 1 0 0 0 1 1 1 (não-spam) mensagem 05 05 1 0 0 1 2 1 1 (não-spam) Detecção de spam – vetores de características 42 34 ATRIBUTOS (1-7) CLASSE mensagem 06 06 0 1 1 20 0 0 ? Possui os mesmo atributos das instâncias usadas na aprendizagem Exceto a indicação de classe Detecção de spam – nova instância 42 35 Detecção de spam usando Machine Learning Modelo de classificação de e-mails Dados de aprendizagem msg 06 msg 06 spam msg 04 não-spam msg 01 spam msg 02 spam msg 05 não-spam msg 03 spam 42 36 Não em informação de rótulo/classe Tenta aprender sozinho Busca aprender relações entre os dados Aprendizagem não supervisionada 31 32 33 34 35 36 7 42 37 Não traz indicação de classe Dados não rotulados id Idade Gosta de esportes Gosta de ler Gosta de filmes Código município Sexo 0 1 22 0 0 1 4106902 1 1 2 18 1 1 1 4105508 0 2 3 40 0 1 1 4106902 1 3 4 35 0 1 1 4105508 1 4 5 26 0 0 1 4106902 0 42 38 0 1 2 3 4 5 0 10 20 30 40 50 60 70 80 Agrupamentos de usuários Tenta aprender formas de agrupar Dados não rotulados Grupo 01 Grupo 02 id 1 id 5 id 2 id 4 id 3 42 39 Ferramentas necessárias 42 40 Linguagem de programação Tratamento de manipulação de dados Processamento numérico Visualização de dados Algoritmos de aprendizagem de máquina Ferramentas do profissional 42 41 Python é interpretada Python é orientado a objetos Python é portável Python é escalável Python possui biblioteca para quase tudo Linguagem de programação 42 42 Bibliotecas do Python Pandas: manipulação de dados NumPy: cálculo computacional Matplotlib: visualização de dados Scikit-Learn: aprendizagem de máquina 37 38 39 40 41 42 8 42 43 43