Buscar

Prévia do material em texto

INTRODUÇÃO À CIÊNCIA DE DADOS
What to expect in the course?
Exploração das principais categorias de algoritmos e suas aplicações a diversos problemas de negócios.
Why is data essential for all?
Por que dados são importante para as empresas.
What is big data?
Identificar as diferenças entre pequenos e grandes conjuntos de dados.
What are the pitfalls in storing and processing data?
What will you learn?
· The uses of big data and Machine Learning in business. (Os usos de big data e aprendizado de máquinas nos negócios).
· The terminology used in big data and Machine Learning. (Serão capazes de compreender a termologia de big data e Machine Learning e tomar decisões de negócios envolvendo estes conceitos).
· Identify when data can add value and act as a solution. (Poderão identificar quais as soluções adequadas para que tipo de problemas e quais os dados podem acrescentar valor em diferentes fases dos processos de negócios).
O que é a ciência de dados e qual é a sua importância?
1. Tomada de Decisão Informada: Os insights obtidos através da análise de dados ajudam a orientar decisões estratégicas em empresas, governos e organizações.
2. Previsão e Antecipação: A análise de dados permite prever tendências futuras e antecipar eventos, ajudando na preparação para mudanças e na mitigação de riscos.
3. Otimização de Processos: A ciência de dados pode identificar áreas de melhoria em processos e operações, levando a uma maior eficiência e redução de custos.
4. Personalização: Empresas podem personalizar produtos, serviços e experiências com base em padrões identificados nos dados do cliente, melhorando a satisfação do cliente e aumentando a fidelidade.
5. Inovação: A análise de dados pode revelar insights que levam a novas ideias, produtos e serviços inovadores.
6. Descoberta de Conhecimento: Através da análise de grandes volumes de dados, a ciência de dados pode revelar novos conhecimentos e correlações que podem não ser óbvios à primeira vista.
Ciência de Dados: as fundações
Umbrella of techniques used when trying to extract insights and information from data. (Ciência de dados é um termo genérico para técnicas usadas para extrair conhecimento e informações de dados).
The transformation of data using mathematics and statistics into valuble insight decisions, and products. (A ciência de dados é a transformação de dados usando matemática e estatística em conhecimentos, decisões e produtos valiosos).
Três disciplinas: Matemática, estatística e ciência da computação 
The difference between Business Intelligence and Data Analytics lies in the fact that Busiiness Intelligence helps in making business decisions based on past results while data analytics helps in making predictions that are going to help you in the future. (A diferença entre business intelligence e ánalise de dados reside no facto de a business interlligence ajudar na tomada de decisões empresariais com base em resultados passados. Enquanto a análise de dados ajuda a fazer previsões que o ajudarão no futuro).
Na Business intelligence, a ideia é usar dados passados para criar informação. A informação torna-se conhecimento, e em, última análise, estratégia. 
A business analytics também usa dados do passado, mas para fazer previsões sobre o futuro baseia-se sobretudo na modelação preventiva e no uso intensivo de estatística inferencial.
 
Que competências uma cientista de dados precisa?
A data scientist is a person responsible for cleanig, processing and analyzing data. (Um cientista de dados é a pessoa responsável pela limpeza, processamento e análises dos dados).
Uma vez que é a qualidade dos dados que determina a qualidade do resultado da análise.
Após a limpeza, o cientista de dados tem de processar os dados para poder obtê-los no formato certo para análise posterior. Por exemplo, converter todos os dados para o mesmo sistema de unidades, executar diferentes transformações aos dados para os guardar no formato correto. 
A data analyst must be able to identify problematic areas in data and find possible solutions. (Um analista de dados deve ser capaz de identificar áreas problemáticas nos dados e encontrar soluções possíveis. Por exemplo, detectar irregularidades em conjuntos de dados. 
Além disso, deve limpar e processar os dados, para que o algoritmo desenhado pelo cientista de dados possa processá-los adequadamente.
Comparação de função de um cientista de dados e de um analista de dados, o primeiro é responsável por desenhar e implementar o algoritmo certo para alcançar os resultados desejados. Enquanto o segundo é responsável por apoiar o esforço do cientista de dados, ajudando a otimizar algumas tarefas e processos como a limpeza e o tratamento dos dados. 
Estatística: a espinha dorsal da análise de dados 
“Statistics is a branch of mathematics concerned with the collection, classification, analysis, and interpretation of numerical facts, for drawing inferences on the basis of their quantifiable likelihood” 
Exploração de dados: As variáveis 
A exploração de dados é uma etapa crucial na análise de dados, pois permite entender melhor o conjunto de dados e as variáveis envolvidas. Vou explicar algumas das principais etapas e considerações relacionadas à exploração de variáveis em um conjunto de dados.
Tipos de Variáveis
1. Variáveis Numéricas:
· Contínuas: Podem assumir qualquer valor em um intervalo. Exemplo: altura, peso, temperatura.
· Discretas: Podem assumir valores específicos e separados. Exemplo: número de filhos, contagem de eventos.
2. Variáveis Categóricas:
· Nominais: Categorias sem ordem intrínseca. Exemplo: cores (vermelho, azul, verde), tipo de fruta (maçã, banana).
· Ordinais: Categorias com uma ordem intrínseca. Exemplo: classificações (baixa, média, alta), níveis educacionais.
Análise Exploratória de Dados (EDA)
1. Resumo Estatístico:
· Variáveis Numéricas: Média, mediana, desvio padrão, mínimo, máximo, quartis.
· Variáveis Categóricas: Contagem de frequências, modo.
2. Visualização de Dados:
· Histogramas: Para entender a distribuição de variáveis numéricas.
· Boxplots: Para identificar outliers e entender a dispersão dos dados.
· Gráficos de Barras: Para visualizar a distribuição de variáveis categóricas.
· Gráficos de Dispersão: Para analisar relações entre duas variáveis numéricas.
3. Identificação de Outliers:
· Analisar valores atípicos que podem influenciar a análise.
4. Análise de Correlação:
· Matriz de Correlação: Para identificar relações entre variáveis numéricas.
· Testes de Correlação: Pearson, Spearman.
5. Tratamento de Valores Ausentes:
· Identificar e tratar valores ausentes (missing values), que podem ser substituídos, imputados ou removidos, dependendo do contexto.
6. Transformações de Dados:
· Normalização/Escala: Ajustar a escala das variáveis numéricas.
· Codificação de Variáveis Categóricas: One-hot encoding, label encoding.
Exemplos de Análise
Vamos considerar um conjunto de dados fictício com algumas variáveis para ilustrar essas etapas:
· Idade (numérica, contínua)
· Renda (numérica, contínua)
· Número de Filhos (numérica, discreta)
· Gênero (categórica, nominal)
· Nível Educacional (categórica, ordinal)
Resumo Estatístico:
· Idade: Média = 35, Mediana = 34, Desvio Padrão = 10.
· Renda: Média = R$ 4.500, Mediana = R$ 3.800, Desvio Padrão = R$ 1.500.
· Número de Filhos: Média = 2, Mediana = 2, Desvio Padrão = 1.
Frequências:
· Gênero: Masculino = 60%, Feminino = 40%.
· Nível Educacional: Ensino Fundamental = 20%, Ensino Médio = 50%, Ensino Superior = 30%.
Visualização:
· Histogramas para Idade e Renda.
· Boxplot para Renda.
· Gráfico de Barras para Gênero e Nível Educacional.
Matriz de Correlação:
· Analisar correlação entre Idade, Renda e Número de Filhos.
Esses são apenas exemplos das muitas técnicas e ferramentas que podem ser usadas na exploração de variáveis. A escolha das técnicas específicas depende da natureza dos dados e dos objetivos da análise.
Introdução às aplicações dos Big Data
Nesta secção, verá como a aprendizagem automática e os Big Data podem apoiar vários objetivos comerciais.Verá exemplos da utilização dos Big Data para tomar decisões baseadas em dados, compreender as tendências dos clientes, criar propostas de valor centradas no cliente e automatizar processos. Estes exemplos estão associados a empresas específicas que implementam estas aplicações, tais como a Google, a Walmart, bem como pequenas e médias empresas e governos locais. Todos estes exemplos são diversificados em termos de métodos e domínios de aplicação. No entanto, todos eles beneficiam ao máximo da utilização de Big Data.
image1.png
image2.png
image3.png
image4.png

Mais conteúdos dessa disciplina