Prévia do material em texto
Tema 1: Introdução a Data Warehouse Prof. Dr. Lawrence Chung Koo Sumário 1. Introdução 2. Data Warehouse 3. Data Mart 4. Metadados 5. Modelo multidimensional Pontuando 1. Introdução Fase de armazenagem • Data warehouse (visão de todo o negócio) • Data mart (dividido por assunto ou departamentos) • Metadados (informação sobre os dados) • Como essas informações estão armazenadas? Fonte Imagem: http://Office.com Gestão e Operação Dados Operacionais e Externas ExtraçãoTransformação Carga Armazenagem DW Áreas de Negócio Busca e Entendimento Análise e Descoberta Elemento de Dados Mapeamentos Business Views Processo de Datawarehousing Prof. Dr. Lawrence Chung Koo 1. Introdução Fase de armazenagem Sumário 1. Introdução 2. Data Warehouse 3. Data mart 4. Metadados 5. Modelo multidimensional Pontuando 2. Data Warehouse Definição • O data warehouse pode ser considerado um banco de dados voltado a um conjunto de assuntos. Ele extrai informações valiosas das diversas fontes de dados e as armazena no banco de dados único de um forma estruturada para atender as ferramentas de suporte à decisão. 2. Data Warehouse Definição • Ralph Kimbal define o data warehouse como um conjunto de data marts. • Bill Inmon, define o data warehouse como sendo uma estrutura que possui as seguintes características: orientado a assunto, integrado, não volátil e variável no tempo. Fonte Imagem: http://Office.com 2. Data Warehouse Definição Ralph Kimball define o data warehouse como um conjunto de data marts que representa os focos de análise de forma intuitiva, facilitando a filtragem e agregação dos dados gerenciais. Bill Inmon define o data warehouse como uma base de dados orientada por assuntos, integrada, não volátil, com histórico cumulativo indexado no tempo. Ralph Kimball Fonte da imagem: Intelligent Enterprise, 2007. Google image Bill Inmon Tema 2: Data Warehouse e Data Mart Prof. Dr. Lawrence Chung Koo 2. Data Warehouse Características: • Orientado a assunto: as suas estruturas devem ser organizadas de forma a atender a necessidade de se estudar um determinado assunto. • Departamento de vendas : Produtos x Mês • Departamento de marketing: Avaliar o produto durante o ano Fonte Imagem: http://Office.com 2. Data Warehouse Características: • Integrado: deve armazenar informações de diferentes fontes de dados de forma consistente. Ou seja, deve ter seus dados apurados por ferramentas de ETL. 2. Data Warehouse Características: • Não volátil: isto significa que o banco de dados não pode ser atualizados, eles são somente consultados. • Variável no tempo: os dados devem ser armazenados de acordo com o momento do carregamento. • Permite que a mesma consulta seja retornada com o mesmo dados Fonte Imagem: http://Office.com Arquitetura DW – Bill Inmon Prof. Dr. Lawrence Chung Koo Fonte: The Data Warehouse Toolkit – R. Kimball Transações Fontes A q u is iç ã o d e d a d o s EDW (DW Corporativo) Tabelas em 3ª. Forma Normal Dados Atômicos Pesquisável Pelo Usuário D a ta D e li v e ry Data Mart - Dimensional - Geralmente Sumarizado - Departamental A p li c a ç õ e s B I Back room Front room Arquitetura DW – R.Kimball Prof. Dr. Lawrence Chung Koo Fonte: The Data Warehouse Toolkit – R. Kimball Transações Fontes E T L EDW (DW Corporativo) Tabelas em 3ª. Forma Normal Dados Atômicos E T L Área de Apresen- tação - Dimensional (Star Schema ou Cubos OLAP) - Dados atômicos e sumarizados - Organizados pelos processos de Negócios - Utilizados na suas dimensões A p li c a ç õ e s B I Back room Front room EDW BUS 2. Data Warehouse Características: • Variável no tempo: Cliente Nome Est. Civil Maria Casada José Solteiro 10/01/10 Cliente Nome Est. Civil Maria Casada José Solteiro Ana Solteira João Casado 10/01/11 2. Data Warehouse Estrutura: 2. Data Warehouse Diferenças entre BI e Data Warehouse: • Inteligência de negócios • Utilização da tecnologia de data warehouse • Ferramentas de apoio a tomada de decisão • Voltado a negócios • Parte organizacional Sumário 1. Introdução 2. Data Warehouse 3. Data Mart 4. Metadados 5. Modelo multidimensional Pontuando O que é um Data Mart Data Mart “Uma implementação de um DW com um escopo menor e mais restrito de dados e funções, servindo a um único departamento ou parte de uma organização”* Fontes de Dados Prof. Dr. Lawrence Chung Koo 3. Data Mart Definição: • É um segmento/parte do Data Warehouse; • Separado por assunto/departamento; • Protótipo rápido; • Restringe o acesso aos dados; • Possui três tipos: dependente, independente e o híbrido. Data Mart - Características Características de um Data Mart Um data mart tem escopo restrito tamanho, usabilidade, ciclo de vida Um data mart suporta dados primitivos, sumarizados ou outras derivações, direcionados para resolver um problema de negócio Um data mart geralmente suporta análise de dados multi-dimensionais O desenho de um data mart tende a ser dependente da ferramenta Prof. Dr. Lawrence Chung Koo Tema 3: Data Marts e Metadados Prof. Dr. Lawrence Chung Koo 3. Data Mart Tipos de Data Mart: • Dependente: Sua fonte de dados é o próprio data warehouse . Fonte Imagem: adaptado de LANE et al., 1999 3. Data Mart Tipos de Data Mart: • Independente: É criado sem um data warehouse central, busca as suas informações diretamente dos bancos operacionais e dados externos Fonte Imagem: adaptado de LANE et al., 1999 3. Data Mart Tipos de Data Mart: • Híbrido: Não há exigência quanto ao tipo de sua fonte de dados. Pode ser gerado a partir de diversas fontes como data warehouses, data marts, bancos de dados operacionais e dados externos. Fonte Imagem: adaptado de LANE et al., 1999 Sumário 1. Introdução 2. Data Warehouse 3. Data Mart 4. Metadados 5. Modelo multidimensional Pontuando 4. Metadados Definição: • Os metadados são informações sobre os dados; • A ideia principal, é abstrair a informação de forma que ela possa ser compreendida por qualquer sistema; • Possuem 4 tipos: sintáticos, estruturais, semânticos e negócios/técnicos. 4. Metadados Definição: • Os Metadados podem estar dentro encapsulados dentro do mesmo arquivo de dados ou podem estar separados em outros arquivos. Por exemplo, no início de cada arquivo de dados temos a descrição em forma de tags. <nome> Conteúdo com a característica da tag </nome> • São baseadas nos padrões XML (Extended Markup Language – Linguagem de Marcação Extendida). 4. Metadados Definição: • Dicionário de dados • Catálogo de dados • Diretório de dados • Normalmente administrado por um DA (Data Administrator), gestor de informação da empresa Tema 4: Modelo Multidimensional Prof. Dr. Lawrence Chung Koo Sumário 1. Introdução 2. Data Warehouse 3. Data Mart 4. Metadados 5. Modelo multidimensional Pontuando 5. Modelo Multidimensional Definição: • É uma forma de estruturação dos dados é baseada em tabelas dimensão e fato, diferentemente da entidade-relacionamento que nós conhecemos. 5. Modelo Multidimensional Definição: • Tabelas dimensão: são as unidades de consultas representadas por tabelas que devem possuir um campo de identificação (chave) e campos interessantes para consulta/junções que podem ser estar organizados de forma hierárquica. 5. Modelo Multidimensional Definição: • Tabelas fato: são tabelas que relacionam/ agrupam dimensões através de medidas. Ela contém chaves das dimensões e as medidas da relação entre seus membros. 5. Modelo Multidimensional Modelo estrela: 5. Modelo Multidimensional Modelo floco de neve: 5. Modelo Multidimensional Consultas • Representação do cubo vendas (fato) para análise da data, produto e cliente (dimensões). 5. Modelo Multidimensional (OLAP) 230 49 31 9258 6819132214166 10 3510718 63 202815 48122511 Curitiba Recife São Paulo Rio de Janeiro VW Porto Alegre Total de acidentes GMFiat Honda Total de acidentes com veículos marca Honda Veículos marca GM acidentados em Recife Total de acidentes em Porto Alegre Cidades Veículos Fonte: Kugler, 2013. Acidentes em 26/set 58 14 18 15 11 58 14 18 15 11 58 14 18 15 11 58 14 18 15 11 14 18 15 11 58 14 18 15 11 58 14 18 15 11 58 14 18 15 11 58 14 18 15 11 14 18 15 11 14 18 15 11 58 14 18 15 11 14 18 15 11 58 14 18 11 14 18 15 11 Curitiba Recife São Paulo Rio de Janeiro VW Porto Alegre GMFiat Honda 26/set 27/set 28/set Total de veículos Fiat acidentados em Recife nos 3 dias Cidades Veículos Data Total de veículos FIAT acidentados em 27/set Total de acidentes nos 3 dias Total de veículos Honda acidentados nos 3 dias Total de veículos GM acidentados em Porto Alegre nos 3 dias Total de acidentes em Porto Alegre em 28/set 5. Modelo Multidimensional (OLAP) Fonte: Kugler, 2013. Modelo ER vs. Modelo Dimensional ER MD Fonte: Kugler, 1997. Modelo Relacional Voltados para processamento transacional (OLTP – online transaction processing). Executam operações específicas, pontuais, predefinidas. Gerenciam acessos múltiplos ao mesmo banco de dados. Muitas pessoas realizando concorrentemente as mesmas operações. Tempo de resposta precisa ser imediato. Transações rápidas e curtas operando sobre poucos dados. Fonte: Kugler, 2013. Atualização em tempo real. As bases de dados refletem imediatamente as operações realizadas. Controle rígido de concorrência. Mecanismos de locking, commit e rollback para evitar corrupção dos dados. Extração e Reporting complicados. Muitas solicitações encaminhadas à TI, gerando backlog. Históricos com horizonte breve. Em geral, limitados a poucos meses. Modelo Relacional Fonte: Kugler, 2013. Modelo Dimensional Orientado para análise (OLAP – online analytical processing). • Consultas para análises táticas e planejamento estratégico. Menos usuários. • Relativamente poucas pessoas realizando consultas e análises ao mesmo tempo. • Tempo de resposta > minutos ou horas. • Consultas sobre muitos fatos e grande volume de dados.