Buscar

Prévia do material em texto

Tema 1:
Introdução a Data Warehouse
Prof. Dr. Lawrence Chung Koo
Sumário
1. Introdução
2. Data Warehouse
3. Data Mart
4. Metadados
5. Modelo multidimensional
Pontuando
1. Introdução
Fase de armazenagem
• Data warehouse (visão de todo o negócio)
• Data mart (dividido por assunto ou departamentos)
• Metadados (informação sobre os dados)
• Como essas informações estão armazenadas?
Fonte Imagem: http://Office.com
Gestão e 
Operação
Dados 
Operacionais 
e Externas
ExtraçãoTransformação
Carga
Armazenagem 
DW
Áreas de 
Negócio
Busca e 
Entendimento
Análise e 
Descoberta
Elemento de Dados
Mapeamentos
Business Views
Processo de Datawarehousing
Prof. Dr. Lawrence Chung Koo 
1. Introdução
Fase de armazenagem
Sumário
1. Introdução
2. Data Warehouse
3. Data mart
4. Metadados
5. Modelo multidimensional
Pontuando
2. Data Warehouse
Definição
• O data warehouse pode ser considerado um banco
de dados voltado a um conjunto de assuntos. Ele
extrai informações valiosas das diversas fontes de
dados e as armazena no banco de dados único de
um forma estruturada para atender as ferramentas
de suporte à decisão.
2. Data Warehouse
Definição
• Ralph Kimbal define o data warehouse como um
conjunto de data marts.
• Bill Inmon, define o data warehouse como sendo
uma estrutura que possui as seguintes
características: orientado a assunto, integrado, não
volátil e variável no tempo.
Fonte Imagem: http://Office.com
2. Data Warehouse
Definição
 Ralph Kimball define o data 
warehouse como um conjunto de 
data marts que representa os focos
de análise de forma intuitiva, 
facilitando a filtragem e agregação dos 
dados gerenciais. 
 Bill Inmon define o data warehouse 
como uma base de dados orientada 
por assuntos, integrada, não 
volátil, com histórico cumulativo 
indexado no tempo.
Ralph Kimball
Fonte da imagem: Intelligent Enterprise, 2007. Google image
Bill Inmon
Tema 2:
Data Warehouse e Data Mart
Prof. Dr. Lawrence Chung Koo
2. Data Warehouse
Características:
• Orientado a assunto: as suas estruturas devem
ser organizadas de forma a atender a necessidade
de se estudar um determinado assunto.
• Departamento de vendas :
Produtos x Mês
• Departamento de marketing:
Avaliar o produto durante o ano
Fonte Imagem: http://Office.com
2. Data Warehouse
Características:
• Integrado: deve armazenar informações de
diferentes fontes de dados de forma consistente.
Ou seja, deve ter seus dados apurados por
ferramentas de ETL.
2. Data Warehouse
Características:
• Não volátil: isto significa que o banco de dados
não pode ser atualizados, eles são somente
consultados.
• Variável no tempo: os dados devem ser
armazenados de acordo com o momento do
carregamento.
• Permite que a mesma consulta seja retornada 
com o mesmo dados
Fonte Imagem: http://Office.com
Arquitetura DW – Bill Inmon
Prof. Dr. Lawrence Chung Koo 
Fonte: The Data Warehouse Toolkit – R. Kimball
Transações
Fontes
A
q
u
is
iç
ã
o
 d
e
 d
a
d
o
s
EDW
(DW
Corporativo)
Tabelas em
3ª. Forma
Normal
Dados
Atômicos
Pesquisável
Pelo
Usuário
D
a
ta
 D
e
li
v
e
ry
Data Mart
- Dimensional
- Geralmente 
Sumarizado
- Departamental A
p
li
c
a
ç
õ
e
s
 B
I
Back room
Front room
Arquitetura DW – R.Kimball
Prof. Dr. Lawrence Chung Koo 
Fonte: The Data Warehouse Toolkit – R. Kimball
Transações
Fontes
E
 
 T
 
 L
EDW
(DW
Corporativo)
Tabelas em
3ª. Forma
Normal
Dados
Atômicos
E
 
 T
 
 L
Área de Apresen-
tação
- Dimensional 
(Star Schema
ou Cubos OLAP)
- Dados atômicos 
e sumarizados
- Organizados 
pelos processos 
de Negócios
- Utilizados na 
suas dimensões
A
p
li
c
a
ç
õ
e
s
 B
I
Back room Front room
EDW
BUS
2. Data Warehouse
Características:
• Variável no tempo:
Cliente
Nome Est. Civil
Maria Casada
José Solteiro
10/01/10 Cliente
Nome Est. Civil
Maria Casada
José Solteiro
Ana Solteira
João Casado
10/01/11
2. Data Warehouse
Estrutura:
2. Data Warehouse
Diferenças entre BI e Data Warehouse:
• Inteligência de negócios
• Utilização da tecnologia de data warehouse
• Ferramentas de apoio a tomada de decisão
• Voltado a negócios
• Parte organizacional
Sumário
1. Introdução
2. Data Warehouse
3. Data Mart
4. Metadados
5. Modelo multidimensional
Pontuando
O que é um Data Mart
Data Mart
 “Uma implementação de um DW com um escopo menor e
mais restrito de dados e funções, servindo a um único
departamento ou parte de uma organização”*
Fontes
de Dados
Prof. Dr. Lawrence Chung Koo 
3. Data Mart
Definição:
• É um segmento/parte do Data Warehouse;
• Separado por assunto/departamento;
• Protótipo rápido;
• Restringe o acesso aos dados;
• Possui três tipos: dependente, independente e o
híbrido.
Data Mart - Características
Características de um Data Mart
 Um data mart tem escopo restrito
tamanho, usabilidade, ciclo de vida
 Um data mart suporta dados primitivos, sumarizados
ou outras derivações, direcionados para resolver um
problema de negócio
 Um data mart geralmente suporta análise de dados
multi-dimensionais
 O desenho de um data mart tende a ser dependente
da ferramenta
Prof. Dr. Lawrence Chung Koo 
Tema 3:
Data Marts e Metadados
Prof. Dr. Lawrence Chung Koo
3. Data Mart
Tipos de Data Mart:
• Dependente: Sua fonte de
dados é o próprio data
warehouse .
Fonte Imagem: adaptado de LANE et al., 1999 
3. Data Mart
Tipos de Data Mart:
• Independente: É criado sem
um data warehouse central,
busca as suas informações
diretamente dos bancos
operacionais e dados
externos
Fonte Imagem: adaptado de LANE et al., 1999 
3. Data Mart
Tipos de Data Mart:
• Híbrido: Não há exigência
quanto ao tipo de sua fonte
de dados. Pode ser gerado a
partir de diversas fontes
como data warehouses, data
marts, bancos de dados
operacionais e dados
externos.
Fonte Imagem: adaptado de LANE et al., 1999 
Sumário
1. Introdução
2. Data Warehouse
3. Data Mart
4. Metadados
5. Modelo multidimensional
Pontuando
4. Metadados
Definição:
• Os metadados são informações sobre os dados;
• A ideia principal, é abstrair a informação de forma
que ela possa ser compreendida por qualquer
sistema;
• Possuem 4 tipos: sintáticos, estruturais,
semânticos e negócios/técnicos.
4. Metadados
Definição:
• Os Metadados podem estar dentro encapsulados dentro do
mesmo arquivo de dados ou podem estar separados em
outros arquivos. Por exemplo, no início de cada arquivo de
dados temos a descrição em forma de tags.
<nome>
Conteúdo com a característica da tag
</nome>
• São baseadas nos padrões XML (Extended Markup
Language – Linguagem de Marcação Extendida).
4. Metadados
Definição:
• Dicionário de dados
• Catálogo de dados
• Diretório de dados
• Normalmente administrado por um DA (Data
Administrator), gestor de informação da empresa
Tema 4:
Modelo Multidimensional
Prof. Dr. Lawrence Chung Koo
Sumário
1. Introdução
2. Data Warehouse
3. Data Mart
4. Metadados
5. Modelo multidimensional
Pontuando
5. Modelo Multidimensional
Definição:
• É uma forma de estruturação dos dados é
baseada em tabelas dimensão e fato,
diferentemente da entidade-relacionamento que
nós conhecemos.
5. Modelo Multidimensional
Definição:
• Tabelas dimensão: são as unidades de
consultas representadas por tabelas que devem
possuir um campo de identificação (chave) e
campos interessantes para consulta/junções que
podem ser estar organizados de forma
hierárquica.
5. Modelo Multidimensional
Definição:
• Tabelas fato: são tabelas que relacionam/
agrupam dimensões através de medidas. Ela
contém chaves das dimensões e as medidas da
relação entre seus membros.
5. Modelo Multidimensional
Modelo estrela:
5. Modelo Multidimensional
Modelo floco de neve:
5. Modelo Multidimensional
Consultas
• Representação do cubo
vendas (fato) para análise
da data, produto e cliente
(dimensões).
5. Modelo Multidimensional (OLAP)
230
49
31
9258
6819132214166
10
3510718
63
202815
48122511
Curitiba
Recife
São Paulo
Rio de Janeiro
VW
Porto Alegre
Total de acidentes
GMFiat Honda
Total de acidentes com
veículos marca Honda
Veículos marca GM 
acidentados em 
Recife
Total de acidentes
em Porto Alegre
Cidades
Veículos
Fonte: Kugler, 2013.
Acidentes em 26/set
58
14
18
15
11
58
14
18
15
11
58
14
18
15
11
58
14
18
15
11
14
18
15
11
58
14
18
15
11
58
14
18
15
11
58
14
18
15
11
58
14
18
15
11
14
18
15
11
14
18
15
11
58
14
18
15
11
14
18
15
11
58
14
18
11
14
18
15
11
Curitiba
Recife
São Paulo
Rio de Janeiro
VW
Porto Alegre
GMFiat Honda
26/set
27/set
28/set
Total de veículos Fiat 
acidentados em Recife 
nos 3 dias
Cidades
Veículos
Data
Total de veículos FIAT 
acidentados em 27/set
Total de 
acidentes
nos 3 dias
Total de veículos 
Honda acidentados nos 
3 dias
Total de veículos GM 
acidentados em Porto 
Alegre nos 3 dias
Total de 
acidentes
em Porto Alegre 
em 28/set
5. Modelo Multidimensional (OLAP)
Fonte: Kugler, 2013.
Modelo ER vs. Modelo Dimensional
ER MD
Fonte: Kugler, 1997.
Modelo Relacional
Voltados para processamento transacional (OLTP –
online transaction processing).
 Executam operações específicas, pontuais,
predefinidas.
Gerenciam acessos múltiplos ao mesmo banco de
dados.
 Muitas pessoas realizando concorrentemente as
mesmas operações.
Tempo de resposta precisa ser imediato.
 Transações rápidas e curtas operando sobre poucos
dados.
Fonte: Kugler, 2013.
Atualização em tempo real.
 As bases de dados refletem imediatamente as
operações realizadas.
Controle rígido de concorrência.
 Mecanismos de locking, commit e rollback para
evitar corrupção dos dados.
Extração e Reporting complicados.
 Muitas solicitações encaminhadas à TI, gerando
backlog.
Históricos com horizonte breve.
 Em geral, limitados a poucos meses.
Modelo Relacional
Fonte: Kugler, 2013.
Modelo Dimensional
Orientado para análise (OLAP – online
analytical processing).
• Consultas para análises táticas e planejamento
estratégico.
Menos usuários.
• Relativamente poucas pessoas realizando
consultas e análises ao mesmo tempo.
• Tempo de resposta > minutos ou horas.
• Consultas sobre muitos fatos e grande volume
de dados.

Mais conteúdos dessa disciplina