Prévia do material em texto
Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 1 • Saudações caros (as) amigos(as), Firmes! Em frente! Falta pouco! Pense nisso: Um Natal iluminado para você e toda a família!! Que Deus os abençoe, bom proveito e rumo agora à sexta aula, sobre Data Warehousing e Business Intelligence. Insista, persista e não desista! Força nos estudos! Um abraço, Profa Patrícia Quintão. Instagram: @patriciaquintao Facebook: http://www.facebook.com/professorapatriciaquintao (Todo dia com novas dicas, desafios e muito mais, espero vocês por lá para CURTIR a página!) Livro FCC/2014: http://www.livrariadoponto.com.br/produto/5995/11391/informatica---fcc--- serie-questoes-comentadas Aula 06 – Conceitos de Data Warehousing e Business Intelligence Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 2 Sumário Data Warehousing, Business Intelligence e Tópicos Relacionados ......... 3 Memorex .............................................................................................. 27 Questões de Provas Comentadas ......................................................... 30 Considerações Finais ........................................................................... 57 Referências Bibliográficas.................................................................... 57 Lista de Questões Apresentadas na Aula ............................................. 59 Gabarito ............................................................................................... 69 Acompanhe a Evolução do seu Aproveitamento ................................... 70 Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 3 Data Warehousing, Business Intelligence e Tópicos Relacionados 1. O Contexto Atual De 1990 em diante, o volume de informações armazenadas em meio eletrônico cresceu aceleradamente. Estudos mostram que a quantidade de informação no mundo dobra a cada 20 meses, e, como consequência, o tamanho e a quantidade de banco de dados espalhados pelo mundo cresce ainda mais aceleradamente. Figura. O Tsunami de Dados, O que é e como nos afeta? “Estamos nos afogando em informação mas com sede de conhecimento” – John Naisbitt, Megatrends (1984). E que valor tem esses dados armazenados? Por que tanta informação precisa ser mantida de modo cumulativo e não é simplesmente descartada pouco tempo depois do seu uso? O fato é que nesse meio há um amontoado de dados que estão gravados nos bancos de dados e, também, há muita informação não explorada, que poderia ser de grande valia para o suporte às decisões nas grandes corporações, governos, universidades e outros. Há nesse enxame de dados, tidos como desnecessários por alguns, padrões e tendências que se descobertos podem ser úteis para entender e otimizar os processos de negócio em empresas, ajudar a entender melhor os resultados de experiências científicas, colaborar com a medicina no entendimento e tratamento de casos de epidemias, e muitos outros. É justamente nesse cenário que entra em cena o Data Mining (Mineração de Dados). Pode ser entendido como um campo de estudo que procura encontrar informações que estão implícitas, ou seja, procura padrões e tendências ocultas em base de dados. Um exemplo de Data Mining muito comum são as previsões meteorológicas, em que é utilizado como forma de prever as alterações climáticas. Para tanto, são analisados os registros climáticas dos últimos 10 a 20 anos e procura-se identificar os padrões de alterações climáticas nesses períodos, a fim de se Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 4 conseguir prever as próximas alterações. Assim, o Data Mining exerce a função de identificar padrões e tendências meteorológicas. Esse novo campo de estudos que é o Data Mining é tido como crítico para os negócios das grandes empresas e continua a crescer, uma vez que o uso das informações obtidas através de mineração de dados tornou-se imprescindível para a sustentação da competitividade no ambiente comercial dos dias de hoje. E também, alia-se a isso, o fato de que com o armazenamento de grandes quantidades de dados num local comum e, também, o contínuo avanço da capacidade de processamento dos computadores, os empresários passaram a procurar por tecnologias para extração de informação útil em meio aos infindáveis amontoados de dados. 2. O Processo de Descoberta de Conhecimento em Base de Dados (KDD - Knowledge Discovery in Databases) • “É o processo não trivial de identificação de padrões/modelos em dados que sejam válidos, novos, potencialmente úteis e compreensíveis.” • “É uma tarefa cujo uso de conhecimento é intensivo, consistindo de complexas interações, prolongadas no tempo, entre uma pessoa e um banco de dados, possivelmente suportada por um conjunto heterogêneo de ferramentas.” KDD é pluridisciplinar pois envolve banco de dados, técnicas de estatísticas, redes neurais, de aprendizado de máquinas, de reconhecimento de padrões e de visualização de dados. Fayyad et al. (1996) destaca o processo de descoberta de conhecimento de forma mais simplificada, baseada em três etapas: Preparação, Data Mining e Análise de Dados. Vejamos cada uma delas: • Preparação: é a etapa que trata de preparar os dados antes de serem submetidos às técnicas de Data Mining. Nessa etapa, os dados são selecionados (Quais dados são importantes?), purificados (retirar as inconsistências e incompletude de dados) e pré-processados (reapresentá-los de uma forma adequada para o processo de Data Mining). Esse passo é executado sob a supervisão de um especialista, pois é necessária a colaboração de uma pessoa apta para definir quais dados são relevantes e também para definir o que fazer com os dados antes de utilizá-los no Data Mining. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 5 • Data Mining: é a etapa em que os dados preparados são processados, ou seja, é onde se faz a mineração dos dados propriamente dita. O principal objetivo desse passo é transformar os dados de uma maneira que permita a identificação mais fácil de informações importantes. O que se tenta fazer nessa etapa é identificar padrões de comportamento, por exemplo, pode ser verificado que 75% dos clientes de um supermercado que compram um produto X também compram um produto Y. Essa informação pode levar as empresas a criarem novos planos de marketing em cima dos produtos X e Y. Portanto, esses padrões e associações, vão compor o conhecimento da empresa sobre o negócio em que atua, ajudando-a a obter maiores lucros e aumentar a satisfação de seus clientes. O Data Mining é uma etapa do KDD em que são aplicadas técnicas para identificação de padrões sobre os dados disponíveis. Tais dados estão disponíveisem meios digitais, e comumente são trabalhados os dados que estão em bases de dados. Esse processo como um todo tem o intuito de trabalhar os dados registrados ao longo do tempo de vida de um negócio a fim de se identificar padrões que representam alguma informação sobre o comportamento do negócio. E em função dessas informações busca-se identificar conhecimento que possa conduzir a melhores decisões sobre o negócio. Esse processo de Descoberta de Conhecimento sendo repetido continuamente resultará em sabedoria sobre o domínio de negócio para os tomadores de decisões. Fonte: Navega, 2002 Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 6 Nota O que é DADO? • De forma bem resumida e direta, posso definir dados como fatos que podem ser analisados e que possuem um significado implícito. Por exemplo, se você encontrar uma folha de papel, e verificar que nela está escrito o valor 25, o que você pensaria? Bem 25 é um valor numérico que tem algum significado. Mas qual? Pode ser a idade de alguém, pode ser um dia de um mês, pode ser o número de uma casa. Enfim, é apenas um fato, um dado registrado, que possui algum significado, mas que de forma isolada não agrega nenhum valor para quem lê. O que é INFORMAÇÃO? • A informação é o resultado do processamento, manipulação e organização de dados, de tal forma que represente uma modificação (quantitativa ou qualitativa) no conhecimento do sistema (pessoa, animal ou máquina) que a recebe. No exemplo anterior, se alguém lhe informar que o número escrito no papel é a temperatura máxima em graus Celsius que fará na sua cidade, pronto, nesse momento esse dado, que pouco valor tinha para você, virou uma informação. O que é CONHECIMENTO? • Fornece a capacidade de resolver problemas, inovar e aprender baseado em experiências prévias. • O conhecimento é o somatório das informações que adquirimos, é a base daquilo que chamamos de cultura. Podemos adquirir conhecimento sem sequer vivermos uma só experiência fora dos livros e das aulas teóricas. Podemos nos tornar cultos sem sairmos da reclusão de uma biblioteca. O que é INTELIGÊNCIA? • A inteligência é o dom humano capaz de “digerir” as informações, através da análise, e transformá-la em conhecimento útil. Para guardar uma informação, precisamos retê-la em nossa memória; para guardar um conhecimento, devemos incorporá-la em nossa mente e, consequentemente, em nossa maneira de pensar. O que é SABEDORIA? • É o reflexo da vivência, na prática, quer pela experimentação, quer pela observação, da utilização dos conhecimentos previamente adquiridos. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 7 Importante observar... ◦ Dado NÃO é Informação. ◦ Informação não é Conhecimento. ◦ Conhecimento não é Inteligência. ◦ Inteligência não é Sabedoria. • Análise de Dados: aqui o resultado do Data Mining é avaliado, com o objetivo de determinar se algum conhecimento adicional foi descoberto, assim como definir a importância dos fatos gerados. Nessa etapa, várias formas de análise podem ser utilizadas, por exemplo: o resultado do Data Mining pode ser expresso em um gráfico, em que análise dos dados passa a ser uma análise do comportamento do gráfico. Figura. Etapas do Processo de Descoberta de Conhecimento A figura seguinte ilustra o processo proposto por Usama Fayyad, Gregory Piatetsky-Shapiro e Padhraic Smyth (1996). Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 8 Figura. Processo de KDD. Adaptação da proposta realizada por Usama Fayyad, Gregory Piatetsky-Shapiro e Padhraic Smyth (1996) O processo de KDD é interativo (pois o usuário pode intervir e controlar o curso das atividades) e iterativo (por ser uma sequência finita de operações em que o resultado de cada uma é dependente dos resultados das que a precedem). A seguir, daremos uma visão geral de cada uma das fases. **Entendimento do domínio da aplicação e identificação do objetivo do processo de KDD. **Seleção dos dados A fase de seleção dos dados é a primeira no processo de descobrimento de informação. Nesta fase é escolhido o conjunto de dados, pertencente a um domínio, contendo todas as possíveis variáveis (também chamadas de características ou atributos) e registros (também chamados de casos ou observações) que farão parte da análise. Normalmente a escolha dos dados fica a critério de um especialista do domínio. O processo de seleção é bastante complexo, uma vez que os dados podem vir de uma série de fontes diferentes (data warehouses, planilhas, sistemas legados) e podem possuir os mais diversos formatos. Este passo possui impacto significante sobre a qualidade do resultado do processo. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 9 **Pré-processamento e limpeza dos dados Esta é uma parte crucial no processo, pois a qualidade dos dados vai determinar a eficiência dos algoritmos de mineração. Nesta etapa deverão ser realizadas tarefas que eliminem dados redundantes e inconsistentes, recuperem dados incompletos e avaliem possíveis dados discrepantes ao conjunto (outliers). Mais uma vez o auxílio do especialista do domínio é fundamental. Nessa fase também são utilizados métodos de redução ou transformação para diminuir o número de variáveis envolvidas no processo, visando com isto melhorar o desempenho do algoritmo de análise. -Dados ausentes (missing values) Um problema bastante comum nesta fase é a ausência de valores para determinadas variáveis. Em outras palavras, registros com dados incompletos sejam por falhas no processo de seleção ou de revisão. O tratamento desses casos é necessário para que os resultados do processo de mineração sejam confiáveis. Existem basicamente três alternativas de solução para esse problema: usar técnicas de imputação (fazer a previsão dos dados ausentes e completá-los individualmente); substituir o valor faltante pela média aritmética da variável; excluir o registro inteiro. -Dados discrepantes (outliers) Dados que possuem valores extremos, atípicos ou com características bastante distintas dos demais registros são chamados de discrepantes, ou outliers. Normalmente, registros que contêm valores outliers são descartados da amostra, porém isto só deve ocorrer quando o dado outlier representar um erro de observação, de medida ou algum outro problema similar. O dado deve ser cuidadosamente analisado antes da exclusão, pois embora atípico, o valor pode representar um dado verdadeiro. Outliers podem representar, por exemplo, um comportamento não usual, uma tendência ou ainda transações fraudulentas. -Dados derivados Muitas das variáveis de uma população apresentam relacionamentos entre si. Sendo assim, se houver a necessidade de dados que não estejam disponíveis, é possível tentar obtê-los através da transformação ou combinação de outros. Estes dados são chamados de dadosderivados. Um exemplo de um dado que pode ser calculado a partir de outro é a idade de um indivíduo, que pode ser encontrada a partir de sua data de nascimento. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 10 **Transformação dos dados Após serem selecionados, limpos e pré-processados os dados necessitam ser armazenados e formatados adequadamente para que os algoritmos de aprendizado possam ser aplicados. Em grandes corporações é comum encontrar computadores rodando diferentes sistemas operacionais e diferentes Sistemas Gerenciadores de Bancos de Dados (SGDB). Estes dados que estão dispersos devem ser agrupados em um repositório único. **Mineração de dados (Data Mining) Todas as etapas do processo de KDD possuem grau elevado de importância para o sucesso do mesmo. Entretanto, é a etapa de Mineração de Dados (data mining) que recebe o maior destaque na literatura. Conforme BERRY e LINOFF (1997), data mining é a exploração e análise, de forma automática ou semi-automática, de grandes bases de dados com objetivo de descobrir padrões e regras. O objetivo principal do processo de data mining é fornecer as corporações informações que a possibilitem montar melhores estratégias de marketing, vendas e suporte, melhorando assim os seus negócios. **Interpretação e avaliação Esta é mais uma fase que deve ser feita em conjunto com um ou mais especialistas no assunto. O conhecimento adquirido através da técnica de data mining deve ser interpretado e avaliado para que o objetivo final seja alcançado. Caso o resultado não seja satisfatório, o que não é raro, o processo pode retornar a qualquer um dos estágios anteriores ou até mesmo ser recomeçado, conforme pode ser observado na figura. Duas das ações mais comuns caso o resultado não seja satisfatório são: modificar o conjunto de dados inicial e/ou trocar o algoritmo de data mining (ou ao menos alterar suas configurações de entrada). **Agir a partir do conhecimento descoberto. O processo de KDD segundo outros autores, como Terra (2000) pode ser visto a seguir: Figura. Proposta de processo de KDD (TERRA, 2000) Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 11 Figura. Metodologia CRISP-DM (CRoss Industry Standard Process for Data Mining), obtido em www.crisp-dm.org A seguir destacamos uma visão geral do ciclo de vida de um projeto de mineração de dados (data mining) destacado na figura anterior. Entendimento do Negócio Foco no entendimento do negócio que visa obter conhecimento sobre os objetivos do negócio e seus requisitos. Seleção dos Dados Consiste no entendimento dos dados, que visa à familiarização com o banco de dados pelo grupo de projeto, utilizando-se de conjuntos de dados "modelo". Limpeza dos Dados Fase de preparação de dados, que consiste na preparação dos dados buscando a limpeza, a transformação, a integração e a formatação dos dados da etapa anterior. Modelagem dos Dados Fase que consiste na modelagem dos dados, a qual visa a aplicação de técnicas de modelagem sobre o conjunto de dados preparado na etapa anterior. Técnicas são baseadas em conceitos de: aprendizagem de máquina; reconhecimento de padrões; estatística. Avaliação do processo Visa garantir que o modelo gerado atenda às expectativas da organização. Os resultados do processo de descoberta do conhecimento podem ser mostrados de diversas formas. Execução Esta fase consiste na definição das fases de implantação do projeto de Mineração de Dados. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 12 Em outra visão temos: Figura. Fonte: Cavalcanti (2012) 3. Data Mining (ou Mineração de Dados) Nos seus primeiros anos o Data Mining foi popularmente tratado como sinônimo de Descoberta de Conhecimento em Base de Dados (da sigla em inglês KDD - Knowledge Discovery in Databases). Mas na visão de muitos pesquisadores Data Mining deve ser entendido como um passo da descoberta de conhecimento, independentemente se será sobre uma base de dados ou sobre quaisquer outros repositórios de conhecimento. O Data Mining (Mineração de Dados) é entendido como o processo de identificar informações relevantes, tais como padrões, associações, mudanças, anomalias e estruturas, em grandes conglomerados de dados que estejam em banco de dados ou outros repositórios de informações. “A mineração de dados é um campo interdisciplinar que reúne técnicas de aprendizado de máquina, reconhecimento de padrões, estatísticas, banco de dados e visualização para abordar a questão da extração de informações a partir de grandes bases de dados” (Evangelos Simoudis, citado em Daniel T. Larose, Discovering Knowledge in Data – An Introduction to Data Mining). Fayyad (Fayyad et al. 1996) sintetiza Data Mining como “o processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis”. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 13 -Mineração de Dados (ou Data Mining)- Etapa do processo de KDD. Corresponde à execução de um algoritmo particular que, sob algumas limitações aceitáveis de eficiência computacional, encontra padrões ou modelos nos dados. É o processo de análise de conjuntos de dados que tem por objetivo a descoberta de padrões interessantes e que possam representar informações úteis. Um conceito já cobrado em prova foi proposto na edição antiga do livro “Data Mining Techniques: For Marketing, Sales, and Customer Support” , listada a seguir: A mineração de dados é a exploração e análise, por meios automáticos ou semiautomáticos, de grandes quantidades de dados a fim de descobrir padrões e regras significativas (1997). Na edição mais atual do livro o conceito é o seguinte: A mineração de dados é um processo de negócio para explorar grandes quantidades de dados para descobrir padrões e regras significativas (2011). Motivos que Potencializam o Uso do Data Mining • O volume de dados disponível atualmente é enorme. • Os dados estão sendo organizados. • Os recursos computacionais estão cada vez mais potentes. • A competição empresarial exige técnicas mais modernas de decisão. • Programas comerciais de mineração de dados já podem ser adquiridos. Quando a Mineração de Dados é mais Indicada? Hoje praticamente não existe nenhuma área de conhecimento em que técnicas de data mining não possam ser usadas. Entretanto existem áreas nas quais o uso tem sido mais frequente, como por exemplo: · Marketing: redução dos custos com o envio de correspondências através de sistemas de mala direta a partir da identificação de grupos de clientes potenciais; Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão14 · Detecção de fraude: reclamações indevidas de seguro, chamadas clonadas de telefones celulares, compras fraudulentas com cartão de crédito; · Produção: empresas desenvolvem sistemas para detectar e diagnosticar erros na fabricação de produtos. Estas falhas são normalmente agrupadas por técnicas de Análise de Agrupamentos. As áreas em que as aplicações de mineração de dados são mais bem sucedidas possuem estas características: • exigem decisões baseadas em conhecimento; • possuem um ambiente em mudança constante; • possuem dados acessíveis, suficientes, e relevantes; • fornece um retorno significativo para decisões corretas. 4. Mineração de Dados (Data Mining) x Data Warehouse Nesse momento, cabe destacar a diferença entre o Data Mining e o Data Warehouse, de grande importância para a prova. • Data Warehouse (DW) – propõe sustentar a tomada de decisão com dados. Trata-se de uma coleção de dados orientada por assunto, integrada, não-volátil, variante no tempo, que dá apoio às decisões da administração. o Orientado a assunto: refere-se ao fato do Data Warehouse (DW) ser organizado conforme diferentes visões de negócio, ou seja, armazena informações sobre temas específicos importantes para o negócio da empresa. Ex: Vendas, Compras, etc. o Integrado a partir de fontes de dados heterogêneas. Refere-se à consistência de nomes, das unidades, das variáveis, etc., no sentido de que os dados foram transformados até um estado uniforme. Por exemplo, considere-se sexo como um elemento de dado. Uma aplicação pode codificar sexo como M/F, outra como 1/0 e uma terceira como H/M. Assim, conforme os dados são inseridos no Data Warehouse, eles são convertidos para um mesmo padrão. • Sexo é codificado apenas de uma forma. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 15 • Da mesma maneira, se um elemento de dado é medido em centímetros em uma aplicação, em polegadas em outra, ele será convertido para uma representação única ao ser colocado no Data Warehouse. o Não volátil: os dados são sempre inseridos, nunca excluídos. Significa que em um DW não existem alterações de dados, somente a carga inicial e as consultas posteriores. No ambiente operacional, ao contrário, os dados são, em geral, atualizados registro a registro, em múltiplas transações. o Variável com tempo: posições históricas das atividades no tempo. Refere-se ao fato do dado em um Data Warehouse referir-se a algum momento específico, significando que ele NÃO É ATUALIZÁVEL. Enquanto que o dado de produção é atualizado de acordo com mudanças de estado do objeto em questão, refletindo, em geral, o estado do objeto no momento do acesso. O Data Warehouse é um armazém centralizado de dados, ou seja, um banco de dados ou um agrupamento de bases de dados que contêm dados sobre os negócios organizados por assunto. Por exemplo, uma indústria automotiva poderia ter um Data Warehouse com uma base dados destinada a armazenar registros inerentes ao setor de Vendas. Poderia haver também uma outra base dados que contivesse dados inerentes ao departamento de Produção de Automóveis. A cada uma dessas bases de dados dá-se o nome de Data Mart, e ao agrupamento de todos esses Data Marts damos o nome de Data Warehouse. • Os processos de Data Mining são muito facilitados quando a empresa já possui seu Data Warehouse bem estruturado, por isso esses dois termos Data Warehouse e Data Mining caminham tão juntos. As empresas comumente irão primeiramente amadurecer seus processos de organização dos dados sobre o negócio e agrupá-los por assunto, formando seus Data Marts. Em seguida, irão compor seu Data Warehouse, para após, iniciar os processos de Data Mining com a finalidade de encontrar algum conhecimento de valor em meio aos dados sobre o negócio. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 16 A utilização de um data warehouse ajuda o KDD de duas formas importantes: • Preparação dos dados: como as organizações são forçadas a pensar sobre uma visão lógica unificada da grande variedade de dados e bases de dados que elas possuem, elas têm que lidar com as questões de mapeamento de dados para uma convenção única de nomes, representação uniforme e manipulação de dados faltosos, e manipulação de ruídos e erros quando possível. • Acesso aos dados: métodos uniformes e bem definidos devem ser criados para acessar os dados e fornecer caminhos de acesso aos dados que eram historicamente difíceis de obter. Uma vez que as organizações e indivíduos resolveram o problema de como armazenar e acessar os dados, o próximo passo natural é a questão “o que fazer com todos estes dados?” Aqui é onde as oportunidades para o KDD surgem naturalmente. Além disso, se o problema envolve pessoas, então devem ser realizadas as devidas considerações em relação à privacidade. 5. Modelagem de Dados Multidimensional Conforme visto, Data Warehouse é o processo de integração dos dados corporat ivos de uma empresa em um único repositório. É um ambiente de suporte à decisão que alavanca dados armazenados em diferentes fontes e os organiza e entrega aos tomadores de decisões. Resumindo, é uma tecnologia de gestão e análise de dados. Para os processos de construção de um Data Warehouse (DW) é altamente importante a compreensão do negócio que envolve a empresa ou instituição em que se está desenvolvendo o trabalho. O processo inicial é a extração de dados das bases de dados transacionais, dados de sistemas ERP, dados locais, externos ou web. Esta extração se chama ETL (Extract Transform Load, E x t r a ç ã o T r a n s f o r m a ç ã o C a r g a ) e é aqui que são anal isados cu idadosamente os dados e ass im traduz idos às necess idades de negóc io da empresa. Após a extração os dados estes devem ser transformados para que seja possível a carga dos dados em um Data Warehouse ou Data Mart dependendo do método de construção adotado. Como métodos de construção, existem formalmente dois: • Top-down, no qual é realizada a modelagem integral do DW, seguida pelas extrações de dados. A principal vantagem é a criação de um modelo único. O revés fica por conta do maior tempo de projeto; Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 17 • Bottom-up, em que o foco é em uma área por vez, com o crescimento gradual do DW. A vantagem é a obtenção de resultados a intervalos mais curtos, garantindo muitas vezes sustentação ao projeto. A desvantagem é a maior d i f iculdade de se consolidar informações entre as diversas áreas. Como vemos na imagem seguinte há duas formas de construção, uma na qual o DW gera os DM (Data Mart) e outra em que os DM geram o DW. Figura. Exemplos das duas formas de construção de um Data WareHouse O DM nada mais é que um subconjunto de dados de um DW, em que tipicamente desempenham o papel de um DW departamental, regional ou funcional. Alguns autores e especialistas dizem que o DW é uma evolução do DM que começou localizado e cresceu para atender um escopo maior. A modelagem multidimensional é a técnica de projeto mais frequentemente utilizadapara a construção de um Data Warehouse. O objetivo é buscar um padrão de apresentação de dados que seja facilmente Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 18 visualizado pelo usuário final e que possua um bom desempenho para consultas. Quando falamos em modelagem multidimensional, estamos nos referindo à definição de um modelo que se destina à análise de dados. No que diz respeito à análise de dados, o que se espera do modelo de dados encontra-se listado a seguir: • seja uma representação simples do modelo de negócios estudado; • seja um modelo físico de fácil interpretação, de modo que usuários sem treinamento formal em TI possam entendê-lo; • facilite a implementação física do modelo de modo a maximizar performance das consultas aos dados. Portanto, no modelo multidimensional, deixamos de focar a coleta de dados para nos ocuparmos com a consulta aos dados. E esta é uma mudança radical de foco. O modelo dimensional é formado por uma tabela central (tabela de fatos) e várias outras a ela interligadas (tabelas de dimensão) , sempre por meio de chaves especiais, que associam o fato a uma dimensão do cubo. Alguns conceitos importantes dentro da modelagem multidimensional estão listados a seguir: • Dimensões: estabelecem a organização dos dados, determinando possíveis consultas/cruzamentos. Por exemplo: região, tempo, canal de venda,... Cada dimensão pode ainda ter seus elementos, chamados membros, organizados em diferentes níveis hierárquicos. A dimensão tempo, por exemplo, pode possuir duas hierarquias: calendário gregoriano (com os níveis ano, mês e dia) e calendário fiscal (com os níveis ano, semana e dia); • Medidas: são os valores a serem analisados, como médias, totais e quantidades; • Fatos: são os dados a serem agrupados, contendo os valores de cada medida para cada combinação das dimensões existentes. O tamanho da tabela que contém os fatos merece atenção especial do analista; • Agregações: totalizações calculadas nos diversos níveis hierárquicos; • Granularidade de dados: refere-se ao nível de sumarização dos elementos e de detalhes disponíveis nos dados, considerado o mais importante aspecto do projeto de um Data Warehouse. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 19 Em um nível de granularidade muito alto: o O espaço em disco e o número de índices necessários se tornam bem menores. o Há, porém, uma diminuição da possibilidade de utilização dos dados para atender a consultas detalhadas. Como ferramenta de consulta a banco de dados multidimensionais temos um conjunto de aplicações que se denominam ferramentas OLAP (On-Line Analytical Processing, Processamento Analítico On-line), as quais tem capacidade para manipular e analisar um grande volume de dados, sob múltiplas perspectivas. Típicas questões que uma ferramenta OLAP consegue responder dentro de um banco de dados multidimensional: • Quais os produtos mais bem vendidos no mês passado? • Quais os 10 melhores vendedores dos departamentos da filial BH? • Qual a média salarial dos funcionários de informática na região sudeste nos últimos cinco anos? No contexto do DataWarehouse, a análise multidimensional é uma das grandes utilidades da tecnologia OLAP, consistindo em ver determinados cubos de informações de diferentes ângulos e de vários níveis de agregação. Apesar de obedecer a uma estrutura cliente/servidor multiusuário, as ferramentas OLAP podem ser implementadas de diversas formas, classificadas por exemplo nos seguintes tipos listados a seguir (INMON, 1997): � DOLAP (Desktop On Line Analytical Processing) � No modo de armazenamento DOLAP ferramentas disparam uma instrução SQL de um cliente qualquer para o servidor e recebem o microcubo de informações de volta para ser analisado na workstation. � Vantagem: pouco tráfego que se dá na rede (todo o processamento OLAP acontece na máquina do cliente); maior agilidade de análise; servidor de banco de dados não ficar sobrecarregado. � Desvantagem: o tamanho do microcubo não pode ser muito grande; caso contrário, a análise passa a ser demorada e/ou a máquina do cliente pode não suportar em função de sua configuração. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 20 � MOLAP (Multidimensional On Line Analytical Processing) � No modo de armazenamento MOLAP (OLAP Multidimensional) uma cópia dos dados de origem do cubo, junto com as suas agregações, armazenam-se em uma estrutura multidimensional. Enquanto os dados de origem são modificados diretamente com as operações, os objetos com armazenamento MOLAP devem ser processados para incorporar estas mudanças. O tempo compreendido entre um processamento e o seguinte cria um período de latência durante o qual a informação OLAP pode não coincidir com os dados de origem atuais. Como características do armazenamento MOLAP, podemos destacar: • oferece excelente rendimento e compressão de dados; • apresenta melhor tempo de resposta, dependendo apenas da porcentagem das agregações do cubo; • a estrutura está muito otimizada para maximizar o rendimento das consultas; • geralmente este método é muito apropriado para cubos com uso frequente devido à sua rápida resposta. � ROLAP (Relational On Line Analytical Processing) � Toda a informação do cubo, seus dados, sua agregação, somas, etc., são armazenadas em um banco de dados relacional. � Diferente do modo de armazenamento MOLAP, não armazena cópia do BD. Acessa as tabelas originais quando precisa responder às consultas, geralmente é muito mais lento do que as outras formas (MOLAP ou HOLAP). � Utilizado para economizar espaço de armazenamento quando se trabalha com grandes conjuntos de dados consultados com pouca frequência; por exemplo, dados exclusivamente históricos. Os usos comuns deste esquema são: Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 21 � quando os clientes desejam ver as mudanças imediatamente; � quando contamos com grandes conjuntos de dados que não são consultados frequentemente. � HOLAP (Hybrid On Line Analytical Processing (OLAP Híbrido)) � Combina atributos do MOLAP e do ROLAP. Da mesma forma que o MOLAP, o HOLAP armazena as agregações em uma estrutura multidimensional e os dados detalhados em um banco de dados relacional, da mesma forma que no armazenamento ROLAP. Para procedimentos de busca que acessam dados sumarizados, o HOLAP é equivalente ao MOLAP. Em caso contrário, se os processos de consultas acessam os níveis máximos de detalhe, devem retirar os dados do banco de dados relacional e isso não é tão rápido comparado com uma estrutura MOLAP. Os cubos armazenados como HOLAP são menores do que os MOLAP e respondem mais rápido que os ROLAP. Alguns usos comuns de HOLAP: -Cubos que requerem resposta rápida. -Quando existem sumarizações baseadas em uma grande quantidade de dados de origem. -Soluçãocom o compromisso de reduzir o espaço ocupado sem prejudicar totalmente o rendimento das consultas. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 22 6. Business Intelligence (BI) Refere-se ao processo para tomada de decisões em uma empresa, sendo de elevada importância a existência de um repositório próprio para os dados consolidados e já transformados em “informação real”, que pode ser um Data Warehouse ou um Data Mart por exemplo. Business Intel l igence pode ser obt ido por qualquer artefato, seja tecnológico ou não, que permita a extração de conhecimento a part ir de anál ises do n e g ó c i o . Business Intelligence: um conjunto de tecnologias que dão suporte às decisões gerenciais por meio de informações internas e externas às organizações. Essas tecnologias tem um profundo impacto na estratégia corporativa, na performance e na competitividade. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 23 Figura. Tecnologias relacionadas ao Business Intelligence Nesse contexto, duas aplicações são identificadas e muito cobradas em provas: • a primeira, que sustenta o negócio por meio de ferramentas OLTP (On Line Transaction Processing); e • a segunda, que analisa o negócio por meio de ferramentas OLAP (On Line Analytical Processing). Sistema Transacional (OLTP) Os sistemas OLTP (On-Line Transaction Processing) são os sistemas que capturam as transações de um negócio e as mantêm em estruturas relacionais chamadas Banco de Dados. As principais características dos sistemas OLTP são: • Realizar transações em tempo real do processo de um negócio, motivo pelo qual os dados armazenados mudam continuamente. Os sistemas OLTP, nas suas transações, controlam processos essenciais do negócio. • Os sistemas OLTP são os responsáveis pela manutenção dos dados, acrescentando dados, realizando atualizações Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 24 ou eliminando-os. • Para a tomada de decisões, os sistemas OLTP possuem capacidades limitadas, pois não é seu objetivo e, portanto, não é uma prioridade no seu desenvolvimento. Se desejasse obter uma determinada informação histórica relativa ao negócio consultando um sistema OLTP, seria produzido um impacto negativo no funcionamento do sistema. Sistemas OLAP Os sistemas OLAP (On-Line Analytical Processing, ou Processamento Analítico On-line) oferecem uma alternativa aos sistemas transacionais, proporcionando uma visão dos dados orientada à análise, além de uma navegação rápida e flexível. A tecnologia OLAP apresenta as seguintes características: • Os bancos de dados OLAP apresentam um esquema otimizado para que as perguntas realizadas pelos usuários sejam respondidas rapidamente. • As perguntas realizadas a um OLAP devem permitir a utilização interativa com os usuários. Finalizando, cabe destacar que os sistemas OLTP registram as transações, enquanto que os sistemas OLAP realizam uma análise minuciosa dos dados brutos, extraindo informações variadas para a tomada de decisões. Através dos padrões desenhados pelas ferramentas de OLAP, é possível analisar tendências de mercado, padrões de comportamento dos clientes, dentre outros. Características da Análise OLAP A funcionalidade de uma ferramenta OLAP é caracterizada pela análise dinâmica dos dados, seja pela manipulação dos atributos de dimensão, seja pela manipulação dos atributos de medida. Vejamos algumas técnicas: Drill Across Ocorre quando o usuário pula um nível intermediário dentro de uma mesma dimensão. Por exemplo: a dimensão tempo é composta por ano, semestre, trimestre, mês e dia. O usuário estará executando um Drill Across quando ele passar de ano direto para trimestre ou mês, sem passar por semestre. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 25 Drill Down Ocorre quando o usuário aumenta o nível de detalhe da informação, diminuindo o grau de granularidade, como passar de semestre para trimestre. Drill Up É o contrário do Drill Down, ele ocorre quando o usuário aumenta o grau de granularidade, diminuindo o nível de detalhamento da informação, como passar de mês para trimestre. Drill Throught Ocorre quando o usuário passa de uma informação contida em uma dimensão para uma outra. Por exemplo: Estou na dimensão de tempo e no próximo passo começo a analisar a informação por região. Slice And Dice Como a ferramenta OLAP recupera o microcubo, surgiu a necessidade de criar um módulo que se convencionou de Slice and Dice para ficar responsável por trabalhar esta informação. Ele serve para modificar a posição de uma informação, alterar linhas por colunas de maneira a facilitar a compreensão dos usuários e girar o cubo sempre que tiver necessidade. Alertas Utilizados para indicar situações de destaque em elementos dos relatórios, baseados em condições envolvendo objetos e variáveis. Servem para indicar valores mediante condições mas não para isolar dados pelas mesmas. Ranking Permite agrupar resultados por ordem de maiores / menores, baseado em objetos numéricos (Measures). Esta opção impacta somente uma tabela direcionada (relatório) não afetando a pesquisa (Query). 7. Ferramentas de Business Intelligence Responsáveis pela interface que o usuário final terá com as informações armazenadas na estrutura de BI, que normalmente estará armazenada no Data Warehouse. Assim, devem transmitir, principalmente, velocidade, robustez e facilidade de uso. Por isso a escolha de qual ferramenta utilizar é um dos grandes desafios no projeto. A seguir, vide o “quadrante mágico” do Gartner, com destaque para a posição do uso dessas plataformas pelo mundo. Conforme destacado pelo Gartner, “características como custo, desempenho, atualização, interface, licença de uso, suporte da plataforma e volume de dados são exemplos de aspectos que deverão ser avaliados para adequação à realidade de cada empresa contratante”. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 26 Fonte: [1] Ferramentas computadorizadas para Soluções de Suporte à Decisão: Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 27 Memorex • Business Intel l igence pode ser obt ido por qualquer artefato, seja tecnológico ou não, que permita a extração de conhecimento a part ir de análises do negócio. • Objetivos fundamentais do BI: permite acesso a dados confiáveis, além do aumento da transparência e compreensão do negócioe suporte para a tomada de decisão. • Data Warehouse (DW) é o processo de integração dos dados corporat ivos de uma empresa em um único repositório. É um ambiente de suporte à decisão que alavanca dados armazenados em diferentes fontes e os organiza e entrega aos tomadores de decisões. Resumindo, é uma tecnologia de gestão e análise de dados. • Sistemas de BI - Business Intelligence - reúnem um conjunto de tecnologias orientadas a disponibilizar informação e conhecimento em uma organização, dentre as quais está o DW. • Requisitos básicos para um Data Warehousing o DW: organizados em assuntos; o DW: capacidade de integração; o DW: deve ser flexível o suficiente para atender às exigências de mudança rapidamente; o Dados: considerados não voláteis e devem ser carregados em massa; o Dados: existem em vários níveis de granularidade. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 28 Figura. Processo de Data Warehousing -Mineração de Dados (ou Data Mining)- • É o processo de análise de conjuntos de dados que tem por objetivo a descoberta de padrões interessantes e que possam representar informações úteis. • A mineração de dados é a exploração e análise, por meios automáticos ou semiautomáticos, de grandes quantidades de dados a fim de descobrir padrões e regras significativas. A Mineração de Dados surgiu com a motivação de “garimpar” informações relevantes das Bases de Dados, de forma automática. • A mineração de dados é um processo de negócio para explorar grandes quantidades de dados para descobrir padrões e regras significativas. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 29 Ferramentas computadorizadas para Soluções de Suporte à Decisão: Vamos aos comentários das questões ☺!! Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 30 Questões de Provas Comentadas 1. (FCC/2013/TRT9R/Téc.Jud./Tec.Informação) A revista ClubeDelphi publicou o seguinte artigo: Com o crescente aumento do volume de dados, surge a necessidade de ferramentas e mecanismos que permitam que eles possam ser analisados de forma otimizada, uma vez que armazenam toda a trajetória da empresa. Uma solução é a utilização de I que, em síntese, é utilizado para armazenar conjuntos de dados organizados por assuntos, mantendo todo um histórico corporativo. Outro recurso muito utilizado e dos mais importantes quando o objetivo é a busca de conhecimento, é o II , que é um processo que consiste na identificação de informações relevantes que estão presentes em grandes bancos de dados ou repositórios, geralmente realizado em três etapas: a exploração, a definição dos padrões e a validação dos dados. Estas ferramentas e técnicas fazem parte do III, definido como um conjunto de métodos e conceitos que podem ser implementados através de softwares com o intuito de utilizar os dados importantes da organização para auxiliar no processo de tomada de decisões, proporcionando melhorias para a alta administração. Outra tecnologia que pode prover uma melhor e mais flexível análise das informações, é o IV que permite uma visão conceitual de forma multidimensional das informações da organização, de maneira que as informações possam ser visualizadas e analisadas de diferentes perspectivas pelo usuário. (http://www.devmedia.com.br/mineracao-de-dados-data-warehouse-data- mining-bi-e-olap-atraves-do-fastcube-revista-clubedelphi-146/26537) As lacunas que completam corretamente o texto estão expressas em: Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 31 Comentários Lacuna Conceito Descrição I Data Warehouse Utilizado para armazenar conjuntos de dados organizados por assuntos, mantendo todo um histórico corporativo. Trata-se de uma coleção de dados orientada por assunto, integrada, não- volátil, variante no tempo, que dá apoio às decisões da administração. II Data Mining (Mineração de Dados) Processo que consiste na identificação de informações relevantes que estão presentes em grandes bancos de dados ou repositórios, geralmente realizado em três etapas: a exploração, a definição dos padrões e a validação dos dados. Em outras palavras, é o processo de identificar informações relevantes, tais como padrões, associações, mudanças, anomalias e estruturas, em grandes conglomerados de dados que estejam em banco de dados ou outros repositórios de informações. III Business Intelligence Um conjunto de métodos e conceitos que podem ser implementados através de softwares com o intuito de utilizar os dados importantes da organização para auxiliar no processo de tomada de decisões, proporcionando melhorias para a alta administração. IV OLAP (Online Analytical Processing) Permite uma visão conceitual de forma multidimensional das informações da organização, de maneira que as informações possam ser visualizadas e analisadas de diferentes perspectivas pelo usuário. Gabarito: letra D. 2. (FCC/2014/ICMS-RJ/Auditor Fiscal da Receita Estadual) Sistemas de BI - Business Intelligence reúnem um conjunto de tecnologias orientadas a disponibilizar informação e conhecimento em uma organização, dentre as quais está o DW. Um ambiente que utiliza DW reúne processos e ferramentas, está sempre em evolução e pode ser visualizado como na figura abaixo. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 32 Os componentes I, II, III e IV estão corretamente identificados em: Comentários O termo Business Intelligence (BI) está relacionado ao processo de tomada de decisões em uma empresa, sendo de elevada importância nesse contexto a existência de um repositório próprio para os dados consolidados e já transformados em “informação real”, que pode ser um Data Warehouse ou um Data Mart por exemplo. Nesse contexto, duas aplicações são identificadas: • a primeira, que sustenta o negócio por meio de ferramentas OLTP (On Line Transaction Processing); e Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 33 • a segunda, que analisa o negócio por meio de ferramentas OLAP (On Line Analytical Processing). Os sistemas OLTP registram as transações, enquanto que os sistemas OLAP realizam uma análise minuciosa dos dados brutos, extraindo informações variadas para a tomada de decisões. Através dos padrões desenhados pelas ferramentas de OLAP, é possível analisar tendências de mercado, padrões de comportamento dos clientes, dentre outros. Assim, na figura da questãoapresentada pela FCC, o processo inicial envolve a extração de dados das bases de dados transacionais, dados de sistemas ERP, dados locais, externos ou web (geralmente armazenados em sistemas OLTP). Essa extração se chama ETL (Extract Transform Load - E x t r a ç ã o T r a n s f o r m a ç ã o C a r g a ) e é aqui que são anal isados cu idadosamente os dados e ass im traduz idos às necess idades de negóc io da empresa. Após a extração os dados devem ser transformados para que seja possível a carga dos dados em um Data Warehouse ou Data Mart dependendo do método de construção adotado. Como vemos na imagem seguinte há duas formas de construção, uma na qual o DW gera os DM (Data Mart), utilizada na questão, e outra em que os DM geram o DW. Figura. Exemplos das duas formas de construção de um Data WareHouse O Data Mart (DM) nada mais é que um subconjunto de dados de um DW, em que tipicamente desempenham o papel de um DW departamental, regional ou funcional. Alguns autores e especialistas dizem que o DW é uma evolução do DM que começou localizado e cresceu para atender um escopo maior. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 34 Pela figura da questão, foi feita a criação dos Data Marts mais especializados (abordagem top-down), e, em seguida, utilizados Sistemas OLAP para analisar as informações. Conforme visto, a letra E é a resposta da questão. O Data Warehouse é um armazém centralizado de dados, ou seja, um banco de dados ou um agrupamento de bases de dados que contêm dados sobre os negócios organizados por assunto. Por exemplo, uma indústria automotiva poderia ter um Data Warehouse com uma base dados destinada a armazenar registros inerentes ao setor de Vendas. Poderia haver também uma outra base dados que contivesse dados inerentes ao departamento de Produção de Automóveis. A cada uma dessas bases de dados dar-se-á o nome de Data Mart, e ao agrupamento de todos esses Data Marts damos o nome de Data Warehouse. Gabarito: letra E. Acerca de soluções de suporte a decisão, julgue os dois itens seguintes. 3. (CESPE/Correios/Analista de Correios/Analista de Sistemas/Desenvolvimento de Sistemas/2011) As ferramentas de software ETL (extract transform load) têm como função a extração de dados de diversos sistemas, a transformação desses dados de acordo com as regras de negócio e a carga dos dados em um data mart ou um DW. Comentários As ferramentas de software ETL (Extract Transform Load - E x t r a ç ã o T r a n s f o r m a ç ã o C a r g a ) , conforme visto na figura seguinte, têm como função a extração de dados a partir dos sistemas de origem e, geralmente, gravação em disco no ambiente de ETL antes de qualquer reestruturação dos dados. Em seguida, é realizada a transformação desses dados de acordo com as regras de negócio e, por fim, a carga dos dados em um data mart ou um Data Warehouse (DW). Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 35 Gabarito: item correto. 4. (CESPE/Correios/Analista de Correios/Analista de Sistemas/Desenvolvimento de Sistemas/2011) Em um ambiente data warehouse (DW), é possível a análise de grandes volumes de dados, os quais ficam disponíveis para serem alterados e manipulados pelo usuário. Comentários Segundo Laudon & Laudon, um Data Warehouse (DW) é um banco de dados, com ferramentas de consulta e relatório, que armazena dados atuais e históricos extraídos de vários sistemas operacionais e consolidados para fins de analises e relatórios administrativos. Em um ambiente DW, é possível a análise de grandes volumes de dados. No entanto, diferentemente do ambiente operacional em que os dados são, em geral, atualizados registro a registro, em múltiplas transações, o DW permite apenas a carga inicial dos dados e consultas a estes dados. Após serem integrados e transformados, os dados são carregados em bloco para o Data Warehouse, para que estejam disponíveis aos usuários para acesso. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 36 Gabarito: item errado. 5. (FCC/2013/TRT - 9ª REGIÃO (PR)/Analista Judiciário - Tecnologia da Informação) As ferramentas OLAP são as aplicações às quais os usuários finais têm acesso para extrair os dados de suas bases e construir os relatórios capazes de responder às suas questões gerenciais. As operações realizadas abaixo navegam nos dados, modificando o nível de granularidade da consulta. A primeira e a segunda operações são, respectivamente, a) roll up e drill down. b) drill across e slice and dice. c) slice and dice e dill throught. d) dill throught e roll up. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 37 e) drill down e roll up. Comentários • Drill down: navegação ao longo das dimensões na direção de maior detalhe. O detalhamento é feito através da adição de colunas de dimensões. Não necessariamente os atributos devem pertencer à mesma hierarquia; • Roll up (Drill up): navegação ao longo das dimensões na direção de menor detalhe. Diminui o detalhamento, tendo uma visão mais ampla, através da remoção de colunas de dimensões do cabeçalho; Observa-se que na primeira operação foi diminuído o detalhamento (mensal para trimestral), ou seja, foi realizado um roll up. Já na segunda, foi aumentado o detalhamento (estados para cidades), numa operação de Drill down. Gabarito: letra A. 6. (FCC/2014/ICMS-RJ/Auditor Fiscal da Receita Estadual) Com o advento da tecnologia de Data Warehousing, os ambientes de apoio à decisão passaram a ser denominados ambientes de Data Warehouse (DW). Em relação à tecnologia DW, é correto afirmar: a) Um DW tem duas operações básicas: a carga dos dados (inicial e incremental) e o acesso a estes dados em modo leitura. Depois de carregado, um DW não necessita de operações de bloqueio por concorrência de usuários no acesso aos seus dados. b) Em um DW as convenções de nomes, valores de variáveis e outros atributos físicos de dados como data types são bastante flexíveis. Para facilitar a tomada de decisões, as informações são apresentadas de diferentes formas, da mesma maneira que foram carregadas dos sistemas legados. c) Um projetista de DW deve ter seu foco na modelagem dos dados e no projeto de banco de dados. Um sistema transacional armazena as informações agrupadas por assuntos de interesse da empresa que são mais importantes, enquanto um DW é orientado a processos e deve ser desenvolvido para manter disponíveis as transações realizadas diariamente. d) Os dados de um DW são um conjunto dinâmico de registros de uma ou mais tabelas, capturados em um momento de tempo predeterminado, por isso têm que ser sempre atualizados. e) Um sistema multidimensional, como o DW, deve atualizar o valor corrente das informações e sua exatidão é válida por um tempo curto, por exemplo, o valor total das notas fiscais processadas pela Receita às 12:00 de um dia pode ser diferente às 18:00 do mesmo dia.Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 38 Comentários Bill Inmon destaca que o Data Warehouse (DW) “é uma coleção de dados orientados por assuntos, integrados, variáveis com o tempo e não voláteis, para dar suporte ao processo de tomada de decisão“. Essas características podem ser descritas da seguinte forma: • Orientado a assunto: refere-se ao fato do Data Warehouse (DW) ser organizado conforme diferentes visões de negócio, ou seja, armazena informações sobre temas específicos importantes para o negócio da empresa. Ex.: Vendas, Compras, etc. • Integrado a partir de fontes de dados heterogêneas. • Não volátil: os dados são sempre inseridos, nunca excluídos. Em um DW não existem alterações de dados, somente a carga inicial e as consultas posteriores. • Variável com tempo: posições históricas das atividades no tempo. Conforme visto, a restrição de não volatilidade permite basicamente duas operações em um DW, que são: a carga (inicial ou incremental) e consulta dos dados. Via de regra não há operações de atualizações de registros, nem necessidade de operações de bloqueio por concorrência de usuários no acesso aos seus dados (o que acontece tipicamente em operações de escrita de dados), pois os dados em um DW são apenas para leitura. Assim, a letra A é a resposta da questão. Gabarito: letra A. 7. (FCC/2010/TRF-4/Analista Judiciário-Informática) Sobre data mining, é correto afirmar: a) Não requer interação com analistas humanos, pois os algoritmos utilizados conseguem determinar de forma completa e eficiente o valor dos padrões encontrados. b) Na mineração de dados, encontrar padrões requer que os dados brutos sejam sistematicamente "simplificados", de forma a desconsiderar aquilo que é genérico e privilegiar aquilo que é específico. c) É um grande banco de dados voltado para dar suporte necessário nas decisões de usuários finais, geralmente gerentes e analistas de negócios. d) O processo de descobrimento realizado pelo data mining só pode ser utilizado a partir de um data warehouse, onde os dados já estão sem erros, sem duplicidade, são consistentes e habilitam descobertas abrangentes e precisas. e) É o processo de descoberta de novas correlações, padrões e tendências entre as informações de uma empresa, por meio da análise de grandes quantidades Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 39 de dados armazenados em bancos de dados usando técnicas de reconhecimento de padrões, estatísticas e matemáticas. Comentários A mineração de dados (ou Data Mining) é o nome dado ao conjunto de técnicas que permite a extração de conhecimentos a partir de grandes volumes de dados. Em outras palavras, é o processo de descoberta de novas correlações, padrões e tendências entre as informações úteis em grandes depósitos de dados. A letra E é a resposta dessa questão. Gabarito: letra E. 8. (ESAF/MPOG/Adaptada/2008) Algumas pessoas têm considerado que os Data Warehouses são uma extensão de visões de banco de dados. Porém, as visões fornecem apenas um subconjunto das funções e das capacidades dos data warehouses. Com relação às diferenças e similaridades entre as visões e os data warehouses, é correto afirmar que tanto os data warehouses quanto as visões fornecem, frequentemente, grandes quantidades de dados integrados e temporais, geralmente mais do que é contido em um banco de dados. Comentários Uma View (Visão) é uma tabela lógica, baseada em uma tabela ou em outra visão. Ela não possui dados próprios, é somente uma interface para a manipulação de um conjunto de dados. Ela pode ser utilizada para restringir o acesso a dados em uma tabela, facilitar consultas complexas e também otimizar o tempo dos desenvolvedores. A View é uma maneira alternativa de observação de dados de uma ou mais tabelas, que compõem uma base de dados. Pode ser considerada como uma tabela virtual ou uma consulta armazenada. Como exemplo de utilização de view, cita-se a restrição usuário x domínio controlando o acesso de um usuário específico a colunas de uma tabela. Alguns benefícios da utilização das Views: economia de tempo com retrabalho; velocidade de acesso às informações; mascara a complexidade do banco de dados; organiza dados a serem exportados para outros aplicativos. Um Data warehouse (ou armazém de dados) é um sistema de computação utilizado para armazenar informação relativa às atividades de uma organização em banco de dados, de forma consolidada. Ele possibilita a análise de grandes volumes de dados, coletados dos sistemas transacionais. Por definição, os dados em um Data Warehouse não são voláteis, ou seja, eles não mudam, são somente para leitura e não podem ser alterados. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 40 Os Data Warehouses surgiram como conceito acadêmico na década de 80. Com o amadurecimento dos sistemas de informação empresariais, as necessidades de análise dos dados cresceram paralelamente. Como os sistemas transacionais não conseguiam cumprir a tarefa de análise com a simples geração de relatórios, os Data Warehouses são atualmente o núcleo dos sistemas de informações gerenciais e apoio a decisão das principais soluções de Business Intelligence do mercado, devido a sua capacidade de sumarizar grandes volumes de dados e de possibilitar análises. As ferramentas OLAP (Online Analytical Processing) têm como função a navegação nos dados de um Data Warehouse, possuindo uma estrutura adequada tanto para as pesquisas como para a apresentação das informações. A assertiva, portanto, é falsa, tendo-se em vista que a View não tem como objetivo fornecer frequentemente grandes quantidades de dados integrados, e sim fornecer um subconjunto dinâmico de dados (tabela virtual) a partir de uma ou mais tabelas. Observem ainda que o item afirma indevidamente que a quantidade de dados ofertada é maior do que em todo o banco de dados. Uma View não possui quantidade de dados maior do que o próprio banco de dados em que ela está inserida. Gabarito: item errado. 9. (FGV/SEFAZ-RJ/2009) O grande desafio do profissional de TI que gerencia qualquer processo é a análise dos fatos relacionados à função que exerce em uma organização. Essa análise deve ser feita com as ferramentas e os dados disponíveis, permitindo aos executivos e gerentes detectar as tendências e tomar as decisões com eficiência e eficácia. Devido a essa necessidade, surgiu o conceito de Business Intelligence – “BI”. Assinale a alternativa que indique duas características dos atuais sistemas de Business Intelligence. (A) procurar relações de causa e efeito / extrair e integrar dados de múltiplas fontes. (B) evitar a utilização de ferramentas automatizadas / desprezar dados contextualizados. (C) extrair e integrar dados de múltiplas fontes / evitar a utilização de ferramentas automatizadas. (D) desprezar dados contextualizados / trabalhar exclusivamente com fatos reais e não hipotéticos. (E) trabalhar exclusivamente com fatos reais e não hipotéticos / procurar relações de causa e efeito. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE)– SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 41 Comentários Conforme visto em http://imasters.com.br/artigo/5415/gerencia-de-ti/por-que- business-intelligence/ o grande desafio de todo indivíduo que gerencia qualquer processo é a análise dos fatos relacionados a seu dever. Essa análise deve ser feita de modo que, com as ferramentas e dados disponíveis, o gerente possa detectar tendências e tomar decisões eficientes e no tempo correto. Com essa necessidade surgiu então o conceito de Business Intelligence. Há milhares de anos atrás, Fenícios, Persas, Egípcios e outros Orientais já faziam, a seu modo, Business Intelligence, ou seja, cruzavam informações provenientes da natureza, tais como comportamento das marés, períodos de seca e de chuvas, posição dos astros, para tomar decisões que permitissem a melhoria de vida de suas comunidades. A história do Business Intelligence que conhecemos hoje, começa na década de 70, quando alguns produtos de BI foram disponibilizados para os analistas de negócio. O grande problema era que esses produtos exigiam intensa e exaustiva programação, não disponibilizavam informação em tempo hábil nem de forma flexível, e além de tudo tinham alto custo de implantação. Com o surgimento dos bancos de dados relacionais, dos PCs e das interfaces gráficas como o Windows, aliados ao aumento da complexidade dos negócios, começaram a surgir os primeiros produtos realmente direcionados aos analistas de negócios, que possibilitavam rapidez e uma maior flexibilidade de análise. Os sistemas de Business Intelligence atuais têm como características: • extrair e integrar dados de múltiplas fontes; • fazer uso da experiência; • analisar dados contextualizados; • trabalhar com hipóteses; • procurar relações de causa e efeito; • transformar os registros obtidos em informação útil para o conhecimento empresarial. Gabarito: letra A. 10. (FGV/SEFAZ-RJ/Fiscal de Rendas/2007) DataWarehouse e DataMining são recursos utilizados por muitas organizações para facilitar e agilizar o processamento, a análise e a consulta de dados. Sobre esses recursos, é correto afirmar que: (A) um DataMining armazena dados extraídos de bancos de dados de diferentes organizações. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 42 (B) um DataWarehouse armazena dados por períodos não superiores a três meses, o que dificulta previsões e análises de tendência. (C) um DataWarehouse é repositório de dados históricos orientados a assunto, organizados para serem acessíveis para atividades de processamento analítico. (D) DataMining é uma técnica de análise de dados exclusiva para aplicação em um DataWarehouse. (E) num DataWarehouse, os usuários finais necessitam conhecer linguagem de programação para acessar dados. Comentários Bill Inmon destaca que o “Data Warehouse é uma coleção de dados orientados por assuntos, integrados, variáveis com o tempo e não voláteis, para dar suporte ao processo de tomada de decisão.“ O Data Warehouse é um banco de dados multidimensional grande, de escopo organizacional (ou seja, abrange toda a empresa) e reúne dados de todos os departamentos de forma a permitir a busca rápida de informações para auxiliar a tomada de decisões estratégicas. A principal ideia do Data Warehouse é construir um depósito no qual será mantida a memória histórica dos dados, possibilitando a utilização dos mesmos para consulta e análise estratégica para a tomada de decisão!! • Data Mart: é um banco de dados multidimensional de escopo departamental (ou seja, abrange apenas um determinado departamento). “Um subconjunto lógico do Data Warehouse, geralmente visto como um data warehouse setorial” (Kimball). As diferenças entre o Data Mart e o Data Warehouse são apenas com relação ao tamanho e ao escopo do problema a ser resolvido. • Data Mining (ou Mineração de dados): define uma série de procedimentos, técnicas e ferramentas para recuperar e analisar dados de um Data Warehouse ou Data Mart à procura de padrões e tendências a respeito dos dados armazenados. Gabarito: letra C. 11. (UFF/UFF/2009) O conjunto de técnicas que, envolvendo métodos matemáticos e estatísticos, algoritmos e princípios de inteligência artificial, tem o objetivo de descobrir relacionamentos significativos entre dados armazenados em repositórios de grandes volumes e concluir sobre padrões de comportamento de clientes de uma organização é conhecido como: Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 43 (A) Datawarehouse; (B) Metadados; (C) Data Mart; (D) Data Mining; (E) Sistemas Transacionais. Comentários O enunciado da questão dá fortes indicações de que a questão trata de Data Mining. O texto diz: “descobrir relacionamentos significativos” e também “concluir sobre padrões de comportamento de clientes de uma organização”, tudo isso faz parte da descrição de Data Mining. Contudo vamos comentar as demais opções: A letra A cita o Data Warehouse. Uma das atividades de uma empresa que pretende trabalhar com Data Mining é justamente coletar os registros das bases de dados transacionais e organizá-los em bases de dados agrupadas por assunto e destinadas a análises. Cada base de dados organizada por assunto dá-se o nome de Data Mart, e ao conjunto de Data Marts dá-se o nome de Data Warehouse. Essa organização dos dados é importante e muito válida, pois tende a facilitar em muito o trabalho de mineração de dados. A letra B cita o Metadados. Metadados são dados com a finalidade de descrever outros dados. É como se fosse um dicionário, trata-se de um grupo específico de registros em banco de dados cuja finalidade é permitir melhor entendimento dos dados a que se referem. A letra C cita o Data Mart, que é uma base de dados em que os dados já estão organizados por assunto. Assim, numa grande empresa seria comum encontrar um Data Mart de Vendas (tratando de registros sobre vendas), um Data Mart de Recursos de Humanos, ou outro sobre Compras da Empresa, e por aí vai. A letra E cita Sistemas Transacionais. Esses são os sistemas da empresa de um modo geral. Pode ser tanto a loja virtual da empresa, como pode ser seu sistema de gerenciamento de vendas ou de recursos humanos. Esses sistemas são caracterizados inclusive por realizarem contínuas operações de consulta, inserção, alteração e exclusão em banco de dados transacionais. Chamamos de banco de dados transacionais os bancos de dados preparados para se comportarem em transações (inserção, exclusão e alteração). Esses bancos de dados são chamados de OLTP (On-line Transaction Processing). Gabarito: letra D. Tecnologia da Informação em Teoria e Exercícios p/ Auditor Fiscal da Fazenda Estadual (AFFE) – SEFAZ/PI - Foco: FCC Aula 06 –DW e BI - Prof a . Patrícia Quintão www.pontodosconcursos.com.br | Prof a . Patrícia Lima Quintão 44 12. (ESAF/STN/DESENV SISTEMAS/2008) Um depósito de dados organizado por assunto, não-volátil, integrado e variável em função do tempo, utilizado para apoiar decisões de gerenciamento, é denominado a) datawarehouse. b) gestão do conhecimento. c) business Intelligence. d) mineração de dados. e) OLAP (OnLine Analytical Processing). Comentários