Buscar

Big Data Stream Arquitetura de Coleta e Armazenamento - Prova final Objetiva

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

OLAP é uma ferramenta de Business Intelligence utilizada para apoiar as empresas na análise de suas informações, visando obter novos conhecimentos que são empregados na tomada de decisão. O termo OLAP refere-se a um conjunto de ferramentas voltadas para acesso e análise ad hoc de dados, com o objetivo final de transformar dados em informações capazes de dar suporte às decisões gerenciais em tempo real. Sobre tempo real, assinale a alternativa CORRETA:
A
Tempo real pode ser explicado como a menor latência entre a origem e o destino.
B
É considerado tempo real qualquer aplicação que execute em torno de 15 segundos.
C
Tempo real não tem uma definição específica, mas compreende-se como tempo real qualquer aplicação que execute em torno de 30 segundos.
D
É considerado tempo real qualquer aplicação que execute em torno de 30 segundos.
2O dado tem sido considerado o petróleo da nova era. A tecnologia existente hoje é completamente confiável, mas os softwares e as plataformas apenas ajudam a organizar. Tornar o projeto viável depende de conhecer conceitos e a própria cultura do ambiente corporativo. De acordo com estudos, 80% do conteúdo produzido em uma empresa normal é em formato não estruturado. Sobre Big Data, assinale a alternativa CORRETA: FONTE: https://pt.wikibooks.org/wiki/SQL/Dados_Estruturados,_Semi-Estruturados_e_N%C3%A3o_Estruturados. Acesso em: 8 maio 2021.
A
Big Data tem como tradução literal "pequenos dados", termo inicialmente instituído para determinar o grande volume de dados gerados pelos sistemas de informação, podendo ser representado sobre a soma de volume, variedade e velocidade.
B
Big data são os dados semiestruturados.
C
Big Data é um tipo de banco de dados relacional.
D
Big Data tem como tradução literal "grandes dados", termo inicialmente instituído para determinar o grande volume de dados gerados pelos sistemas de informação, podendo ser representado sobre a soma de volume, variedade e velocidade.
3Entre as muitas implementações do MapReduce disponíveis nos dias de hoje, o Apache Hadoop é o mais popular e possui código aberto. Hadoop também é usado amplamente como motor de muitos sistemas de processamento de consultas básicas. Sobre os comandos do Hadoop A, classifique V para as sentenças verdadeiras e F para as falsas: ( ) O comando copyfromlocal put copia o arquivo ou diretório no sistema de arquivos local identificado por localSrc ao destino dentro do HDFS. ( ) O comando put é idêntico ao copy no sistema de arquivos local identificado por localSrc ao dest a HDFS, e, em seguida, o exclui a cópia local de sucesso. ( ) O comando movefromlocal copia o arquivo ou diretório em HDFS identificados pelo src para o caminho do sistema de arquivos local identificado pelo localDest. ( ) O comando get exibe o conteúdo do stdout. Assinale a alternativa que apresenta a sequência CORRETA:
A
V - V - F - F.
B
F - F - V - V.
C
V - F - V - V.
D
F - F - F - F.
4Inicialmente, as máquinas virtuais permitem a criação de um ambiente de execução, possivelmente com um conjunto de bibliotecas e sistemas operacionais próprios, onde uma aplicação pode executar sobre uma plataforma de hardware comum junto a outras máquinas. Sobre os nomes de distribuidores de máquinas virtuais com Apache Hadoop, assinale a alternativa CORRETA:
A
Coursera, Hortonworks, MapReduce e Bitnami.
B
Google, Amazon AWS, IBM.
C
NoSQL, Oracle e Microsoft.
D
Cloudera, Hortonworks, MapR e Bitnami.
5A panóplia de frameworks de Big Data existentes e a complexidade, tanto da escolha das ferramentas adequadas como da sua implementação, requer um processo de investigação exigente, de forma a proporcionar uma solução exequível e o mais próximo possível da resolução do problema. Sobre a definição de framework, assinale a alternativa CORRETA:
A
Um framework é um conjunto de soluções para um conjunto de problemas.
B
Um framework é um conjunto de códigos SQL.
C
Um framework é um conjunto de códigos python.
D
Um framework é um conjunto de problemas.
6Apache Spark é um DISC que provê execução paralela e escalável de scripts com uso intensivo de dados. O Spark é baseado no processamento distribuído de dados em memória, por meio de uma abstração chamada RDD (do inglês Resilient Distributed Dataset). Sobre RDD, associe os itens, utilizando o código a seguir: I- In-Memory. II- Imutável. III- Preguiçoso. IV- Cacheable. ( ) Você pode armazenar todos os dados em um "armazenamento" persistente como a memória (padrão e o mais preferido) ou o disco (o menos preferido, devido à velocidade de acesso). ( ) Dentro do RDD não estão disponíveis ou transformados até que uma ação seja executada para acionar a execução. ( ) Não muda depois de criado, e só pode ser transformado usando transformações para novos RDDs. ( ) São armazenados na memória tanto quanto possível (tamanho) e longos (tempo). Assinale a alternativa que apresenta a sequência CORRETA: FONTE: GUEDES, Thaylon et al. Análise On-line de Dados de Proveniência e de Domínio de Aplicações Spark com SAMbA. In: SBBD Companion. 2018. p. 17-22.
A
I - II - III - IV.
B
IV - III - II - I.
C
I - IV - II - IV.
D
I - IV - III - II.
7O Spark é um framework que possibilita a execução das tarefas paralelizáveis de forma distribuída em máquinas multi-core ou clusters YARN/Mesos, com ênfase no processamento em pipeline de atividades, com alocação de arquivos intermediários primordialmente em servidores distribuídos. Sobre as características das RDDs, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A RDD pode ser executada paralela, ou seja, processar os dados em paralelo. ( ) A RDD pode ser digitada, pois os registros RDD possuem tipos, por exemplo, Long em RDD[Long] ou (Int, String) em RDD [(Int, String)]. ( ) A RDD pode ser particionada, com os registros particionados (divididos em partições lógicas) e distribuídos entre nós em um cluster. ( ) A RDD pode ter localização, sendo que o RDD pode definir as preferências de posicionamento para calcular as partições (haver proximidade com os registros). Assinale a alternativa que apresenta a sequência CORRETA:
A
V - V - F - F.
B
F - F - V - V.
C
V - F - V - V.
D
V - V - V - V.
8Surgido como uma plataforma voltada ao armazenamento e ao processamento de dados em larga escala, o framework Apache Hadoop é uma tecnologia amplamente difundida e consolidada, tanto em termos comerciais quanto no ambiente acadêmico. Considerando os componentes do Apache Hadoop, associe os itens, utilizando o código a seguir: I- Hadoop Streaming. II- HDFS. III- Hive. IV- Hue. ( ) Componente que permite codificar aplicações em diversas linguagens, não somente em Java. ( ) É o sistema gerenciador de dados distribuídos do Hadoop, este gerencia o armazenamento dos dados e a distribuição. ( ) É um framework que em sua principal funcionalidade permite implementar data warehouse, favorecendo processos de Business Intelligence e mineração de dados. ( ) É um SDK (Software Development Kit - Kit de Desenvolvimento de Software) que gera uma interface com usuário, permitindo com que a informação seja manipulada tanto utilizando linguagem SQL, bem como através de uma interface visual. Assinale a alternativa que apresenta a sequência CORRETA: FONTE: FAZUL, Rhauani; CARDOSO, Paulo Vinicius; BARCELOS, Patricia Pitthan. Análise do impacto da replicação de dados implementada pelo apache hadoop no balanceamento de carga. In: Anais do X Computer on the Beach (CotB 2019). 2019.
A
I - II - III - IV.
B
IV - III - II - I.
C
II - I - III - IV.
D
III - I - IV - II.
9Cloudera é um dos players mais conhecidos no que envolve o Hadoop. Com um número de clientes considerável e com uma contribuição ativa para o desenvolvimento do Hadoop, o Cloudera está no top 3 da lista quando se trata de construir ferramentas inovadoras. O Cloudera Manager é fácil de usar e implementar, com uma interface para o utilizador bastante acessível, apresentando todas as informações de forma organizada e limpa. O Cloudera automatiza o processo de instalação e também presta outros serviços avançados para os utilizadores. Sobre o Hue, associeos itens, utilizando o código a seguir: I- Editor. II- Navegadores. III- Painel. IV- Agendador. ( ) O objetivo do editor do Hue é tornar a consulta de dados mais fácil e produtiva. Concentra-se no SQL, mas, também, oferece suporte a envios de tarefas. Vem com um autocomplete inteligente, pesquisa e marcação de dados e consulta de assistência. ( ) O aplicativo permite criar fluxos de trabalho e, em seguida, agendá-los para serem executados regularmente, de forma automática. Uma interface de monitoramento mostra o progresso, registra e permite ações, como pausar ou interromper tarefas. ( ) Os painéis são uma maneira interativa de explorar os dados com rapidez e facilidade. Nenhuma programação é necessária e a análise é feita por arrastar e soltar e clicar. ( ) Os navegadores do Hue permitem que você pesquise, observe e realize ações em dados, ou tarefas em nuvem ou em clusters locais. Assinale a alternativa que apresenta a sequência CORRETA:
A
I - IV - III - II.
B
II - IV - III - I.
C
I - II - III - IV.
D
IV - III - II - I.
10Dentre algumas empresas com estes objetivos temos a Amazon Web Service, Cloudera, Hortonworks, KarmaSphere, Pentaho e Tresada. Dentre muitos especialistas, a Cloudera já teve em sua chefia Douglas Cutting, um dos criadores do Apache Hadoop original, considerado o seu principal. Sobre a máquina virtual Cloudera, associe os itens a seguir: I- CDH5. II- Cloudera Express. III- Cloudera Enterprise. ( ) Esta é a máquina virtual completa com todos os recursos de distribuição, uma versão paga, mas você pode utilizá-la em modo trial. Para executar essa versão, deve ter um equipamento com 12GB de memória RAM disponível. ( ) É a versão padrão da distribuição, muito similar ao projeto original, e, para executá-la, são necessários, no mínimo, 4GB de memória RAM. ( ) É uma versão com mais componentes, e, para executá-la, são necessários 8GB, no mínimo, de memória RAM. Assinale a alternativa que apresenta a sequência CORRETA:
A
I - II - III.
B
III - I - II.
C
II - I - III.
D
I - III - II.

Mais conteúdos dessa disciplina