Prévia do material em texto
1 Disciplina: Estatísticas e Planilhas Autora: D.ra Roberta Paye Bara Revisão de Conteúdos: M.e Monika Fritz Designer Instrucional: Sérgio Antonio Zanvettor Júnior Revisão Ortográfica: Esp. Juliano de Paula Neitzki Ano: 2019 Copyright © - É expressamente proibida a reprodução do conteúdo deste material integral ou de suas páginas em qualquer meio de comunicação sem autorização escrita da equipe da Assessoria de Marketing da Faculdade São Braz (FSB). O não cumprimento destas solicitações poderá acarretar em cobrança de direitos autorais. 2 Roberta Paye Bara Estatísticas e Planilhas 1ª Edição 2019 Curitiba, PR Editora São Braz 3 Editora São Braz Rua Cláudio Chatagnier, 112 Curitiba – Paraná – 82520-590 Fone: (41) 3123-9000 Coordenador Técnico Editorial Marcelo Alvino da Silva Conselho Editorial D.r Alex de Britto Rodrigues / D.ra Diana Cristina de Abreu / D.r Eduardo Soncini Miranda / D.ra Gilian Cristina Barros / D.r Jefferson Zeferino / D.r João Paulo de Souza da Silva / D.ra Marli Pereira de Barros Dias / D.ra Rosi Terezinha Ferrarini Gevaerd / D.ra Wilma de Lara Bueno / D.ra Yara Rodrigues de La Iglesia Revisão de Conteúdos Cibéli Moreira Duarte / Monika Fritz Parecerista Técnico Monika Fritz Designer Instrucional Sérgio Antonio Zanvettor Júnior Revisão Ortográfica Juliano de Paula Neitzki Desenvolvimento Iconográfico Juliana Emy Akiyoshi Eleutério FICHA CATALOGRÁFICA BARA, Roberta Paye. Estatísticas e Planilhas / Roberta Paye Bara. – Curitiba: Editora São Braz, 2019. 76 p. ISBN: 978-85-5475-437-2 1. Análise e Estatística. 2. Determinação e Valor Esperado. 3. Variáveis Quantitativas. Material didático da disciplina de Estatísticas e Planilhas – Faculdade São Braz (FSB), 2019. Natália Figueiredo Martins – CRB 9/1870 4 PALAVRA DA INSTITUIÇÃO Caro(a) aluno(a), Seja bem-vindo(a) à Faculdade São Braz! Nossa faculdade está localizada em Curitiba, na Rua Cláudio Chatagnier, nº 112, no Bairro Bacacheri, criada e credenciada pela Portaria nº 299 de 27 de dezembro 2012, oferece cursos de Graduação, Pós-Graduação e Extensão Universitária. A Faculdade assume o compromisso com seus alunos, professores e comunidade de estar sempre sintonizada no objetivo de participar do desenvolvimento do País e de formar não somente bons profissionais, mas também brasileiros conscientes de sua cidadania. Nossos cursos são desenvolvidos por uma equipe multidisciplinar comprometida com a qualidade do conteúdo oferecido, assim como com as ferramentas de aprendizagem: interatividades pedagógicas, avaliações, plantão de dúvidas via telefone, atendimento via internet, emprego de redes sociais e grupos de estudos, o que proporciona Excel ente integração entre professores e estudantes. Bons estudos e conte sempre conosco! Faculdade São Braz 5 Sumário Prefácio ....................................................................................................... 07 Aula 1 – Conceitos básicos ......................................................................... 08 Apresentação da Aula 1 .............................................................................. 08 1.1 - Estatística descritiva, inferencial e probabilística .......................... 08 1.2 - Variáveis quantitativas e qualitativas ............................................ 11 1.3 - Amostragem ................................................................................. 13 1.4 - Planilhas ...................................................................................... 13 Conclusão da aula 1 .................................................................................... 15 Aula 2 – As planilhas ................................................................................... 16 Apresentação da aula 2 .............................................................................. 16 2.1 - Ferramentas tecnológicas para criação de planilhas .................... 17 2.2 - Incluindo fórmulas na planilha ...................................................... 18 2.3 - Formatação .................................................................................. 21 2.4 - Tabela Dinâmica .......................................................................... 22 Conclusão da aula 2 .................................................................................... 23 Aula 3 – Tipos de Dados .............................................................................. 24 Apresentação da Aula 3 .............................................................................. 24 3.1 - Dados Brutos e Rol ....................................................................... 25 3.2 - Frequências ................................................................................. 26 3.3 - Variáveis ...................................................................................... 29 Conclusão da aula 3 .................................................................................... 31 Aula 4 – Gráficos ......................................................................................... 32 Apresentação da aula 4 .............................................................................. 32 4.1 - Criação de gráficos ....................................................................... 32 4.2 - Tipos de gráficos .......................................................................... 34 Conclusão da aula 4 .................................................................................... 41 Aula 5 – Medidas de Tendência Central ...................................................... 41 Apresentação da aula 5 .............................................................................. 41 5.1 - Média ........................................................................................... 42 5.2 - Mediana ....................................................................................... 43 5.3 - Moda ............................................................................................ 44 5.4 - Quartis ......................................................................................... 46 5.5 - Medidas de dispersão .................................................................. 47 Conclusão da aula 5 .................................................................................... 49 Aula 6 – Amostragem .................................................................................. 50 6 Apresentação da aula 6 .............................................................................. 50 6.1 - Tipos de amostragem .................................................................. 50 6.2 - Técnicas de amostragem ............................................................. 52 6.3 - Erro amostral ................................................................................ 53 6.4 - Determinação e valor esperado .................................................... 54 Conclusão da aula 6 .................................................................................... 57 Aula 7 – Intervalo de confiança ................................................................... 57 Apresentação da aula 7 .............................................................................. 57 7.1 - Nível de confiança ....................................................................... 58 7.2 - Intervalo de confiança .................................................................. 58 Conclusão da aula 7 .................................................................................... 64 Aula 8 – Teste de hipóteses ........................................................................ 64 Apresentação da aula 8 .............................................................................. 64 8.1 - Teste de hipótese .........................................................................65 8.2 - Teste de hipóteses na estatística: conceitos ............................... 66 Conclusão da aula 8 .................................................................................... 73 Índice Remissivo ......................................................................................... 74 Referências ................................................................................................. 76 7 Prefácio Prezado estudante. Este é o material que complementa as videoaulas e demais recursos da disciplina de Estatística e Planilhas. Serão contemplados conceitos fundamentais da estatística pertinentes ao desenvolvimento da habilidade organização de dados, bem como do domínio em interpretar gráficos e tabelas. A fundamentação desses conceitos é necessária para a sua formação profissional, para que você domine os conceitos estatísticos básicos e saiba aplicá-los na elaboração de planilhas para análise de dados. É extremamente importante que acesse e realize as atividades disponíveis no ambiente virtual, aproveitando todos os recursos disponíveis, pois eles contribuirão para o seu domínio dos conteúdos abordados neste curso. Desejo uma agradável caminhada nesta busca por conhecimento e aperfeiçoamento! Abraços! 8 Aula 1 – Conceitos básicos Apresentação da aula 1 Olá! Seja bem-vindo (a) à primeira aula da disciplina Estatísticas e Planilhas. Nesta aula serão abordados os conceitos introdutórios necessários para compreensão de todas as aulas seguintes, como tipos de análise estatística, tipos de variáveis e amostragem. Em diversas atividades profissionais se faz necessário analisar dados para compreender alguma ocorrência ou algum comportamento, seja econômico, social, biológico ou de manufatura (ligado à qualidade dos produtos provenientes da indústria). Contudo, uma análise eficiente depende da coleta e da interpretação dessas informações, por meio de uma observação estatística e a devida apresentação desses resultados, visto que todas essas fases dependem do uso de planilhas. 1.1 Estatística descritiva, inferencial e probabilística Com o desenvolvimento das civilizações, os governos tinham necessidade de coletar informações sobre os cidadãos, como, por exemplo, compreender a disseminação de uma doença, ou as relações financeiras, entre outras questões. A estatística moderna se desenvolveu a partir dessa necessidade governamental correlacionada ao desenvolvimento das teorias da probabilidade e dos avanços no campo da informática. Importante A estatística é uma ciência exata que estuda a coleta, a organização, a análise e o registro de dados por amostras. Utilizada desde a Antiguidade, quando se registravam os nascimentos e as mortes das pessoas, é um método de pesquisa fundamental para tomar decisões, isso porque fundamenta suas conclusões nos estudos realizados. Nas civilizações egípcias (3.200 a. C. até 32 a. C.), gregas (800 a. C. até aproximadamente 300 a. C.) e romanas (800 a. C. até 400 d. C.), a coleta de 9 dados tinha como objetos centrais o recenseamento militar e a cobrança de impostos. Na idade média (entre o século V e o século XV), as instituições religiosas começaram a registrar nascimentos, casamentos e mortes. No Brasil, desde a Constituição de 1790, é obrigado realizar o censo da população (as informações questionadas em cada censo tiveram mudanças ao longo dos anos). Desde 1936, este trabalho é realizado e divulgado por meio do trabalho do IBGE – Instituto Brasileiro de Geografia e Estatística (na época, tinha outro nome). Vocabulário Recenseamento: relação das pessoas que têm as condições previstas pela lei para possuir certas funções. No caso de recenseamento militar, era listar quais indivíduos tinham condições para participar das tropas. E a partir desses dados, o que foi feito? Com sua coleta, nos séculos passados, isso resultou na caracterização de informações em determinados grupos, o que deu a origem ao que denominamos como estatística descritiva. A estatística descritiva é a reunião de métodos que associam a coleta, a apresentação e a análise de dados com a finalidade de descrever várias características do grupo que está sendo analisado. Curiosidade Você sabia que a Igreja Católica possui um grande acervo de registros históricos? Algumas das catedrais no Brasil possuem bibliotecas com registros históricos, como a Catedral de Curitiba. Dentre os métodos da estatística descritiva, destaco a disposição ordenada dos dados numéricos, sua tabulação, a distribuição da frequência, frequência relativa e a distribuição de percentagem. Informações estas cuja aplicação foi facilitada com programas, softwares e aplicativos de elaboração de planilhas. 10 Durante a idade média, já existiam jogos de azar, e muitos defendem que a necessidade e a curiosidade em compreender quais as chances de ocorrer um dado resultado em jogo fez surgir o campo de estudo da probabilidade. Pierre de Fermat (1601-1655) e Blaise Pascal (1623-1662) desenvolveram teorias que iniciaram oficialmente a probabilidade, contudo, esses resultados foram obtidos a partir do trabalho da Girolamo Cardano (1501-1576). O estudo da probabilidade, ou seja, da possibilidade de ocorrência de um determinado fato, deu origem à estatística inferencial e probabilística. Na estatística inferencial são usados os dados obtidos em uma estatística descritiva para compreender uma população, isto é, a partir de uma parte é possível determinar um determinado comportamento para toda a comunidade. Aqui, população se refere a todos os elementos de um determinado grupo, conjunto em que não é possível analisar todos os pontos e por isso coletam-se dados de uma pequena amostra, por meio da estatística descritiva, extrapolando os resultados pela estatística inferencial e probabilística para compreender as ocorrências do objeto de análise. Importante Na estatística inferencial e probabilística são usados os dados obtidos em uma estatística descritiva para compreender uma população. Inferência estatística é a reunião de métodos que possibilitam a estimativa de uma ocorrência, uma característica em uma população, baseando-se na análise de resultados obtidos em uma amostra desse grupo (conjunto de elementos). Por exemplo, para analisar a qualidade dos produtos produzidos em uma indústria de autopeças, são escolhidos aleatoriamente alguns itens para teste. Nessas amostras serão testadas algumas características relacionadas à resistência, durabilidade (vida útil) e eficiência. Os resultados obtidos irão descrever as características de cada lote, o que direciona as ações da empresa para melhorar a qualidade ou a eficiência na produção. Agora, esmiuçando algumas das definições de termos relacionados à inferência estatística, como universo, amostra, parâmetro e estatística: 11 ➢ O universo na estatística inferencial: corresponde a toda população que está sendo estudada, ou seja, todos os elementos de um dado conjunto; ➢ A amostra: é a parte dos elementos do conjunto universo que foram coletados para análise; ➢ O parâmetro: é a informação ou característica que está sendo analisada na amostra para compreender sua ocorrência na população, no conjunto universo dos elementos estudados; ➢ A estatística: é o cálculo para descrever a característica da amostra da população (do conjunto universo). Por exemplo, o (a) diretor (a) do Campus decide realizar uma pesquisa de satisfação sobre as instalações do local com os alunos e deixa uma caixa de sugestões na entrada do prédio principal. Porém, somente alguns estudantes respondem e deixam suas sugestões de melhorias. Neste caso, o conjunto universo ou a população são todos os alunos matriculados, e a amostra corresponde aos alunos que responderam à pesquisa de satisfação. Os parâmetros correspondem às sugestões que foram recebidas dos alunos que responderam(os dados coletados da amostra). A estatística seria aplicada ao analisar a frequência das respostas que tiveram maior ocorrência. Dessa forma, essa pesquisa seria a base para direcionar as ações de melhoria do Campus. Esse é um exemplo de como a inferência estatística pode auxiliar na tomada de decisões, direcionando ações para atender áreas com maior ocorrência. Isso também é utilizado no sistema público de saúde, para direcionar tempo e recursos na fabricação de vacinas. 1.2 Variáveis quantitativas e qualitativas Você já pensou em variáveis quantitativas e qualitativas? Bem, de sua vida estudantil você deve lembrar do estudo de variáveis em matemática. Aqui também tratamos valores que possuem um valor que pode variar como variáveis. 12 Um exemplo é quando um funcionário do censo chega à sua casa e inicia o questionário sobre você e sobre o local. Haverá questões como número de banheiros, número de geladeiras, número de pessoas que moram na residência, e também, especificamente, questões sobre os moradores da casa, perguntas como grau de escolaridade, idade, renda média, raça (declarada), profissão e religião (dentre outras perguntas). Agora imagine que você irá refazer essas perguntas sobre você e seus familiares e precisa criar um formulário. O espaço para deixar em branco, para depois responder a idade de cada um, será o mesmo espaço necessário para escrever a profissão? Qual a diferença entre as respostas possíveis dessas duas questões? Enquanto que para a idade a resposta é um valor, as possíveis respostas para profissão não serão valores numéricos, e sim palavras que correspondem às qualidades profissionais de cada indivíduo, ou seja, um refere- se a valores quantitativos e o outro a valores qualitativos. As variáveis quantitativas de um conjunto de elementos que está sendo analisado dizem respeito aos valores numéricos, como, por exemplo, idade, altura, peso, média salarial e expectativa de vida. As variáveis quantitativas podem ser discretas e contínuas, assumindo valores com casas decimais, como no cálculo de peso. Nas variáveis discretas só ocorrem valores inteiros, como no caso do da informação sobre números de pessoas que residem na mesma casa. Não há como ter uma resposta decimal, pois não há como fracionar uma pessoa (como na questão de número de filhos, não há como ter uma resposta com vírgula no valor). As variáveis qualitativas de um conjunto de elementos que está sendo analisado correspondem aos valores qualitativos, como características das partes do conjunto (qualidades) que são divididas em nominais e ordinais. As variáveis nominais condizem a valores em que não há uma ordenação, como sexo, cor dos olhos, raça, religião e profissão. Já nas variáveis ordinais existe uma ordenação das categorias, como na escolaridade, que pode ser 1º, 2º ou 3º grau (correspondente ao Ensino Fundamental, Ensino Médio e graduação) ou o estágio de uma doença que pode ser inicial, intermediário ou terminal. 13 Curiosidade O peso é uma variável quantitativa, mas quando se trata do peso de lutadores de boxe é analisado como variável qualitativa ordinal, pois classifica-se nas categorias peso-pena, peso-leve, peso-pesado, etc. 1.3 Amostragem A amostragem refere-se à escolha dos valores obtidos de uma determinada situação em que os dados serão analisados. Pode ser um conjunto de informações adquiridas no censo, como idade de um grupo de pessoas que estão em um mesmo ambiente ou ainda o preço de um produto em diferentes estabelecimentos. Ela é a definição da amostra que será analisada, porém, quando o número de elementos do conjunto que será estudado for muito grande, haverá técnicas para escolhe-los, a fim de realizar a análise dos dados, como na indústria, em que não é possível testar a qualidade de todos os produtos, por isso é feita uma verificação por amostragem. Nesse processo são escolhidos alguns itens de forma aleatória, para realizar os testes de qualidade, e os resultados desses ensaios são analisados estatisticamente. A questão é como definir essa amostra para que represente a realidade? Poderá haver erro na análise de dados coletados com a realidade de todo o conjunto? Esse tema será aprofundado posteriormente nesta disciplina, incluindo exemplos de atividade para serem realizados em planilhas. 1.4 Planilhas Em qualquer coleta de dados, seja profissional, acadêmica ou pessoal, a forma como as informações serão repassadas para outras pessoas é fundamental. É necessário clareza na apresentação e análise dos resultados obtidos. O uso de softwares para elaboração de planilhas facilita a apresentação dos dados coletados. Além da facilidade em criar gráficos e apresentar informações, a outra situação em que se destaca o uso dessas ferramentas para criação de planilhas é o uso de suas funções. 14 Claro que tamanho de letra, tipo de fonte, cores, centralização dos valores nas células são fatores que contribuem para uma fácil localização das informações, mas a forma de organizar os dados faz muita diferença. Os itens coletados e organizados em planilhas facilitam a elaboração de gráficos, que podem ser criados de várias formas, e a habilidade de leitura e interpretação de cada um é cobrada em concursos e vestibulares. A seguir dois exemplos de planilhas com as mesmas informações. Olhe e analise quais são as diferenças entre as duas. Exemplo de planilha mal formatada Fonte: acervo do autor (2019). Na segunda planilha, os gastos foram separados dos ganhos. Também foram utilizadas cores para destacar, mas não só cores das letras, como também cores de fundo para as células. Entre a célula Gastos e a célula do total não foi inserida borda, para mostrar a continuidade da informação, além de dar ênfase ao limite dos valores correspondentes. Além disso, o título foi destacado com um tamanho maior de fonte, com outra cor, centralizado nas células que foram mescladas. Nas células com valores, foi adicionado o símbolo da moeda por meio de função específica do software (não se deve inserir manualmente esse símbolo, pois isso pode atrapalhar o uso das células em cálculos). Na segunda planilha também foi inserido o cálculo do total de gastos e o total de ganhos, o que possibilita mais facilmente a análise entre eles (por meio da função somatório dos valores das células acima). Além disso, poderia incluir 15 o cálculo de qual é o valor da porcentagem de cada gasto em relação aos ganhos. Por exemplo, o aluguel, que corresponde a 38,8 % dos ganhos. No capítulo sobre planilhas, você irá aprofundar o conhecimento sobre elaboração e recursos disponíveis. O governo brasileiro disponibiliza vários dados em forma de planilhas e gráficos sobre elementos coletados. Um dos órgãos públicos que mais se destacam é o IBGE, que disponibiliza várias informações resultantes da coleta ao longo dos anos. O ministério da educação concede dados referentes às avaliações das instituições escolares, como escolas, colégios, cursos de graduação e pós-graduação. Mídias Você já pensou sobre qual o papel do IBGE para o Brasil? Seja nas ações de políticas públicas, agronegócio, saúde e no desenvolvimento industrial? A seguir, assista ao vídeo comemorativo dos 80 anos do IBGE, que foi publicado em 2017, disponível no link: https://www.youtube.com/watch?v=6Q5DWTY34Bg Conclusão da aula 1 Chegamos ao final da aula. Aqui, você viu tipos de estatísticas, a diferença entre variável quantitativa e qualitativa e suas subdivisões, viu também uma introdução sobre amostragem e sobre planilhas (isso porque esses dois últimos assuntos serão aprofundados em aulas futuras desta disciplina). Atividade de Aprendizagem Com base nesta aula, faça uma descrição pessoal, separando suas informações por valores quantitativos e qualitativos. A partir das suas respostas, elabore um formulário. 16 Aula 2 – As planilhas Apresentaçãoda aula 2 Nesta aula serão abordados os recursos disponíveis nas plataformas digitais para elaboração de planilhas e análise de dados. O avanço das tecnologias dos computadores pessoais e dos smartphones possibilitaram e facilitaram o acesso a essas ferramentas, porém, a falta de domínio dos conceitos estatísticos facilita a má-interpretação dos dados ou uso incorreto desses recursos. Existem programas específicos para o trabalho estatístico, com recursos que abordam assuntos mais aprofundados (como o R, o MiniTab e o SPlus), contudo, o foco desta disciplina é o estudo da estatística básica associada ao uso de planilhas para fornecer conhecimento voltado a diversas práticas profissionais. Há diversos softwares e aplicativos disponíveis para criação e edição de planilhas. Nesta aula serão citados alguns, mas como a maioria dos programas possui recursos similares ao Excel, descreverei o uso das ferramentas disponíveis no Excel 2016 (do pacote Microsoft Office Professional 2016). Todos os exemplos e atividades poderão ser adaptados para as versões anteriores do Excel. Esta versão 2016 tem funções autoexplicativas na tela inicial, com diversas planilhas de exemplo e mais recursos com relação à formatação, mas os recursos mais utilizados são os mesmos das versões anteriores, porém com uma disposição diferente no layout do programa. Vocabulário Layout: esboço do trabalho final a ser apresentado para a aprovação do cliente; anúncio apresentado antes de ser reproduzido que contém a organização dos aspectos mais importantes, como: títulos, ilustrações, fontes, diagramação. É uma palavra inglesa, muitas vezes usada na forma portuguesa "leiaute", que significa plano, arranjo, esquema ou design. 17 2.1 Ferramentas tecnológicas para criação de planilhas Atualmente temos programas pagos, como o Excel (comercializado pela Microsoft), que é muito utilizado em empresas, instituições de ensino, instituições públicas e no uso pessoal, mas além dele existem outras ferramentas, como as planilhas Google, Numbers, Zoho Sheet, BIRT, FreeOffice, Quip e Apache OpenOffice. Alguns desses possuem versões de aplicativo para celular. Reflita Você sabe quais são os aplicativos disponíveis para o seu celular? Aproveite este momento para pesquisar quais são os softwares disponíveis para criação e edição de planilhas compatíveis com seu aparelho. O planilhas Google é uma ferramenta disponibilizada pelo Google Drive, disponível gratuitamente para todos os usuários do gmail. Ela apresenta vários comandos semelhantes ao Excel e tem a opção fazer Download, como: arquivo PDF (.pdf), arquivo Excel (.xlsx), formato OpenDocument (.ods), página da Web (.html), valores separados por vírgula (.csv) ou valores separados por tabulação (.tsv). Uma das grandes vantagens das planilhas Google (bem como outros recursos do Drive) é que qualquer alteração no documento é automaticamente salva na nuvem, basta estar conectado à Internet (por isso, não existe ícone salvar documento). Curiosidade O Google Drive foi um dos primeiros a disponibilizar o serviço gratuito de armazenamento em Nuvem (iniciou as atividades em 2012), mas, diferente dos outros, ele fornecia ferramentas para criação dos arquivos dentro da nuvem em vez de só armazenar itens criados em outros dispositivos (como computadores pessoais, smartphones e câmeras digitais), isso facilita salvar a planilha on-line e pode-se acessar o arquivo de qualquer dispositivo com acesso à Internet. Isso possibilita acessar o arquivo desejado usando qualquer dispositivo e o compartilhar com outras pessoas, possibilitando alterações colaborativas em 18 tempo real de diversos usuários em um mesmo arquivo. Esse recurso foi uma inovação para a época, hoje em dia existem outras plataformas que oferecem esse tipo de ação. O Numbers é uma versão gratuita disponibilizada pela Apple para os usuários de Mac (Mac ou Macintosh é o nome dos computadores pessoais fabricados pela Apple). Também permite salvar o arquivo em formato compatível com o Excel. O Zoho Sheet é direcionado para empresas, com foco em trabalhos colaborativos. Também salva na nuvem e é gratuito, desde que o número de colaboradores não ultrapasse 25 pessoas. Ele também possui uma versão em aplicativo para celulares. O BIRT é também uma ferramenta gratuita para elaboração de tabelas dinâmicas e planilhas, como no Excel. É compatível para Windows, Linux e Mac, mas até o momento só está disponível em inglês. O FreeOffice é compatível com sistema operacional Windows e Linux, também apresenta várias funções semelhantes ao Excel. É gratuito, mas existe uma opção paga que disponibiliza mais recursos. O Quip disponibiliza ferramentas para trabalho colaborativo não só na elaboração de planilhas, mas também para organização de reuniões, documentos e e-mails (semelhante ao Google Drive, porém com muitas funções adicionais). Grandes empresas como a Dell utilizam o Quip, entretanto é uma ferramenta paga que disponibiliza as funções para teste gratuito por um curto período de tempo. Por último, o Apache OpenOffice, que é um pacote de programas de acesso aberto e gratuito para criação de textos, planilhas e apresentações. Este possui código aberto, ou seja, é possível alterar as configurações e funcionalidades do programa, a fim de atender necessidades de uma empresa, por exemplo. Além disso, está disponível em diversas línguas. 2.2 Incluindo fórmulas na planilha Em todos os programas há algum botão ou recurso no qual você poderá consultar como usar funções pesquisando pelo nome da operação, mas, no geral, seguem o mesmo padrão de escrita. Ao clicar na célula da planilha 19 (espaço retangular do quadriculado do programa), pode-se digitar a função ou clicar em inserir função, na barra de ferramentas. Vamos iniciar com os sinais de operação mais básicos, como soma (no teclado, use o mesmo símbolo usual +), subtração (que também tem o sinal matemático usual no teclado -), multiplicação (para multiplicar, use o símbolo do teclado asterisco *), divisão (use o símbolo do teclado /) e, para potência, use o símbolo do teclado referente ao acento circunflexo (^). Quando deseja que uma célula vazia calcule algo, o primeiro passo é clicar na célula e digitar o símbolo de igual (=), assim o programa já saberá que você irá inserir uma função (alguns programas abrem janelas com sugestões e explicações de funções). Quando deseja que em uma célula seja calculada a soma de outras duas, basta clicar na célula, digitar igual (=), em seguida clicar em uma das células que deseja somar (para selecionar, em muitos programas o contorno da célula selecionada muda de cor), digitar o símbolo de soma do teclado (+), clicar na outra célula que deseja somar e digitar o Enter. Por exemplo: Exemplo de soma no Excel Fonte: acervo do autor (2019). Você pode usar parênteses para separar cada operação e assim escrever funções com mais de uma operação, por exemplo, a função 3×4+5 3 10 , que pode ser obtida digitando na célula da planilha = (3 × 4 + (5^3))/10. Quando há uma sequência de números em uma coluna (por exemplo, as 152 primeiras células da coluna A: A1, A2, ..., A152) e deseja o somatório de todos esses dados, basta digitar =SOMA(A1:A152) e clicar no Enter. Caso seja a soma de dois intervalos de valores, por exemplo, somar da A1 até A20 mais A50 até A152 basta digitar =SOMA(A1:A20;A50:A152) e clicar no Enter. Treinar 20 essas funções mais básicas é fundamental para desenvolver sua habilidade no uso de planilhas. Você pode inserir condições, por exemplo, em uma planilha, com as notas finais (média do semestre) dos alunos em uma disciplina semestral, é possível deixar uma coluna já com a função para calcular a nota e preencher os demais valores ao longo do semestre. Pode-se inserir a função condicional: SE Média>60, então aprovado, ou, se 60<Média, então farárecuperação. Abaixo, uma parte da planilha com as notas de uma turma que lecionei em 2014: Exemplo de planilha de notas com função condicional Fonte: acervo do autor (2019). Veja que omiti as notas do primeiro bimestre reduzindo a largura das colunas, os valores ainda estão lá, mas não visíveis, pois a planilha ficou muito extensa. Outra alternativa é usar a opção congelar painéis, para fixar colunas ou linhas, ação muito útil quando a planilha é muito extensa e precisa ter acesso rápido às células que deseja fixar, assim, o resto da planilha se desloca na tela, sem atrapalhar a leitura das células fixadas. Perceba também que deixei em amarelo a célula que estava selecionada, para que fosse visível a função que utilizei, descrita na lacuna correspondente à função 𝑓𝑥 na barra de ferramentas. Com uma sequência de dados em uma coluna, é possível ordenar em ordem alfabética ou em ordem numérica (crescente ou decrescente), basta selecionar a coluna de dados, ir à Página Inicial, selecionar Classificar e Filtrar e escolher a opção desejada. Há outras opções de classificação e inserção de filtros. 21 Outra função muito utilizada é a ferramenta de Data, caso seja uma planilha de um documento que apresente uma alta frequência de impressão e que contém o campo para data, em vez de digitar toda vez que for imprimir, basta colocar a função “=HOJE( )”, assim será atualizada a data conforme relógio do computador. E para que saia a hora basta digitar “=AGORA( )”. Quando aparecer #NOME?, em uma célula que você acabou de inserir uma função, significa que há algum erro e você precisa revisar. Pode ser a falta de um parêntese, de algum símbolo, ou uma função que depende de valores inexistentes ou inconsistentes com a função (como pedir para calcular a média de uma coluna que só tem variáveis qualitativas, ou seja, não numéricas). Inclusive, você pode, em Inserir, selecionar Função e escolher uma das opções de que necessitar. Durante os próximos conteúdos serão abordadas outras funções pertinentes ao assunto desta aula. Saiba mais Há meios de se fazer um treinamento, visto que a Microsoft disponibiliza recursos e sites para isso. Disponível no link: https://support.office.com/pt- br/article/treinamento-de-excel-para-windows-9bc05390-e94c-46af-a5b3- d7c22f6990bb 2.3 Formatação A formatação da planilha possibilita todos os recursos de visualização e apresentação dos dados, como mudar o tamanho da letra, alterar a fonte, mudar as cores de fundo, da borda e das letras. É possível baixar outros tipos de letra para usar nos programas do Office, como no Excel. A seguir, vou exemplificar com alguns tipos de letras que também baixei no passado e utilizo. O nome da fonte está escrito com a própria: Ar Hermann, Way Garden, Ar Destine, BLACKOUT, BLOMSTER, Cookie monster, electrical, Heartland, KG ABCs, ScrapltUp, Magneto, FLOWER, PatchFun, TenTgman Ann e Vanessa. 22 Todas essas letras acima estão com o mesmo tamanho de formatação, porém não apresentam o mesmo tamanho métrico. Há ainda algumas fontes que não possuem design para todos os símbolos. Por exemplo, a penúltima fonte se chama Tengwar Annatar, com inspiração élfica, e faz referência à escrita utilizada no filme O Senhor dos Anéis, porém sua simbologia é muito diferente da usual, o que dificulta sua utilização. Todos esses recursos estimulam nossa criatividade, porém, quando se trata dos ambientes profissional ou acadêmico, deve-se atentar aos padrões de formatação exigidos na apresentação de planilhas. Então, nesses casos sempre pesquise e questione antes se há algum template ou se seguem alguma norma. Geralmente, para inscrição em congressos, a instituição organizadora do evento disponibiliza o template do resumo, do artigo ou do pôster para publicação e participação na cerimônia. Isso inclui como deve ser a formatação das planilhas que serão utilizadas. Instituições acadêmicas deixam disponíveis em suas páginas institucionais as instruções sobre formatação de trabalhos acadêmicos, como monografias, trabalho de conclusão de curso, dissertação e tese. No geral, seguem as normas ABNT. As normas ABNT são definidas pela Associação Brasileira de Normas Técnicas, que inclui regras de formatação de trabalhos e de diversos temas técnicos. Vocabulário Template: é uma palavra em inglês que significa modelo a ser seguido, com uma estrutura predefinida que facilita o desenvolvimento e criação do conteúdo. 2.4 Tabela dinâmica A tabela dinâmica é um recurso que permite resumir e analisar as informações obtidas, pois admite comparar valores, identificar padrões e tendências, dando sentido aos dados, sem precisar digitar suas funções. Para criar uma tabela dinâmica, selecione os dados que desejar na planilha e clique em Inserir Tabela Dinâmica. Escolha os dados que você deseja analisar e selecione uma Tabela/Intervalo. 23 Para usar a função Tabela Dinâmica, cada coluna deve estar nomeada para poder ser selecionada. Além disso, é importante que você saiba que a palavra Campo se refere a uma coluna na janela de criação. Reflita Assista a seguir, no link disponível, a um vídeo da Microsoft sobre a tabela dinâmica: https://www.microsoft.com/pt-br/videoplayer/embed/RWg07q?pid=o cpVideo0-innerdiv-oneplayer&postJsllMsg=true&maskLevel=20&market=pt-br Exemplo de várias abas com planilhas dentro de um mesmo arquivo do Planilhas Google no meu Google Drive pessoal Fonte: acervo do autor (2019). Importante Ao elaborar planilhas, busque organizar as informações. Em vez de criar várias planilhas, crie abas dentro de um mesmo arquivo, cada aba irá conter uma planilha. Isso facilita a localização das informações e deixa seus arquivos mais organizados. Por exemplo, para cada período letivo, crio uma planilha de notas e as notas de cada turma ficam em uma aba diferente. Conclusão da aula 2 Há vários programas e aplicativos para celular que possibilitam a criação de planilhas e o registro de dados para facilitar uma análise mais aprofundada. Os recursos para estudo dos dados também se apresentam em grande quantidade. Inclusive, em algumas instituições, houve cursos de capacitação 24 específicos para o Excel (em alguns lugares, ainda são fornecidos), mas com o advento da facilidade de acesso à Internet e disponibilização de treinamento gratuito fornecido pela própria Microsoft, muitos desses cursos deixaram de existir. O Excel ainda é o mais utilizado, muitos dos outros programas foram desenvolvidos inspirados nele para desenvolver suas ferramentas. Os recursos para edição possibilitam organizar, destacar e facilitar a visualização dos dados. As funções permitem elaborar planilhas que possuam a capacidade de calcular informações, não só como uma calculadora, mas com muito mais recursos, como, por exemplo, a função condicional. Já a tabela dinâmica permite facilitar a análise dos dados na planilha. Atividades de Aprendizagem Teste os programas citados no início desta aula para criação de planilhas. Aproveite para pesquisar a função do Google para criação de formulários, analisando suas vantagens para coleta de dados. Escolha um dos programas citados e desenvolva uma planilha que descreva seus gastos mensais, utilizando as funções SOMA para reunir os rendimentos e as dívidas. Depois, subtraia as dívidas dos rendimentos. Lembre-se de organizar, centralizar e colorir as informações da planilha (teste o máximo de funções de formatação, para se familiarizar com o programa). Aula 3 – Tipos de dados Apresentação da aula 3 Nesta aula vamos iniciar a análise dos tipos de dados que podem surgir, para que possamos avaliar quais as melhores formas para lidar com cada tipo. Devido ao fato de se comportarem de forma diferente, se faz necessário analisa- los de forma distinta também. Aqui serão abordados dados brutos e Rol, variáveis quantitativas, qualitativas e a análise de frequênciadessas informações. 25 3.1 Dados Brutos e Rol Imagine que você cozinhou para seus amigos, testou uma receita nova de risoto e pediu para que eles a avaliassem sem se identificar. Após a refeição, você pegou os papéis com as notas e percebeu que todos os seus 10 amigos que jantaram contigo deram alguma nota, pois havia 10 papéis. Em seguida, você pega um por um dos papéis e começa a anotar, obtendo a seguinte ordem: 7, 6, 8, 10, 7, 7, 9, 8, 9 e 10. Esses são os dados brutos, dessa forma não dá para tirar muita informação sobre os resultados, além de que não houve nota abaixo de 6 (o que já indica que não houve rejeição), pois a menor nota foi 6 e a maior foi 10. Porém, qual foi a nota que você mais recebeu? Qual é a nota média? Os dados originais coletados aleatoriamente são os dados brutos, como no censo. Importante Os dados brutos são os dados coletados inicialmente, transcritos aleatoriamente. Agora que você já reorganizou as notas de forma crescente, ficou com a seguinte combinação: 6, 7, 7, 7, 8, 8, 9, 9, 10 e 10. Agora, assim é mais fácil perceber que você recebeu mais a nota 7. Mas essa é a média das notas? Para calcular a média, é necessário somar todas as notas e dividir por 10 (número total de notas): 6+7+7+7+8+8+9+9+10+10 10 = 81 10 = 8,1. Viu como após organizar as notas recebidas ficou mais fácil analisar? E ainda nem colocamos em uma planilha. Reflita Imagine uma grande coleta de dados, como as notas de provas de avaliações de cursos de graduação coletadas pelo MEC ou os dados coletados no censo. Essa reorganização das informações obtidas inicialmente em uma pesquisa, ou qualquer outro tipo de coleta de dados, é denominada Rol. 26 Importante Dados Rol é a relação dos resultados coletados e que foram colocados em ordem numérica, podendo ser de maneira crescente ou decrescente. Analisar qual nota apareceu mais vezes trata da frequência que ela ocorre, ou seja, a nota 7 teve a maior frequência. Em seguida, vamos aprofundar mais o estudo sobre esse assunto. 3.2 Frequências Em estatística, a frequência é o número de vezes que o evento ocorreu em experimento ou estudo, normalmente representada graficamente em histogramas. No estudo de frequência de dados, em uma análise estatística, temos a frequência absoluta, relativa e acumulada. A frequência que vimos anteriormente, que avalia a frequência que um mesmo valor aparece na coleta de dados, é a frequência absoluta. Vamos utilizar os valores descritos no exemplo do item anterior, sobre as notas recebidas na avaliação do jantar que você preparou. Importante A frequência absoluta (representada pela letra f) é o número de vezes que um mesmo resultado ocorre em uma coleta de dados. Também conhecida como frequência simples. Frequência absoluta Fonte: acervo do autor (2019). 27 Agora, se analisarmos as frequências de cada um dos valores que ocorreram na coleta de dados, podemos obter a frequência acumulada, que é o somatório das frequências dos valores. Ainda usando o exemplo das notas para o jantar, temos que: Frequência acumulada Fonte: acervo do autor (2019). Agora imagine uma tabela que descreve a idade dos alunos do primeiro semestre de graduação, matriculados neste ano, no mesmo curso que você: Frequência acumulada das idades Fonte: acervo do autor (2019). 28 Olhando essa tabela acima, o que é possível concluir? Qual é a idade que apresenta maior frequência? A que mais aparece? E qual a quantidade de alunos matriculados? Veja, no exemplo das notas dos amigos para o jantar, que já se sabia inicialmente a quantia de dados, pois eram 10 amigos que votaram. Mas agora é apresentado o gráfico sem mencionar o número total, o que exige que se interprete a tabela para descobrir o número total de estudantes matriculados, que neste caso são 50, pois é o somatório das frequências acumuladas de cada idade. Em estatística, a frequência é o número de vezes que o evento ocorreu em um experimento ou estudo. Essas frequências são normalmente representadas graficamente em histogramas. Agora aproveite para refazer essa tabela das idades, veja que você deve inserir a função soma da frequência acumulada da linha anterior com a frequência absoluta da mesma linha a partir da segunda linha da tabela. Atualmente, se os valores da frequência absoluta forem representados na forma de porcentagem do total de alunos, temos o que se denomina frequência relativa: Frequência relativa Fonte: acervo do autor (2019). Veja que no campo D2 da tabela (destacado de amarelo) foi inserida a fórmula que define a porcentagem (em função da respectiva frequência absoluta “B2” e do total de alunos “C9”). Nesse caso, inseri a fórmula para calcular porcentagem, assim como é feito à mão, em que o total, que são 50 alunos, 29 corresponde a 100% e desejo descobrir a porcentagem correspondente para cada número de estudantes descritos na planilha. Número de Alunos % 50 100 5 ? Procedimento para cálculo de porcentagem Fonte: elaborado pelo autor (2019), adaptado pelo DI (2019). Para obter a porcentagem de 5 alunos, em um grupo total de 50, basta multiplicar na diagonal, ou seja, a porcentagem é = 5×100 50 = 10%. Ou simplesmente selecionar a parte (5 alunos campo “B2”) dividida pelo todo (50 alunos campo “C9”) e apertar o botão “%” (estilo porcentagem na barra de ferramentas). Como a seguir: Frequência relativa Fonte: acervo do autor (2019. 3.3 Variáveis Quando se inicia uma pesquisa estatística, as respostas obtidas vão descrever diversas características. Essas características são chamadas de variáveis aleatórias, que podem se dividir em variáveis aleatórias categorizadas e variáveis aleatórias numéricas. As variáveis aleatórias 30 categorizadas são valores qualitativos, enquanto que as variáveis aleatórias numéricas correspondem a valores quantitativos. As variáveis aleatórias numéricas podem ser dados discretos (por exemplo, quantos livros você lê por ano?) ou dados contínuos (qual é a sua altura?). Qual a diferença nos dados das seguintes perguntas? Quantos livros você lê por ano? Qual é a sua idade? Os dados discretos são respostas numéricas obtidas a partir de um processo de contagem, enquanto que os dados contínuos são obtidos por um processo de medição. Lembrando que, quando trabalhamos com o nível de mensuração de uma variável, podemos ter a seguinte classificação por nível de mensuração: Classificação das variáveis Fonte: acervo do autor (2019). As variáveis quantitativas discretas são aquelas provenientes de uma contagem, como número de filhos, número de cirurgias ou número de livros emprestados na biblioteca. As variáveis quantitativas contínuas são aquelas que podem assumir qualquer valor numérico, como peso, altura, preço ou valor do desconto. Um exemplo de variável qualitativa nominal é o tipo sanguíneo de uma pessoa, que pode ser O, A ou AB. Mas não tem como dizer quem tem mais sangue entre essas 3 categorias. Uma variável qualitativa ordinal pode ser Variáveis Quantitativas: resultam em números Discretas: podem assumir alguns valores Contínuas: podem assumir infinitos valores Qualitativas: correspondem a atributos e qualidades Nominais: apenas identifica as categorias Ordinais: é possível ordenar as categorias 31 ordenada de uma categoria menor para uma categoria maior, como, por exemplo, situação socioeconômica, como classe média, classe alta ou classe baixa. Grau de escolaridade também é um exemplo. Profissionalmente ou academicamente, a quantia de dados é muito expressiva, com muito mais variáveis do que os exemplos que foram mostrados até agora. Por isso, indica-se que, antes de iniciar a análise dos dados, realize uma pré-análise, que consiste em dois passos: ➢ Verificar se os dados são confiáveis e se não houve problema na coleta deles; ➢ Verificar se os dados brutos estão “limpos”, semerro de digitação ou qualquer outro empecilho. Para evitar problemas nas coletas de informações, se faz necessária a realização de um planejamento para obter dados, por exemplo: se serão resultantes de um questionário, verificar se há perguntas com duplo sentido. Outro exemplo, se são dados coletados de um sensor, verificar se ele não está com problema. Mídias A seguir um vídeo do IBGE que exemplifica a importância para compreender comportamentos socioeconômicos a partir da coleta de dados, disponível no link: https://www.youtube.com/watch?v=m4Pl5bJQZP4 Conclusão da aula 3 A compreensão sobre os tipos de dados que podem surgir é fundamental para poder aplicar as ferramentas de análise. Também é importante perceber que não é possível calcular a porcentagem de uma variável qualitativa, e sim que só é possível calcular a porcentagem da frequência absoluta (simples) dessa variável qualitativa. Além disso percebemos as diferenças entre frequência absoluta (também conhecida como frequência simples), frequência acumulada e frequência relativa. Isso tudo foi desenvolvido ao longo da aula após iniciar 32 com a reflexão sobre os dados brutos e os dados Rol, que são os dados brutos organizados. Atividade de Aprendizagem Escolha uma fruta ou uma verdura de que você goste muito e faça uma pesquisa sobre a produção desse alimento, como melhor período de plantio, melhor intervalo de temperatura para cultivo, medidas-padrão como tempo médio de cultivo para colheita, peso e dimensões do fruto maduro. Verifique também o preço comercializado pelo produtor e pelos mercados de sua região. Em seguida crie uma planilha com essas informações e destaque por cores as linhas conforme o tipo de variável (faça uma legenda). Aula 4 – Gráficos Apresentação da aula 4 Nesta aula serão descritos os tipos de gráficos disponíveis no Excel, com a indicação de uso para cada um. Vamos iniciar com o passo a passo para aprender como construí-los para depois descrever cada tipo. Os gráficos são figuras que facilitam a visualização e interpretação dos dados da planilha. Você poderá criá-los a partir dos dados brutos, dos dados Rol ou a partir dos valores estatísticos obtidos na análise de informações (como frequência absoluta ou frequência relativa). 4.1 Criação de gráficos Para iniciar a criação do gráfico, no arquivo da planilha selecione os dados que serão representados (incluindo a linha dos títulos das colunas), em seguida, selecione, na barra de ferramentas, inserir e clique em Gráficos. Na versão do Office 2016, você poderá selecionar Gráficos recomendados ou um dos tipos de gráfico. Vamos usar o exemplo da aula anterior sobre idade dos alunos em uma turma de 50 alunos: 33 Tabela das idades dos alunos em uma turma de 50 alunos Fonte: acervo do autor (2019). Ao selecionar Gráficos recomendados, surge uma janela com várias opções de escolha (Lembrando que esta janela aparece para a versão 2016 do Excel. Nas versões anteriores, a visualização aparece ao escolher um dos tipos de gráfico): Gráficos Recomendados Fonte: acervo do autor (2019). 34 Mídias Vídeo de treinamento para criação de gráficos disponível pela Microsoft no link: https://www.microsoft.com/pt-br/videoplayer/embed/RWg1L8?pid=ocpVideo0- innerdiv-oneplayer&postJsllMsg=true&maskLevel=20&market=pt-br Veja que não aparece o nome do gráfico porque não estava escrito na planilha. Observe que na figura acima há, na parte superior, uma aba com Todos os gráficos, que, ao clicar, aparece a seguinte opção: Gráficos Recomendados Fonte: acervo do autor (2019). É possível observar que há várias possibilidades de combinações para montar o gráfico e que serão descritas a seguir. 4.2 Tipos de gráficos Há vários tipos de gráficos disponíveis no Excel, e muitas das opções estão representadas em outros programas de criação de planilhas, de forma bem similar. É possível alterar as cores, utilizando, ainda, a planilha com os dados da idade, frequência absoluta e frequência relativa. O gráfico de colunas apresenta 35 as categorias ao longo do eixo horizontal e os valores no eixo vertical, como a seguir: Gráfico das idades na forma de coluna Fonte: acervo do autor (2019). Gráficos de linhas são recomendados quando há várias séries de dados para comparar. Gráfico das idades na forma de linhas Fonte: acervo do autor (2019). O gráfico de pizza apresenta os dados somados, com divisões proporcionais à quantia individual. É recomendado quando há somente uma série de informações, sem valores negativos e sem a presença de valor nulo (algum valor igual a zero). 36 Gráfico das idades na forma de pizza Fonte: acervo do autor (2019). O gráfico de rosca é similar ao gráfico de pizza, mas admite mais de uma série de dados. Quando há muitas séries, a visualização rápida das informações fica prejudicada. Gráfico das idades em forma de rosca Fonte: acervo do autor (2019). 37 O gráfico de barras ilustra comparações entre categorias individualmente, apresentando-as ao longo do eixo vertical e os valores no eixo horizontal. Recomenda-se o uso quando os rótulos (títulos) forem longos. Gráfico das idades na forma de barras Fonte: acervo do autor (2019). Os gráficos de áreas são recomendados para visualizar mudanças ao longo do tempo, destacando os valores totais. Gráfico das idades em forma de áreas Fonte: acervo do autor (2019). No gráfico de dispersão, relacionam-se valores na horizontal (eixo X) com os valores na vertical (eixo Y). Geralmente são utilizados para comparar valores numéricos como dados científicos. Recomenda-se o uso quando os valores no eixo horizontal não estiverem uniformemente espaçados, quando um dos eixos 38 está em uma escala logarítmica, ou quando desejar mostrar similaridades entre grandes conjuntos de informações. Gráfico das idades em forma de dispersão Fonte: acervo do autor (2019). O gráfico de bolhas é similar ao gráfico de dispersão, com a adição do tamanho das bolhas, uma terceira informação no gráfico. Gráfico das idades em forma de bolhas Fonte: acervo do autor (2019). O gráfico de ações é recomendado para exemplificar a flutuação de valores, como as variações de ações na bolsa de valores. Para essa tabela de dados de idade, não há flutuação, por isso, deixei não só a imagem, mas também os modelos de gráficos de ações que aparecem na parte superior da janela de criação. 39 Gráfico das idades em forma de ações Fonte: acervo do autor (2019). O gráfico de superfície é útil quando se deseja utilizar combinações ideais entre dois conjuntos de dados, como em um mapa topográfico. É recomendado quando as categorias e as séries de informções são valores numéricos. Gráfico das idades em forma de superfícies Fonte: acervo do autor (2019). Os gráficos de radar comparam valores de várias séries de dados. 40 Gráfico das idades em forma de radar Fonte: acervo do autor (2019). Os gráficos de combinação estão disponíveis desde as versões do office de 2013. Esse tipo de gráfico combina dois ou mais tipos de gráficos, para facilitar a análise dos dados. Veja que todas as informações da tabela estão bem representadas. Gráfico das idades em forma de radar Fonte: acervo do autor (2019). Mídias Vídeo de treinamento disponível pela Microsoft com as novas funções do Excel 2013, disponível no link: https://www.microsoft.com/pt-pt/videoplayer/embed/ RWfC5X?pid=ocpVideo0-innerdiv-oneplayer&postJsllMsg=true&maskLevel=20 &market=pt-pt 41 A partir da versão do Excel, de 2016, existem mais algumas funcionalidades na criação de gráficos, como: gráfico de mapa de fluxograma, gráfico de explosão solar, gráficos de histograma, gráficos de caixa estreita, gráficos de cascata e os gráficos de funil. Reflita Qual das opções de gráficos descritas acima melhor representou os dados da tabela sobre idade dos alunos em uma turma com 50 alunos?E qual pior os retratou? E por quê? Conclusão da aula 4 Os gráficos são representações das informações da tabela de dados, facilitando sua visualização, pois não precisará ficar procurando os valores na planilha. É como uma imagem resumo, em que é possível comparar as variáveis mais rapidamente. Conhecer os tipos de gráfico irá facilitar o uso na sua vida pessoal e na sua futura prática profissional. Atividade de Aprendizagem A partir da planilha de gastos mensais que você desenvolveu anteriormente, crie 5 tipos de gráficos para representar a proporção dessas pessoas. A escolha do tipo de gráfico fica à sua escolha. Aula 5 – Medidas de tendência central Apresentação da aula 5 Prezado (a) aluno. Nesta aula serão abordadas as medidas de tendência central dos dados, como média, mediana e moda. Talvez você já tenha visto essas medidas durante o período escolar na educação básica, em casa ou em 42 um ambiente profissional, visto que se aplicam em diversas situações do cotidiano e retratam informações pertinentes na análise dos dados. Nas figuras, em vez de utilizar o gráfico na forma de visualização para a impressão, utiliza-se a foto da tela do computador, sempre destacando a célula com a fórmula que está sendo estudada no momento. 5.1 Média Nas compras da semana de alimentos, é mais barato comprar frango ou alcatra? Pela sua vivência, sem fazer uma pesquisa sobre valores, você lembra que normalmente o frango é mais barato ou pode até ter pensado que na média o frango geralmente sai mais barato. A média é a medida de tendência central mais utilizada e conhecida, afinal, desde pequenos, somos avaliados na escola, e a média final de cada período escolar geralmente é de todas as notas. Ela é igual a soma dos valores divididos pelo número de dados, também chamada de média aritmética. Por exemplo: os preços do kg da alcatra coletados pelo aplicativo Nota Paraná, no dia 17 de março de 2019. Aqui, os nomes dos mercados foram representados pela inicial: Tabela preço do kg da alcatra bovina com a média Fonte: acervo do autor (2019). Os valores foram inseridos com vírgula (conforme a notação de Real) e depois foi selecionado o botão Formato dinheiro . Veja que as células da coluna C (do C2 até C6 foram agrupadas com botão ), em seguida, foi inserida a função calcular a Média de B2 até B6, digitando: =MEDIA(B2:B6). 43 Curiosidade A média aritmética ponderada considera pesos para cada valor, ou seja, em um conjunto de dados, cada item recebe uma importância. Essa importância ou peso significa que esse valor poderá ser considerado mais de uma vez, por exemplo: você realiza duas provas em uma disciplina, na primeira, com peso 1, você alcançou a nota 7, mas na segunda, com peso 2, você alcançou a nota 5. A média será = (1×7)+(2×5) 3 = 7+5+5 3 = 17 3 = 5,67 . É possível calcular a média para um intervalo de dados, para isso basta inserir a função média e definir o início e o fim do intervalo, separando os dois extremos por dois pontos (:). Geralmente é um valor utilizado para obter uma resposta rápida, por exemplo, a média de chuvas em um mês específico, para uma região específica, ou ainda, a média da temperatura de uma cidade em um intervalo de tempo. 5.2 Mediana Em matemática, no estudo da geometria, a mediana é a reta que une um vértice de um triângulo com o ponto médio do lado oposto a esse vértice. Porém, em estatística, é o nome de uma medida de tendência central que também relaciona todos os valores de uma determinada situação com o valor central, ou seja, quando os dados estão dispostos de forma ordenada (dados Rol), a mediana será o valor central de todos os dados ordenados, conforme representado na figura a seguir: Tabela preço do kg da alcatra bovina com a Mediana Fonte: acervo do autor (2019). 44 Observe que a função mediana é descrita como =MED(B2:B6). E assim como na média, não é necessário clicar no botão para símbolo monetário, visto que automaticamente é inserido, pois os valores de entrada da função (os valores do quilograma da alcatra) já o possuem. A dificuldade de calcular a mediana ocorre quando a sequência de dados é um valor par, pois assim não haverá um único valor central. Quando isso ocorre, calcula-se a média dos dois valores centrais. Nos programas de planilha, isso é calculado automaticamente com a função MED. Importante A mediana divide a série de dados previamente ordenada em duas metades. Dessa forma, quando o número de dados é ímpar, a mediana é igual ao valor central, enquanto que, quando a série de dados for par, a mediana será a média entre os dois elementos centrais. Ao calcular a mediana, é ignorado o fato de ocorrerem valores repetidos em uma série de dados, logo, o valor da mediana depende da quantia de informações e não de seus valores (diferente da média). Veja que na figura é possível comparar a média e a mediana do valor do quilograma, que, por sinal, a mediana (R$ 19,90) é maior que a média (R$ 19,08), mas isso não é regra. 5.3 Moda As medidas de tendência central dos dados se aplicam em diversas situações do cotidiano e retratam informações pertinentes durante a análise de informações. Quando sai para passear em algum shopping ou local com muitas lojas de roupas, pode-se observar algum padrão nos produtos, como uma cor, uma estampa, um acessório ou um estilo. Quando isso ocorre, comumente diz- se que tal padrão está na moda. Vocabulário Comumente: que ocorre com frequência; de modo geral; algo que ocorre na maioria das vezes; algo habitual. 45 A moda corresponde ao valor com maior frequência na série de dados. Na planilha com os valores do quilograma da alcatra bovina não há nenhum valor repetido, então a função moda apresenta erro: Tabela preço do kg da alcatra bovina com a moda Fonte: acervo do autor (2019). Para facilitar a observação da moda, criei uma tabela com valores e um produto fictício. A partir dela (do quilograma da alcatra), alterei as importâncias da coluna B (colocando propositalmente uma estima repetida) e mudei o título da coluna. As funções são as mesmas da tabela anterior, só que agora o campo para o apego numérico da moda não apresenta erro, pois existe um número com maior frequência que as outras quantias. Vocabulário Fictício: algo que é produto da imaginação; produto da ficção criado para atender alguma necessidade ou convenção. Tabela fictícia com preço de desodorante para analisar a moda Fonte: acervo do autor (2019). 46 Observe que a função utilizada para calcular a moda é =MODO(B2:B6). Essa função é compatível com versões do Excel a partir de 2007. Ela é usada somente para fins descritivos e diferente da média. A moda não varia conforme os valores extremos da série de dados. A partir da tabela com valores fictícios, é possível criar uma representação gráfica, como a descrita a seguir: Gráfico média, moda e mediana do preço do desodorante fictício Fonte: acervo do autor (2019). 5.4 Quartis Quando a série de dados contém muitos valores, toda a sequência de informações pode ser dividida em 4 partes, para analisar os comportamentos. Estes intervalos são denominados de Quartis. Curiosidade Além de dividir em quatro partes (Quartis), uma série de dados pode ser dividida em dez partes (Decis) ou em cem (Centis). Os quartis dividem os dados em 4 partes, dessa forma, em vez de possuir um ponto central como a Mediana, apresentam 3 pontos: 1º quartil, 2º quartil (que coincide com a mediana) e 3º quartil. Entre o primeiro quartil (Q1) e o terceiro quartil (Q3) estão 50% dos valores: 47 Diagrama de caixa com intervalo interquartil de um crescimento populacional normal Fonte: https://upload.wikimedia.org/wikipedia/commons/a/a2/Boxplot_vs_PDF_-_PT. svg Quartis são medidas de tendência não centrais empregadas em série de valores muito grandes. Midhinge é a média das juntas, a média dos valores do primeiroe do terceiro quartil. Considerando Q1 como o primeiro quartil e Q3 como o terceiro quartil, a média das juntas é = 𝑄1+𝑄3 2 . Essa é uma medida utilizada para superar potenciais problemas gerados por valores extremos de dados. 5.5 Medidas de dispersão As medidas de dispersão descrevem se os valores estão concentrados em um determinado valor ou se estão distribuídos. As mais usuais são: intervalo, variância, desvio padrão, máximo, mínimo e coeficiente de variação. O Intervalo é o conjunto dos extremos da série de dados, composta pelo valor máximo e pelo valor mínimo das informações. A função no Excel para obter o máximo é =MAXIMO(intervalo de dados separados por pontos) e para obter o mínimo é =MINIMO(intervalo de dados separados por pontos). 48 Importante Você sempre poderá pesquisar como deve escrever a função na planilha, seja pelo nome da função ou pela categoria, conforme a figura que mostra a pesquisa pela função variância no próprio Excel. Variância (𝑠2) é a média aritmética dos quadrados dos desvios de cada valor em relação à média, dessa forma descreve a dispersão dos dados em torno da média. No Excel, a função da variância é VAR.A, como segue na imagem a seguir: Pesquisando a função variância Fonte: acervo do autor (2019). O desvio padrão (𝑠) é a raiz quadrada da variância, em que, juntamente com a variância, mede a dispersão média em torno da média aritmética, ou seja, como os valores maiores flutuam acima da média e como os valores menores se distribuem abaixo da média. No Excel, a função que descreve o desvio padrão é DESVPAD.A. O coeficiente de variação percentual (c.v.%) é uma medida de dispersão relativa, pois admite comparar a dispersão de diferentes médias e desvios 49 padrões. O coeficiente de variação (CV) corresponde ao desvio padrão dividido pela média. Saiba mais A função DESVPAD.P é o desvio padrão calculado na população, considerando todos os elementos. Para mais informações sobre essa função, acesse o suporte do Office sobre o tema, disponível no link: https://support.office.com/pt- br/article/desvpad-p-fun%C3%A7%C3%A3o-desvpad-p-6e917c05-31a0-496f- ade7-4f4e7462f285 Conclusão da aula 5 As medidas de tendência central descrevem comportamentos de uma série de dados Rol (dados brutos que foram ordenados em uma sequência). A média depende dos valores dos dados, da moda da frequência dos dados e da mediana da posição central dos dados Rol. Especificamente a mediana depende da posição do elemento central no caso de um número ímpar de elementos e da média dos dois valores centrais no caso de um número par de elementos da série de dados. Atividades de Aprendizagem Realize uma pesquisa de preço de dois produtos, pode consultar pela internet, por aplicativos de consulta de preço ou pessoalmente. Crie uma tabela com para cada produto, mas para um deles você irá coletar 10 valores e para os outros 11 valores. Para cada um dos produtos, a tabela deverá conter os valores, a média, a mediana e a moda. Faça um resumo com o passo a passo para elaboração da planilha da atividade anterior. Como se você estivesse explicando para alguém como criar uma tabela, como calcular a média, como calcular a mediana e como calcular a moda. 50 Aula 6 – Amostragem Apresentação da aula 6 Quando não é possível coletar todas as informações de um conjunto de valores, pelas mais diversas razões, há um trabalho estatístico que possibilita prever o comportamento dos dados a partir de uma parte do conjunto. Essa parte do conjunto representa uma amostra do todo, por isso, todo o estudo da amostra para compreender o conjunto é denominado amostragem. Portanto, é necessário compreender como coletar essa amostra e analisar os possíveis erros. Sobre as razões de não coletar todo o universo de dados está a falta de tempo operacional, a redução de custos de coleta ou alguma dificuldade de acesso às informações. Por exemplo, em uma indústria da área metal-mecânica nem sempre é possível testar todas as peças fabricadas, por conta da falta de tempo para realização das medições. Curiosidade Os carros fabricados pela montadora Italiana Lamborghini são construídos sempre com a supervisão de um engenheiro mecânico, e todos os carros são testados (cada componente). Também é realizado teste na rua por um piloto profissional. Os testes laboratoriais incluem, por exemplo, colocar o carro em um dinamômetro, para simular a velocidade de 150 km/h e avaliar o controle de estabilidade e frenagem. 6.1 Tipos de Amostragem Na coleta de amostras, é possível obter dois tipos de amostra, uma definida a partir de uma probabilidade conhecida e outra que não tem esse estudo prévio. Por exemplo, quando você vai pesquisar o preço de algum produto, não se tem como prever a probabilidade de ocorrência de um valor. Enquanto que ao pesquisar o tipo sanguíneo de seus colegas, pode-se supor que há 25% de chance de obter a resposta de um sangue tipo O da primeira colega que você questionar. Isso porque só há 4 tipos sanguíneos: O, A, B e AB. 51 Quando há conhecimento prévio de uma probabilidade de ocorrência, a parte do conjunto que será analisada denomina-se amostra probabilística. E quando não há esse conhecimento prévio, é denominada amostra não probabilística: Tipos de Amostra Fonte: acervo do autor (2019). A amostragem não probabilística é um processo que depende muito do pesquisador e de seu conhecimento sobre populações. É utilizada quando é impossível usar amostragem probabilística. Em muitas áreas, somente uma amostra não probabilística está disponível, como o julgamento de um perito da área, e nesse caso denomina-se amostra de julgamento. Entre as amostras probabilísticas, a mais utilizada é a amostra aleatória simples, na qual cada indivíduo analisado possui a mesma chance de seleção de cada um dos outros elementos do conjunto total. Consiste em enumerar e escolher aleatoriamente os elementos dessa amostra de uma determinada população. A amostra sistemática é similar à amostragem aleatória simples, porém, neste caso, a retirada de seu elementos da amostra é realizada periodicamente, por isso é sistemática. Exemplo: as informações coletadas de fichas de cadastro. Amostra estratificada é usada quando o conjunto total é constituído por estratos (subpopulações) em que o comportamento da variável é homogêneo dentro do estrato, mas diferente ao compará-los. Neste caso, se fossem retirados elementos aleatoriamente, alguns estratos poderiam não ser representados. Por exemplo: verificar a situação de nutrição de bebês até um ano, em uma pequena cidade, onde há 3 bairros. Um dos bairros com acesso à água tratada e saneamento, com 120 crianças nessa faixa etária. O segundo bairro possui só Tipos de Amostra Amostras não probabilísticas Amostras Probabilísticas Amostra Aleatória Simples Amostra Sistemática Amostra Estratificada Amostra de Grupo Amostra Múltipla 52 água tratada e vivem 80 crianças com essa idade. O terceiro bairro, com 40 crianças que não têm acesso nem à água tratada nem à saneamento básico. Neste caso, serão avaliadas 8 crianças no bairro onde vivem 40. No bairro onde vivem 80 crianças serão avaliadas 16, e no bairro onde moram 120 crianças serão avaliadas 24. Quando o conjunto total de elementos apresenta subdivisão em grupos menores (pequenos conglomerados), estes são sorteados para a amostra que se denomina amostra por grupos. Por exemplo: um estudo para verificação de ligação correta de esgoto nas casas, definindo cada bairro da cidade como um conglomerado. A amostra múltipla é retirada em diversas etapas sucessivas, e a cada etapa são avaliados os resultados, verificando se será necessário submeter a novas etapas. Importante “Amostragem consiste em selecionar parte de uma população para observar, de modo que seja possível estimar alguma coisa sobre toda a população”. Steven K. Thopmson 6.2 Técnicasde amostragem Antes de qualquer coleta de dados, é necessário fazer um planejamento amostral para definir os seguintes termos: ➢ População-alvo; ➢ População de pesquisa e cadastros; ➢ Unidade(s) de amostragem; ➢ Unidades de informação (de pesquisa); ➢ Método(s) para seleção da amostra; ➢ Tamanho da amostra; ➢ Aspecto longitudinal (pesquisas repetidas). Nos planejamentos amostrais, a coleta de dados segue uma metodologia para que os resultados sejam extrapolados para o conjunto total (a população 53 total que está sendo avaliada). Na estatística, essa extrapolação dos resultados da amostra para a população é chamada de inferência. Os planos amostrais mais comuns são: amostragem aleatória simples (AAS), amostragem aleatória estratificada (AAE) e amostragem aleatória por conglomerados (AAC): ➢ AAS: o número de elementos da amostra é sorteado ao acaso dentre o valor total da população pesquisada. Cada elemento aparece uma vez só. Após ser sorteado, é retirado para não ser escolhido novamente. É mais precisa, contudo não considera a heterogeneidade da população e é mais cara; ➢ AAE: quando a população é heterogênea e precisa dividir em grupos formando estratos homogêneos. Como dividir por região: Norte, Nordeste, Sul, Sudeste e Centro-oeste. Como cada região não possui o mesmo número de pessoas, também não será coletado o mesmo valor de amostras de cada região, e sim um valor proporcional ao total de cada subgrupo (região do país); ➢ AAC: neste caso, os elementos da população são agrupados em grupos, de forma que tenham as mesmas características da população. A diferença deste para o AAE é que em vez de sortear alguns indivíduos do grupo como ocorre no estratificado, no AAC é sorteado o grupo, e analisados todos os indivíduos. Isso reduz custos operacionais na coleta de dados. O maior dilema é a determinação do tamanho da amostra, pois deve-se considerar qual o grau de tolerância para um possível erro e a probabilidade desse problema ocorrer. A seguir, vamos aprofundar o estudo nessa questão de erro. 6.3 Erro amostral Depois de toda a definição do tipo de informações que se deseja avaliar, após a definição da amostra e a realização de todo um planejamento para execução da coleta de dados, ainda podem ocorrer erros, que podem ser de 54 quatro tipos: erro de cobertura, erro por falta de resposta, erro de amostragem ou erro de medição. O erro amostral é a diferença entre a estimativa obtida da amostra e o valor real na população. O erro proveniente da coleta de dados é considerado um erro não amostral. Já os obtidos por falta de resposta, erros de mensuração ou da população avaliada, diferentem da população-alvo e são considerados erros em amostragem. 6.4 Determinação e valor esperado Para escolher o tamanho inicial da amostra (𝑛0) em função de um erro relativo, faz-se da seguinte forma: 𝑛0 = 1 (𝐸𝑟𝑟𝑜 𝑅𝑒𝑙𝑎𝑡𝑖𝑣𝑜)2 Em seguida, faz a correção para obter o número de elementos da amostra (𝑛) e um ajuste a partir do valor do conjunto total que está sendo avaliado (a população 𝑁). Essa correção é feita da seguinte forma: 𝑛 = 𝑁 × 𝑛0 𝑁 + 𝑛0 Assim, é definido o número de elementos da população que será sorteado aleatoriamente para compor a amostra 𝑛. Por exemplo, se será realizada uma pesquisa com uma população de 800 pessoas e será tolerada a existência de um erro relativo de no máximo 5%, qual será o número de elementos da amostra? Resposta: primeiro, vamos definir 𝑛0, lembrando que se o erro relativo é 5%, então o erro relativo é 0,05, visto que 5 100 = 0,05. Logo: 𝑛0 = 1 (𝐸𝑟𝑟𝑜 𝑅𝑒𝑙𝑎𝑡𝑖𝑣𝑜)2 = 1 (0,05)2 = 1 0,0025 = 400 Como a população 𝑁 é igual a 800, basta substituir os valores na equação para determinar o tamanho da amostra 𝑛: 𝑛 = 𝑁 × 𝑛0 𝑁 + 𝑛0 = 800 × 400 800 + 400 = 320.000 1.200 = 266,666 … 55 Como não tem como fracionar um elemento para obter o 0,666, arredonda-se para cima. Então o número de amostras 𝑛 dessa pesquisa será 267. O sorteio desses 267 elementos deverá ser feito aleatoriamente, conforme o tipo de amostra. Essa conta também pode ser feita em uma planilha, definindo os espaços onde serão inseridos os valores conhecidos, ou seja, os valores de entrada: população e erro relativo. Em seguida, digitam-se as funções para definir a amostra inicial 𝑛0 e o valor da amostra 𝑛. Conforme representado a seguir: Calculando a amostra na planilha a partir do erro relativo e da população Fonte: acervo do autor (2019). Observe que a célula E5 está destacada de amarelo, pois está selecionada no momento da captura da foto da tela com computador, para que a função dessa célula esteja aparecendo na linha da função na barra de ferramentas ( ). Ainda é possível melhorar as configurações dessa planilha para que automaticamente os valores sejam arredondados para cima, não admitindo valor decimal. Isso ocorre selecionando a célula e clicando no botão: (na barra de ferramentas). A seguir, a imagem da planilha, com destaque para a função que descreve a amostra inicial: 56 Calculando a amostra na planilha a partir do erro relativo e da população sem valores decimais para amostra Fonte: acervo do autor (2019). Nesta última imagem, não há possibilidade de aparecer um valor decimal para o valor da amostra, pois toda a coluna foi selecionada ao clicar no botão para reduzir o número de casas depois da vírgula. Você pode aumentar ou diminuir o número de casas depois da vírgula com esse botão ou com o botão que está ao lado, tudo depende da aplicação dos seus dados. Neste caso, não há como fracionar um entrevistado ou um produto para ser analisado. Você deve ter observado também que nas linhas abaixo está escrito #DIV/0!, isso significa que consta um erro na fórmula, pois cai em uma divisão por zero. Isso ocorreu porque ainda não foram digitados os valores de entrada. Eu fiz essa planilha para que fosse possível simular várias circunstâncias com valores distintos. Outra informação pertinente é que no campo do erro relativo tanto faz colocar o valor em decimal ou em %, como é possível verificar na imagem a seguir: Calculando a amostra na planilha a partir do erro relativo e da população: erro relativo em % Fonte: acervo do autor (2019). 57 Veja que agora não há mais o erro #DIV/0!, mas não há como obter o valor da amostra sem lançar na planilha o valor da população. Com o valor da amostra definido, basta identificar o tipo de amostra para realizar o sorteio aleatório, como, por exemplo, quantos produtos de um mesmo lote de fabricação serão retirados para análise. Conclusão da aula 6 Nesta aula, a forma como se deve proceder para coleta dos dados foi mais aprofundada, pois foram trabalhados os conceitos e tipos de amostras, definição do valor da amostra, possíveis erros e o planejamento amostral, além de mostrar como é possível calcular, em uma planilha, o número de elementos de uma amostra a partir do valor da população e do valor tolerável para um erro (erro relativo). Atividades de Aprendizagem Uma empresa de cosméticos deseja realizar uma pesquisa de satisfação com seus clientes que adquiriram no ano anterior o último lançamento do Baton cor de boca mate. Definiu, com seus acionistas, que irá tolerar um erro relativo de 2%. Sabendo que foram comercializados 1000 desse produto, qual será o número de entrevistados? Lembre-se de primeiro interpretar os valores e as informações do enunciado antes de realizar as contas. Aula 7 – Intervalo de confiança Apresentação da aula 7 Foi visto anteriormente sobre coleta de dados amostrais. A partir disso, são analisados os resultados, como valores de tendência central. Mas esses resultados são confiáveis para descrever o comportamento de uma população? 58 Para verificar o nível de confiança de um parâmetro populacional desconhecido, há o estudo sobre intervalo de confiança, que é o objeto de estudo destaaula. Como o foco desta disciplina é o uso de planilhas para realizar uma análise estatística, não serão aprofundados os conceitos de demonstração das fórmulas, e sim a sua representação e utilização em planilhas. 7.1 Nível de confiança Nem sempre é possível avaliar todos os elementos de uma população, contudo, quanto maior a amostra, melhor resultado irá refletir o comportamento da população. Como já foi mencionado, nem sempre é possível avaliar todos os elementos de um conjunto populacional, seja por dificuldades operacionais, por falta de recursos financeiros ou ainda por falta de tempo para obter a análise de informações. Dessa forma, quando calcular a média dos resultados obtidos da análise dos elementos da amostra, ele terá um nível de confiança em relação à média dos resultados da população, podendo ser descrito na forma decimal ou no formato de porcentagem. Esse nível de confiança é denominado de alfa (𝛼). Alfa pode ser descrito na forma decimal ou no formato de porcentagem. Curiosidade Nas pesquisas eleitorais, sempre mostram as intenções de votos e mencionam pontos percentuais para cima ou para baixo, que são na verdade o erro de estimativa resultante do estudo do intervalo de confiança da pesquisa. 7.2 Intervalo de confiança Quando se deseja determinar o intervalo de confiança do resultado de uma pesquisa a partir de uma amostra, é necessário saber: o nível de confiança, o tamanho da amostra e o desvio padrão populacional. Esses são os valores de entrada para obter como valor de saída o intervalo de confiança. O intervalo de confiança, somado ao nível de confiança, é igual a 100%, por isso se você tiver o valor de um deles conseguirá facilmente obter o valor do 59 outro. Por exemplo: se desejam calcular os valores para um intervalo de confiança de 97%, significa que o nível 𝛼 de confiança é 3%. Outro exemplo é que se o nível 𝛼 de confiança é 5%, então o intervalo de confiança é 95%. No Excel, o =INT.CONFIANÇA.NORM(alfa; desvio padrão; número de elementos da amostra) é a função Intervalo de confiança de uma curva normal, conforme é possível verificar na imagem a seguir: Função intervalo de confiança conforme distribuição normal Fonte: acervo do autor (2019). Após selecionar a função INT.CONFIANÇA.NORM, irá surgir uma janela para que você indique em qual célula da planilha constam os valores: alfa (nível de confiança), o desvio padrão e o tamanho da amostra. Janela para inserção dos dados para função intervalo de confiança Fonte: acervo do autor (2019). 60 Essa figura mostra a função aplicada no exemplo a seguir, por isso já aparecem os valores calculados na janela. Você pode criar a planilha com as funções e depois inserir os dados: Exemplo do cálculo de intervalo de confiança para estimativa de erro Fonte: acervo do autor (2019). Nesse caso, o nível de confiança 𝛼 é 5%, o desvio padrão é 16 e o tamanho da amostra é 64. Ainda coloquei como valor de entrada a média da amostra, para poder incluir nos dados de saída os valores que definem o intervalo de confiança, cujos nomes são limite superior e limite inferior: ➢ O limite superior do intervalo de confiança corresponde à média da amostra mais o erro de estimativa; ➢ O limite inferior do intervalo de confiança corresponde à média da amostra subtraindo o erro da estimativa. Pensando nisso, imagine uma situação em que são avaliados 100 alunos de uma população e não se sabe o valor total, sendo o valor médio dos resultados desses alunos na prova de matemática 70. Sabendo que o desvio padrão é 15 e que o intervalo de confiança é de 95%, qual é o erro de estimativa? Como o foco não é exigir que você demonstre matematicamente esse resultado, pense em como iria utilizar essas informações em uma planilha. Como o intervalo de confiança é de 95%, então o nível de confiança 𝛼 é 5%. Além disso, já sabemos as outras informações necessárias, agora basta lançar na planilha cujas funções estão representadas anteriormente, e será obtido o seguinte resultado: 61 Exemplo do cálculo de intervalo de confiança para alunos e suas notas em matemática Fonte: acervo do autor (2019). Logo, o intervalo de confiança é 70±2,94. Pode-se simplesmente dizer ele está entre 67,06 e 72,94, isso porque o erro de estimativa é 2,94. A média da população é obtida após esse cálculo. Ainda existe a função de intervalo de confiança de uma curva T-student representada pela função INT.CONFIANÇA.T. Nesse caso, segue o padrão da curva de distribuição T- student, que é diferente da curva normal. Curiosidade Na virada do século XX, um estatístico chamado William S. Gosset, que trabalhava na cervejaria Guinness, na Irlanda, realizou estudos sobre e média aritmética quando o nível de confiança é desconhecido. Como era proibido que os funcionários da cervejaria divulgassem dados da produção, Gosset adotou o pseudônimo de Student (estudante). Por isso, a distribuição que ele desenvolveu até hoje é conhecida como distribuição t de Student (ou t-student). Imagine agora a seguinte situação: você foi contratado pela empresa de tratamento de água do seu município para analisar o consumo médio de metros cúbicos de água tratada nas residências do bairro onde você mora, ao longo do semestre. Isso para estabelecer futuras alterações na tarifa em épocas de escassez de água. Seu chefe pede um relatório, para que até o fim do dia você o informe sobre a média de consumo do bairro, com um intervalo de confiança de 95%, pois no dia seguinte ele terá uma reunião com autoridades da região (prefeito e vereadores). 62 Ao longo do dia, você consegue obter os valores de consumo de algumas residências e solicita que seu assistente anote os valores. Faltando meia hora para entregar o relatório, você encerra a coleta de dados e vai analisar o que seu assistente anotou em uma planilha do Excel. Observe a imagem a seguir, que representa os dados coletados, e reflita sobre como deve proceder para obter as informações que seu supervisor solicitou: Consumo de água tratada em metros cúbicos Fonte: acervo do autor (2019) Desta vez, você tem os valores das amostras e o intervalo de confiança desejado, que é 95%. Falta calcular a média das amostras, o desvio padrão e anotar o número de amostras. Mesmo que seu assistente não as tenha enumerado, é fácil calcular, basta contar que há 7 colunas com 5 linhas cada, logo, o número de amostras é 35 (5 × 7). Para calcular o valor médio do consumo (a média da amostra) e o desvio padrão, você não precisa de uma nova planilha nem de colocar todos os dados em uma única coluna (até porque você precisa aproveitar o tempo para terminar a análise dos dados). Para calcular a média dos valores, basta escolher onde será inserido o valor e digitar =media(selecionar os dados). Sim! Você vai selecionar todos os dados formando um retângulo de 5X7 células do Excel (exatamente as células que contêm os valores das amostras). Média do consumo de água tratada em metros cúbicos Fonte: acervo do autor (2019). 63 Para calcular o desvio padrão, basta escolher onde irá inserir a função =DESVPAD.A(selecione todos os dados), conforme exemplo a seguir: Desvio padrão do consumo de água tratada Fonte: acervo do autor (2019). Agora é só inserir o valor da quantia de amostras, o valor de alfa e definir onde ficarão as variáveis de saída: erro de estimativa, limite superior e limite inferior. Conforme imagem a seguir: Resultado do intervalo de confiança, amostras de consumo de água tratada Fonte: acervo do autor (2019). Assim, você pode afirmar no seu relatório, com 95% de confiança, que o consumo médio de água tratada pelas residências do seu bairro semestralmente está entre 1.024,78 m³ e 1.220,72 m³, e ainda é possível dizer que temos 95% de certeza de que a amostra que selecionamos é um modelo em que a média aritmética da população está localizada dentro desse intervalo,ou seja, se todas as amostras possíveis, de mesmo tamanho que aquelas que utilizou (com 35 elementos), fossem selecionadas (algo que não seria feito devido ao grande 64 número de combinações), 95% dos intervalos conteriam a verdadeira média aritmética da população dentro dos seus respectivos intervalos de confiança. Conclusão da aula 7 Chegamos ao final de mais uma aula. Aqui, você aprendeu que existe uma relação entre a média da amostra com a média da população total. Essa relação possui um nível de confiança dos resultados, que, juntamente com o desvio padrão populacional, o número de elementos da amostra e o valor da média vão definir um erro de estimativa e um intervalo de confiança. Esses resultados também podem ser obtidos usando uma planilha e as correspondentes funções, conforme foi visto nos exemplos. Atividades de Aprendizagem Crie uma tabela para calcular o erro de estimativa a partir da função intervalo de confiança, e o próprio intervalo de confiança com o limite superior e o limite inferior do intervalo em função do erro de estimativa. Imagine a situação onde em uma fábrica de remédio algumas amostras de cada lote são retiradas aleatoriamente para avaliação do volume do líquido do remédio no frasco. Foram retiradas 50 amostras de um lote. Dessas amostras, o intervalo de confiança é de 98%, com desvio padrão de 10 para, na média, as amostras conterem 10 mL. Qual é o intervalo de confiança? Se o desvio padrão aumentar para 15, como fica o intervalo de confiança? E se o desvio padrão diminuir para 5? Qual foi a influência do desvio padrão no intervalo de confiança? Sugestão: utilize a planilha criada no exercício anterior para responder essas questões. Aula 8 – Teste de hipóteses Apresentação da aula 8 Prezado (a) estudante, ao longo de cada aula você teve oportunidade de aprimorar o uso de conceitos estatísticos aplicado a elaboração de planilhas. 65 Mesmo sem aprofundar nas deduções matemáticas das fórmulas, você viu os conceitos, exemplos de aplicação, algumas curiosidades associadas ao tema e agora domina ferramentas para usar todas essas informações na sua vida, principalmente na sua vida profissional e acadêmica. Nesta aula, compreender- se-á o que é o teste de hipóteses, como usar isso no Excel e alguns exemplos para facilitar seu entendimento. Teste de hipótese e intervalo de confiança são os dois principais componentes da inferência estatística, quando descrevemos a população a partir da análise da amostra. Tanto o intervalo de confiança quanto o teste hipóteses se baseiam nos mesmos conceitos, mas são utilizados para diferentes fins. O teste de hipótese pode ser utilizado para tomar decisões sobre valores especificados dos parâmetros da população. 8.1 Teste de hipótese No teste de hipóteses, há um processo de alteração dos valores nas células, com a finalidade de analisar como afetarão o resultado das fórmulas na planilha. No Excel, são fornecidos três tipos de testes de hipóteses: ➢ Cenários; ➢ Atingir meta; ➢ Tabela de dados. A opção cenário determina resultados possíveis a partir de valores de entrada, aceita diversas variáveis, mas para cada uma só admite 32 valores distintos. Na opção atingir meta, usa-se um resultado para definir possíveis valores de entrada (que determinam esse resultado pré-definido). A opção tabela de dados também determina resultados possíveis a partir de valores de entrada, porém, nesta opção, são aceitas uma ou duas variáveis. Cada uma dessas variáveis admite diversos valores. O teste de hipótese no Excel é um botão na barra de ferramentas. Veja que o botão fica mais à esquerda, na barra de ferramentas, na aba Dados, conforme figura a seguir: 66 Botão teste de hipótese, na aba Dados, na barra de ferramentas (versão Excel 2016) Fonte: acervo do autor (2019). Além dessa opção, há a função INV.NORM.N(probabilidade;média; desv_padrão), que retorna o inverso da distribuição cumulativa normal para a média e o desvio padrão especificado nos valores de entrada. As que mais iremos usar são INV.NORMP.N(probabilidade) e DIST.NORMP.N(z; cumulativo). A função INV.NORMP.N(probabilidade) retorna o inverso da distribuição normal padrão. Essa probabilidade que será inserida na função (que é a variável de entrada) corresponde ao alfa 𝛼. Já a função DIST.NORMP.N(z;cumulativo) retorna a distribuição normal padrão, com “z”, sendo a estatística de teste Z (igual a média aritmética menos a hipótese nula, tudo isso dividido pelo erro padrão) e o cumulativo um teste lógico (verdadeiro ou falso). Erro padrão é igual ao desvio padrão dividido pelo quadrado do número de amostras. 8.2 Teste de hipóteses na estatística: conceitos Em estatística, o teste de hipótese faz referência às possibilidades de um valor hipotético, obtido na análise da amostra, ser aceito como verdade para a população, ou seja, é um processo de inferência estatística que busca extrapolar os valores obtidos na amostra para compreender a população estudada. Quando a hipótese é aceita, é dito que o resultado pertence à região de não rejeição ou à região de rejeição. Essas regiões são definidas a partir de uma curva normal de distribuição populacional e pontos críticos. Esses pontos dividem o gráfico em três partes: a parte central, denominada região de não rejeição, uma segunda região à esquerda e uma terceira região à direita, que são denominadas regiões de rejeição. 67 Importante O teste de hipóteses fornece ferramentas que permitam aceitar ou não uma hipótese estatística por meio de informações obtidas pela análise da amostra. As regiões de rejeição, em algumas referências bibliográficas, chamam- se de cauda e podem ser analisadas por um lado de cada vez pelo teste unilateral (também conhecido como Unicaudal), ou por meio de teste bilateral, que avalia as duas extremidades de rejeição (também conhecido como teste Bicaudal). Conforme a figura a seguir: Regiões de rejeição e não rejeição Fonte: acervo do autor (2019). Observe que o valor central, representado pela letra H (H de hipótese), será o valor de hipótese inicial (𝐻0). A segunda hipótese poderá avaliar unilateralmente à esquerda (região da cauda do gráfico à esquerda), ou unilateralmente à direita (região da cauda do gráfico à direita), ou então avaliar as duas regiões de rejeição ao mesmo tempo (as duas caudas ao mesmo tempo). Quando avaliamos as hipóteses unilateralmente ou bilateralmente, buscamos testar a significância estatística das hipóteses. Lembra do alfa da aula anterior? O nível de confiança 𝛼 é a nossa significância no teste de hipóteses! A metodologia do teste de hipótese para tomada de decisão possui o risco de que podem ocorrer dois tipos de erros: ➢ Erro tipo I: ocorre se a hipótese nula 𝐻0 for rejeitada quando não deveria, por ser verdadeira; 68 ➢ Erro tipo II: ocorre se a hipótese nula 𝐻0 não for rejeitada sendo falsa, quando deveria ser rejeitada. O nível de significância 𝛼 é definido antes de iniciar o teste de hipóteses. É a probabilidade de se cometer um erro do tipo I (rejeitar a hipótese nula 𝐻0 quando na verdade ela é verdadeira). O estatístico define inicialmente a taxa de erro do tipo I que está disposto a tolerar. No cotidiano, você irá perceber que a maioria dos casos será de 5% (em poucos casos menor que isso, mas dificilmente maior). O coeficiente de confiança corresponde a 1 − 𝛼 (que ao ser multiplicado por 100% resulta no nível de confiança que vimos na aula anterior como 𝛽). Conhecida a hipótese nula 𝐻0, que seja realmente verdadeira, a probabilidade de se obter uma estatística de teste igual ou mais extrema que o resultado obtido a partir dos dados de amostra é denominada “valor de p”. Agora que você já viu os conceitos, serão descritas as etapas básicas para realizar o teste de hipóteses: ➢ Estabelecer a hipótese nula 𝐻0; ➢ Estabelecer a hipótese alternativa 𝐻1; ➢ Definiro nível de confiança 𝛼; ➢ Escolher a distribuição de probabilidade adequada ao teste e a partir daí determinar a região de rejeição da hipótese nula 𝐻0. Para determinar a região da rejeição de 𝐻0, é necessário analisar a hipótese 𝐻1, pois a partir dela que será definido se o teste será unilateral à direita, unilateral à esquerda ou bilateral. Por exemplo, em uma fábrica de biscoitos de aveia e cacau, cada embalagem deve conter 368 gramas. Com o objetivo de verificar se a máquina que coloca os biscoitos nas embalagens está fazendo corretamente, sem precisar de manutenção para ajustes, você retira aleatoriamente 25 amostras, para verificar se o peso de cada produto corresponde com o desejado. Caso todos os pacotes tenham peso médio de 368 gramas, você não fará nada, pois a significa que a máquina não precisa de ajustes. Agora, caso o valor 69 médio do peso do produto não seja igual a 368 gramas (se for maior ou menor que 368 g), então será necessário fazer ajustes no equipamento, para adequar a produção. Agora vamos reescrever isso na forma de teste de hipóteses: ➢ Estabelecer a hipótese nula 𝐻0: que o peso médio é 368 gramas; ➢ Estabelecer a hipótese alternativa 𝐻1: que o peso médio é diferente de 368 gramas; ➢ Definir o nível de confiança 𝛼: 0,05 (5%); ➢ Escolher a distribuição de probabilidade adequada ao teste e a partir daí determinar a região de rejeição da hipótese nula 𝐻0: Bicaudal, pois tanto para valores maiores que 368 g quanto para valores menores que 368 g será necessário ajustar o equipamento. Regiões de rejeição e não rejeição no exemplo do peso médio nos pacotes de biscoito Fonte: acervo do autor (2019). Nesse exemplo, as regiões amarelas correspondem às duas caudas, cada uma corresponde à metade de 𝛼, ou seja, cada cauda corresponde a 0,025. Agora vamos usar o Excel para encontrar os valores dos pontos críticos que separam a área de rejeição da área de não rejeição. Vamos calcular para bilateral, unilateral superior (Unicaudal è direita) e unilateral inferior (Unicaudal à esquerda). O primeiro passo para resolver é analisar quais são as variáveis de entrada: 70 Variáveis de entrada para teste de hipótese Fonte: acervo do autor (2019). Observe que deixei as fórmulas visíveis, colocando aspas ao redor. Se tiver todos os valores da amostragem, você pode inserir a função desvio padrão na célula correspondente. Observe que as funções serão inseridas conforme essa disposição de linhas e colunas das variáveis de entrada. Para o exemplo do problema de embalagens das bolachas (biscoitos), vamos considerar o desvio padrão igual a 15 e a média aritmética do peso das embalagens testadas igual a 372,5 gramas. Temos então os seguintes valores: Variáveis de entrada no exemplo das bolachas Fonte: acervo do autor (2019). Isso porque sabemos que foram retiradas 25 amostras, que alfa é 0,05 (5%) e que a hipótese nula considera o peso médio igual a 368 g. Agora vamos observar as funções para o teste unilateral inferior (Unicaudal): 71 Exemplo teste de hipótese unilateral inferior Fonte: acervo do autor (2019). Tirando as aspas, as funções irão calcular seus resultados a partir dos valores das variáveis de entrada e do “valor de p” (que depende dos valores de entrada, em específico, o valor de alfa). Assim, temos os seguintes resultados: Teste de hipótese unilateral inferior, exemplo do biscoito Fonte: acervo do autor (2019). Agora vamos analisar as funções para o teste de hipótese unilateral superior: Exemplo teste de hipótese unilateral superior Fonte: acervo do autor (2019) 72 Observe as diferenças das funções em relação ao unilateral inferior. Neste momento retiraremos as aspas e analisaremos os resultados para este exemplo: Teste de hipótese unilateral superior exemplo do biscoito Fonte: acervo do autor (2019) Agora vamos analisar as funções para o teste bilateral: Exemplo de teste de hipótese unilateral superior Fonte: acervo do autor (2019) A seguir, com os valores de entrada para o exemplo dos biscoitos: Teste de hipótese unilateral superior exemplo do biscoito Fonte: acervo do autor (2019) No geral, alguns pontos importantes que devem ser considerados durante a utilização de teste de hipóteses são: 73 ➢ A hipótese nula (𝐻0) é a hipótese que sempre é testada; ➢ A hipótese alternativa (𝐻1) é desenvolvida como o oposto da hipótese nula, e, se a hipótese nula for rejeita, irá representar a conclusão do teste; ➢ A hipótese nula (𝐻0) sempre se refere a um valor especificado do parâmetro da população, e não da estatística da amostra (pois é o que desejamos descobrir a partir dos valores conhecidos da amostra); ➢ A afirmativa da hipótese nula (𝐻0) sempre contém um sinal de igualdade com relação ao valor do parâmetro especificado; ➢ A afirmativa da hipótese alternativa (𝐻1) nunca contém um sinal de igualdade com relação ao valor do parâmetro especificado. Reflita A seguir, o link para um vídeo que explica a função atingir meta do Excel: https://www.youtube.com/watch?v=ZC9RHvpQ-go Conclusão da aula 8 Chegamos ao final da disciplina. Foi uma jornada aprendendo a usar o Excel para analisar dados estatísticos. Nesta última aula sobre teste de hipóteses foram trabalhados todos os conteúdos das aulas anteriores aplicados à metodologia do teste de hipóteses estatístico. Com esse método, é possível tomar decisões a partir da análise dos dados, além de ser uma importante ferramenta de inferência estatística. Por fim, vimos como realizar essa análise utilizando as funções estatísticas disponíveis no Excel. Atividade de Aprendizagem Baseado nesta aula e em seus conhecimentos, discorra sobre o teste de hipóteses e seus métodos estatísticos, analisando e funções disponíveis no Excel. 74 Índice Remissivo Conceitos básicos ....................................................................................... (Amostragem; análise estatística; variáveis) 08 Estatística descritiva, inferencial e probabilística ........................................ (A amostra; ciência exata; teorias da probabilidade) 08 Variáveis quantitativas e qualitativas .......................................................... (Valores quantitativos; valores qualitativos; variável qualitativa ordinal) 11 Amostragem ............................................................................................... (Análise de dados; amostra analisada; valores obtidos) 13 Planilhas ..................................................................................................... (Coleta de informações; interpretação de gráficos; organização dos dados) 13 As planilhas ................................................................................................. (Avanço tecnológico; ferramentas digitais; layout) 16 Ferramentas tecnológicas para criação de planilhas ................................... (Apache OpenOffice; FreeOffice; Zoho Sheet) 17 Incluindo fórmulas na planilha ..................................................................... (Analisar; planilhas; operações e sinais) 18 Formatação ................................................................................................. (Comunicação visual; normas da ABNT; templates) 21 Tabela dinâmica .......................................................................................... (Analisar dados; comparar valores; identifica padrões) 22 Tipos de dados ............................................................................................ (Análise e frequência; dados brutos; variáveis quantitativa e qualitativa) 24 Dados brutos e Rol ...................................................................................... (Aleatórios; dados coletados; reorganizar) 25 Frequências ................................................................................................ (Frequência absoluta; frequência acumulada;frequência relativa) 26 Variáveis ..................................................................................................... (Aleatórias; qualitativas; quantitativas) 29 Criação de gráficos ..................................................................................... (Ideias; inspirações; representações) 32 Gráficos ...................................................................................................... (Dados brutos; dados Rol; valores estatísticos) 32 Tipos de gráficos ......................................................................................... (Algoritmos; mapas; representações) 34 75 Medidas de tendência central ..................................................................... (Adequadas; ajustadas; principal) 41 Média .......................................................................................................... (Avaliação; medida; tendência) 42 Mediana ...................................................................................................... (Estatística; medida de tendência; valores) 43 Moda ........................................................................................................... (Comumente; frequente; padrão) 44 Quartis ........................................................................................................ (Medidas; tendências; valores) 46 Medidas de dispersão ................................................................................. (Ajustar; regulares; variação) 47 Amostragem ............................................................................................... (Amostra; analisar; avaliar) 50 Tipos de amostragem ................................................................................. (Amostras probabilísticas; modelos; padrão) 50 Técnicas de amostragem ............................................................................ (Conglomerados; estratificada; simples) 52 Erro amostral .............................................................................................. (Cobertura; falta de resposta; medição) 53 Determinação e valor esperado .................................................................. (Amostra; cotação; valores) 54 Intervalo de confiança ................................................................................. (Amostras; nível de confiança; parâmetros) 57 Intervalo de confiança ................................................................................. (Intervalo de confiança; nível de confiança; valores confiáveis) 58 Nível de confiança ....................................................................................... (Conjunto populacional; elementos avaliados; recursos) 58 Teste de hipóteses ...................................................................................... (Decisões específicas; suposições; valores confiáveis) 64 Teste de hipótese ........................................................................................ (Atingir metas; cenários; tabela de dados) 65 Teste de hipóteses na estatística: conceitos ............................................... (Coeficiente de confiança; dedução estatística; hipótese alternativa) 66 76 Referências BRAULE, R.; Estatística aplicada com Excel: para cursos de administração e economia. 4ª ed. Rio de Janeiro: Editora Campus, 2001. LEVINE, D. M., BERENSON, M. L., STEPHAN, D.; Estatística. Teoria e Aplicações usando Microsoft Excel em português. Tradução Teresa C. P. de Souza. Rio de Janeiro: Editora LTC, 1998. MCFEDRIES, P.; Fórmulas e Funções: Microsoft Excel 2010. Rio de Janeiro: Alta Books, 2012. MICROSOFT OFFICE. Tipos de gráfico disponíveis no Office. Disponível em: <https://support.office.com/pt-br/article/Tipos-de-gr%C3%A1fico-dispon%C3%A Dveis-no-Office-a6187218-807e-4103-9e0a-7cdb19afb90?ui=pt-BR&rs=pt-BR& ad=BR> Acesso em: 10/03/2019, às 18h00min. Copyright © - É expressamente proibida a reprodução do conteúdo deste material integral ou de suas páginas em qualquer meio de comunicação sem autorização escrita da equipe da Assessoria de Marketing da Faculdade São Braz (FSB). O não cumprimento destas solicitações poderá acarretar em cobrança de direitos autorais.