Prévia do material em texto
INFERÊNCIA ESTATÍSTICAINFERÊNCIA ESTATÍSTICA INFERÊNCIA ESTATÍSTICAINFERÊNCIA ESTATÍSTICA Autor: Dr. Bruno Henrique Oliveira Mulina Revisor : Antonio Gomes de Mattos Neto IN IC IAR introduçãoIntrodução É muito comum a necessidade de estudar o comportamento de grandes populações através de amostras. O processo de amostragem permite diminuir os gastos com pesquisa, já que reduz o número de indivíduos a serem avaliados. Em muitos casos, a escolha de apenas alguns indivíduos para estudar as condições da população é a única forma de estudo. Imagine descobrir se um carro é seguro por meio de testes de colisão. Se �zermos com todos os carros, não sobraria nenhum para ser usado pelos motoristas. A �m de compreender os conceitos e ferramentas aplicados para o estudo e análise das populações a partir de dados obtidos de uma amostra, temos como objetivo desta aula compreender os alicerces da Inferência Estatística. Quando realizamos um experimento, e conhecemos todos os elementos avaliados, dizemos que temos uma população. Com isso, temos certeza com relação a todas as análises desenvolvidas, como a média, a variância ou a proporção de indivíduos. Com isso, podemos responder diretamente com relação a comparações com outras populações ou com relação a valores pré-estabelecidos. Porém, em muitos casos, o estudo envolvendo a população se torna complexo ou mesmo inviável. Nesses casos, é necessária a amostragem dos elementos dentro da população. Esse processo é muito comum em diversas áreas de pesquisa, e permite que sejam selecionados indivíduos que possibilitem uma análise signi�cativa com relação à população. Um exemplo de amostragem são as pesquisas de intenção de voto. Como é possível saber a proporção da população que vote no Inferência EstatísticaInferência Estatística candidato A ou B em tão pouco tempo? Simples. O estudo não se aplica a todos os eleitores, mas sim com uma amostra de aproximadamente 2500 pessoas. Ao estudar apenas os indivíduos da população selecionados pela amostragem, nos deparamos com uma situação: como ter certeza de que o valor obtido para aquela amostra é realmente o correto? Para responder a essa pergunta, a Inferência Estatística fornece ferramentas capazes de fornecer conclusões referentes à população com base apenas em uma amostra. Devemos compreender dois conceitos bastante importantes na estatística: a amostragem e o censo. A amostragem se refere à seleção de uma parcela da população. Já o censo é a pesquisa envolvendo toda a população. Ainda diferenciando esses dois termos, o censo fornece dados exatos com relação à população, enquanto a amostragem são valores aproximados. Sabe aquela margem de erro que aparece nas pesquisas de intenção de voto? Ela é consequência da amostragem. Quando sai o resultado da eleição, não existe essa margem de erro, pois agora temos o dado de todos os eleitores (da população votante). Então, de modo geral, a inferência estatística é o conjunto de ferramentas capazes de fornecer informações a partir de dados amostrais. Essas ferramentas, entre elas a estimação de parâmetros e os testes de hipóteses, juntamente com os conceitos básicos sobre a inferência estatísticas, serão apresentados a seguir. Amostragem A amostragem pode ser considerada uma das bases da inferência estatística. Por meio dela podemos de�nir quais os elementos da população serão usados nos estudos. Uma amostragem mal elaborada pode afetar análises futuras. Por esse motivo a amostragem deve ser realizada seguindo certos critérios que representem corretamente a população. Ao de�nir uma amostra, a aleatoriedade dos elementos permite obter uma amostra não viesada, isso é, todos os elementos têm a mesma chance de serem escolhidos. A amostra também deve ser representativa. Isso quer dizer que a amostra deve ter um comportamento próximo ao da população, e possuir um tamanho signi�cativo. Os principais tipos de amostragem se diferem em amostragem probabilística e amostragem não probabilística. Na amostragem não probabilística não se sabe nada sobre a população a ser amostrada, como o número de indivíduos. Esse tipo de amostragem pode gerar resultados viesados, já que a escolha dos indivíduos pode ser motivada por conveniência, julgamento, ou outro critério subjetivo. Já a amostragem probabilística é a mais utilizada, e aplica algum critério para determinar quais os elementos serão usados. Além disso, se tem acesso a todos os indivíduos da população. Os métodos de amostragem probabilística mais usados são: aleatória, sistemática, estrati�cada e por conglomerado. Uma amostragem aleatória é aquela na qual os elementos são escolhidos ao acaso, sem nenhum critério. É um método simples, porém a ausência de um critério pode gerar amostras ruins sob o ponto de vista estatístico (não representativas). A amostragem sistemática é semelhante à aleatória, porém existe um critério de seleção (não relacionado à característica a ser estudada). Por exemplo, dispor os elementos da amostra em sequência e escolher aqueles nas posições ímpares. A amostragem estrati�cada é feita produzindo grupos de indivíduos segundo algum critério, e dentro de cada grupo, é aplicada uma amostragem aleatória ou sistemática, de modo que exista ao menos um indivíduo com uma característica de interesse. A amostragem por conglomerado se comporta de forma análoga à estrati�cada, porém a amostragem é realizada selecionando um ou mais agrupamentos. Independentemente do tipo de amostragem, é importante calcular o tamanho da amostra. Para isso, devemos determinar uma margem de erro para as análises a serem realizadas. Para calcular o tamanho da amostra, aplicamos a expressão: Onde N é o tamanho da população, n é o tamanho da amostra, n0 é a aproximação inicial da amostra e E0 o erro amostral desejável (1%, 2%, 5%, ...). Por exemplo, se uma população possui 1000 indivíduos, e desejamos uma margem de erro de 1%: Conceitos gerais da Inferência Estatística Como já foi dito, o objetivo da inferência estatística é estimar sobre parâmetros populacionais, ou avaliar uma suposição, com base em estatísticas amostrais como a média, o desvio-padrão (ou variância) e a proporção de indivíduos. Para cada tipo de parâmetro, ou de situação, teremos uma ferramenta, ou estatística, a ser aplicada. Além da amostragem já vista, outros dois conceitos são muito importantes para a análise inferencial: o nível de con�ança IC e a signi�cância α. Antes de de�nir esses conceitos, imagine que, em uma população de 100 alunos, 20 sejam selecionados para estudo com relação à altura. É possível que, dentro os 80 alunos não selecionados, exista um aluno com altura muito maior ou muito menor que a maioria dos alunos. Por ser um caso extraordinário, é possível que, durante a amostragem, ele não seja selecionado. É lógico que a altura desse aluno afeta nos estudos, mas não aparecerá nos dados amostrais. n = = (1) N × n0 N + n0 n0 1 E2 = = = 1000 n = = = 909 (2)n0 1 E2 1 0, 012 N × n0 N + n0 1000 × 10000 1000 + 10000 Para resolver essa questão, é de�nida um nível de con�ança nos dados amostrais. O nível de con�ança IC fornece a probabilidade de a estimativa realizada na amostra estar correta com relação ao valor exato da população. Por exemplo, se de�nirmos um índice de con�ança de 95%, signi�ca que existe 95% de chance de inferir (estimar) corretamente sobre a população. Mais importante que o índice de con�ança, a signi�cância estatística α se refere à probabilidade de erro nos resultados. Como a soma entre o índice de con�ança e a signi�cância deve ser 100%, a signi�cância é obtida por meio da expressão: O estudo da signi�cância tem um papel especial nas inferências estatísticas, já que se comporta diferente de acordo com o problema. Imagine que desejamos saber a margem de erro para a média amostral. Nesse caso, metade dos valores errados são menores que a média, e a outra metade dos erros se refere aos valores maiores.Assim, cada metade da signi�cância está relacionada a cada intervalo de valores errados. O índice de con�ança, assim como a signi�cância do teste, é de�nido no início dos estudos estatísticos. Os valores mais comuns para a signi�cância são 1%, 5% e 10%, sendo 5% o mais usual. Por esse motivo, caso seja omitida a informação sobre a signi�cância, adotaremos o valor de 5%. Aplicações da Inferência Estatística Como já foi dito, as principais aplicações da inferência estatística são a estimação de parâmetros e a validação de testes de hipóteses. Mas, o que são essas ferramentas? Para responder a essa pergunta, detalharemos cada uma dessas ferramentas. Estimação de parâmetros α = 1 − IC (3) Imagine o caso: um fabricante de parafusos deve produzir parafusos com o diâmetro de 5 mm. Porém, é impossível que se produzam parafusos de mesmo tamanho. Pequenas diferenças na matéria-prima e condições de operação podem ocasionar variação no diâmetro do parafuso. Nesse caso, podemos ter parafusos de 5 mm, 4,9 mm, 5,2 mm, 6 mm, 4 mm. Então, como saber se a produção está correta ou a máquina necessita de manutenção? A resposta é simples: devemos amostrar os parafusos produzidos e estimar o diâmetro com base em uma margem de con�ança. Se for dito que os parafusos possuem diâmetros entre 4,8 mm e 5,2 mm, com uma con�ança de 95%, signi�ca que 95% dos parafusos produzidos estão dentro dessa margem de valores. Isso não impede que aconteça de aparecer um parafuso com 4,5 mm de diâmetro, mas a chance disso ocorrer está dentro dos 5% fora da margem de con�ança. A estimativa de um valor a partir da inferência pode ser interpretada gra�camente na Figura 1.1. Nela, temos um intervalo de con�ança para o valor do parâmetro (média, desvio-padrão ou proporção). Esse intervalo de con�ança de�ne a margem de valores admitidos como corretos. saiba maisSaiba mais A análise da variação das medidas é importante na metrologia. Conforme a variável a ser mensurada, existem metodologias para estimar as margens de con�ança, ou incertezas de medição, para diferentes tipos de instrumentos. A ISO-GUM 2008, é umas das principais normas para determinação das incertezas em medições. Fonte: Elaborado pelo autor. ACESSAR http://www.inmetro.gov.br/noticias/conteudo/iso_gum_versao_site.pdf Testes de Hipóteses A outra principal aplicação da inferência estatística são os testes de hipóteses. Imagine que, com base na amostragem dos alunos de uma escola, obtivemos a média de 1,6 m, e um intervalo de con�ança de 0,5 m. Se quiséssemos supor que a altura média é maior ou igual a 1,7 m, não podemos responder de forma exata apenas observando o valor da média observada na amostra. É preciso avaliar, com base em um teste de hipótese, se, de modo simples, 1,6 m é maior ou igual a 1,7m. Um teste de hipótese é uma metodologia estatística que auxilia na tomada de decisões sobre as informações de uma ou mais populações com base nos dados amostrais. Para isso, são levantadas duas hipóteses, uma chamada de hipótese nula, , cuja condição é dada pela suposição a ser respondida, e outra chamada de hipótese alternativa, , que incorpora as possibilidades não cobertas pela hipótese nula. Uma vez formuladas as hipóteses, são aplicadas estatísticas (cálculos) Figura 1.1 - Representação grá�ca do intervalo de con�ança ou margem de con�ança Fonte: Elaborada pelo autor. H0 H1 que permitem que a decisão seja tomada. Essa decisão é respondida de forma binária (a hipótese proposta é aceita ou rejeitada). Voltando ao exemplo da altura, a hipótese nula buscaria responder se a média amostral (ou observada) é igual ou maior a 1,7 m, enquanto teríamos como hipótese alternativa a possibilidade da altura amostral ser menor que 1,7 m. Matematicamente, isso é descrito como: Por que não podemos, com base apenas na observação da média amostral, responder à suposição feita? Porque os valores são amostrais, e por isso possuem intervalo de con�ança. Então, os testes devem avaliar a interação entre os intervalos de con�ança conforme a hipótese levantada. Devemos sempre lembrar que os testes de hipóteses também possuem seu índice de con�ança (ou uma signi�cância estatística). Os testes de hipótese são realizados de duas maneiras diferentes: por meio da região crítica e a partir do p-valor. Os testes de hipótese com base na análise da região crítica são realizados com base na distinção de dois intervalos de probabilidade, um referente à hipótese nula e outro para a alternativa. O tamanho desses intervalos é calculado com base no valor da signi�cância do teste e nas hipóteses levantadas. De�nidos os intervalos, um valor normalizado é calculado. Caso o valor esteja no intervalo da hipótese nula, a suposição levantada está correta, caso contrário, a hipótese nula é rejeitada. Já os testes de hipótese baseados na análise do p-valor avaliam a signi�cância dos dados observados. Isso é feito calculando a probabilidade dos dados observados estarem certos ou não. Quanto maior o índice de con�ança obtido (menor signi�cância), maior a chance da suposição levantada estar correta. Nesse caso, o valor normalizado é utilizado para calcular a probabilidade { (4): μ ≥ 1, 70H0 : μ < 1, 70H1 dos dados estarem corretos, ou o p-valor do teste. Se o p-valor é menor que a signi�cância levantada, é possível dizer que a hipótese nula é aceita. Caso contrário, ela é rejeitada. Entre as duas ferramentas apresentadas, podemos distinguir a área de aplicação de cada uma delas. No caso dos intervalos de con�ança, eles serão utilizados para estimar o valor de um parâmetro populacional. Agora, quando é de interesse comparar valores, então deverão ser aplicados os testes de hipótese. Aplicação A inferência estatística deve ser aplicada para parâmetros da população (média, variância e proporção) com base em informações de uma amostra, a partir de intervalos de con�ança ou testes de hipóteses. praticarVamos Praticar Ao avaliar a e�ciência de um novo remédio, é realizado o procedimento no qual são construídos dois grupos de pacientes, no qual um recebe o remédio enquanto o outro recebe um placebo. Sobre o procedimento para con�rmação dos resultados, assinale a alternativa correta. a) Por um teste de hipótese, com hipótese nula que o remédio tem efeito maior ou igual que o placebo, e alternativa de que o remédio tem efeito menor ou igual. b) Se o grupo que recebeu o remédio possui maior número de pacientes curados, então ele surte efeito. c) Calculamos o intervalo de con�ança dos resultados do grupo de placebo e do remédio. d) Basta saber a porcentagem de um grupo e comparar numericamente com o outro grupo, já que a porcentagem da amostra é igual à da população. e) Aplicar um teste de hipótese que permita con�rmar se os resultados são iguais ou diferentes. Quando se deseja determinar o valor de um parâmetro da população a partir de um dado amostral, é dito que estamos estimando seu valor. Um estimador é o conjunto de cálculos e estatísticas aplicadas para estimar o parâmetro populacional. Essa estimação pode ser pontual, quando a estimativa é um valor, ou intervalar, quando se diz que o valor desse parâmetro é uma faixa de possíveis valores. Por exemplo, vamos estimar a média de notas dos alunos de uma escola. Para isso, realizaremos a amostragem dos alunos, e calcularemos o valor médio da nota dentro da amostra. Esse valor pode ser considerado então um estimador pontual da média das notas da escola. Agora, se for de�nido um intervalo de con�ança para o valor médio das notas, teremos um estimador intervalar. EstimadoresEstimadores Uma confusão comum é distinguir os termos estimadores e estimativa. Um estimador é a estatística aplicada para obter o valor para a população. Já a estimativa é o valor numérico do parâmetro, obtido por meio de um estimador. Ao estimar um valor, podemos dizer que existe uma função estimador T, que forneça a melhor estimativa para o parâmetro. Essa função é obtida usualmentepor meio de três técnicas: método dos momentos, método dos mínimos quadrados ordinários e o método de máxima verossimilhança. Estimadores pontuais Como dito, os estimadores são funções que permitem estimar o valor populacional a partir dos dados amostrais. Serão apresentados os métodos mais usados. O Método dos Momentos de�ne que cada parâmetro avaliado possui um momento de ordem k. Um momento é a média dos valores da amostra elevados a k, ou seja: A partir da manipulação da expressão do momento, é possível obter os estimadores pontuais. Esse método necessita do desenvolvimento de uma função estatística especí�ca para cada parâmetro relacionado à população (média e variância). O Método dos Mínimos Quadrados Ordinários é amplamente aplicado em problemas de regressão, aplicado para estimar os coe�cientes (estimadores) de um modelo de regressão. O desenvolvimento desse método envolve a minimização da diferença entre os valores calculados por meio de um modelo de regressão obtido e os valores exatos já conhecidos. = ∑ (5)Mk 1 n xk O princípio da máxima verossimilhança a�rma que o estimador pontual é um valor que maximiza a probabilidade de se obter uma distribuição cujo valor possui maior chance de estar correto. A partir do conhecimento prévio sobre o comportamento da função de probabilidade da amostra, é possível, por meio do produtório das probabilidades de cada elemento da amostra, obter a expressão para o estimador. Independentemente do método de estimação aplicado, é comum a utilização dos estimadores para a média, para a variância e para a proporção amostral. Esses estimadores são comumentes referidos como parâmetros amostrais. O Quadro 1.1 apresenta os estimadores mais utilizados para esses parâmetros, onde x é o valor do elemento e pi a probabilidade relacionada à cada elemento. Não confunda a probabilidade com a proporção amostral. Quadro 1.1 - Estimadores pontuais Fonte: Elaborado pelo autor. O desvio-padrão amostral s é obtido a partir da variância amostral: É importante ressaltar um detalhe importante. Quando nos referimos a um estimador pontual, podemos dizer, na maioria dos casos, que o seu valor numérico é a melhor estimativa desse parâmetro com relação ao valor da população. Para garantir que isso seja verdade (o estimador fornecer a melhor estimativa), devem-se seguir alguns critérios que serão apresentados em breve. s = (6)s2 −−√ Propriedades de um bom estimador pontual Devemos compreender os critérios para de�nir um bom estimador. Esses critérios são análogos aos que buscamos no estudo estatístico. São eles: a.Não tendencioso: também chamado de estimador não viesado. É dito que o estimador é não tendencioso quando a estimativa calculada é igual à esperança do próprio parâmetro. Para isso, a probabilidade pi deve ser igual para todos os elementos. Assim os estimadores não tendenciosos podem ser reescritos como descritos no Quadro 1.2. reflitaRe�ita Por mais que seja natural na área de pesquisa a tomada de decisões a partir de dados de uma amostra, vimos que podemos ser levados a tomadas de decisões incorretas. Então, será que é correto a�rmar algo sobre a mudança da temperatura do planeta apenas com base na memória pessoal? Fonte: Elaborado pelo autor. Quadro 1.2 - Estimadores não tendenciosos Fonte: Elaborado pelo autor. O estudo sobre o viés do estimador está relacionado à acurácia dos valores. A acurácia se refere a quão próximo o valor obtido pelo estimador está do valor exato (da população). Isso quer dizer que, se um estimador possui uma acurácia alta, ele é mais exato (valor próximo ao da população). b. Su�ciência: esse critério nos informa que a amostra selecionada é capaz de representar de forma clara e completa a população, sendo assim, a adição que qualquer outro elemento na amostra não contribui na melhora dos dados. Isso ocorre quando a população segue uma distribuição probabilística normal, em que a chance de escolher um elemento com o valor próximo à da estimativa já existente é maior que a chance de encontrar um indivíduo que resultará em uma estimativa signi�cativamente diferente. c. Consistência: essa propriedade se refere à relação entre o tamanho da amostra e a aproximação entre o valor estimado e o valor exato. A consistência informa que o aumento do tamanho da amostra implica na convergência das estimativas para o valor populacional. Se o estimador é bom, isso implica em dizer que a média permanece com o valor próximo, mas a variância diminui. d. E�ciência: ao comparar dois estimadores, será considerado o melhor aquele que apresentar menor Erro Quadrático Médio (EQM). O EQM está relacionado à variância dos valores amostrais. De modo simples, quanto menor a variância dentro da amostra, melhor a estimativa. A e�ciência está relacionada diretamente à variação dos elementos da amostra em torno do estimador. Pode-se dizer que mede quanto os valores estão espalhados em torno do estimador. Por esse motivo um estimador e�ciente é aquele que possui menor variância nos dados, já que é mais preciso. praticarVamos Praticar Em uma amostragem realizada para análise da nota dos alunos em uma escola, foram selecionados 10 indivíduos. Calculando os parâmetros das amostras, foram obtidas a média 6 e desvio-padrão 1. Avaliando os dados obtidos, assinale a alternativa correta. a) Se amostrarmos mais 10 indivíduos e a média passar a ser de 8, signi�ca que ele era um bom estimador. b) Essa nota foi obtida selecionando os alunos que obtiveram as melhores notas nas provas �nais. c) A amostragem de 5 novos elementos não alterou a média amostral, mas aumentou a variância amostral. Isso quer dizer que o novo estimador é melhor que o anterior. d) Se esse estimador é bom, se forem amostrados novos elementos eles devem possuir uma nota próxima a 6. e) Se outra amostragem for realizada, agora com 40 indivíduos, que resulta em mesma média e desvio-padrão amostral, então essa segunda amostra é a melhor. Até o momento vimos com relação a indicadores (estimadores) pontuais. Porém, antes de validar se o estimador é bom ou não, devemos compreender como todos os indivíduos dentro da população e da amostra se comportam. Para isso veremos agora com relação às distribuições amostrais. Distribuição amostral A distribuição amostral é a distribuição de probabilidades associada à estatística, assumindo todas as amostras possíveis de mesmo tamanho (também chamados de graus de liberdade), obtidas da mesma população. De modo simples, o estudo das distribuições amostrais está relacionado ao Distribuições AmostraisDistribuições Amostrais modo no qual uma amostra, ou um conjunto de amostras, se comportam frente ao comportamento da população. Para compreender a importância da distribuição amostral, imaginemos uma população aleatória onde serão amostrados cinco indivíduos de uma população de mil elementos. Como são poucos elementos, a chance de que esses valores se apresentem em uma proporção semelhante à vista na população é baixa. Aumentando o número de elementos amostrados, perceberemos que a distribuição dos elementos possuirá uma con�guração semelhante àquela vista para a população. Baseado no que foi apresentado anteriormente, é possível dizer que uma amostra possuirá o comportamento semelhante ao da população que a originou. Assim, se a amostragem for realizada corretamente, as análises realizadas na amostra poderão ser inferidas para a população sem que haja distorções por conta de mudanças nas distribuições de probabilidade. Teorema do Limite Central Para compreender sobre o Teorema do Limite Central, usaremos o experimento chamado tabuleiro de Galton. Esse tabuleiro é mostrado na Figura 1.2. Nele temos uma saída na qual várias esferas serão soltas em queda livre. Ao longo do trajeto percorrido, existem obstáculos nos quais as esferas se chocam, mudando sua direção. E na parte de baixo do tabuleiro existem canaletas para capturar as esferas conforme a posiçãoque caem. Se jogarmos algumas esferas apenas, como mostra a Figura 1.3a, não poderemos ter clareza com relação à posição em que essas esferas cairão, independentemente da posição de saída das mesmas. Agora, liberando um número maior de esferas (mais que 30 esferas), poderemos ver que elas se acumularão nas canaletas seguindo um padrão. Elas se acumularão principalmente abaixo da saída das esferas, independentemente de sua posição, como mostram as Figuras 1.3b e 1.3c. Ao transportar esse experimento para a estatística, vemos que cada esfera, ao colidir com um obstáculo, tem 50% de chances de ir para a direita e outros 50% de ir para a esquerda. Assim, podemos dizer que a probabilidade das esferas irem para um lado segue uma distribuição binomial, com chances de “acerto” e “erro” iguais. O padrão de resultados do tabuleiro mostra uma distribuição com média amostral centrada na média populacional μ (no caso do exemplo, onde se localiza a saída das esferas). A observação individual (Figura 1.3a) mostra uma grande variabilidade dos resultados, enquanto com o aumento da amostra, a variação nos valores diminui (Figuras 1.3b e 1.3c). Isso signi�ca que quanto maior o tamanho da amostra, mais próximo estará de μ. Isso quer dizer que, quanto maior os graus de liberdade, mais próximo o comportamento da amostra é da população. Figura 1.3 - Disposição das esferas no tabuleiro de Galton Fonte: Elaborada pelo autor. Uma ressalva importante. Quando avaliamos a distribuição amostral, quanto maior o número de elementos, mais a amostra se aproxima da população. Porém, não confunda com os estimadores pontuais. No caso dos estimadores pontuais, os dados são resumidos em um único valor, sem se preocupar diretamente com o modo com que os valores da amostra se comportam. Se uma amostra segue o comportamento descrito anteriormente, e o número de elementos n é muito grande, a distribuição amostral se assemelha à distribuição normal. A distribuição normal, por sua vez, é uma das principais distribuições de probabilidade aplicadas na estatística. Distribuição amostral da média Como já foi dito, a distribuição amostral está relacionada ao estudo de diversas amostras que possuam como origem a mesma população. Se a amostra possui o comportamento da distribuição normal, podemos estimar os parâmetros de média e desvio-padrão da população a partir dos dados amostrais. Existem dois casos a serem avaliados na geração dessas amostras. No primeiro caso, podemos gerar diferentes amostras com a reposição de elementos já aplicados em amostras anteriores. Essa análise também pode ser expandida quando se realiza uma única amostragem. Para esse caso, os estimadores são descritos como: Por exemplo, se temos uma amostra de tamanho n = 50, onde são conhecidas a média populacional (μ=10) e variância populacional (σ2=3), os valores amostrais para esses parâmetros são: ∼ Normal(μ; ) = μ = (7) x − σ2 n x − s2 σ2 n A solução inversa também é válida. Isso é, conhecendo os valores amostrais é possível estimar os parâmetros populacionais. Caso a amostragem não permitir repetição, isso é, uma vez que a primeira amostra é retirada, os elementos não retornam à população para a nova amostragem. Nesse caso, os estimadores serão diferentes: Para compreender como aplicar esses estimadores, realizaremos o mesmo exemplo anterior, mas adotando que não poderão ser repostos os elementos, em uma população de N=1000 elementos. Assim: É importante ter em mente uma relação entre os valores populacionais e amostrais em uma distribuição normal. Com base no teorema do limite central, temos que: ∼ Normal(10; ) ⇒ = 10 e = = 0, 06x − 3 50 x − s2 3 50 (8)∼ Normal(μ; × )x − σ2 n N−n n−1 = μx − = ×s2 σ 2 n N−n n−1 ∼ Normal(10; × ) ⇒ = 10 e = × = 1, 163x − 3 50 1000 − 50 50 − 1 x − s2 3 50 1000 − 50 50 − 1 z = (9) − μx − ( )σ n√ Onde o valor de z representa um parâmetro normalizado para estudo da distribuição normal. Essa relação também será importante para exercícios que necessitam do cálculo da probabilidade de um determinado valor amostral ser maior ou menor que um valor populacional. praticarVamos Praticar Ao avaliar uma amostra, foi percebido que ela possui um comportamento semelhante ao da distribuição normal. Isso quer dizer que a probabilidade dos elementos possuírem valores próximos à da média é maior que valores muito distantes da média. Em uma amostra que foi retirada de modo que esses elementos não possam ser repostos, cujo tamanho original da população era de 500 elementos, e as amostras são compostas de 30 indivíduos, os valores amostrais para a média e o desvio-padrão foram, respectivamente, 20 e 4. Sobre o cálculo dos dados populacionais assinale a alternativa correta: a) e . b) e . c) e . d) e . e) e . μ = 20 σ = 4 μ = 20 σ = 5, 4 μ = 18 σ = 3, 2 μ = 12 σ = 4 μ = 12 σ = 1, 6 Do mesmo modo que avaliamos a distribuição amostral para a média dos valores em uma amostra, compreenderemos como se relacionam as proporções amostrais e populacionais em uma distribuição que se comporte de modo análogo ao apresentado pelo teorema do valor central. Existem distribuições amostrais para o estudo da média de pequenas amostras e da variância amostral. Essas distribuições têm em comum o conceito de graus de liberdade e o grau de signi�cância. Distribuição da Proporção Outras DistribuiçõesOutras Distribuições AmostraisAmostrais Antes de estudar a distribuição, de�niremos que os indivíduos, dentro de uma amostra de tamanho n, sejam classi�cados de modo binário, ou seja, os indivíduos sejam de�nidos como uma condição de sucesso ou de fracasso. Feito isso, podemos distinguir agora as proporções como p para a proporção de sucesso e q como a proporção de fracasso. O cálculo de p pode ser realizado de duas formas. De modo empírico, basta contar o número de indivíduos na condição de sucesso, e dividir pelo número total de elementos da amostra. Esse método pode parecer simples, mas imagine uma amostra muito grande. Para auxiliar no cálculo, podemos considerar que todos os casos de sucesso possuem valor “1”, e todos os fracassos valem “0”. Uma vez de�nido o valor das variáveis conforme seu sucesso ou fracasso, a média pode ser calculada por meio do estimador . Uma vez calculada a média, podemos calcular a variância da proporção por meio da expressão: Conforme o teorema do limite central, podemos escrever os parâmetros conforme: Lembre-se que o termo está relacionado aos parâmetros amostrais, enquanto o fator p se refere aos dados populacionais. Do mesmo modo que a análise da média, podemos expressar a relação entre os valores amostrais e populacionais conforme a expressão: var (p) = = p (1 − p) (10)s2 = N (p; ) (11)p̂ p (1 − p) n − −−−−−−− √ z = ∼ N (0, 1) (12) − pp̂ p(1−p) n − −−−− √ Aproximação à Distribuição Normal e Propriedades Vimos ao longo da aula os conceitos sobre a amostragem e o teorema do limite central. A partir desse teorema, vimos que, em uma amostra cuja distribuição de probabilidade segue uma função binomial, os valores tendem a se acumular próximo à média populacional. Esse comportamento, como já dito anteriormente, descreve o comportamento de uma distribuição normal. Para estudar com relação ao comportamento de uma amostra, a �m de conferir se esta tem um comportamento normal, existem diversas técnicas. Entre elas, a mais simples é a representação grá�ca dos dados por meio de histogramas, e comparar o comportamento do histograma ao da distribuição normal. Na Figura 1.4 temos duas distribuições amostrais. Na Figura 1.4a vemos que ela tem a forma (comportamento) de uma distribuição normal. Nesse caso, seria possível aproximar as avaliações com relação à amostra. Agora, no caso da Figura 1.4b, percebe-se que a amostra não segue uma distribuição normal. A distribuição normal é uma distribuição contínua, amplamente utilizada nas análises estatísticas.Não é possível o cálculo analítico de sua função de probabilidade, então é comum o uso de tabelas de probabilidade. Seu formato se assemelha à de um sino, sendo simétrica com relação ao valor máximo. Para a aplicação da distribuição, é comum a aplicação da distribuição normal padrão, com média nula e desvio-padrão unitário. Para aplicar a distribuição normal padrão a qualquer amostra, deve-se aplicar a normalização a seguir: O valor da variável x, quando normalizado para a variável z, também pode ser chamado de escore-z. Ao estudar distribuição normal, assim como outras distribuições, devemos distinguir a função Figura 1.4 - Comparação entre distribuições de frequência amostrais (barras) e a distribuição normal (linha) Fonte: Elaborada pelo autor. z = (13) x − μ σ probabilidade e a função densidade de probabilidade. A função probabilidade é aquela que de�ne os valores da função para os valores de x. No caso da distribuição normal, a função é de�nida como: A outra função importante é a função de densidade de probabilidade F(x), ela é obtida pela integral da função de probabilidade. Aproveitando o conceito sobre a integral da função de probabilidade, podemos reforçar a ideia de que a integral se refere à área sob a curva de f(x). Então, a probabilidade de um evento está relacionada diretamente à área limitada entre as condições levantadas. Por exemplo, se desejamos o valor o valor do evento cuja probabilidade é menor que 30%, basta localizar o valor de x cuja integral vale 0,3 (ou 30%), como representado na Figura 1.5. f (x) = (14) 1 σ 2π−−√ e − 1 2 ( )x−μ σ 2 F (x) = P (x) = f (x) dx (15)∫ −∞ +∞ Para entender sobre a aplicação da distribuição normal, imagine uma população cuja média vale 5 e o desvio-padrão vale 0,5. Se desejamos saber qual a chance de selecionar uma amostra com valor médio 4,5, devemos calcular o valor da variável z, e obter a probabilidade equivalente. Então: Consultando as tabelas de distribuição normal ou utilizando softwares estatísticos, temos que: Figura 1.5 - De�nição de probabilidade com base na área sob a função de probabilidade normal Fonte: Elaborada pelo autor. z = = = −1 x − μ σ 4, 5 − 5 0, 5 P(z < −1) = 0, 15 = 15 São propriedades da distribuição normal: a. A área total acumulada vale 1; b. A área acumulada é quase nula para valores de z próximos a z=-3,5 (ou probabilidade nula); c. A área acumulada aumenta conforme os valores de z aumentam; d. A área acumulada para z=0 é 0,5 (ou probabilidade de 50%); e. A área acumulada é próxima a 1 para valores de z próximos a z=3,5 (ou probabilidade de 100%). Outras Distribuições Amostrais Ao estudar a inferência estatística ao longo desta Unidade, vimos que ela é diretamente relacionada ao tamanho da amostra. Então, são necessárias distribuições que levem em consideração o tamanho da amostra para o cálculo de suas densidades de probabilidades. Devido à complexidade no cálculo de suas funções densidade de probabilidade, os valores mais comuns são fornecidos em tabelas que relacionam o grau de liberdade e a probabilidade de interesse. Entre elas temos: a. Distribuição t de Student: é uma distribuição com comportamento semelhante ao da distribuição normal, porém pode ter sua forma variando conforme o tamanho da amostra, tornando-a mais ou menos estreita nas bases. b. Distribuição qui-quadrado: é uma distribuição amplamente usada na inferência estatística, quando o objeto de estudo é a variação dos valores. Por isso ela pode ser usada tanto para inferir sobre a variância de uma amostra quanto para comparar o comportamento de duas distribuições. c. Distribuição f de Fisher-Snedecor: aplicada também na análise da variação dos dados, sendo aplicada por exemplo para testes ANOVA (Análise de Variância). praticarVamos Praticar Em período eleitoral, são comuns as pesquisas eleitorais com períodos cada vez mais curtos. Isso só é possível graças à amostragem dos eleitores. Se, em uma pesquisa, um dos candidatos apresenta 30% das intenções de votos, caso a amostra com n = 100 possua um comportamento normal, assinale a alternativa que apresenta qual a variância dentro da população: a) . b) . c) . d) . e) . = 0, 01σ2 = 0, 004σ2 = 0, 03σ2 = 0, 01σ2 = 0, 046σ2 indicações Material Complementar WEB Ensinem estatística antes da matemática Ano: 2009 Comentário: o professor Arthur Benjamin propõe que o ensino da Estatística deveria ser considerado de forma mais assertiva, reduzindo a atenção no cálculo. Isso, segundo o professor, seria de aplicação mais ampla e proveitosa no cotidiano, já que a estatística fornece as ferramentas para a análise mais prática dos fenômenos. ACESSAR https://www.ted.com/talks/arthur_benjamin_teach_statistics_before_calculus?language=pt-br#t-163203 LIVRO Estatística aplicada usando Excel Elvira Maria Alves Nunes, Wesley Marcos de Almeida Editora: EDUEM ISBN: 978-85-7628-538-0 Comentário: Este livro mostra como as principais análises estatísticas podem ser realizadas com o uso do software. No caso de utilização de outros softwares de planilhas, o livro fornece os conceitos que podem ser replicados em outros softwares. conclusão Conclusão Ao longo da Unidade vimos os conceitos iniciais sobre a Inferência Estatística. Esses conceitos serão de suma importância nos desenvolvimentos futuros, pois ajudarão a compreender como a inferência é importante em diversos campos da pesquisa. A amostragem correta dispõe dados não viesados, que fornecerão informações con�áveis sobre a população. Vimos que é errado qualquer conclusão com relação aos dados apenas com os valores numéricos estimados pela amostra, sendo necessária a construção dos testes de hipótese. O conceito sobre o Teorema do Limite Central, juntamente com as distribuições amostrais ajudam a compreender por que a chance de um elemento selecionado em uma amostra possuir valores próximos à da média é grande, e abrem caminho para as análises a serem realizadas a partir do índice de con�ança desejado aos resultados. referências Referências Bibliográ�cas BONAFINI, F. C. (org.). Probabilidade e Estatística. São Paulo: Pearson Education do Brasil, 2015. (Col. Bibliogra�a Universitária Pearson). Disponível na Biblioteca Virtual Universitária. LARSON, R.; FARBER, B. Estatística Aplicada. 6. ed. São Paulo: Pearson, 2016. Disponível na Biblioteca Virtual Universitária. MORETTIM, L. G. Estatística Básica: probabilidade e inferência. 1. ed. São Paulo: Pearson, 2010. Disponível na Biblioteca Virtual Universitária. WALPOLE, R. E. et al. Probabilidade e Estatística: para engenharia e ciências. 8. ed. São Paulo: Pearson, 2009. Disponível na Biblioteca Virtual Universitária.