Inferencia estatistica 1

•

FMU

Rodrigo Melo

09/12/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 42 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 42 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 42 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

INFERÊNCIA ESTATÍSTICAINFERÊNCIA ESTATÍSTICA
INFERÊNCIA ESTATÍSTICAINFERÊNCIA ESTATÍSTICA
Autor: Dr. Bruno Henrique Oliveira Mulina
Revisor : Antonio Gomes de Mattos Neto
IN IC IAR
introduçãoIntrodução
É muito comum a necessidade de estudar o comportamento de grandes populações através de
amostras. O processo de amostragem permite diminuir os gastos com pesquisa, já que reduz o
número de indivíduos a serem avaliados. Em muitos casos, a escolha de apenas alguns indivíduos
para estudar as condições da população é a única forma de estudo. Imagine descobrir se um carro é
seguro por meio de testes de colisão. Se �zermos com todos os carros, não sobraria nenhum para
ser usado pelos motoristas. A �m de compreender os conceitos e ferramentas aplicados para o
estudo e análise das populações a partir de dados obtidos de uma amostra, temos como objetivo
desta aula compreender os alicerces da Inferência Estatística.
Quando realizamos um experimento, e conhecemos todos os elementos avaliados, dizemos que
temos uma população. Com isso, temos certeza com relação a todas as análises desenvolvidas,
como a média, a variância ou a proporção de indivíduos. Com isso, podemos responder diretamente
com relação a comparações com outras populações ou com relação a valores pré-estabelecidos.
Porém, em muitos casos, o estudo envolvendo a população se torna complexo ou mesmo inviável.
Nesses casos, é necessária a amostragem dos elementos dentro da população. Esse processo é
muito comum em diversas áreas de pesquisa, e permite que sejam selecionados indivíduos que
possibilitem uma análise signi�cativa com relação à população. Um exemplo de amostragem são as
pesquisas de intenção de voto. Como é possível saber a proporção da população que vote no
Inferência EstatísticaInferência Estatística
candidato A ou B em tão pouco tempo? Simples. O estudo não se aplica a todos os eleitores, mas
sim com uma amostra de aproximadamente 2500 pessoas.
Ao estudar apenas os indivíduos da população selecionados pela amostragem, nos deparamos com
uma situação: como ter certeza de que o valor obtido para aquela amostra é realmente o correto?
Para responder a essa pergunta, a Inferência Estatística fornece ferramentas capazes de fornecer
conclusões referentes à população com base apenas em uma amostra.
Devemos compreender dois conceitos bastante importantes na estatística: a amostragem e o
censo. A amostragem se refere à seleção de uma parcela da população. Já o censo é a pesquisa
envolvendo toda a população. Ainda diferenciando esses dois termos, o censo fornece dados exatos
com relação à população, enquanto a amostragem são valores aproximados. Sabe aquela margem
de erro que aparece nas pesquisas de intenção de voto? Ela é consequência da amostragem.
Quando sai o resultado da eleição, não existe essa margem de erro, pois agora temos o dado de
todos os eleitores (da população votante).
Então, de modo geral, a inferência estatística é o conjunto de ferramentas capazes de fornecer
informações a partir de dados amostrais. Essas ferramentas, entre elas a estimação de parâmetros e
os testes de hipóteses, juntamente com os conceitos básicos sobre a inferência estatísticas, serão
apresentados a seguir.
Amostragem
A amostragem pode ser considerada uma das bases da inferência estatística. Por meio dela
podemos de�nir quais os elementos da população serão usados nos estudos. Uma amostragem mal
elaborada pode afetar análises futuras. Por esse motivo a amostragem deve ser realizada seguindo
certos critérios que representem corretamente a população.
Ao de�nir uma amostra, a aleatoriedade dos elementos permite obter uma amostra não viesada,
isso é, todos os elementos têm a mesma chance de serem escolhidos. A amostra também deve ser
representativa. Isso quer dizer que a amostra deve ter um comportamento próximo ao da
população, e possuir um tamanho signi�cativo.
Os principais tipos de amostragem se diferem em amostragem probabilística e amostragem não
probabilística. Na amostragem não probabilística não se sabe nada sobre a população a ser
amostrada, como o número de indivíduos. Esse tipo de amostragem pode gerar resultados viesados,
já que a escolha dos indivíduos pode ser motivada por conveniência, julgamento, ou outro critério
subjetivo.
Já a amostragem probabilística é a mais utilizada, e aplica algum critério para determinar quais os
elementos serão usados. Além disso, se tem acesso a todos os indivíduos da população. Os métodos
de amostragem probabilística mais usados são: aleatória, sistemática, estrati�cada e por
conglomerado.
Uma amostragem aleatória é aquela na qual os elementos são escolhidos ao acaso, sem nenhum
critério. É um método simples, porém a ausência de um critério pode gerar amostras ruins sob o
ponto de vista estatístico (não representativas). A amostragem sistemática é semelhante à
aleatória, porém existe um critério de seleção (não relacionado à característica a ser estudada). Por
exemplo, dispor os elementos da amostra em sequência e escolher aqueles nas posições ímpares.
A amostragem estrati�cada é feita produzindo grupos de indivíduos segundo algum critério, e
dentro de cada grupo, é aplicada uma amostragem aleatória ou sistemática, de modo que exista ao
menos um indivíduo com uma característica de interesse. A amostragem por conglomerado se
comporta de forma análoga à estrati�cada, porém a amostragem é realizada selecionando um ou
mais agrupamentos.
Independentemente do tipo de amostragem, é importante calcular o tamanho da amostra. Para
isso, devemos determinar uma margem de erro para as análises a serem realizadas. Para calcular o
tamanho da amostra, aplicamos a expressão:
Onde N é o tamanho da população, n é o tamanho da amostra, n0 é a aproximação inicial da
amostra e E0 o erro amostral desejável (1%, 2%, 5%, ...). Por exemplo, se uma população possui 1000
indivíduos, e desejamos uma margem de erro de 1%:
Conceitos gerais da Inferência Estatística
Como já foi dito, o objetivo da inferência estatística é estimar sobre parâmetros populacionais, ou
avaliar uma suposição, com base em estatísticas amostrais como a média, o desvio-padrão (ou
variância) e a proporção de indivíduos. Para cada tipo de parâmetro, ou de situação, teremos uma
ferramenta, ou estatística, a ser aplicada.
Além da amostragem já vista, outros dois conceitos são muito importantes para a análise inferencial:
o nível de con�ança IC e a signi�cância α.
Antes de de�nir esses conceitos, imagine que, em uma população de 100 alunos, 20 sejam
selecionados para estudo com relação à altura. É possível que, dentro os 80 alunos não
selecionados, exista um aluno com altura muito maior ou muito menor que a maioria dos alunos.
Por ser um caso extraordinário, é possível que, durante a amostragem, ele não seja selecionado. É
lógico que a altura desse aluno afeta nos estudos, mas não aparecerá nos dados amostrais.
n = = (1)
N × n0
N + n0
n0
1
E2
= = = 1000 n = = = 909 (2)n0
1
E2
1
0, 012
N × n0
N + n0
1000 × 10000
1000 + 10000
Para resolver essa questão, é de�nida um nível de con�ança nos dados amostrais. O nível de
con�ança IC fornece a probabilidade de a estimativa realizada na amostra estar correta com
relação ao valor exato da população. Por exemplo, se de�nirmos um índice de con�ança de 95%,
signi�ca que existe 95% de chance de inferir (estimar) corretamente sobre a população.
Mais importante que o índice de con�ança, a signi�cância estatística α se refere à probabilidade de
erro nos resultados. Como a soma entre o índice de con�ança e a signi�cância deve ser 100%, a
signi�cância é obtida por meio da expressão:
O estudo da signi�cância tem um papel especial nas inferências estatísticas, já que se comporta
diferente de acordo com o problema. Imagine que desejamos saber a margem de erro para a média
amostral. Nesse caso, metade dos valores errados são menores que a média, e a outra metade dos
erros se refere aos valores maiores.Assim, cada metade da signi�cância está relacionada a cada
intervalo de valores errados.
O índice de con�ança, assim como a signi�cância do teste, é de�nido no início dos estudos
estatísticos. Os valores mais comuns para a signi�cância são 1%, 5% e 10%, sendo 5% o mais usual.
Por esse motivo, caso seja omitida a informação sobre a signi�cância, adotaremos o valor de 5%.
Aplicações da Inferência Estatística
Como já foi dito, as principais aplicações da inferência estatística são a estimação de parâmetros e a
validação de testes de hipóteses. Mas, o que são essas ferramentas? Para responder a essa
pergunta, detalharemos cada uma dessas ferramentas.
Estimação de parâmetros
α = 1 − IC (3)
Imagine o caso: um fabricante de parafusos deve produzir parafusos com o diâmetro de 5 mm.
Porém, é impossível que se produzam parafusos de mesmo tamanho. Pequenas diferenças na
matéria-prima e condições de operação podem ocasionar variação no diâmetro do parafuso. Nesse
caso, podemos ter parafusos de 5 mm, 4,9 mm, 5,2 mm, 6 mm, 4 mm. Então, como saber se a
produção está correta ou a máquina necessita de manutenção?
A resposta é simples: devemos amostrar os parafusos produzidos e estimar o diâmetro com base
em uma margem de con�ança. Se for dito que os parafusos possuem diâmetros entre 4,8 mm e 5,2
mm, com uma con�ança de 95%, signi�ca que 95% dos parafusos produzidos estão dentro dessa
margem de valores. Isso não impede que aconteça de aparecer um parafuso com 4,5 mm de
diâmetro, mas a chance disso ocorrer está dentro dos 5% fora da margem de con�ança.
A estimativa de um valor a partir da inferência pode ser interpretada gra�camente na Figura 1.1.
Nela, temos um intervalo de con�ança para o valor do parâmetro (média, desvio-padrão ou
proporção). Esse intervalo de con�ança de�ne a margem de valores admitidos como corretos.
saiba maisSaiba mais
A análise da variação das medidas é importante na
metrologia. Conforme a variável a ser mensurada, existem
metodologias para estimar as margens de con�ança, ou
incertezas de medição, para diferentes tipos de
instrumentos. A ISO-GUM 2008, é umas das principais
normas para determinação das incertezas em medições.
Fonte: Elaborado pelo autor.
ACESSAR
http://www.inmetro.gov.br/noticias/conteudo/iso_gum_versao_site.pdf
Testes de Hipóteses
A outra principal aplicação da inferência estatística são os testes de hipóteses. Imagine que, com
base na amostragem dos alunos de uma escola, obtivemos a média de 1,6 m, e um intervalo de
con�ança de 0,5 m. Se quiséssemos supor que a altura média é maior ou igual a 1,7 m, não
podemos responder de forma exata apenas observando o valor da média observada na amostra. É
preciso avaliar, com base em um teste de hipótese, se, de modo simples, 1,6 m é maior ou igual a
1,7m.
Um teste de hipótese é uma metodologia estatística que auxilia na tomada de decisões sobre as
informações de uma ou mais populações com base nos dados amostrais. Para isso, são levantadas
duas hipóteses, uma chamada de hipótese nula, , cuja condição é dada pela suposição a ser
respondida, e outra chamada de hipótese alternativa, , que incorpora as possibilidades não
cobertas pela hipótese nula. Uma vez formuladas as hipóteses, são aplicadas estatísticas (cálculos)
Figura 1.1 - Representação grá�ca do intervalo de con�ança ou margem de con�ança
Fonte: Elaborada pelo autor.
H0
H1
que permitem que a decisão seja tomada. Essa decisão é respondida de forma binária (a hipótese
proposta é aceita ou rejeitada).
Voltando ao exemplo da altura, a hipótese nula buscaria responder se a média amostral (ou
observada) é igual ou maior a 1,7 m, enquanto teríamos como hipótese alternativa a possibilidade
da altura amostral ser menor que 1,7 m. Matematicamente, isso é descrito como:
Por que não podemos, com base apenas na observação da média amostral, responder à suposição
feita? Porque os valores são amostrais, e por isso possuem intervalo de con�ança. Então, os testes
devem avaliar a interação entre os intervalos de con�ança conforme a hipótese levantada. Devemos
sempre lembrar que os testes de hipóteses também possuem seu índice de con�ança (ou uma
signi�cância estatística).
Os testes de hipótese são realizados de duas maneiras diferentes: por meio da região crítica e a
partir do p-valor.
Os testes de hipótese com base na análise da região crítica são realizados com base na distinção de
dois intervalos de probabilidade, um referente à hipótese nula e outro para a alternativa. O tamanho
desses intervalos é calculado com base no valor da signi�cância do teste e nas hipóteses levantadas.
De�nidos os intervalos, um valor normalizado é calculado. Caso o valor esteja no intervalo da
hipótese nula, a suposição levantada está correta, caso contrário, a hipótese nula é rejeitada.
Já os testes de hipótese baseados na análise do p-valor avaliam a signi�cância dos dados
observados. Isso é feito calculando a probabilidade dos dados observados estarem certos ou não.
Quanto maior o índice de con�ança obtido (menor signi�cância), maior a chance da suposição
levantada estar correta. Nesse caso, o valor normalizado é utilizado para calcular a probabilidade
{ (4): μ ≥ 1, 70H0
: μ < 1, 70H1
dos dados estarem corretos, ou o p-valor do teste. Se o p-valor é menor que a signi�cância
levantada, é possível dizer que a hipótese nula é aceita. Caso contrário, ela é rejeitada.
Entre as duas ferramentas apresentadas, podemos distinguir a área de aplicação de cada uma delas.
No caso dos intervalos de con�ança, eles serão utilizados para estimar o valor de um parâmetro
populacional. Agora, quando é de interesse comparar valores, então deverão ser aplicados os testes
de hipótese.
Aplicação
A inferência estatística deve ser aplicada para
parâmetros da população (média, variância e
proporção) com base em informações de uma
amostra, a partir de intervalos de con�ança ou testes
de hipóteses.
praticarVamos Praticar
Ao avaliar a e�ciência de um novo remédio, é realizado o procedimento no qual são construídos dois grupos
de pacientes, no qual um recebe o remédio enquanto o outro recebe um placebo. Sobre o procedimento
para con�rmação dos resultados, assinale a alternativa correta.
a) Por um teste de hipótese, com hipótese nula que o remédio tem efeito maior ou igual que o
placebo, e alternativa de que o remédio tem efeito menor ou igual.
b) Se o grupo que recebeu o remédio possui maior número de pacientes curados, então ele surte
efeito.
c) Calculamos o intervalo de con�ança dos resultados do grupo de placebo e do remédio.
d) Basta saber a porcentagem de um grupo e comparar numericamente com o outro grupo, já que a
porcentagem da amostra é igual à da população.
e) Aplicar um teste de hipótese que permita con�rmar se os resultados são iguais ou diferentes.
Quando se deseja determinar o valor de um parâmetro da população a partir de um dado amostral,
é dito que estamos estimando seu valor. Um estimador é o conjunto de cálculos e estatísticas
aplicadas para estimar o parâmetro populacional. Essa estimação pode ser pontual, quando a
estimativa é um valor, ou intervalar, quando se diz que o valor desse parâmetro é uma faixa de
possíveis valores.
Por exemplo, vamos estimar a média de notas dos alunos de uma escola. Para isso, realizaremos a
amostragem dos alunos, e calcularemos o valor médio da nota dentro da amostra. Esse valor pode
ser considerado então um estimador pontual da média das notas da escola. Agora, se for de�nido
um intervalo de con�ança para o valor médio das notas, teremos um estimador intervalar.
EstimadoresEstimadores
Uma confusão comum é distinguir os termos estimadores e estimativa. Um estimador é a
estatística aplicada para obter o valor para a população. Já a estimativa é o valor numérico do
parâmetro, obtido por meio de um estimador.
Ao estimar um valor, podemos dizer que existe uma função estimador T, que forneça a melhor
estimativa para o parâmetro. Essa função é obtida usualmentepor meio de três técnicas: método
dos momentos, método dos mínimos quadrados ordinários e o método de máxima
verossimilhança.
Estimadores pontuais
Como dito, os estimadores são funções que permitem estimar o valor populacional a partir dos
dados amostrais. Serão apresentados os métodos mais usados.
O Método dos Momentos de�ne que cada parâmetro avaliado possui um momento de ordem k.
Um momento é a média dos valores da amostra elevados a k, ou seja:
A partir da manipulação da expressão do momento, é possível obter os estimadores pontuais. Esse
método necessita do desenvolvimento de uma função estatística especí�ca para cada parâmetro
relacionado à população (média e variância).
O Método dos Mínimos Quadrados Ordinários é amplamente aplicado em problemas de
regressão, aplicado para estimar os coe�cientes (estimadores) de um modelo de regressão. O
desenvolvimento desse método envolve a minimização da diferença entre os valores calculados por
meio de um modelo de regressão obtido e os valores exatos já conhecidos.
= ∑ (5)Mk
1
n
xk
O princípio da máxima verossimilhança a�rma que o estimador pontual é um valor que maximiza
a probabilidade de se obter uma distribuição cujo valor possui maior chance de estar correto. A
partir do conhecimento prévio sobre o comportamento da função de probabilidade da amostra, é
possível, por meio do produtório das probabilidades de cada elemento da amostra, obter a
expressão para o estimador.
Independentemente do método de estimação aplicado, é comum a utilização dos estimadores para
a média, para a variância e para a proporção amostral. Esses estimadores são comumentes
referidos como parâmetros amostrais. O Quadro 1.1 apresenta os estimadores mais utilizados para
esses parâmetros, onde x é o valor do elemento e pi a probabilidade relacionada à cada elemento.
Não confunda a probabilidade com a proporção amostral.
Quadro 1.1 - Estimadores pontuais
Fonte: Elaborado pelo autor.
O desvio-padrão amostral s é obtido a partir da variância amostral:
É importante ressaltar um detalhe importante. Quando nos referimos a um estimador pontual,
podemos dizer, na maioria dos casos, que o seu valor numérico é a melhor estimativa desse
parâmetro com relação ao valor da população. Para garantir que isso seja verdade (o estimador
fornecer a melhor estimativa), devem-se seguir alguns critérios que serão apresentados em breve.
s = (6)s2
−−√
Propriedades de um bom estimador pontual
Devemos compreender os critérios para de�nir um bom estimador. Esses critérios são análogos aos
que buscamos no estudo estatístico. São eles:
a.Não tendencioso: também chamado de estimador não viesado. É dito que o estimador é não
tendencioso quando a estimativa calculada é igual à esperança do próprio parâmetro. Para isso, a
probabilidade pi deve ser igual para todos os elementos. Assim os estimadores não tendenciosos
podem ser reescritos como descritos no Quadro 1.2.
reflitaRe�ita
Por mais que seja natural na área de pesquisa a
tomada de decisões a partir de dados de uma
amostra, vimos que podemos ser levados a
tomadas de decisões incorretas. Então, será que é
correto a�rmar algo sobre a mudança da
temperatura do planeta apenas com base na
memória pessoal?
Fonte: Elaborado pelo autor.
Quadro 1.2 - Estimadores não tendenciosos
Fonte: Elaborado pelo autor.
O estudo sobre o viés do estimador está relacionado à acurácia dos valores. A acurácia se refere a
quão próximo o valor obtido pelo estimador está do valor exato (da população). Isso quer dizer que,
se um estimador possui uma acurácia alta, ele é mais exato (valor próximo ao da população).
b. Su�ciência: esse critério nos informa que a amostra selecionada é capaz de representar de forma
clara e completa a população, sendo assim, a adição que qualquer outro elemento na amostra não
contribui na melhora dos dados. Isso ocorre quando a população segue uma distribuição
probabilística normal, em que a chance de escolher um elemento com o valor próximo à da
estimativa já existente é maior que a chance de encontrar um indivíduo que resultará em uma
estimativa signi�cativamente diferente.
c. Consistência: essa propriedade se refere à relação entre o tamanho da amostra e a aproximação
entre o valor estimado e o valor exato. A consistência informa que o aumento do tamanho da
amostra implica na convergência das estimativas para o valor populacional. Se o estimador é bom,
isso implica em dizer que a média permanece com o valor próximo, mas a variância diminui.
d. E�ciência: ao comparar dois estimadores, será considerado o melhor aquele que apresentar
menor Erro Quadrático Médio (EQM). O EQM está relacionado à variância dos valores amostrais. De
modo simples, quanto menor a variância dentro da amostra, melhor a estimativa.
A e�ciência está relacionada diretamente à variação dos elementos da amostra em torno do
estimador. Pode-se dizer que mede quanto os valores estão espalhados em torno do estimador. Por
esse motivo um estimador e�ciente é aquele que possui menor variância nos dados, já que é mais
preciso.
praticarVamos Praticar
Em uma amostragem realizada para análise da nota dos alunos em uma escola, foram selecionados 10
indivíduos. Calculando os parâmetros das amostras, foram obtidas a média 6 e desvio-padrão 1. Avaliando
os dados obtidos, assinale a alternativa correta.
a) Se amostrarmos mais 10 indivíduos e a média passar a ser de 8, signi�ca que ele era um bom
estimador.
b) Essa nota foi obtida selecionando os alunos que obtiveram as melhores notas nas provas �nais.
c) A amostragem de 5 novos elementos não alterou a média amostral, mas aumentou a variância
amostral. Isso quer dizer que o novo estimador é melhor que o anterior.
d) Se esse estimador é bom, se forem amostrados novos elementos eles devem possuir uma nota
próxima a 6.
e) Se outra amostragem for realizada, agora com 40 indivíduos, que resulta em mesma média e
desvio-padrão amostral, então essa segunda amostra é a melhor.
Até o momento vimos com relação a indicadores (estimadores) pontuais. Porém, antes de validar se
o estimador é bom ou não, devemos compreender como todos os indivíduos dentro da população e
da amostra se comportam. Para isso veremos agora com relação às distribuições amostrais.
Distribuição amostral
A distribuição amostral é a distribuição de probabilidades associada à estatística, assumindo todas
as amostras possíveis de mesmo tamanho (também chamados de graus de liberdade), obtidas da
mesma população. De modo simples, o estudo das distribuições amostrais está relacionado ao
Distribuições AmostraisDistribuições Amostrais
modo no qual uma amostra, ou um conjunto de amostras, se comportam frente ao comportamento
da população.
Para compreender a importância da distribuição amostral, imaginemos uma população aleatória
onde serão amostrados cinco indivíduos de uma população de mil elementos. Como são poucos
elementos, a chance de que esses valores se apresentem em uma proporção semelhante à vista na
população é baixa. Aumentando o número de elementos amostrados, perceberemos que a
distribuição dos elementos possuirá uma con�guração semelhante àquela vista para a população.
Baseado no que foi apresentado anteriormente, é possível dizer que uma amostra possuirá o
comportamento semelhante ao da população que a originou. Assim, se a amostragem for realizada
corretamente, as análises realizadas na amostra poderão ser inferidas para a população sem que
haja distorções por conta de mudanças nas distribuições de probabilidade.
Teorema do Limite Central
Para compreender sobre o Teorema do Limite Central, usaremos o experimento chamado
tabuleiro de Galton. Esse tabuleiro é mostrado na Figura 1.2. Nele temos uma saída na qual várias
esferas serão soltas em queda livre. Ao longo do trajeto percorrido, existem obstáculos nos quais as
esferas se chocam, mudando sua direção. E na parte de baixo do tabuleiro existem canaletas para
capturar as esferas conforme a posiçãoque caem.
Se jogarmos algumas esferas apenas, como mostra a Figura 1.3a, não poderemos ter clareza com
relação à posição em que essas esferas cairão, independentemente da posição de saída das
mesmas. Agora, liberando um número maior de esferas (mais que 30 esferas), poderemos ver que
elas se acumularão nas canaletas seguindo um padrão. Elas se acumularão principalmente abaixo
da saída das esferas, independentemente de sua posição, como mostram as Figuras 1.3b e 1.3c.
Ao transportar esse experimento para a estatística, vemos que cada esfera, ao colidir com um
obstáculo, tem 50% de chances de ir para a direita e outros 50% de ir para a esquerda. Assim,
podemos dizer que a probabilidade das esferas irem para um lado segue uma distribuição binomial,
com chances de “acerto” e “erro” iguais.
O padrão de resultados do tabuleiro mostra uma distribuição com média amostral centrada na
média populacional μ (no caso do exemplo, onde se localiza a saída das esferas). A observação
individual (Figura 1.3a) mostra uma grande variabilidade dos resultados, enquanto com o aumento
da amostra, a variação nos valores diminui (Figuras 1.3b e 1.3c). Isso signi�ca que quanto maior o
tamanho da amostra, mais próximo estará de μ. Isso quer dizer que, quanto maior os graus de
liberdade, mais próximo o comportamento da amostra é da população.
Figura 1.3 - Disposição das esferas no tabuleiro de Galton
Fonte: Elaborada pelo autor.
Uma ressalva importante. Quando avaliamos a distribuição amostral, quanto maior o número de
elementos, mais a amostra se aproxima da população. Porém, não confunda com os estimadores
pontuais. No caso dos estimadores pontuais, os dados são resumidos em um único valor, sem se
preocupar diretamente com o modo com que os valores da amostra se comportam.
Se uma amostra segue o comportamento descrito anteriormente, e o número de elementos n é
muito grande, a distribuição amostral se assemelha à distribuição normal. A distribuição normal,
por sua vez, é uma das principais distribuições de probabilidade aplicadas na estatística.
Distribuição amostral da média
Como já foi dito, a distribuição amostral está relacionada ao estudo de diversas amostras que
possuam como origem a mesma população. Se a amostra possui o comportamento da distribuição
normal, podemos estimar os parâmetros de média e desvio-padrão da população a partir dos dados
amostrais.
Existem dois casos a serem avaliados na geração dessas amostras. No primeiro caso, podemos gerar
diferentes amostras com a reposição de elementos já aplicados em amostras anteriores. Essa
análise também pode ser expandida quando se realiza uma única amostragem. Para esse caso, os
estimadores são descritos como:
Por exemplo, se temos uma amostra de tamanho n = 50, onde são conhecidas a média populacional
(μ=10) e variância populacional (σ2=3), os valores amostrais para esses parâmetros são:
∼ Normal(μ; ) = μ = (7) x
−
σ2
n
x
−
s2
σ2
n
A solução inversa também é válida. Isso é, conhecendo os valores amostrais é possível estimar os
parâmetros populacionais.
Caso a amostragem não permitir repetição, isso é, uma vez que a primeira amostra é retirada, os
elementos não retornam à população para a nova amostragem. Nesse caso, os estimadores serão
diferentes:
Para compreender como aplicar esses estimadores, realizaremos o mesmo exemplo anterior, mas
adotando que não poderão ser repostos os elementos, em uma população de N=1000 elementos.
Assim:
É importante ter em mente uma relação entre os valores populacionais e amostrais em uma
distribuição normal. Com base no teorema do limite central, temos que:
∼ Normal(10; ) ⇒ = 10 e = = 0, 06x
−
3
50
x
−
s2
3
50
(8)∼ Normal(μ; × )x
−
σ2
n
N−n
n−1
= μx
−
= ×s2 σ
2
n
N−n
n−1
∼ Normal(10; × ) ⇒ = 10 e = × = 1, 163x
−
3
50
1000 − 50
50 − 1
x
−
s2
3
50
1000 − 50
50 − 1
z = (9)
− μx
−
( )σ
n√
Onde o valor de z representa um parâmetro normalizado para estudo da distribuição normal. Essa
relação também será importante para exercícios que necessitam do cálculo da probabilidade de um
determinado valor amostral ser maior ou menor que um valor populacional.
praticarVamos Praticar
Ao avaliar uma amostra, foi percebido que ela possui um comportamento semelhante ao da distribuição
normal. Isso quer dizer que a probabilidade dos elementos possuírem valores próximos à da média é maior
que valores muito distantes da média. Em uma amostra que foi retirada de modo que esses elementos não
possam ser repostos, cujo tamanho original da população era de 500 elementos, e as amostras são
compostas de 30 indivíduos, os valores amostrais para a média e o desvio-padrão foram, respectivamente,
20 e 4. Sobre o cálculo dos dados populacionais assinale a alternativa correta:
a) e .
b) e .
c) e .
d) e .
e) e .
μ = 20 σ = 4
μ = 20 σ = 5, 4
μ = 18 σ = 3, 2
μ = 12 σ = 4
μ = 12 σ = 1, 6
Do mesmo modo que avaliamos a distribuição amostral para a média dos valores em uma amostra,
compreenderemos como se relacionam as proporções amostrais e populacionais em uma
distribuição que se comporte de modo análogo ao apresentado pelo teorema do valor central.
Existem distribuições amostrais para o estudo da média de pequenas amostras e da variância
amostral. Essas distribuições têm em comum o conceito de graus de liberdade e o grau de
signi�cância.
Distribuição da Proporção
Outras DistribuiçõesOutras Distribuições
AmostraisAmostrais
Antes de estudar a distribuição, de�niremos que os indivíduos, dentro de uma amostra de tamanho
n, sejam classi�cados de modo binário, ou seja, os indivíduos sejam de�nidos como uma condição
de sucesso ou de fracasso. Feito isso, podemos distinguir agora as proporções como p para a
proporção de sucesso e q como a proporção de fracasso.
O cálculo de p pode ser realizado de duas formas. De modo empírico, basta contar o número de
indivíduos na condição de sucesso, e dividir pelo número total de elementos da amostra. Esse
método pode parecer simples, mas imagine uma amostra muito grande. Para auxiliar no cálculo,
podemos considerar que todos os casos de sucesso possuem valor “1”, e todos os fracassos valem
“0”. Uma vez de�nido o valor das variáveis conforme seu sucesso ou fracasso, a média pode ser
calculada por meio do estimador . Uma vez calculada a média, podemos calcular a variância da
proporção por meio da expressão:
Conforme o teorema do limite central, podemos escrever os parâmetros conforme:
Lembre-se que o termo está relacionado aos parâmetros amostrais, enquanto o fator p se refere
aos dados populacionais. Do mesmo modo que a análise da média, podemos expressar a relação
entre os valores amostrais e populacionais conforme a expressão:
var (p) = = p (1 − p) (10)s2
= N (p; ) (11)p̂
p (1 − p)
n
− −−−−−−−
√
z = ∼ N (0, 1) (12)
− pp̂
p(1−p)
n
− −−−−
√
Aproximação à Distribuição Normal e
Propriedades
Vimos ao longo da aula os conceitos sobre a amostragem e o teorema do limite central. A partir
desse teorema, vimos que, em uma amostra cuja distribuição de probabilidade segue uma função
binomial, os valores tendem a se acumular próximo à média populacional. Esse comportamento,
como já dito anteriormente, descreve o comportamento de uma distribuição normal.
Para estudar com relação ao comportamento de uma amostra, a �m de conferir se esta tem um
comportamento normal, existem diversas técnicas. Entre elas, a mais simples é a representação
grá�ca dos dados por meio de histogramas, e comparar o comportamento do histograma ao da
distribuição normal. Na Figura 1.4 temos duas distribuições amostrais. Na Figura 1.4a vemos que ela
tem a forma (comportamento) de uma distribuição normal. Nesse caso, seria possível aproximar as
avaliações com relação à amostra. Agora, no caso da Figura 1.4b, percebe-se que a amostra não
segue uma distribuição normal.
A distribuição normal é uma distribuição contínua, amplamente utilizada nas análises estatísticas.Não é possível o cálculo analítico de sua função de probabilidade, então é comum o uso de tabelas
de probabilidade. Seu formato se assemelha à de um sino, sendo simétrica com relação ao valor
máximo. Para a aplicação da distribuição, é comum a aplicação da distribuição normal padrão, com
média nula e desvio-padrão unitário. Para aplicar a distribuição normal padrão a qualquer amostra,
deve-se aplicar a normalização a seguir:
O valor da variável x, quando normalizado para a variável z, também pode ser chamado de escore-z.
Ao estudar distribuição normal, assim como outras distribuições, devemos distinguir a função
Figura 1.4 - Comparação entre distribuições de frequência amostrais (barras) e a distribuição
normal (linha)
Fonte: Elaborada pelo autor.
z = (13)
x − μ
σ
probabilidade e a função densidade de probabilidade. A função probabilidade é aquela que de�ne
os valores da função para os valores de x. No caso da distribuição normal, a função é de�nida como:
A outra função importante é a função de densidade de probabilidade F(x), ela é obtida pela integral
da função de probabilidade.
Aproveitando o conceito sobre a integral da função de probabilidade, podemos reforçar a ideia de
que a integral se refere à área sob a curva de f(x). Então, a probabilidade de um evento está
relacionada diretamente à área limitada entre as condições levantadas. Por exemplo, se desejamos
o valor o valor do evento cuja probabilidade é menor que 30%, basta localizar o valor de x cuja
integral vale 0,3 (ou 30%), como representado na Figura 1.5.
f (x) = (14)
1
σ 2π−−√
e
− 1
2
( )x−μ
σ
2
F (x) = P (x) = f (x) dx (15)∫
−∞
+∞
Para entender sobre a aplicação da distribuição normal, imagine uma população cuja média vale 5 e
o desvio-padrão vale 0,5. Se desejamos saber qual a chance de selecionar uma amostra com valor
médio 4,5, devemos calcular o valor da variável z, e obter a probabilidade equivalente. Então:
Consultando as tabelas de distribuição normal ou utilizando softwares estatísticos, temos que:
Figura 1.5 - De�nição de probabilidade com base na área sob a função de probabilidade normal
Fonte: Elaborada pelo autor.
z = = = −1
x − μ
σ
4, 5 − 5
0, 5
P(z < −1) = 0, 15 = 15
São propriedades da distribuição normal:
a. A área total acumulada vale 1;
b. A área acumulada é quase nula para valores de z próximos a z=-3,5 (ou probabilidade nula);
c. A área acumulada aumenta conforme os valores de z aumentam;
d. A área acumulada para z=0 é 0,5 (ou probabilidade de 50%);
e. A área acumulada é próxima a 1 para valores de z próximos a z=3,5 (ou probabilidade de 100%).
Outras Distribuições Amostrais
Ao estudar a inferência estatística ao longo desta Unidade, vimos que ela é diretamente relacionada
ao tamanho da amostra. Então, são necessárias distribuições que levem em consideração o
tamanho da amostra para o cálculo de suas densidades de probabilidades. Devido à complexidade
no cálculo de suas funções densidade de probabilidade, os valores mais comuns são fornecidos em
tabelas que relacionam o grau de liberdade e a probabilidade de interesse. Entre elas temos:
a. Distribuição t de Student: é uma distribuição com comportamento semelhante ao da
distribuição normal, porém pode ter sua forma variando conforme o tamanho da amostra,
tornando-a mais ou menos estreita nas bases.
b. Distribuição qui-quadrado: é uma distribuição amplamente usada na inferência estatística,
quando o objeto de estudo é a variação dos valores. Por isso ela pode ser usada tanto para inferir
sobre a variância de uma amostra quanto para comparar o comportamento de duas distribuições.
c. Distribuição f de Fisher-Snedecor: aplicada também na análise da variação dos dados, sendo
aplicada por exemplo para testes ANOVA (Análise de Variância).
praticarVamos Praticar
Em período eleitoral, são comuns as pesquisas eleitorais com períodos cada vez mais curtos. Isso só é
possível graças à amostragem dos eleitores. Se, em uma pesquisa, um dos candidatos apresenta 30% das
intenções de votos, caso a amostra com n = 100 possua um comportamento normal, assinale a alternativa
que apresenta qual a variância dentro da população:
a) .
b) .
c) .
d) .
e) .
= 0, 01σ2
= 0, 004σ2
= 0, 03σ2
= 0, 01σ2
= 0, 046σ2
indicações
Material
Complementar
WEB
Ensinem estatística antes da matemática
Ano: 2009
Comentário: o professor Arthur Benjamin propõe que o ensino da
Estatística deveria ser considerado de forma mais assertiva, reduzindo a
atenção no cálculo. Isso, segundo o professor, seria de aplicação mais
ampla e proveitosa no cotidiano, já que a estatística fornece as
ferramentas para a análise mais prática dos fenômenos.
ACESSAR
https://www.ted.com/talks/arthur_benjamin_teach_statistics_before_calculus?language=pt-br#t-163203
LIVRO
Estatística aplicada usando Excel
Elvira Maria Alves Nunes, Wesley Marcos de Almeida
Editora: EDUEM
ISBN: 978-85-7628-538-0
Comentário: Este livro mostra como as principais análises estatísticas
podem ser realizadas com o uso do software. No caso de utilização de
outros softwares de planilhas, o livro fornece os conceitos que podem
ser replicados em outros softwares.
conclusão
Conclusão
Ao longo da Unidade vimos os conceitos iniciais sobre a Inferência Estatística. Esses conceitos serão
de suma importância nos desenvolvimentos futuros, pois ajudarão a compreender como a
inferência é importante em diversos campos da pesquisa. A amostragem correta dispõe dados não
viesados, que fornecerão informações con�áveis sobre a população. Vimos que é errado qualquer
conclusão com relação aos dados apenas com os valores numéricos estimados pela amostra, sendo
necessária a construção dos testes de hipótese.
O conceito sobre o Teorema do Limite Central, juntamente com as distribuições amostrais ajudam a
compreender por que a chance de um elemento selecionado em uma amostra possuir valores
próximos à da média é grande, e abrem caminho para as análises a serem realizadas a partir do
índice de con�ança desejado aos resultados.
referências
Referências
Bibliográ�cas
BONAFINI, F. C. (org.). Probabilidade e Estatística. São Paulo: Pearson Education do Brasil, 2015.
(Col. Bibliogra�a Universitária Pearson). Disponível na Biblioteca Virtual Universitária.
LARSON, R.; FARBER, B. Estatística Aplicada. 6. ed. São Paulo: Pearson, 2016. Disponível na
Biblioteca Virtual Universitária.
MORETTIM, L. G. Estatística Básica: probabilidade e inferência. 1. ed. São Paulo: Pearson, 2010.
Disponível na Biblioteca Virtual Universitária.
WALPOLE, R. E. et al. Probabilidade e Estatística: para engenharia e ciências. 8. ed. São Paulo:
Pearson, 2009. Disponível na Biblioteca Virtual Universitária.

Conteúdos escolhidos para você

51 pág.

Inferencia estatistica 1

FMU

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Mais conteúdos dessa disciplina

Conteúdos escolhidos para você

ESTATÍSTICA uni1

Probabilidade_e_Estatistica II

INFERENCIA_ESTATISTICA

Livro Estatistica_Inferencial Nilo Antônio 1°ed

Estatística Inferencial

Perguntas dessa disciplina

9ª) A estatística pode ser compreendida em dois grandes campos. Quais são eles? Assinale a alternativa correta. a) Estatística indutiva e inferênc...

Podemos classificar as técnicas utilizadas como: I - Descrição tabular: técnica que faz uso de tabelas II - Inferência estatística: técnica que pe...

Dentre as alternativas marque aquela que representa os dois campos de estudo dos conteúdos tradicionais da estatística a. Inferência estatística ...

A respeito da inferência estatística, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) A estimaç...