Curso Probabilidade e Estatistica

IFPA

Enviado por Bruno Pinheiro em 29/10/2018
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Prévia do material em texto
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I
DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA
Disciplina: Probabilidade e Estatística (6 créditos - Engenharias) Período 2004.1
Professores: Alexsandro Cavalcanti, Amanda dos Santos e Rosângela Silveira Data:
Aluno(a): .
1a NOTA DE AULA
1 Introdução à Estatística
1.1 A Ciência Estatística
O conceito de Estatística pode ser considerado de duas maneiras. O primeiro conceito,
logo relaciona a Estatística com tabelas e gráﬁcos nos quais os dados obtidos são represen-
tados, ou melhor, relaciona a números especíﬁcos. Ouvimos, assim, falar em estatísticas
do IBGE, estatísticas relacionadas à saúde e educação, índices econômicos, pesquisas de
opinião, etc. Um segundo conceito refere-se ao conjunto de processos ou técnicas em-
pregadas na investigação e análise de fenômenos. Neste caso, a Estatística é a ciência
ou método cientíﬁco que estuda os fenômenos aleatórios e, procura inferir as leis que os
mesmos obedecem. Assim, um conceito mais abrangente e absoluto deve englobar tanto o
primeiro conceito, o qual é o mais popular, quanto o segundo, o qual normalmente escapa
à noção corrente.
Deﬁnição 1.1 (Estatística). A Estatística é uma ciência que se preocupa com a
coleta, organização, descrição, análise e interpretação dos dados, a ﬁm de extrair in-
formações a respeito de uma população.
Dentro dessa idéia, podemos considerar a Ciência Estatística como dividida basica-
mente em duas partes:
1. Estatística Descritiva - que se preocupa com a organização e descrição dos dados
experimentais;
2. Estatística Inferencial - que, a partir da observação de alguns dados experimentais,
realiza a análise e interpretação de dados com o objetivo de generalizar e prever
resultados, utilizando-se para isto da Teoria das Probabilidades.
Nesta disciplina, serão abordados tópicos referentes à estatística descritiva, conceitos
fundamentais de probabilidade e os modelos probabilísticos mais importantes para o estudo
da inferência estatística.
1
1.2 Conceitos Fundamentais
Um dos principais conceitos utilizados na estatística é o de população.
1.2.1 População e Amostra
Deﬁnição 1.2 (População). A população é um conjunto de todos os elementos (pes-
soas, objetos, etc) que possuem pelo menos uma característica em comum, a(s) qual(is)
os relacionam ao problema que está sendo estudado.
Exemplo 1.1. Se o problema a ser pesquisado está relacionado com a qualidade de um
certo produto produzido numa indústria, a população pode ser composta por todas as
peças produzidas numa determinada hora, turno, dia ou mês, dependendo dos objetivos;
Exemplo 1.2. Se o objetivo de um estudo é pesquisar o nível de renda familiar de uma
certa cidade, a população seria todas as famílias desta população. Mas, se o objetivo
fosse pesquisar apenas a renda mensal do chefe da família, a população a ser pesquisada
seria composta por todos os chefes de família desta cidade.
A População pode ser:
1. Finita - quando o número de unidades de observação pode ser contado e é limitado;
2. Inﬁnita - quando a quantidade de unidades de observação é ilimitada;
Podemos citar como exemplo de população ﬁnita o conjunto formado pelos alunos
que cursam a disciplina de estatística num determinado semestre da UFCG. Um exemplo de
população inﬁnita seria o conjunto formado por todos os alunos de estatística do Brasil,
pois este conjunto é composto por um número incontável de elementos.
Deﬁnição 1.3 (Amostra). A amostra é apenas uma parte da população, ou seja, é
um subconjunto da população.
Vários motivos levam a necessidade de se observar apenas uma parte da população,
como, por exemplo: a falta de tempo, recursos ﬁnanceiros e/ou humanos. A amostra deve
ser obtida através de técnicas de amostragem, as quais tem como objetivo principal garantir
a representatividade da população, ou seja, fazer com que a amostra seja um retrato ﬁel
da população.
Exemplos de amostra podem ser considerados por conjuntos formados por apenas uma
parte dos elementos populacionais descritos nos exemplos 1 e 2.
1.2.2 Parâmetro e Estatística
Dois novos conceitos estreitamente relacionados com os de população e amostra são
os de Parâmetro e Estatística, tendo em vista que:
2
Deﬁnição 1.4 (Parâmetro). é uma medida numérica que descreve uma característica
da população.
Deﬁnição 1.5 (Estatística). é uma medida numérica que descreve uma característica
da amostra.
Exemplos de algumas medidas numéricas são: proporção, média, moda, índices, etc.
1.2.3 Variáveis (ou Dados) e Tipos de Variáveis
Deﬁnição 1.6 (Variável). Uma Variável nada mais é que uma característica (ou
dado) associada a cada elemento da população ou amostra. A variável apresenta difer-
entes valores, quando sujeita a mensurações sucessivas, e, em geral, é denotada pelas
letras maiúsculas: X, Y ou Z.
Antes de realizar qualquer tratamento estatístico de um conjunto de dados, é impor-
tante identiﬁcar qual é o tipo de dado (ou variável) que será analisado, pois, é mediante a
este conhecimento que o pesquisador poderá ou não adotar determinadas técnicas estatís-
ticas para a resolução de problemas. Por exemplo, será que é possível calcular o peso médio
de lutadores de boxe, quando os dados são coletados segundo a categoria de peso (Leve,
Médio e Pesado)?
Tipos de Variáveis
Basicamente, as variáveis podem ser classiﬁcadas como sendoQualitativas ouQuan-
titativas.
1. Variáveis Qualitativas - quando os valores que elas podem receber são referentes
à qualidade, atributo ou categoria. Exemplos são:
• Raça: podendo assumir os valores Branco ou Negro;
• Resultado de um teste: aprovado ou reprovado;
• Escolaridade: 1◦ grau completo, 2◦ grau completo, superior, pós-graduado;
• Conceito de qualidade: péssima qualidade, regular ou boa qualidade.
As variáveis qualitativas podem, ainda, ser classiﬁcadas como: Nominais ou Ordi-
nais.
(a) As variáveis qualitativas nominais - são caracterizadas por dados que se
apresentam apenas sob o aspecto qualitativo (Ex: raça e resultado de um teste).
(b) As variáveis qualitativas ordinais - são caracterizadas por categorias que
aprentam uma ordenação natural. Por exemplo: escolaridade e conceito de
qualidade.
3
2. Variáveis Quantitativas - quando os valores que ela pode assumir são numéricos,
os quais podem ser obtidos através de uma contagem ou mensuração.
As variáveis quantitativas podem ser classiﬁcadas de acordo com o processo de
obtenção; podendo ser: Discreta ou Contínua.
(a) As variáveis quantitativas discretas - são variáveis numéricas obtidas a partir
de procedimento de contagem. Por exemplo: Quantidade de pessoas numa
família, quantidade de acidentes numa indústria, etc.
(b) As variáveis quantitativas contínuas - são variáveis numéricas cujos valores
são obtidos por um procedimento de mensuração, podendo assumir quaisquer
valores num intervalo dos números reais, como por exemplo, a temperatura,
altura, salário, etc..
Observação 1. O fato de uma variável ser expressa por números não signiﬁca que ela
seja necessariamente quantitativa, por que a classiﬁcação da variável depende de como
foi medida, e não do modo como se manifesta. Por exemplo, para a variável peso de
um lutador de boxe, se for anotado o peso marcado na balança, a variável é quantitativa
contínua; por outro lado, se esse peso for classiﬁcado segundo as categorias do boxe, a
variável é qualitativa ordinal.
4
1a LISTA DE EXERCÍCIOS
1 - Deﬁna e/ou explique com suas próprias palavras, o que você entende por Ciência
Estatística e quais os principais ramos (partes) da Estatística.
2 - Através de um exemplo, deﬁna: População e Amostra.
3 - Considere as seguintes situações:
1) Em uma pesquisa, feita pela EMPETUR com 1015 pousadas escolhidas aleato-
riamente,269 (ou 26,5%) possuíam Home-page na Internet para divulgação e
prestação de serviços ao turista.
2) Outra pesquisa feita entre as 50 Agências de Viagens de uma certa localidade
mostra que 42 (ou 84%) prestam serviços pela Internet.
Identiﬁque em qual das situações nós temos um exemplo de Parâmetro e outro de
Estatística (no sentido de medida). Justiﬁque sua resposta.
4 - O que você entende por variável? Justiﬁque a sua resposta por intermédio de um
exemplo.
5 - Como você diferencia uma variável discreta de uma variável contínua? Utilize um
exemplo para melhor ilustrar.
6 - Deﬁna e/ou explique com suas próprias palavras, o que você entende por amostragem.
7 - Qual é o principal objetivo de qualquer plano de amostragem?
8 - As estatísticas geradas por intermédio de uma amostra devem ser representativas
desta amostra ou da população de origem? Justiﬁque a sua resposta.
9 - Para que uma amostra seja representativa, é necessário apenas que a mesma tenha
um tamanho apropriado? Justiﬁque a sua resposta.
10 - A Revista dos Eventos, N 13, tentando sanar, ao menos parcialmente, a carência
de informações precisas sobre a indústria de eventos, promoveu a 1a PESQUISA -
O Mercado de Congressos no Brasil. Os resultados desta pesquisa se baseiam em
40 questionários respondidos sobre um total de 1000, os quais foram encaminhados
por entrega pessoal a dirigentes de entidades integrantes do cadastro da própria
Revista dos Eventos. Qual é o problema ou a limitação desta pesquisa? Pelo menos
teoricamente, qual seria o melhor procedimento para este tipo de pesquisa, já que a
empresa possui um cadastro das entidades?
11 - Classiﬁque cada uma das informações (variáveis) abaixo, de acordo com os tipos de
variáveis.
a) Nome
b) Nível de satisfação
c) Idade
d) Número de dias hospedado
5
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I
DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA
Disciplina: Probabilidade e Estatística (6 créditos - Engenharias) Período 2004.2
Professores: Alexsandro Cavalcanti, Amanda dos Santos e Rosângela Silveira Data:
Aluno(a): .
2a NOTA DE AULA
2 Estatística Descritiva
A estatística pode ser considerada como um instrumento ou um conjunto de métodos
matemáticos que devem ser utilizados quando se pretende transformar dados em informação.
Para ilustrar este processo, veja a Figura 1:
12 15 18
15 12 18
18 15 18
17 19 20
Conjunto de dados
⇒
Média
Moda
Mediana
Proporção
Quantis
Conjunto de informações
Figura 1
No primeiro retângulo, tem-se um conjunto de observações da variável idade de um
grupo de 12 pessoas e, no segundo retângulo, as estatísticas (informações) que podem
representar esses números.
2.1 Organização de dados: Tabelas e Gráﬁcos
2.1.1 Distribuição de Frequências
O primeiro passo para se resumir um conjunto de dados é ordená-los em ordem cres-
cente ou decrescente, e proceder a contagem do número de ocorrência (freqüência) de cada
dado. À ordenação dos dados denominamos de Rol. Assim, o rol para o conjunto de dados
da Figura 1 ﬁca:
Rol de dados:
12 12 15 15 15
17 18 18 18 18
19 20
Desta maneira, ﬁca fácil veriﬁcar a freqüência com que cada um dos dados foi obser-
vado, por exemplo: o valor 12 ocorreu 2 vezes; o valor 15 ocorreu 3 vezes, e assim por
diante.
6
Uma maneira adequada de apresentar os dados e suas respectivas freqüências é através
de uma Tabela de Freqüências, a qual é constituída por uma coluna referente aos
dados e outra referente às freqüências associadas a cada valor observado (ni). Veja
como ﬁca para o conjunto de dados da Figua 1:
Tabela 1: Tabela de Freqüências da variável
idade, para um grupo de 12 pessoas.
Idade Frequência (ni)
12 2
15 3
17 1
18 4
19 1
20 1
Total de observações (n) 12
Uma medida bastante útil na interpretação de tabelas de freqüências é a freqüência
relativa (fi), a qual é dada pela razão entre a freqüência do i-ésimo valor observado, ni e o
total de dados observados, n. Pode-se, ainda, representar a freqüência relativa em termos
de porcentagem, bastando para isso multiplicar a freqüência relativa fi por 100.
Para alguns tipos de variáveis, tais como a qualitativa ordinal e as quantitativas (disc-
reta ou contínua), pode ser útil também, a informação de quantas observações apresentam
valores menores ou iguais a um certo valor ﬁxado. Este tipo de informação é denominado
de freqüência acumulada, fac, a qual também pode ser expressa em termos relativos ou
por porcentagens.
Vejamos, agora, como ﬁca a tabela de freqüências anterior com estas informações
adicionadas:
Tabela 2: Tabela de Freqüências da variável
idade, para um grupo de 12 pessoas.
Idade ni fi fi × 100 (%) fac (%)
12 2 0,1667 16,67 16,67
15 3 0,2500 25,00 41,67
17 1 0,0833 8,33 50,00
18 4 0,3333 33,33 83,33
19 1 0,0833 8,33 91,67
20 1 0,0833 8,33 100,00
Total (n) 12 1,0000 100,00
Observação: Ao conjunto de todos os pares de valores, referentes a cada dado obser-
vado e sua respectiva freqüência, denominamos de Distribuição de Freqüências. Desta
forma, os pares (12, 2), (15, 3), (17, 1), (18, 4), (19, 1) e (20, 1) representam a distribuição
de freqüências da variável idade para esse grupo de pessoas.
7
Representação Gráﬁca
Uma representação gráﬁca da distribuição de freqüências de uma variável tem a van-
tagem de, numa maneira rápida e concisa, informar sobre a variabilidade da mesma.
Gráﬁco de Colunas - é mais adequado para variáveis discretas mas também pode ser
utilizado para variáveis qualitativas ordinais, ou ainda, para variáveis qualitativas nominais
cujos nomes das categorias são pequenos.
Neste gráﬁco, cada valor observado é representado por retângulos de mesma base
e alturas proporcionais às freqüências. Para ilustrar, veja como ﬁca este gráﬁco para a
distribuição de freqüências da variável idade, utilizando a freqüência absoluta e relativa em
termos de porcentagem:
Figura 1:
Figura 2:
2.1.2 Distribuição de Frequências para Dados Agrupados em Classes
Em algumas situações, é necessário o agrupamento de dados em categorias ou classes
para se proceder a construção de uma tabela de freqüências. Por exemplo, em um conjunto
de dados contínuos, um mesmo valor não ocorrerá com grande freqüência, ou até mesmo,
não se repetirá por mais de uma vez. Uma vantagem em agrupar os dados em classes
consiste na organização de grandes conjuntos de dados de forma mais clara e objetiva.
Por outro lado, uma desvantagem, consiste na perda de informações por não se saber
exatamente quais os valores ocorridos dentro de cada classe.
Para ilustrar como proceder a construção de uma tabela de freqüências em classes,
considere o seguinte conjunto de dados:
Tabela: Dados referentes às notas no 1o estágio de 20 estudantes de estatística.
Código do aluno 1 2 3 4 5 6 7 8 9 10
Nota 7,5 8,0 9,0 7,3 6,0 5,8 10,0 3,5 4,0 6,0
Código do aluno 11 12 13 14 15 16 17 18 19 20
Nota 7,5 7,0 8,5 6,8 9,5 9,8 10,0 4,8 5,5 7,0
8
Note que, não haverá vantagem alguma se organizarmos estes dados numa tabela de
freqüências, uma vez que os dados pouco se repetem. Assim, torna-se útil o agrupamento
dos dados, que, de um modo geral, pode ser feito de acordo com os seguintes passos:
1. Organizar os dados num Rol.
2. Estabelecer o Número de Intervalos (categorias ou classes) para se dividir o con-
junto de dados.
A escolha do número de classes é arbitrária, a qual pode ser estabelecida de acordo
com o bom senso do pesquisador ou obtido por alguma fórmula matemática
construída para este ﬁm. Uma sugestão prática é a escolha entre 5 e 15 classes com
a mesma amplitude e duas fórmulas matemáticas que podem orientar na escolha do
número de classes, são:
(a) k =
√
n
(b) k = 1 + 3, 3× log(n)
Onde k é o número declasses e n é o número total de observações.
3. Calcular a Amplitude Total:
ATot = xma´x − xmi´n
Onde xma´x e xmi´n é o valor máximo e mínimo observado no conjunto de dados.
4. Determinar a Amplitude de Classe:
h =
ATot
k
5. A partir do menor valor observado no conjunto de dados, ou de algum valor imediata-
mente inferior e adequadamente escolhido, delimitar as classes, ou seja, determinar
os limites inferiores e superiores de cada classe.
Neste momento, os seguintes símbolos são úteis:
(a) li − |Li - para indicar que o valor extremo inferior (li) não pertence à i− sima
classe, enquanto que o valor extremo superior (Li) pertence.
(b) li|−Li - para indicar que o valor extremo inferior (li) pertence à i−sima classe,
enquanto que o valor extremo superior (Li) não pertence.
6. Após todos estes passos, só resta proceder a contagem do número de observações
pertencentes à cada uma das classes e organizar estas informações numa tabela de
freqüências para dados agrupados.
De acordo com estes passos, o conjunto de dados anterior pode ser organizado como:
9
(Construir a tabela de freqüências para dados agrupados)
Representação Gráﬁca de uma Variável Quantitativa Contínua - Histograma
Para a representação gráﬁca de variáveis quantitativas contínuas é necessário alguma
adaptação do gráﬁco de colunas, uma vez que, em geral, é necessário agrupar os dados em
classes e conseqüentemente há perda de informações.
Histograma - é um gráﬁco indicado para representar dados agrupados em classes.
Este gráﬁco é uma adaptação do gráﬁco de colunas, onde as bases correspondem aos
intervalos de classe e as alturas são proporcionais às freqüências de classe. Veja como ﬁca
o histograma para a distribuição das notas:
(Construir o histograma para a distribuição de freqüências em classes)
2.2 Medidas Resumo para Variáveis Quantitativas
Nesta seção veremos algumas medidas que tem como objetivo resumir um conjunto
de dados em um único valor o qual possa fornecer informações sobre o comportamento dos
dados, ou seja, sobre a distribuição de freqüências da variável.
2.2.1 Medidas de Tendência Central
As medidas de tendência central são bastante utilizadas e representam o centro ou o
meio de um conjunto de dados. As principais são: a mediana, a moda, e a média aritmética.
A seguir estas medidas são deﬁnidas e obtidas para os dois seguintes conjuntos de
dados que representam o número de gols registrados em cada partida de futebol, durante
5 e 6 jogos, respectivamente:
Conjunto de dados 1: Número de gols por partida de futebol, em 5 jogos.
3 2 1 2 5
10
Conjunto de dados 2: Número de gols por partida de futebol, em 6 jogos.
5 3 2 1 2 5
1. Mediana - é o valor que divide o conjunto de dados ordenados em duas partes
iguais, ou seja, 50% das unidades observadas possuem valores menores ou iguais ao
valor mediano e as demais 50% possuem valores acima da mediana.
Para se obter o valor da mediana é necessário os seguintes passos:
1◦) Ordenar o conjunto de dados em ordem crescente (ou descrescente);
2◦) Identiﬁcar a posição central do conjunto de dados, ou seja, a posição onde
se encontra o valor da mediana. Esta(s) posição(ões) pode(m) ser veriﬁcada(s)
utilizando-se as seguintes fórmulas:
(a) PMd =
n+1
2
, se o total de observações, n, é ímpar. Assim, a mediana será
o valor observado na posição PMd;
(b) P1Md =
n
2
e P2Md =
n
2
+1, se o total de observações, n, é par. Pois, neste
caso, existem duas posições centrais e a mediana será a média aritmética dos
valores observados nestas duas posições.
Notação: Md ou Md(X).
11
Exemplo 1: A partir do conjunto de dados 1, pode-se obter o seguinte rol de dados:
1 2 2︸︷︷︸
mediana
3 5
Note que, o número de observações, n = 5, é ímpar, logo o valor da mediana (valor
central) está na posição PMd =
n+1
2
= 5+1
2
= 3, que é igual a Md = 2.
Exemplo 2: Ordenando em ordem crescente o conjunto de dados 2, teremos o
seguinte rol de dados:
1 2 2 3︸︷︷︸
dois valores centrais
5 5
Agora, neste caso, o número de observações, n = 6, é par, e, portanto, existem dois
valores centrais localizados nas posições P1Md =
n
2
= 6
2
= 3 e P2Md =
n
2
+ 1 =
3 + 1 = 4. Assim, a mediana será a média aritmética dos valores que se encontram
nestas duas posições, dada por:
Md =
xP1Md + xP2Md
2
=
2 + 3
2
= 2, 5.
Observação:
Pode-se, também, obter a posição da mediana através dos seguintes passos:
1◦) Obter o valor que representa a metade do total de observações: PMd = n2 ;
2◦) Utilizar a seguinte regra:
(a) Se PMd for um número não inteiro, então, arredonda-se o valor de PMd para
o maior inteiro mais próximo, e, assim, o valor da mediana estará nesta nova
posição obtida.
(b) Se PMd for um número inteiro, então o valor da mediana será a média aritmética
dos valores que estão nas posições PMd e PMd + 1.
Exemplo 3: Utilizando-se os procedimentos descritos na observação acima, temos
que, para o conjunto de dados 1, PMd =
n
2
= 5
2
= 2, 5 (não inteiro), logo o valor da
mediana estará na posição PMd = 3 (maior inteiro mais próximo), que é dado por
Md = 2.
Exemplo 4: No conjunto de dados 2, temos PMd =
n
2
= 6
2
= 3 (inteiro), assim, de
acordo com o procedimento descrito na observação acima, temos que a mediana é
dada pela média aritmética dos valores observados nas posições PMd = 3 e PMd+1 =
3 + 1 = 4:
Md =
xP1Md + xP2Md
2
=
2 + 3
2
= 2, 5.
12
2. Moda - é o valor (ou os valores) no conjunto de dados que ocorre(m) com maior
freqüência.
Notação: Mo ou Mo(X).
Exemplo 5: O primeiro conjunto de dados, 1 2 2 3 5, é dito ser unimodal,
tendo em vista que um único valor ocorre com maior frequência. Assim, a moda é
Mo = 2.
Exemplo 6: O segundo conjunto de dados, 1 2 2 3 5 5, é dito ser bimodal,
tendo em vista que, neste caso, dois valores ocorrem com maior frequência, assim,
os valores modais são: Mo = 2 e Mo = 5.
3. Média Aritmética (Média) - é obtida a partir da razão entre a soma dos valores
observados e o total de observações:
Média =
soma dos valores
total de observações (n)
Notação: Me, Me(X) ou x.
Exemplo 7: A partir do conjunto de dados 1, a média é obtida por:
Me(X) = x =
soma dos valores
total de observações (n)
=
1 + 2 + 2 + 3 + 5
5
= 2, 6.
Observação:
1) A média aritmética pode ser expressa através do uso do símbolo de somatório∑
(sigma). Por exemplo, se x1, x2, . . . , xk são k valores distintos da variável X,
podemos escrever:
Me(X) = x =
x1 + x2 + . . .+ xk
k
=
1
k
k∑
i=1
xi
Agora, se, de um total de n valores observados (ou observações), x1 ocorreu n1 vezes,
x2 ocorreu n2 vezes,..., xk ocorreu nk vezes, então a média de X pode ser reescrita
como:
Me(X) = x =
x1.n1 + x2.n2 + . . .+ xk.nk
n
=
1
n
k∑
i=1
xi.ni (1)
=
k∑
i=1
xi.
ni
n
(2)
=
k∑
i=1
xi.fi. (3)
Onde:
13
• ni é freqüência absoluta do valor observado xi,
• n =∑ki=1 ni é o total de observações, e,
• fi é freqüência relativa do valor observado xi.
Exemplo 8: A partir do segundo conjunto de dados, 1 2 2 3 5 5, temos:
Me(X) = x =
1
n
k∑
i=1
xi.ni =
1
6
(1× 1 + 2× 2 + 3× 1 + 5× 2) = 18
6
= 3.
Exercício: Dado o seguinte conjunto de dados:
12 12 15 15 15 17 18 18 18 18 19 20
Determine a média, moda e mediana.
Solução:
2.2.2 Medidas de Tendência Central para Dados Agrupados
Sabemos que ao agrupar um conjunto de dados em classes, perde-se informação sobre
cada valor individual e, no caso em que seja impossível recuperar cada valor observado,
pode-se supor que todos os dados dentro de uma classe tenham seus valores iguais ao
ponto médio desta classe. Assim, pode-se, por exemplo, utilizar os pontos médios das
classes e suas respectivas freqüências para calcular a média aritméticade maneira análoga
ao exposto anteriormente. Da mesma forma, pode-se adotar como valor modal, o ponto
médio da classe modal e como mediana, o ponto médio da classe mediana.
Exemplo: Dada a seguinte distribuição de freqüência da variável S=salário (dados
agrupados em classes):
Salário Frequência Absoluta
4, 00| − 8, 00 10
8, 00| − 12, 00 12
12, 00| − 16, 00 8
16, 00| − 20, 00 8
20, 00| − 24, 00 2
Determine o valor (aproximado) da média, moda e mediana.
14
Solução:
2.2.3 Medidas de Dispersão ou de Variabilidade
Na sumarização de um conjunto de dados, uma única medida representativa da posição
central, esconde toda a informação sobre a variabilidade dos dados. Veja, por exemplo, os
seguintes dados:
Variável X : 3 4 5 6 7
Variável Y : 3 5 5 7
Note que a média Me(X) = Me(Y ) = 5, a qual nada informa sobre a variação dos
valores nos dois grupos. Assim, torna-se importante o conhecimento de uma medida que
forneça este tipo de informação.
Na prática, existem várias medidas que expessam a variabilidade de um conjunto de
dados, sendo que as mais utilizadas baseam-se na idéia que consiste em veriﬁcar a distância
de cada valor observado em relação à média. Estas distâncias são denominadas de desvios
em relação à média.
Deﬁnição 2.1 (Variância). - é uma medida que representa a variabilidade de um
conjunto de dados e, é obtida pelo cálculo da média dos quadrados dos desvios em
relação à média:
V ar(X) = s2 =
1
n
k∑
i=1
(xi − x)2ni
15
Vejamos, agora, como ﬁca a variância para as variáveis X e Y :
Assim, de acordo com a variância, podemos dizer que a variável X apresenta ...
Observação: Para o cálculo da variância, quando os dados estão agrupados em
classes, basta substituir o valor xi por si, ou seja, utilizar a mesma fórmula da variância,
substituindo os verdadeiros valores observados pelo ponto médio da i-ésima classe.
Deﬁnição 2.2 (Desvio Padrão). - é a raiz quadrada da variância.
D.P.(X) = s =
√
s2 =
√√√√ 1
n
k∑
i=1
(xi − x)2 × ni
O uso do desvio padrão como medida de variabilidade é preferível pelo fato de ser
expresso na mesma unidade de medida dos valores observados. Pois, a variância pode
causar problemas de interpretação por ser expressa em termos quadráticos.
Deﬁnição 2.3 (Coeﬁciente de Variação). - O coeﬁciente de variação (CV) é uma
medida relativa de variabilidade. O seu valor é determinado por intermédio do quo-
ciente entre o desvio padrão e a média aritmética dos dados.
CV (X) =
s
x
× 100 (expresso em porcentagem (%))
A utilidade imediata do coeﬁciente de variação é a possibilidade de avaliar o grau
de representatividade da média. Esta medida também é bastante útil na comparação
entre conjunto de dados, em relação à variabilidade; ainda que as unidades de medida nos
conjuntos de dados sejam distintas. Por exemplo, comparar a variabilidade das distribuições
da variável peso expressa em quilogramas (Kg) e altura expressa em metros (m).
Um critério de decisão sobre a representatividade ou não da média, pode ser dada pela
seguinte linha de corte:
Se CV ≥ 50%, a média não é representativa.
Se CV < 50%, a média é representativa.
Exemplos:
a) O desvio padrão das variáveis X e Y é DP (X) = DP (Y ) = s =
√
2 = 1, 41.
b) Considere os quilômetros rodados por 3 carros: 30 Km, 40 Km e 50 Km. Calcule
a média, a variância, o desvio padrão e o CV. Interprete essas medidas.
16
2.2.4 Medidas de Posição: Quartis, Decis e Percentis
Assim como a mediana divide os dados em duas partes iguais, os três quartis, denota-
dos por Q1, Q2 e Q3, dividem as observações ordenadas (em ordem crescente) em quatro
partes iguais. A grosso modo:
- Q1 separa os 25% inferiores dos 75% superiores dos valores ordenados;
- Q2 separa os 50% inferiores dos 50% superiores, ou seja, é a mediana; e
- Q3 separa os 75% inferiores dos 25% superiores dos dados;
Analogamente, há nove decis, denotados por D1, D2, . . . , D9, que dividem os dados
em 10 grupos com cerca de 10% deles em cada grupo. Finalmente, há 99 percentis que
dividem os dados em 100 grupos com cerca de 1% em cada grupo.
Basicamente, dois passos são necessários para se encontrar as medidas em questão.
Primeiro deve-se identiﬁcar a sua posição, e, em seguida, determinar o seu valor.
Veja a seguir, como obter os valores referentes aos percentis, quando se está traba-
lhando com dados brutos ou em distribuição de freqüências para dados não agrupados:
1◦) Identiﬁcar a posição do percentil que se deseja encontrar, através da seguinte
expressão:
L =
(
k
100
)
× n
Onde:
- L é o valor que indica a posição do percentil de interesse;
- k é o k − e´simo percentil; e
- n é o total de dados observados.
2◦) Utilizar a seguinte regra (análoga à regra da mediana):
1. Se L for um número não inteiro, então, arredonda-se o valor de L para o maior
inteiro mais próximo, e, assim, o valor do k− e´simo percentil, Pk, é dado pelo valor
que ocupa esta nova posição obtida.
2. Se L for um número inteiro, então o valor do k− e´simo percentil, Pk, será a média
aritmética dos valores que estão nas posições L e L+ 1.
Uma vez dominados os cálculos para os percentis, pode-se seguir o mesmo processo
para calcular os quartis e decis, tendo-se o cuidado de calcular o valor de L, pelas fórmulas
L =
(
k
4
) × n, k = 1, 2, 3 e L = ( k
10
) × n, k = 1, 2, . . . , 9, respectivamente. Pode-se,
ainda, obter os quartis e decis pelas seguintes relações existentes entre estas medidas e os
percentis:
17
Quartis Decis
Q1 = P25 D1 = P10
Q2 = P50 D2 = P20
Q3 = P75
.
.
.
D9 = P90
Além das medidas de tendência central e de variação já introduzidas, costuma-se deﬁnir
outras estatísticas utilizando quartis, decis ou percentis, tais como:
Intervalo interquartil = Q3 −Q1
Intervalo semi-interquartil = (Q3 −Q1)/2
Amplitude de percentis 10-90 = P90 − P10
Observação:
O histograma pode ser utilizado para se obter o k− e´simo percentil, Pk, no caso
de dados agupados em classes. Veremos como proceder, através de um exemplo que
será apresentado logo em seguida.
2.3 Outra Estratégia de Análise de Dados
Em algumas situações a média e o desvio padrão podem não ser adequados para
representar um conjunto de dados, pois:
i - São afetadas, de forma exagerada, por valores extremos;
ii - Apenas com estes dois valores não temos a idéia da assimetria dos valores, ou seja,
sobre o quanto os dados se distribum em torno dos valores inferiores, medianos e
superiores.
Para contornar estes problemas, 5 medidas foram sugeridas por Tukey (1977):
1◦) A mediana (Md);
2◦) Os extremos: o menor e o maior valor observado no conjunto de dados (xmi´n e
xma´x, respectivamente);
3◦) O primeiro e o terceiro quartil (ou junta).
2.3.1 Desenho Esquemático - Diagrama em Caixa ("Box-Plot")
As informações obtidas pelas 5 medidas podem ser representadas por um gráﬁco co-
nhecido por "Box-Plot"ou diagrama em caixa. Este gráﬁco consiste em uma reta que se
prolonga do menor ao maior valor, e um retângulo com retas traçadas no primeiro quartil
Q1, na mediana Md = Q2 e no terceiro quartil Q3. Veja, como ﬁca este gráﬁco através
do seguinte exemplo prático.
Exemplo: O seguinte conjunto de dados representa a pulsação de 22 fumantes:
18
52 52 60 60 60 60 63 63 66 67
68 69 71 72 73 75 78 80 82 83
84 90
Usando os dados brutos, determine:
a) A média, a moda e o desvio padrão;
b) O primeiro, segundo e terceiro quartil;
c) Construa uma tabela de frequências para os dados agrupados em 7 classes;
d) Construa o histograma e o diagrama em caixa;
Agora, utilizando a distribuição de frequências obtida acima, obtenha:
a) A média, a moda e o desvio padrão;
b) O primeiro, segundo e terceiro quartil utilizando o histograma;
19
2a LISTA DE EXERCÍCIOS
1 - Considereuma distribuição de freqüências qualquer representada por
(x1, n1), (x2, n2), . . . , (xk, nk).
Mostre que a soma dos desvios em relação à média é igual zero, ou seja, que∑k
i=1(xi − x)× ni = 0.
2 - Obtenha a média e a mediana para o seguinte conjunto de dados:
20 30 40
a) Se substituímos o valor 40 por 70, os valores da média e da mediana serão os
mesmos? Justiﬁque?
b) Analisando os resultados acima, ressalte uma característica vantajosa da medi-
ana em relação à média.
3 - Mostre que:
k∑
i=1
(xi − x)2 × ni =
k∑
i=1
x2ini −
(∑k
i=1 xi
)2
n
=
k∑
i=1
x2ini − nx2
E, por isso, a variância também pode ser obtida pela seguinte fórmula:
V ar(X) = s2 =
1
n
k∑
i=1
x2ini − x2
4 - Na turma A do curso normal da Escola X, estão matriculados 50 alunos no cor-
rente ano. O levantamento das ﬁchas biométricas revelou as seguintes estaturas em
centímetros:
165 164 151 160 155 169 153 156 165 160
170 157 162 162 155 154 151 155 162 150
168 160 154 151 168 155 156 158 166 155
154 152 163 156 170 158 171 159 175 154
159 158 153 158 156 162 165 156 161 157
a) Elabore uma distribuição de freqüências, fazendo o limite inferior da primeira classe
igual a 150 (inclusive) e amplitudes dos intervalos de classe igual a 5 cm.
b) Baseado na distribuição de freqüência calcule: a média, a mediana, a moda, os
quartis.
c) Esboce o histograma
5 - As taxas de juros recebidas por 10 ações durante certo período foram (medidas em
porcentagem): 2.59; 2.64; 2.60; 2.62; 2.57; 2.55; 2.61; 2.50; 2.63; 2.64. Calcule a
média e a mediana.
20
6 - Dados os conjuntos de números: A = {1000; 1001; 1002; 1003; 1004; 1005} e B =
{0, 1, 2, 3, 4, 5} podemos aﬁrmar que:
a) o desvio-padrão de A é igual a 100 vezes o desvio-padrão de B.
b) o desvio-padrão de A é igual ao desvio-padrão de B.
c) o desvio-padrão de A é igual ao desvio-padrão de B multiplicado pelo quadrado de
1000.
d) o desvio-padrão de A é igual ao desvio-padrão de B dividido por 1000.
e) o desvio-padrão de A é igual ao quadrado do desvio-padrão de B.
7 - Em uma granja foi observada a distribuição dos frangos em relação ao peso, que era
a seguinte:
Peso (g) ni
960 - 980 60
980 - 1000 160
1000 - 1020 280
1020 - 1040 260
1040 - 1060 160
1060 - 1080 80
TOTAL 1000
a) Qual a média da distribuição? E qual a variância?
b) Queremos dividir os frangos em quatro categorias com relação ao peso de modo
que: os 20% mais leves sejam da categoria D; os 30% seguintes sejam da categoria C;
os 30% seguintes sejam da categoria B; os 20% seguintes (ou seja os mais pesados)
sejam da categoria A. Quais os limites de peso entre as categorias A,B,C e D?
21
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I
DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA
Disciplina: Probabilidade e Estatística (6 créditos - Engenharias) Período 2003.2
Professores: Alexsandro, Alecxandro e Amanda Data:
Aluno(a): .
3a NOTA DE AULA
3 Introdução à Probabilidade
Objetivo: deﬁnir um modelo matemático probabilístico que seja conveniente a descrição e
interpretação de fenômenos aleatórios.
3.1 Introdução
Ao jogarmos uma moeda para o ar, de modo geral, não podemos aﬁrmar se vai dar cara ou
coroa, da mesma forma, quando lançamos um dado não sabemos qual das faces 1, 2, 3, 4,
5, ou 6 ocorrerá. Há numerosos exemplos de tais situações no campo dos negócios e do
governo. A previsão da procura de um produto novo, o cálculo dos custos de produção, a
opinião púlblica sobre determinado assunto, a contratação de um novo empregado - tudo
isso contém algum elemento de acaso.
Independente de qual seja a aplicação em particular, a utilização das probabilidades
indica que existe um elemento de acaso, ou de incerteza, quanto à ocorrência ou não de
um evento futuro. Assim é que em muitos casos, pode ser virtualmente impossível aﬁrmar
com antecipação o que ocorrerá; mas é possível dizer o que pode ocorrer.
O ponto central em todas essas situações é a possibilidade de quantiﬁcar quão provável
é determinado evento.
As probabilidades são utilizadas para exprimir a chance de ocorrência de determinado
evento.
3.2 Deﬁnições
Deﬁnição 3.1 (Fenômenos aleatórios ou Experimentos aleatórios). São aqueles
onde o processo de experimentação está sujeito a inﬂuências de fatores casuais e conduz
a resultados incertos.
Exemplos:
E1 : Jogar uma moeda e observar o número de coroas obtido.
E2 : Lançar um dado e observar o número mostrado na face superior.
E3 : Retirar uma carta de um baralho e observar seu �naipe�.
22
Observações:
a) Cada experimento poderá ser repetido um grande número de vezes sob as mesmas
condições;
b) Não podemos aﬁrmar que resultado particular ocorrerá, porém podemos descrever
o conjunto de todos os possíveis resultados do experimento, ou seja, as possibilidades de
resultado;
c) Quando o experimento é repetido um grande número de vezes, surgirá uma regular-
idade nos resultados. Esta regularidade, chamada de regularidade estatística, é que torna
possível construir um modelo matemático preciso com o qual se analisará o experimento.
Deﬁnição 3.2 (Espaço Amostral). É o conjunto de todos os possíveis resultados de
um experimento aleatório.
Exemplo: Considere os seguintes experimentos:
E1 : Jogar um dado e observar o número da face superior
E2 : Jogar duas moedas e observar o resultado
Deﬁnição 3.3 (Evento). Dado um espaço amostral Ω, associado a um experimento
E qualquer, deﬁnimos como evento, qualquer subconjunto desse espaço amostral.
Exemplo: Considerando o experimento
E: lançamento de um dado
alguns possíveis eventos associados a esse experimento seriam os seguintes:
A: Sair o número 3;
B: Sair um número menor ou igual a 6;
C: Sair o número 10;
Observação: Como estamos tratando com conjuntos, são válidas todas as operações
indicadas na teoria dos conjuntos:
→ A ∪ B - ocorre se A ocorre, ou B ocorre, ou ambos ocorrem.
→ A ∩ B - ocorre se A e B ocorrem simultaneamente.
→ Ac - ocorre se A não ocorre.
Deﬁnição 3.4 (Eventos mutuamente Excludentes). Dois eventos são mutua-
mente exclusivos, se eles não podem ocorrer simultaneamente, isto é, A ∩ B = φ.
23
3.3 Probabilidade
Deﬁnição 3.5 (Deﬁnição Clássica de Probabilidade - Freqüência Relativa).
Suponha que um experimento é repetido n vezes, e seja A e B dois eventos associados
ao experimento. Sejam nA e nB o número de vezes que o evento A e o evento B
ocorram nas n repetições. A freqüência relativa do evento A, representada por fA, é
defenida como
fA =
nA
n
.
Propriedades:
(i) 0 ≤ fA ≤ 1;
(ii) fA = 1, se, e somente se, A ocorrer em todas as n repetições;
(iii) fA = 0, se, e somente se, A nunca ocorrer nas n repetições;
(iv) Se A e B forem eventos mutuamente excludentes, e se fA∪B for a freqüência
relativa associada ao evento A ∪B, então,
fA∪B = fA + fB.
Deﬁnição 3.6 (Deﬁnição axiomática de probabilidade). Dado um espaço amostral
Ω, a probabilidade de um evento A ocorrer, representado por P (A) , é uma função
deﬁnida em Ω, que associa a cada evento um número real, satisfazendo os seguintes
axiomas:
(i) 0 ≤ P (A) ≤ 1;
(ii) P (Ω) = 1;
(iii) Se A e B forem mutuamente exclusivos (A ∩B = φ), então P (A ∪B) =
P (A) + P (B) .
Observação: A probabilidade de um evento A, denotada por P (A) , indica a chance de
ocorrência do evento A. Quanto mais próxima de 1 é P (A), maior é a chance de ocorrência
do evento A, e quanto mais próxima de zero, menor é a chance de ocorrência do evento A.
Principais Teoremas:
a) Se φ deniota o conjunto vazio, então P (φ) = 0.
b) Se A
c
é o evento complementar de A, então P (Ac) = 1− P (A) .
c) Se A e B são dois eventos quaisquer, então P (A ∪B) = P (A) + P (B) −
P (A ∩B) .
3.4 Espaço Amostral Finito
Deﬁnição 3.7 (Espaços Amostrais Finitos). Dizemosque S é um espaço amostral
ﬁnito, se esse espaço possui um número ﬁnito de elementos, ou seja, o espaço amostral
S pode ser escrito na forma S = {a1, a2, ..., ak}.
24
A ﬁm de caracterizar a probabilidade de um evento A, P (A), associado a um espaço
amostral ﬁnito, devemos inicialmemte considerar o evento simples ou elementar, A = {ai}.
A cada evento dessa natureza associaremos um número pi, denominado probabilidade de
{ai}, que satisfaça às seguintes condições:
a) pi ≥ 0, i = 1, 2, ..., k;
b) p1 + p2 + ...+ pk = 1.
Supondo agora, que um evento A seja constituído por r resultados, 1 ≤ r ≤ k, ou
seja
A = {aj1, aj2, ..., ajr},
onde j1, j2, ..., jr, representam um qualquer dos r índices de 1 até k. Então, considerando
que cada {ajr} são mutuamente excludentes, podemos escrever
P (A) = pj1 + pj2 + ...+ pjr.
Exemplo: Suponha-se que somente três resultados sejam possíveis em um experimento,
a saber, a1, a2 e a3. Além disso, suponha-se que a1 seja duas vezes mais provável de ocorrer
que a2, o qual por sua vez é duas vezes mais provável de ocorrer que a3. Encontre as
probabilidades p1, p2 e p3.
3.4.1 Espaços Amostrais Finitos Equiprováveis
Quando associamos a cada ponto amostral (cada elemento do espaço amostral) a mesma
probabilidade, o espaço amostral chama-se equiprovável. Neste caso, dado um espaço
amostral com k pontos do tipo S = {a1, a2, ..., ak}, as probabilidades P ({ak} serão dadas
por
P ({ak}) = 1
k
.
Exemplo: Se cada carta de um baralho de 52 cartas tem a mesma chance de ser
escolhida, então a probabilidade de se extrair cada uma delas é de
Se S = {a1, a2, ..., ak} é ﬁnito e A é um evento com m pontos amostrais (m ≤ k),
então
P (A) =
m
k
.
Exemplo: A probabilidade de se extrair uma dama de um baralho é de
Exemplo: Qual a probabilidade de se obter três ou menos pontos no lançamento de
um dado?
Exemplo: Uma urna contém duas bolas brancas, três pretas e cinco azuis.
a) Qual a probabilidade de se extrair uma bola branca?
b) Qual a probabilidade de se extrair uam bola preta ou uma azul?
25
Em muitos casos existem situações em que o experimento pode ser realizado em duas
etapas, a primeira podendo ser realizada de p maneiras e a segunda de q maneiras, então
a tarefa completa pode ser executada de p× q maneiras.
Exemplo: No lançamento de dois dados qual a probabilidade de sair o par (5,2)?
3.4.2 Cálculo da probabilidade da ocorrência de dois eventos
A probabilidade da ocorrência de dois eventos simultaneamente (P (A ∩B)) , depende da
natureza dos eventos, ou seja se eles são independentes ou não.
Dois ou mais eventos são independentes quando a ocorrência ou não-ocorrência de um
não inﬂuencia a ocorrência do(s) outro(s).
Se dois eventos são independentes, então a probabilidade de ocerrência de ambos é
igual ao produto de suas probabilidades individuais, ou seja,
P (A ∩B) = P (A)P (B) .
Exemplo: Jogam-se duas moedas equilibradas. Qual a probabilidade de ambas darem
cara?
Suponhamos agora que queiramos estender este resultado ao caso de três moedas.
Qual a probabilidade de três caras?
Exemplo: Um terço dos eleitores de certa comunidade é constituido de mulheres, e
40% dos eleitores votaram na última eleição presidencial. Supondo que esses dois eventos
sejam independentes, determine a probabilidade de escolher um eleitor da lista geral, que
seja mulher e que tenha votado na última eleição presidencial.
Exemplo: Uma urna contém duas bolas brancas e cinco pretas. Qual a probabilidade
de sair duas bolas pretas supondo que os sorteios são feitos com reposição?
3.4.3 Probabilidade Condicional
Considere o seguinte experimento: lançar um dado. Seja A o evento: sair o número 3.
Então
P (A) =
Considere agora o seguinte evento B: sair um número ímpar. Logo,
P (B) =
Suponha agora que soubéssemos da ocorrência de B e quiséssemos calcular a proba-
bilidade de A. Iremos denotar essa probabilidade como P (A | B). Assim
P (A | B) =
26
Formalmente deﬁnimos probabilidade condicional da seguinte maneira:
Dados dois eventos, A e B, denotaremos P (A | B) a probabilidade condicionada do
evento A, quando B tiver ocorrido, por:
P (A | B) = P (A ∩B)
P (B)
com P (B) 6= 0.
Exemplo: Dois dados são lançados. Considere os eventos:
A = {(x1, x2);x1 + x2 = 10} e B = {(x1, x2);x1 > x2}.
Calcule: P (A), P (B), P (A | B) e P (B | A)
3.4.4 Teorema do Produto
A partir da deﬁnição de probabilidade condicional, poderemos enunciar o teorema do pro-
duto:
P (A | B) = P (A∩B)
P (B)
⇒ P (A ∩B) = P (B)P (A | B).
Analogamente
P (B | A) = P (A∩B)
P (A)
⇒ P (A ∩B) = P (A)P (B | A).
Exemplo: Em um lote de 12 peças, 4 são defeituosas, 2 peças são retoradas uma após
a outra sem reposição. Qual a probabilidade de que ambas sejam boas?
O teorema da multiplicação de probabilidades pode ser generalizado para mais de dois
eventos da seguinte maneira:
P (A1 ∩ A2 ∩ · · · ∩ An) = P (A1)P (A2 | A1)P (A3 | A1 ∩ A2) · · ·P (An | A1 ∩ A2 ∩ · · · ∩ An−1)
Exemplo: Uma urna contém duas bolas brancas, três vermelhas e cinco azuis. Qual
a probabilidade de se retirar sem reposição uma bola azul, uma branca e uma vermelha
exatamente nessa ordem?
3.4.5 Independência Estatística
Um evento A é considerado independente de um outro evento B se a probabilidade condi-
cional de A dado B é igual a probabilidade de A, isto é, se
P (A | B) = P (A).
É evidente que se A é independente de B, B é independente de A. Assim
P (B | A) = P (B).
Exemplo: Em uma caixa temos 10 peças, das quais 4 são defeituosas. São retiradas
duas peças com reposição. Calcule a probabilidade de ambas serem boas.
27
Obs: Dizemos que três eventos são mutuamente independentes se
P (A ∩B) = P (A)P (B)
P (A ∩ C) = P (A)P (C)
P (B ∩ C) = P (B)P (C)
P (A ∩B ∩ C) = P (A)P (B)P (C)
Exemplo: Sendo S = {1, 2, 3, 4} um espaço equiprovável eA = {1, 2};B = {1, 3};C =
{1, 4} três eventos de S. Veriﬁcar se os eventos A,B e C são mutuamente independentes.
3.4.6 Teorema da probabilidade total
Deﬁnição: Dizemos que os eventos B1, B2, ..., Bk representam uma partição do espaço
amostral S, quando
a) Bi ∩Bj = φ, para todo i 6= j,
b) ∪ki=1Bi = S,
c) P (Bi) > 0, para todo i.
Considere um evento A referente a S, e B1, B2, ..., Bk uma partição de S. Assim,
podemos escrever
A = (A ∩B1) ∪ (A ∩B2) ∪ (A ∩B3) ∪ ... ∪ (A ∩Bk).
Logo,
P (A) = P (A ∩B1) + P (A ∩B2) + P (A ∩B3) + ...+ P (A ∩Bk).
Então, como P (A∩Bj) = P (Bj)P (A | Bj), obteremos o que se denomina o teorema
da probabilidade total:
P (A) = P (B1)P (A | B1) + P (B2)P (A | B2) + ...+ P (Bk)P (A | Bk).
3.4.7 Teorema de Bays
Sob as mesmas hipóteses do teorema da probabilidade total, podemos calcular a probabili-
dade de Bi dada a ocorrência de A da seguinte forma
P (Bi | A) = P (Bi ∩ A)
P (A)
=
P (Bi)P (A | Bi)∑
j P (Bj)P (A | Bj)
.
Este resultado é o que chamamos de teorema de Bays. Esse teorema é útil quando co-
nhecemos as probabilidades dos Bi's e a probabilidade condicional de A dado Bi, mas não
conhecemos diretamente a probabilidade de A.
28
Exemplo: Um saco contém três moedas, uma das quais foi cunhada com duas caras,
enquanto as outras duas são normais e não viciadas. Uma moeda é retirada ao acaso e
jogada. Dado que o resultado foi cara, qual a probabilidade de que essa seja a moeda de
duas caras?
Exemplo: Suponha três urnas com as seguintes conﬁgurações: a urna 1 contém 3 bolas
pretas, 1 branca e 5 vermelhas; a urna 2 contém 4 bolas pretas, 3 brancas e 2 vermelhas; a
urna 3 contém 2 bolas pretas, três brancas e 3 vermelhas. Escolheu-se uma urna ao acaso
e dela extraiu-se uma bola ao acaso, veriﬁcou-se que a bola é branca. Qual a probabilidade
da bola ter vindo da urna 2? da 3?
3a LISTA DE EXERCÍCIOS
1 - Uma caixa com N lâmpadas contém r lâmpadas (r < N) com ﬁlamento partido.
Essas lâmpadassão veriﬁcadas uma a uma, até que uma lâmpada defeituosa seja en-
contrada. Descreva um espaço amostral para este experimento. Suponha agora, que
as lâmpadas são veriﬁcadas até que todas as defeituosas sejam encontrdas. Descreva
um espaço amostral para este experimento.
2 - O seguinte grupo de pessoas está numa sala: 5 homens maiores de 21 anos; 4 homens
com menos de 21 anos de idade; 6 mulheres maiores de 21 anos, e 3 mulheres menores.
Uma pessoa é escolhida ao acaso. Deﬁnem-se os seguintes eventos:
A: A pessoa é maior de 21 anos
B: A pessoa é menor de 21 anos
C: A pessoa é homem
D: A pessoa é mulher
Calcule:
a) P (B ∪D)
b) P (A ∩ C)
3 - Um inteiro é escolhido ao acaso, dentre os números 1, 2, ..., 50. Qual a probabilidade
de que o número escolhido seja divisível por 6 ou por 8?
4 - A urna 1 contém x bolas brancas e y bolas vermelhas. A urna 2 contém z bolas
brancas e v bolas vermelhas. Uma bola é escolhida ao acaso da urna 1 e posta na
urna 2. A seguir, uma bola é escolhida ao acaso da urna 2. Qual a probabilidade de
que esta bola seja branca?
5 - Suponha que A e B sejam eventos independentes associados a um experimento. Se
a probabilidade de A ou B ocorrerem for igual a 0,6, enquanto a probabilidade da
ocorrência de A for igual a 0,4, determine a probabilidade da ocorrência de B.
6 - Um estudante se submete a um exame de múltipla escolha no qual cada questão tem
4 respostas possíveis das quais exatamente uma é correta. O estudante seleciona a
resposta correta se ele sabe a resposta. Caso contrário, ele seleciona ao acaso uma
29
resposta entre as 4 possíveis. Suponha que o estudante saiba a resposta de 60% das
questões. Se o estudante escolhe a resposta correta para uma dada questão, qual a
probabilidade de que ele sabia a resposta?
7 - Mostre que, se os eventos A e B são independentes, então também o serão A¯ e B.
8 - Um dado é viciado de tal forma que a probabilidade de sair um certo ponto é propor-
cional ao seu valor (por exemplo, o ponto 6 é 3 vezes mais provável de sair do que o
ponto 2). Calcular a probabilidade de tirar um número par, sabendo-se que saiu um
número maior que 3.
9 - Mostre que se A, B e C são eventos tais que P (A∩B ∩C) 6= 0 e P (C | A∩B) =
P (C | B), então P (A | B ∩ C) = P (A | B).
10 - Uma caixa tem três moedas: uma não viciada, outra com duas caras e uma terceira
viciada, de modo que a probabilidade de ocorrer cara nesta moeda é de
1
5
. Uma
moeda é selecionada ao acaso na caixa. Saiu cara. Qual a probabilidade de que a
moeda viciada tenha sido a selecionada?
11 - Uma urna contém 4 bolas brancas e 6 bolas vermelhas; outra urna contém 3 bolas
brancas e 6 vermelhas. Passa-se uma bola, escolhida ao acaso, da primeira para a
segunda urna, e em seguida, retiram-se três bolas desta última, sem reposição. Qual
a probabilidade de que ocorram três bolas da mesma cor?
12 - A probabilidade de que A resolva um problema é de 2
3
e a probabilidade de que
B resolva é de 3
4
. Se ambos tentarem independentemente, qual a probabilidade do
problema ser resolvido?
13 - Uma companhia de seguros analisou a freqüência com que 2000 segurados usaram o
hospital. Os resultados são apresentados na tabela:
homens mulheres
usaram o hospital 100 150
não usaram o hospital 900 850
Qual a probabilidade de que uma pessoa segurada não use o hospital?
14 - Os colégios A, B e C têm as seguintes percentagens de rapazes, respectivsmente:
40%, 20% e 10%. Um desses colégios é selecionado ao acaso e 8 alunos são escolhi-
dos, com reposição. Se obtemos RRRMMMMM (R para rapaz e M para moça) qual
a probabilidade de ter sido selecionado o colégio B?
30
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I
DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA
Disciplina: Probabilidade e Estatística (6 créditos - Engenharias) Período 2003.2
Professores: Alexsandro, Alecxandro e Amanda Data:
Aluno(a): .
4a NOTA DE AULA
4 Variáveis Aleatórias
Deﬁnição: Seja � um experimento e S um espaço amostral associado ao experimento. Uma
função X, que associe a cada elemento s ∈ S um número real, X(s), é denominada variável
aleatória.
Exemplo: Lança-se três moedas honestas. Considere a variável aleatória:
X: número de caras
Deﬁnição: Sejam um experimento � e seu espaço amostral S. Seja X uma variável
aleatória deﬁnida em S e seja RX seu contradomínio. Seja B um evento deﬁnido em
relação a RX , isto é, B ⊂ RX . Então, A será deﬁnido assim
A = {s ∈ S;X(s) ∈ B}
Neste caso dizemos que A e B são eventos equivalentes.
Deﬁnição: Seja B um evento no contradomínio RX . Nesse caso, deﬁnimos P (B) da
seguinte maneira: P (B) = P (A), onde A = {s ∈ S;X(s) ∈ B}.
Exemplo: No exemplo anterior, temos
RX = {0, 1, 2, 3} com as seguintes probabilidades
4.1 Variáveis Aleatórias discretas
Deﬁnição: Seja X uma variável aleatória. Se o número de valores possíveis de X (isto é,
RX) for ﬁnito ou inﬁnito enumerável, denominaremos X de variável aleatória discreta.
Exemplo: Considere uma urna com duas bolas brancas e três vermelhas. Consider-
aremos a variável aleatória X: número de bolas vermelhas obtidas em duas extrações sem
reposição.
Deﬁnição: Seja X uma variável aleatória discreta. Portanto RX , o contradomínio
de X, será formado no máximo por um número inﬁnito enumerável de valores x1, x2, ...
31
A cada possível resultado xi associaremos um número p(xi) = P (X = xi), denominado
probabilidade de xi. Os números p(xi), i = 1, 2, ... devem satisfazer às seguintes condições:
(a) p(xi) ≥ 0, ∀i;
(b) Σ∞i=1p(xi) = 1.
A função p deﬁnida acima, é denominada função de probabilidade da variável aleatória
X. A coleção de pares [xi, p(xi)], i = 1, 2, ..., é denominada distribuição de probabilidade.
Exemplo: Um empresário pretende estabelecer uma ﬁrma para montagem de um pro-
duto composto de uma esfera e um cilindro. As partes são adquiridas em fábricas diferentes,
e a montagem consistirá em juntar as duas partes e pintá-las. Para estudar a variabilidade
do seu empreendimento, o empresário quer ter uma idéia da distribuição dos lucros por peça
montada. Cada componente pode ser classiﬁcada como Bom, Longo ou Curto, conforme
suas medidas estejam dentro das especiﬁcações. Sabe-se que o custo por peça é de 5 u.m.
Além disso, foram obtidos as probabilidades de produção de cada componente com suas
respectivas características. A Tabela com esses valores se encontra abaixo.
Produto Cilindro Esfera
Bom (B) 0,80 0,70
Longo (L) 0,10 0,20
Curto (C) 0,10 0,10
Se o produto ﬁnal apresentar algum componente coma característica C, ele será ir-
recuperável, e o conjunto será vendido como sucata ao preço de 5 u.m. Cada componente
longo pode ser recuperado a um custo adicional de 5 u.m. Se o preço de venda de cada
unidade é de 25 u.m., como seria a distribuição das freqüências da variável aleatória L:
lucro por conjunto montado?
Exemplo: Suponhamos que uma válvula eletrônica seja posta em um soquete e ensa-
iada. Admitamos que a probabilidade de que o teste seja positivo seja
3
4
; daí, a probabilidade
de que seja negativo é igual a
1
4
. Adimitamos também que estejamos ensaiando uma partida
grande dessas válvulas. Os ensaios continuam até que a primeira válvula positiva apareça.
Considere a variável aleatória X: no de testes necessários para concluir o experimento.
Assim
S =
P (X = n) =
4.2 Variáveis Aleatórias Contínuas
Deﬁnição: Diz-se que X é uma variável aleatória contínua, se existir uma função f ,
denominada função densidade de probabilidade (f.d.p.) de X que satisfaça às seguintes
condições:
a) f(x) ≥ 0 para todo x,
b)
∫ +∞
−∞ f(x)dx = 1,
32
c) para quaisquer a, b, com −∞ < a < b < +∞, teremos P (a ≤ X ≤ b) =∫ b
a
f(x)dx.
Exemplo: Suponhamos que a variável aleatória X seja contínua. Seja a f.d.p. f dada
por
f(x) =
{2x, 0 < x < 1,
0, c.c.
Exemplo: Suponha que estamos atirando dardos em um alvo circular de raio de 10 cm,
e seja X a distância do ponto atingido pelo dardo ao centro do alvo. a f.d.p. de X é
f(x) =
{
kx, 0 ≤ x ≤ 10
0, c.c
a) Qual a probabilidade de acertar a mosca, se ela é um círculo de raio 1 cm?
b) Mostre que a probabilidade de acertar qualquer círculo concêntrico é proporcional
a sua área.
4.3 Função de Distribuição Acumulada
Deﬁnição: Seja X uma variável aleatória, discreta ou contínua. Deﬁne-se a função F como
função de distribuição acumulada da variável aleatória X como F (x) = P (X ≤ x).
Teorema 4.1. Se X for uma variável aleatória discreta
F (x) =
∑
j
p(xj),
onde o somatório é estendido a todos os índices j que satisfaçam à condição xj ≤ x.
Teorema 4.2. Se X for uma variável aleatória contínua com f.d.p. f ,
F (x) =
∫ x
−∞
f(s)ds.
Exemplo: Suponhamos que a variável aleatória X tome os três valores 0,1 e 2, com
probabilidades 1/3, 1/6 e 1/2, respectivamente. Então, a F.d.a. de X é dada por:
Exemplo: Suponhamos que X seja uma variável contínua com f.d.p.
f(x) =
{
2x, 0 < x < 1,
0, c.c
Então, a F.d.a. de X é dada por:
Teorema 4.3. (a) A função F é não decrescente.
(b) limx→−∞ F (x) = 0 e limx→+∞ F (x) = 1.
33
Teorema 4.4. (a) Seja F a função de distribuição de uma variável aleatória contínua,
com f.d.p. f . Então,
f(x) =
d
dx
F (x),
para todo x no qual F seja derivável.
(b) Seja X uma variável aleatória discreta, com valores possíveis x1, x2, ..., e
suponha-se que esses valores tenham sido indexados de modo que x1 < x2 < ... Seja F
a função de distribuição de X. Então,
p(xj) = P (X = xj) = F (x
+
j )− F (x−j ).
Observações:
a) Se X for uma variável aleatória discreta, com um número ﬁnito de valores possíveis,
o gráﬁco da função de distribuição será constituído por segmentos de reta horizontais. A
função F é contínua, exceto nos valores possíveis de X: x1, ..., xn, ... No valor xj o gráﬁco
apresenta um salto de magnitude p(xj) = P (X = xj)
b) Se X for uma variável aleatória contínua, F será uma função contínua para todo
x.
c) A função de distribuição F é deﬁnida para todos os valores de x.
Exemplo: Suponha que F (x) =
{
0, x < 0,
1− e−x, x > 0.
Esboce o gráﬁco de F e calcule a f.d.p.
4.4 O Valor Esperado de Uma Variável Aleatória
Deﬁnição: Seja X uma variável aleatória discreta, com valores possíveis x1, x2, ..., xn, ...
Seja p(xi) = P (X = xi), i = 1, 2, ..., n, ... Então, o valor esperado de X (ou esperança de
X), denotado por E(X) é deﬁnido como
E(X) = Σ∞i=1xip(xi),
se a série deﬁnida acima convergir absolutamente.
Exemplo: Um fabricante produz peças tais que 10% delas são defeituosas e 90% delas
são não-defeituosas. Se uma peça defeituosa for produzida, o fabricante perde US$ 1,
enquanto uma peça não-defeituosa lhe dá um lucro de Us$ 5. Se X for o lucro líquido por
peça, qual o valor esperado de X?
Deﬁnição: Seja X uma variável aleatória contínua com f.d.p f . O valor esperado de
X é deﬁnido como
E(X) =
∫ +∞
−∞
xf(x)dx.
Pode acontecer que esta integral (imprópria) não convirja. conseqüentemente, diremos que
E(X) existirá se, e somente se, ∫ +∞
−∞
|x| f(x)dx
34
for ﬁnita.
Exemplo: Seja a variável aleatória X deﬁnida como segue. Suponha que X seja
o tempo (em minutos) durante o qual um equipamento elétrico seja utilizado em carga
máxima, em um certo período de tempo especiﬁcado. Suponha-se que X seja uma variável
aleatória contínua com a seguinte f.d.p.:
f(x) =

x
15002
, 0 ≤ x ≤ 1500,
−(x−3000)
15002
, 1500 < x ≤ 3000,
0, c.c.
Exemplo: Seja X uma variável aleatória contínua deﬁnida num intervalo [a, b] com a
seguinte f.d.p.
f(x) =
{
1
b−a ,− a ≤ x ≤ b,
0, c.c.
Encontre a esperança dessa variável aleatória.
obs: a variável X deﬁnida dessa maneira é chamada de variável aleatória uniforme.
4.4.1 Propriedades de Valor Esperado
Propriedade 1: Se X = C, onde C é uma constante, então, E(X) = C.
Propriedade 2: Suponha-se que C seja uma constante e X uma variável aleatória.
Então, E(CX) = CE(X).
Propriedade 3: Sejam a, b constantes e X uma variável aleatória. Então, E(aX+b) =
aE(X) + b.
propriedade 4: Seja X uma variável aleatória e H(X) uma função contínua.
a) Se X for uma variável aleatória discreta assumindo valores x1, x2, ... com função de
probabilidade p(xi), i = 1, 2, ..., então E[H(X)] =
∑∞
i=1H(xi)p(xi);
b) SeX for uma variável aleatória contínua com f.d.p. f , então E[H(X)] =
∫ +∞
−∞ H(x)f(x)dx.
4.5 A Variância de uma Variável Aleatória
Deﬁnição: Seja X uma variável aleatória. Deﬁnimos a Variância de X, denotada por
V ar(X), da seguinte maneira:
V ar(X) = E[X − E(X)]2.
A raiz quadrada da Variância de X é denominada desvio padrão de X.
O cálculo de V ar(X) pode ser simpliﬁcado com o auxílio do seguinte resultado.
Teorema 4.5.
V ar(X) = E(X2)− [E(X)]2.
35
4.5.1 Proprieades da Variância de uma Variável Aleatória
Propriedade 1: Se C for uma constante,
V ar(C) = 0.
Propriedade 2: Se C for uma constante,
V ar(CX) = C2V ar(X).
Propriedade 3: Sejam a, b constantes e X uma variável aleatória. Então V ar(aX +
b) = a2V ar(X).
Exemplo: O serviço de meteorologia classiﬁca o tipo de céu que é visível, em termos
de �graus de nebulosidade�. Uma escala de 11 categorias é empregada: 0,1,2,...,10, onde
0 representa um céu perfeitamente claro, 10 representa um céu completamente encoberto,
enquanto os outros valores representam as diferentes condições intermediárias. Suponha-
se que tal classiﬁcação seja feita em uma determinada estação meteorológica, em um
determinado dia e hora. Seja X a variável aleatória que pode tomar um dos 11 valores
acima. Admita que a distribuição de probabilidade de x seja
X = x 0 1 2 3 4 5 6 7 8 9 10
P (X = x) 0,05 0,15 0,15 0,06 0,06 0,06 0,06 0,06 0,15 0,15 0,05
Portanto
E(X) =
E(X2) =
V ar(X) =
Exemplo: Suponhamos que X seja uma variável aleatória contínua com f.d.p.
f(x) =
{
1 + x, −1 ≤ x ≤ 0,
1− x. 0 ≤ x ≤ 1.
Então
E(X) =
V ar(X) =
36
4a LISTA DE EXERCÍCIOS
1 - Num teste de digitação, o tempo em minutos (T ) que os candidatos levam para
digitar um texto é modelado, de forma aproximada, pela seguinte distribuição de
probabilidade:
T 3 4 5 6 7 8 9
pi 0,1 0,1 0,2 0,2 0,2 0,1 0,1
O candidato recebe 4 pontos se terminar a digitação em 9 minutos, 5 se terminar em
8 minutos e assim por diante. Determine a média e a variância do número de pontos
obtidos no teste.
2 - Suponha que a demanda por certa peça, numa loja de autopeças, siga o seguinte
modelo:
P (X = k) =
a2k
k!
, k = 1, 2, 3, 4.
a) Encontre o valor de a.
b) Calcule a F.d.a de X.
c) Calcule a demanda esperada.
d) Qual é a variabilidade da demanda?
3 - A função de probabilidade da variável aleatória X é P (X = k) = 1/5, k = 1, 2, ..., 5.
Calcule E(X), E(X2), V ar(X), E[(X + 3)2] e V ar(3X − 2).
4 - Suponha que a variável aleatóriaX tenha valores possíveis 1,2,..., e P (X = j) = 1/2j,
j = 1, 2, ...
a) Calcule P (X ser par).
b) Calcule P (X ≥ 5).
c)Calcule P (X ser divisível por 3).
5 - Considere uma variável aleatória X com resultados possíveis: 0,1,2,... Suponha que
P (X = j) = (1− a)aj, j = 0, 1, 2, ...
a) Para que valores de a o modelo acima tem sentido?
b) Veriﬁque que essa expressão representa uma legítima distribuição de probabilidade.
c) Mostre que, para quaisquer dois inteiros positivos s e t,
P (X > s+ t | X > s) = P (X ≥ t).
6 - Veriﬁque se as expressões abaixo são funções densidade de probabilidade (assuma
que elas se anulam fora dos intervalos especiﬁcados).
a) f(x) = 3x, se 0 ≤ x ≤ 1.
b) f(x) = x
2
2
, se x ≥ 0.
37
c) f(x) = (x−3)
2
, se 3 ≤ x ≤ 5.
d) f(x) = 2, se 0 ≤ x ≤ 2.
e)f(x) =
{
1 + x, se − 1 ≤ x ≤ 0
1− x, se 0< x ≤ 1.
f)f(x) = −pi, se −pi < x < 0.
7 - A variável aleatória contínua tem f.d.p. f(x) = 3x2, −1 ≤ x ≤ 0. Se b for um
número que satisfaça a −1 < b < 0, calcule P (X > b | X < b/2).
8 - Suponham que f e g sejam f.d.p. no mesmo intervalo a ≤ x ≤ b.
a) Veriﬁque que f + g não é uma f.d.p. nesse intervalo.
b) Veriﬁque que, para todo número β, 0 < β < 1, βf(x)+(1−β)g(x) é uma f.d.p.
nesse intervalo.
9 - O diâmetro X de um cabo elétrico supõe-se ser uma variável aleatória contínua com
f.d.p. f(x) = 6x(1− x), 0 ≤ x ≤ 1.
a) Veriﬁque que essa expressão é uma f.d.p. e esboce seu gráﬁco.
b) Obtenha uma expressão par a F.d.a. da variável X.
c) Determine um número b tal que P (X < b) = 2P (X > b).
d) Calcule P (X ≤ 1/2 | 1/3 < X < 2/3).
10 - Uma variável aleatóriaX pode tomar quatro valores, com probabilidades (1+3x)/4, (1−
x)/4, (1 + 2x)/4 e (1 − 4x)/4. Para que valores de x é essa uma distribuição de
probabilidade?
11 - Uma variável aleatória X tem F.d.a dada por
F (x) =

0, se x ≤ 0
x5, se 0 < x < 1
1, se x ≥ 1.
Calcule E(X) e V ar(X).
12 - Numa certa região, fósseis de pequenos animais são freqüentemente encontrados e
um arqueólogo estabeleceu o seguinte modelo de probabilidade (f.d.p) para o com-
primento, em centímetros, desses fósseis.
f(x) =

x
40
, se 4 ≤ x ≤ 8
−x
20
+ 3
5
, se 8 < x ≤ 10
1
10
, se 10 < x ≤ 11.
a)Calcule a F.d.a.
b) Para um fóssil encontrado nessa região, determine a probabilidade do comprimento
ser inferior a 6 cm? E de ser superior a 5 mas inferior a 10,5 cm.
c)Encontre o valor esperado para o comprimento dos fósseis da região.
38
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I
DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA
Disciplina: Probabilidade e Estatística (6 créditos - Engenharias) Período 2003.2
Professores: Alexsandro, Alecxandro e Amanda Data:
Aluno(a): .
5a NOTA DE AULA
5 Alguns Modelos de Variáveis Aleatórias
5.1 Variáveis Aleatórias Discretas
5.1.1 Modelo Uniforme Discreto
Deﬁnição: Seja X uma variável aleatória cujos possíveis valores são representados por
x1, x2, ..., xk. Dizemos que X segue o modelo Uniforme Discreto se atribui a mesma pro-
babilidade 1/k a cada um desses k valores, isto é, sua função de probabilidade é dada por
P (X = xj) =
1
k
, ∀j = 1, 2, ..., k.
Exemplo: Uma rifa tem 100 bilhetes numerados de 1 a 100. Tenho 5 bilhetes consec-
utivos numerados de 21 a 25, e meu colega tem outros 5 bilhetes, com os números 1, 11,
29, 68 e 93. Quem tem maior possibilidade de ser sorteado?
Propriedades
É fácil veriﬁcar que:
E(X) =
∑k
i=1 xi
k
,
V ar(X) =
1
k
[
k∑
i=1
x2i −
(
∑k
i=1 xi)
2
k
]
.
5.1.2 Modelo de Bernoulli
Deﬁnição: Consideremos uma única tentativa de um experimento aleatório de forma que
tenhamos sucesso ou fracasso nessa tentativa.
Seja p a probabilidade de sucesso, logo 1− p será a probabilidade de fracasso.
Deﬁna a variável aleatória X da seguinte forma: X = 0, se não ocorre sucesso, ou 1,
se ocorre sucesso. Onde
P (X = 0) = 1− p
P (X = 1) = p.
39
Nessas Condições a variável aleatória X segue o modelo de Bernoulli, e sua função de
probabilidade é dada por:
P (X = x) = px(1− p)1−x, x = 0, 1.
Note que, E(X) = p e V ar(X) = p(1− p).
Exemplo: Lança-se um dado e observa-se ocorrência da face 6.
5.1.3 Modelo Binomial
Consideremos n tentativas independentes de um mesmo experimento aleatório. Cada ten-
tativa adimitindo apenas dois resultados: sucesso com probabilidade p e fracasso com
probabilidade 1 − p. As probabilidades de sucesso e fracasso são as mesmas para cada
tentativa.
Seja X: número de sucessos em n tentativas.
A variável aleatória X associada a esse experimento é dita ser uma Variável aleatória
Binomial com parâmetros n e p, que denotaremos por X : b(n, p). Sua função de proba-
bilidade é dada pelo teorema seguinte:
Teorema 5.1. Seja X uma variável aleatória binomial com parâmetros n e p. Então
P (X = k) =
(
n
k
)
pk(1− p)n−k
Teorema 5.2. Seja X uma variável aleatória binomial com parâmetros n e p. Então
E(X) = np e V ar(X) = np(1− p).
Exemplos: Sabe-se que a eﬁciência de uma vacina é de 80%. Um grupo de três
indivíduos é sorteado dentre a população vacinada, e submetidos a testes para averiguar se
a imunização foi efetiva. Construa a distribuição de probabilidade da variável X = número
de indivíduos imunes na amostra.
5.1.4 Distribuição Geométrica
Considere um experimento cujos resultados podem ser classiﬁcados como sucesso ou fra-
casso. Seja p a probabilidade de sucesso, logo 1−p é a probabilidade de fracasso. Considere
a variável aleatória X: número de ensaios até ocorrer o primeiro sucesso. Suponha que os
ensaios são independentes. Dessa forma,
P (X = x) = (1− p)x−1p, x = 1, 2, ...
A variável deﬁnida acima é chamada de Distribuição geométrica com parâmetro p.
Notação: X : Geométrica(p).
Teorema 5.3. Se X : Geométrica(p), então
40
(i) E(X) = 1
p
(ii) V ar(X) = 1−p
p2
Exemplo: Se a probablidade de que um certo ensaio dê reação positiva for igual a 0,4,
qual será a probabilidade de que menos de 5 reações negativas ocorram antes da primeira
positiva?
Teorema 5.4. Se X :Geométrica(p) então, para dois quaisquer inteiros positivos s e
t,
P (X ≥ s+ t | X > s) = P (X > t)
5.1.5 Distribuição Hipergeométrica
Consideremos uma população com N elementos, dos quais r têm uma determinada carac-
terística (sucesso). Retiramos dessa população, sem reposição, uma amostra de tamanho
n.
Seja X: número de sucessos na amostra.
Dessa forma a distribuição de probabilidade da variável aleatória X é dada por
P (X = k) =
(
r
k
)(
N − r
n− k
)
(
N
n
) , 0 ≤ k ≤ n, k ≤ r.
A variável X assim deﬁnida tem distribuição Hipergeométrica.
Teorema 5.5. Se X tem distribuição Hipergeométrica com parâmetros N, n e p, onde
p = r/N . Então
E(X) = np
e
V ar(X) = np(1− p)(N − n)
(N − 1) .
Exemplo: Pequenos motores são guardados em caixas com 50 unidades. Um inspetor
de qualidade examina cada caixa, antes da posterior remessa, testando 5 motores. Se
nenhum motor for defeituoso, a caixa é aceita. Se pelo menos um for defeituoso, todos os
50 motores são testados. Há 6 motores defeituosos numa caixa. Qual a probabilidade de
que seja necessário examinar todos os motores dessa caixa?
5.1.6 Distribuição de Poisson
Uma variável aleatória X tem distribuição de Poisson com parâmetro λ > 0, se sua função
de probabilidade é dada por
P (X = k) =
e−λλk
k!
, k = 0, 1, 2, ...,
41
com o parâmetro λ sendo usualmente referido como a taxa de ocorrência. A notação
utilizada será X : Po(λ).
Teorema 5.6. Se X : Po(λ) então:
E(X) = λ
e
V ar(X) = λ.
Exemplo 1: Num livro de 800 páginas há 800 erros de impressão. Qual a probabilidade
de que uma página contenha pelo menos 3 erros?
Exemplo 2: Numa central telefônica chegam 300 telefonemas por hora. Qual a prob-
abilidade de que:
a) num minuto não haja nenhum chamado;
b) em 2 minutos haja 2 chamados;
c) em t minutos não haja chamados.
5.2 Variáveis Aleatórias Contínuas
5.2.1 Modelo Uniforme
Deﬁnição: Uma variável aleatória contínua X tem distribuição uniforme no intervalo [a, b],
se sua f.d.p. for dada por:
f(x) =
{
1
b−a , a ≤ x ≤ b,
0, c.c.
Notação: X : U [a, b].
Propriedades: Se X : U [a, b], então
(i) E[X] = a+b
2
;
(ii) V ar[X] = (b−a)
2
12
.
Exemplo: Com o objetivo de veriﬁcar a resistência à pressão de água, os técnicos de
qualidade de uma empresa inspecionam os tubos de PVC produzidos. Os tubos produzidos
têm 6 metros de comprimento e são submetidos a grandes pressões até o aparecimento do
primeiro vazamento, cuja distância a uma das extremidades (ﬁxada à priori) é anotada para
ﬁns de análise posterior. Escolhe-se um tubo ao acaso para ser inspecionado.Queremos
calcular a probabilidade de que o vazamento esteja, no máximo, a 1 metro das extremidades.
Seja X a variável aleatória que indica a distância correspondente ao vazamento. Admita
que a probabilidade de ocerrência de vazamento em todos os pontos são iguais.
42
5.2.2 Distribuição Exponencial
Deﬁnição: Uma variável aleatória contínua X, assumindo valores não negativos, terá dis-
tribuição exponencial com parâmetro α > 0, se sua f.d.p. é dada por
f (x) =
{
αe−αx, x > 0
0, c.c.
Notação: X : Exp(α).
Propriedades:
a) E (X) = 1
α
e V ar (X) = 1
α2
.
b) (Falta de memória) Para todo s, t > 0, teremos
P (X > s+ t | X > s) = P (X > t) .
Exemplos:
1) O intervalo de tempo em minutos entre emissões consecutivas de uma fonte radioa-
tiva é uma variável aleatória com distribuição exponencial de parâmetro α = 0, 2. Vamos
calcular a probabilidade de haver uma emissão em um intervalo inferior a 2 minutos.
2) Considerando a distribuição do exemplo anterior, calculemos agora, a probabilidade
do intervalo ser superior ou igual a 7, sabendo-se que ele é superior ou igual a 5 minutos.
5.2.3 Distribuição Normal
Deﬁnição: Dizemos que a variável aleatória X tem distribuição normal com parâmetros µ
e σ2,−∞ < µ <∞ e 0 < σ2 <∞, se sua f.d.p. é dada por
f (x) =
1
σ
√
2pi
e−
1
2(
x−µ
σ )
2
,−∞ < x <∞.
Notação: X : N (µ, σ2) .
Propriedades
(i) Gráﬁco: tem a forma de sino;
(ii) f(x) assume valor máximo no ponto x = µ;
(iii) A curva normal é simétrica em relação a µ;
(iv) E (X) = µ e V ar (X) = σ2;
43
(v) Seja X : N(µ, σ2), considere a variável Z = X−µ
σ
. Mostra-se que Z também tem
distribuição normal. Z é chamada de variável normal padrão ou reduzida. É fácil ver
que E(Z) = 0 e V ar(Z) = 1. Logo, a f.d.p. de Z é dada por
f(z) =
1√
2pi
e
1
2
z2 ,−∞ < z <∞.
Portanto, se X : N(µ, σ2)⇒ Z : N(0, 1). A distribuição de Z se encontra tabelada;
(vide tabela em anexo)
(vi) A tabela nos dá a probabilidade P (0 ≤ Z ≤ z), para diversos valores de z. Dessa
forma, podemos calcular probabilidades envolvendo qualquer distribuição normal,
através da transformação Z = X−µ
σ
.
Exemplos:
1. Considere X : N(100, 25), calcular:
a) P (100 ≤ X ≤ 106)
b) P (89 ≤ X ≤ 107)
c) P (112 ≤ X ≤ 116)
d) P (X ≥ 108)
2. Sendo X : N(50, 16), determinar xα, tal que:
a) P (X ≤ xα) = 0, 05
b) P (X ≥ xα) = 0, 99
44
5a LISTA DE EXERCÍCIOS
1 - Seja X : b(10, 2
5
). Calcular:
a) P (X = 3);
b) P (X ≤ 2);
c) P (X − 2 < 1);
d) P (|X − 2| ≤ 1);
e) P (|X − 3| > 1);
f) E(X) e V ar(X);
2 - Seja X : b(n, p). Sabendo-se que E(X) = 12 e V AR(X) = 4, determinar
n, p, E(Z), V ar(Z), sendo Z = X−6
3
.
3 - Numa cidade, é selecionada uma amostra de 60 adultos e a esses indivíduos é pedido
para opinarem se são a favor ou contra determinado projeto. Como resultado obtido,
observou-se 40 a favor. Se na realidade as opiniões pró e contra são igualmente
divididas, qual a probabilidade de ter obtido tal resultado?
4 - O número de partículas Gama emitidas por segundo, por certa substância radioativa,
é uma variável aleatória com distribuição de Poisson com parâmetro λ = 3. Se
um instrumento registrador torna-se inoperante quando há mais de 4 partículas por
segundo, qual a probabilidade de isto acontecer em qualquer dado segundo?
5 - Em um pronto-socorro o número de atendimentos de emrgência segue uma dis-
tribuição de Poisson com média de 60 atendimentos por hora. Calcular:
a) A probabilidade do pronto-socorro não efetuar nenhum atendimento num intervalo
de 5 minutos.
b) A probabilidade do pronto-socorro efetuar pelo menos 2 atendimentos num inter-
valo de 10 minutos.
6 - Uma moeda não viciada é lançada sucessivamente, de modo independente, até que
ocorra a primeira cara. SejaX a variável aleatória que conta o número de lançamentos
anteriores à ocorrência de cara. Determine:
a) P (X ≤ 2);
b) P (X > 1);
c) E(X) e V ar(X)
d) Quantas vezes deve, no mínimo, ser lançada a moeda para garantir a ocorrência
de cara com pelo menos 0,8 de probabilidade?
7 - Numa urna há 40 bolas brancas e 60 bolas pretas. Retiram-se 20 bolas. Qual a
probabilidade de que ocorram no mínimo 2 bolas brancas, considerando as extrações:
a) Sem reposição;
b) Com reposição.
45
8 - Uma urna tem 10 bolas brancas e 40 pretas.
a) Qual a probabilidade de que a sexta bola retirada com reposição seja a primeira
branca?
b) Qual a probabilidade de que em 16 bolas retiradas sem reposição ocorram 3
brancas?
c) Qual a probabilidade de que em 30 bolas retiradas com reposição ocorram no
máximo 2 brancas?
9 - Sendo X : U [0, 4] , calcule:
a) P (X > 2) Resp. 1/2
b) P (X ≥ 2) Resp. 1/2
c) P (1 < X < 2) Resp. 1/4
d) P (1 < X < 2 | X < 3) Resp. 1/3
e) P (X < 3 | 1 < X < 2) Resp. 1
10 - Admite-se que uma pane pode ocorrer em qualquer ponto de uma rede elétrica de 10
km com a mesma probabilidade.
a) Qual a probabilidade da pane ocorrer nos primeiros 500 metros? E de ocorrer nos
3 quilômetros centrais da rede? Resp. 1/20 e 3/10
b) O custo de reparo da rede depende da distância do centro de serviço ao local da
pane. Considere que o centro de serviço está na origem da rede e que o custo é de
R$ 200,00 para distâncias até 3quilômetros, de R$400,00 entre 3 e 8 quilômetros e
de R$ 1000,00 para as distâncias acima de 8 quilômetros. Qual é o custo médio do
conserto? Resp. 460
11 - Suponha que o valor esperado de uma variável aleatória com distribuição uniforme é
1 e a variância é igual a 1/12. Encontre a probabilidade da variável assumir valores
menores que 3/4. Resp. 1/4
12 - Sendo X : Exp(1), determine:
a) P (0 < X < 2) Resp. 0,865
b) P (X < 2) Resp. 0,865
c) P (1 < X < 4) Resp. 0,350
d) P (X > 3) Resp. 0,05
e) P (X < 2 | X > 1) Resp. 0,633
13 - Suponha que o tempo de vida T de um vírus exposto ao meio ambiente segue uma
distribuição Exponencial com parâmetro λ = 1/20 s. Calcule a probabilidade condi-
cional P (T > 15 | T > 10) . Resp. 0,779
14 - Seja X : N (4, 1) , determine:
a) P (X ≤ 4) Resp. 0,5
46
b) P (4 < X < 5) Resp. 0,3413
c) P (2 ≤ X < 5) Resp. 0,8187
d) P (5 ≤ X < 7) Resp. 0,1574
e) P (X ≤ 1) Resp. 0,0013
f) P (0 < X < 2) Resp. 0,0228
15 - Seja X : N (90, 100) , determine:
a) P (X ≤ 115) Resp. 0,9938
b) P (X ≥ 80) Resp. 0,8413
c) P (X ≤ 75) Resp. 0,0668
d) P (85 ≤ X ≤ 110) Resp. 0,6687
e) P (|X − 90| ≤ 10) Resp. 0,6826
f) O valor de a tal que P (90− a ≤ X ≤ 90 + a) = 0, 95. Resp. a = 19, 6
16 - Para X : N (−5, 10) , calcule:
a) P (−5 < X ≤ −2) Resp. 0,3289
b) P (X ≤ 0) Resp. 0,9429
c) P (X > −6) Resp. 0,6255
d) P (−7 ≤ X ≤ −6) Resp. 0,1102
e) P (|X + 5| > 2) . Resp. 0,4286
17 - Uma clínica de emagrecimento recebe pacientes adultos com peso seguindo uma
distribuição normal de média 130 kg e desvio padrão 20 kg. Para efeito de determinar
o tratamento mais adequado, os 25% pacientes de menor peso são classiﬁcados de
�magros�, enquanto os 25% de maior peso de �obesos�. Determine os valores que
delimitam cada uma dessas classiﬁcações. Resp. Magros: 116,6 kg Obesos: 143,4
kg
18 - Um teste de aptidão feito por pilotos de aeronaves em treinamento inicial requer
que uma série de operações seja realizada em uma rápida sucessão. Suponha que o
tempo necessário para completar o teste seja distribuído de acordo com uma normal
de média 90 minutos e desvio padrão 20 minutos.
a) Para passar no teste, o candidato deve completá-lo em menos de 80 minutos. Se
65 candidatos tomam o teste, quantos são esperados passar?
b) Se os 5% melhores candidatos serão alocados para aeronaves maiores, quão rápido
deve ser o candidato para que obtenha essa posição?
47
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I
DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA
Disciplina: Probabilidade e Estatística (6 créditos - Engenharias)Período 2003.2
Professores: Alexsandro, Alecxandro e Amanda Data:
Aluno(a): .
6a NOTA DE AULA
6 Variáveis Aleatórias Bidimensionais
6.1 Variáveis Aleatórias Discretas
Na maioria das situações diﬁcilmente trabalhamos com apenas uma variável aleatória.
É muito comum estarmos interessados no comportamento conjunto de várias variáveis
aleatórias. Trataremos aqui apenas de duas variáveis, porém, os conceitos estudados aqui
podem ser expandidos de maneira análoga para mais de duas variáveis.
Introduziremos o estudo através do seguinte exemplo:
Uma amostra de 20 alunos do primeiro ano de uma faculdade foi escolhida. Perguntou-
se aos alunos se trabalhavam, variável que foi representada por X, e o número de vestibu-
lares prestados, variável representada por Y . Os dados obtidos estão na tabela abaixo.
X não sim não não não sim sim não sim sim
Y 1 1 2 1 1 2 3 1 1 1
X não não sim não sim não não não sim não
Y 2 2 1 3 2 2 2 1 3 2
Podemos coletar as freqüências de ocorrência dos possíveis pares, construindo uma tabela
de freqüência conjunta de X e Y .
(X, Y ) freqüência
Total
Esta mesma tabela pode ser apresentada de maneira mais conveniente através da
tabela de dupla entrada, da seguinte forma:
48
X | Y Total
Total
Dessa forma, ﬁca facilitada a tarefa de obter a tabela de freqüência individual para
cada variável que, pela posição em que seus valores aparecem na tabela de dupla entrada, é
chamada de tabela marginal de freqüência da variável X (ou Y ), ou simplesmente marginal
de X (ou Y ). Temos então para as variáveis X e Y , do exemplo anterior, as seguintes
tabelas de freqüência:
X freqüência
Total
Y freqüência
Total
Observe que podemos construir as mesmas tabelas considerando agora as freqüências
relativas.
6.1.1 Função de Probabilidade Conjunta
Iremos considerar agora o caso de variáveis aleatórias discretas, deﬁnidas a partir das suas
funções de probabilidades. Iniciamos estendendo a deﬁnição de função de probabilidade
para o caso de duas variáveis.
Deﬁnição: Seja X uma variável aleatória que assume os valores x1, x2, ..., xm e Y
variável aleatória que assume os valores y1, y2, ..., yn. A função de probabilidade conjunta
é deﬁnida, para todos os possíveis pares de valores (xi, yj), i = 1, 2, ...,m e j = 1, 2, ..., n,
da seguinte forma:
p(xi, yj) = P [(X = xi) ∩ (Y = yj)] = P (X = xi, Y = yj),
isto é, p(xi, yj) representa a probabilidade de (X, Y ) ser igual a (xi, yj).
Damos o nome de distribuição conjunta de probabilidades da variável bidimensional
(X, Y ) ao conjunto:
{(xi, yj), p(xi, yj), i = 1, 2, ...,m j = 1, 2, ..., n}
Observamos que:
m∑
i=1
n∑
j=1
P (X = xi, Y = yj) = 1.
A distribuição conjunta de probabilidades da variável (X, Y ) pode ser representada,
também, através de uma tabela de dupla entrada.
Exemplo: Uma região foi subdividida em 10 sub-regiões. Em cada uma delas, foram
observadas duas variáveis: número de poços artesianos (X) e número de riachos ou rios
presentes na sub-região (Y ). Os resultados são apresentados na tabela a seguir:
49
Sub-região 1 2 3 4 5 6 7 8 9 10
X 0 0 0 0 1 2 1 2 2 0
Y 1 2 1 0 1 0 0 1 2 2
Considerando que escolhemos uma das sub-regiões ao acaso, isto é, cada sub-região
tem mesma probabilidade 1/10 de ser escolhida, podemos construir a distribuição conjunta
de (X, Y ):
(X, Y ) P (X, Y )
Total
Cuja tabela de dupla entrada é dada por:
X | Y Total
Total
6.1.2 Distribuições Marginais de Probabilidades
Quando trabalhamos com uma variável aleatória bidimensional podemos ter o interesse em
estudar o comportamento de uma única variável; ou seja; em conhecer a distribuição de
probabilidade de X ou de Y .
Considerando a distribuição de probabilidades conjunta de (X, Y ) representada através
de uma tabela de dupla entrada, tal como apresentada a seguir:
Tabela 1: tabela de dupla entrada para apresentar a distribuição conjunta de (X,Y).
Y y1 ... yn
X Total
x1 p(x1, y1) ... p(x1, yn) p(x1)
x2 p(x2, y1) ... p(x2, yn) p(x2)
... ... ... ... ...
... ... ... ... ...
xm p(xm, y1) ... p(xm, yn) p(xm)
Total p(y1) ... p(yn) 1,0
50
Desta maneira, a distribuição deX ou comumente denominada de distribuição marginal
de X, pode ser obtida a partir de
p(xi) = P [(X = xi, Y = y1)ou(X = xi, Y = y2)ou...ou(X = xi, Y = yn)] = Σ
n
j=1p(xi, yj).
De modo análogo, a distribuição marginal de Y é obtida a partir de
p(yj) = P [(X = x1, Y = yj)ou(X = x2, Y = yj)ou...ou(X = xm, Y = yj)] = Σ
m
i=1p(xi, yj).
Exemplo: Considerando o exemplo das sub-regiões, podemos calcular, através da dis-
tribuição conjunta, as distribuições marginais. Portanto, as distribuições marginais seriam
as seguintes:
X = xi 0 1 2
P (X = xi)
Y = yj 0 1 2
P (Y = yj)
6.1.3 Função de Variáveis Aleatórias
Em muitas situações há interesse em estudar o comportamento de uma função das variáveis
tal como soma, produto ou alguma outra relação entre elas. Introduziremos através do
seguinte exemplo:
Em uma cidade do Estado de São Paulo, admite-se que o número de anos para com-
pletar o ensino fundamental (variável F ) e o número de anos para completar o ensino médio
(variável M) têm distribuição conjunta dada por:
(F,M) p(f,m)
(8,3) 3/10
(8,4) 1/10
(8,5) 1/10
(9,3) 2/10
(9,4) 1/20
(9,5) 1/10
(10,4) 1/10
(10,5) 1/20
Total 1
Suponha que exista interesse em estudar as variáveis F +M e F.M . Acrescentando,
à tabela anterior, colunas correspondendo aos valores dessas novas variáveis temos
51
(F,M) p(f,m) F +M F.M
(8,3) 3/10
(8,4) 1/10
(8,5) 1/10
(9,3) 2/10
(9,4) 1/20
(9,5) 1/10
(10,4) 1/10
(10,5) 1/20
Através dessa tabela podemos construir a distribuição da variável Z = F + M e
W = F.M , para isso basta somar as probabilidades nos valores comuns, por exemplo:
P (Z = 13) = P (8, 5) + P (9, 4) =
1
10
+
1
20
=
3
20
.
Procedendo de modo similar com os outros valores obtemos as funções de probabilidade
de Z e de W :
Z = z 11 12 13 14 15
P (Z = z)
W = w 24 27 32 36 40 45 50
P (W = w)
6.1.4 Associação entre Variáveis
Deﬁnição: Dada duas variáveis aleatórias discretas deﬁnidas no mesmo espaço amostral, a
probabilidade condicional de X = x, dado que Y = y ocorreu, é dada pela expressão:
P (X = x | Y = y) = P (X = x, Y = y)
P (Y = y)
, se P (Y = y) > 0.
Caso P (Y = y) = 0, a probabilidade condicional pode ser deﬁnida arbitrariamente e
adotaremos P (X = x | Y = y) = P (X = x).
Deﬁnição: Duas variáveis aleatórias discretas são independentes, se a ocorrência de
qualquer valor de uma delas não altera a chance de ocorrência de valores da outra. Ou
seja,
P (X = x | Y = y) = P (X = x),
para todos os possíveis valores (x, y) das variáveis (X, Y ). Como deﬁnição alternativa
podemos usar:
P (X = x, Y = y) = P (X = x)P (Y = y),
para quaisquer (x, y).
Observação: X e Y são independentes ⇐⇒ p(x, y) = p(x)p(y), ∀ (x, y).
Se existe pelo menos um par (x0, y0) tal que:
p(xo, y0) 6= p(x0)p(y0)
52
então, X e Y não são independentes.
Exemplo: Suponhamos que X e Y tenham distribuição conjunta dada pela seguinte
tabela:
X | Y 1 2 3
1 0 1/5 0
2 1/5 1/5 1/5
3 0 1/5 0
Determine as distribuiçãoes marginais de X e Y . Estas variáveis são independentes?
6.1.5 Medida de Correlação entre duas Variáveis
Quando as variáveis não são independentes isto quer dizer que existe uma certa relação
entre estas variáveis. Esta relação pode ser de qualquer tipo, como por exemplo uma
relação linear, quadrática, exponencial, etc. Nosso objetivo aqui não será o de determinar
qual o tipo de relação que existe entre as variáveis em questão e sim o de medir o grau
de correlação entre estas variáveis. Neste curso iremos medir o grau de correlação linear
entre variáveis quantitativas discretas. Na literatura existem outras medidasde correlação,
inclusive entre variáveis qualitativas, porém este não será o nosso objetivo aqui neste curso.
Antes de deﬁnirmos a medida de correlação linear entre as variáveis vamos enunciar
algumas propriedades envolvendo o valor esperado de funções de variáveis aleatórias.
Propriedade 1: Para variáveis aleatórias X e Y , vale sempre que
E(X + Y ) = E(X) + E(Y ).
No caso do produto de duas variáveis aleatórias nem sempre é válido que o valor
esperado do produto é o produto dos valores esperados. Neste caso temos o seguinte
resultado:
Propriedade 2: Se X e Y são duas variáveis aleatórias independentes, então
E(XY ) = E(X)E(Y ).
Obs: A recíproca desta propriedade não é verdadeira, ou seja, se
E(XY ) = E(X)E(Y ),
então não necessariamente é verdade que X e Y são independentes.
Exemplo: Considere as variáveis X e Y tendo distribuição conjunta dada por:
X | Y 2 3 4
-1 2/12 0 3/12
0 0 1/12 1/12
1 1/12 2/12 2/12
53
Calcule, E(X), E(Y ) e E(XY ). Depois determine se X e Y são independentes.
Deﬁnição: Uma medida de dependência linear entre X e Y é dada pela covariância:
Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))].
Em palavras, a covariância é o valor esperado do produto dos desvios de cada variável
em relação à sua média.
Desenvolvendo a equação acima chegaremos em uma deﬁnição mais usual, que é dada
pela seguinte expressão:
Cov(X, Y ) = E(XY )− E(X)E(Y ).
Observe que, se X e Y são independentes, então a Cov(X, Y ) = 0, a recíproca, neste
caso, não é sempre verdadeira.
A partir da covariância, deﬁnimos uma nova medida de dependência linear.
Deﬁnição: O coeﬁciente de correlação linear entre as variáveis aleatórias X e Y é
calculado pela seguinte expressão:
ρX,Y =
Cov(X, Y )
σXσY
.
Onde, σXσY são respectivamente os desvios-padrão das variáveis X e Y .
A divisão pelo produto dos desvios-padrão, tem a função de padronizar a medida e
tornar possível a comparação com outras variáveis. Pode-se mostrar que |ρX,Y | ≤ 1. A
interpretação de sua expressão segue os mesmos passos da covariância, sendo que valores
de ρX,Y próximos de ±1 indicam correlação forte.
Propriedade 3: Sejam X e Y variáveis aleatórias quaisquer, então
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ).
Se X e Y são independentes, então
V ar(X + Y ) = V ar(X) + V ar(Y ).
Exemplo: Calculemos a Cov(F,M) e ρF,M no exemplo da seção 6.1.3.
54
6a LISTA DE EXERCÍCIOS
1 - O setor de emergência de um pronto socorro infantil anotou o número de crianças
atendidas (C), de médicos (M) e de auxiliares (A) de plantão em 15 dias de atividades.
Os dados são apresentados na tabela abaixo:
Dia 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
C 5 7 5 6 5 5 7 5 6 6 7 5 5 6 6
M 1 1 2 2 2 1 2 1 1 2 2 2 2 2 2
A 4 4 5 6 7 7 6 5 5 6 7 7 6 6 7
a) Determine as tabelas de freqüência marginais de C, M e A.
b) Obtenha a tabela de freqüência conjunta entre (C, M), (C, A) e (M, A).
c) Calcule a média das variáveis M e A.
2 - Para famílias de um certo bairro de São Paulo, apresentamos abaixo a tabela de
freqüência conjunta das variáveis: número de automóveis (A) e de TVs (T).
A\ T 0 1 2 total
0 110 235 120 465
1 51 122 178 351
2 15 84 162 261
total 176 441 460 1077
a) Calcule as marginais de A e T.
b) Determine as médias destas variáveis.
3 - Uma moeda equilibrada é lançada duas vezes de forma independente. Ao ﬁnal dos
lançamentos, duas variáveis aleatórias são anotadas: o número total de caras (C) e
o número de coroas no 2
o
lançamento (K).
a) Construa uma tabela com a distribuição conjunta das variáveis C e K.
b) Determine o valor esperado de C.
4 - A função conjunta de probabilidade entre as variáveis X e Y é apresentada abaixo
(com algumas entradas faltando):
X\ Y -1 0 2 4 P (X)
-2 3/64 1/32 5/16
-1 1/16 1/16 0
1 1/64 11/64 1/64 5/16
2 5/64 3/64 1/32
P (Y ) 5/16 1/4 1
a) Complete a tabela.
b) X e Y são independentes?
c) Obtenha as marginais de X e Y.
55
d) Calcule a distribuição da variável W = XY.
e) Calcule ρ(X, Y ).
5 - A função de probailidade conjunta entre as variáveis aleatórias X e Y é apresentada
na tabela abaixo:
X\ Y -2 0 2 4
-1 0,1 0,2 0,1 0,2
1 0,2 0 0,1 0,1
a) Obtenha as distribuições marginais de X e Y.
b) X e Y são independentes?
c) Calcule ρ(X, Y ).
6 - Na caixa I existem duas bolas numeradas 0 e 1, enquanto que a caixa II contêm duas
bolas numeradas -1 e 0. Uma bola é retirada aleatoriamente de cada caixa, de forma
independente uma da outra. A esse experimento, associamos as variáveis aleatórias:
número da bola retirada na caixa I (X), soma dos valores das duas bolas retiradas
(Y ) e a diferença, em módulo, desses valores (Z).
a) Determine a distribuição de probabilidade conjunta entre Xe Y e entre Y e Z.
b) Veriﬁque se Xe Y são independentes. Idem para Y e Z.
c) Calcule a Cov(X, Y ) .
d) Obtenha V ar (X + Y ) .
7 - A variável X é Bernoulli com p = 0, 4 e Y : b(3 : 0, 5). Admita que X e Y são
independentes.
a) Determine P (X = 0 | Y = 2) .
b) Obtenha a distribuição conjunta de Xe Y e do produto W = XY.
c) Clcule E (X) , E (Y ) e E (W ) e veriﬁque que E (W ) = E (X)E (Y ) .
d) Determine o valor de Cov(X,Y ) e ρ (X, Y ) .
56
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I
DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA
Disciplina: Probabilidade e Estatística (6 créditos - Engenharias) Período 2003.2
Professores: Alexsandro, Alecxandro e Amanda Data:
Aluno(a): .
7a NOTA DE AULA
7 Introdução à Inferência Estatística
7.1 Introdução
A Estatística é uma ciência que tem como objetivo a tomada de decisão em situações de
incerteza. Esta ciência divide-se basicamente em duas partes. A primeira parte é conhecida
como Estatística Descritiva que trata da coleta, organização e descrição de dados. A
segunda é a Estatística Inferencial que se preocupa em fazer aﬁrmações e/ou testar
hipóteses sobre características numéricas em situações de incerteza.
Para iniciar o estudo da Estatística Inferencial é necessário compreender os seguintes
conceitos básicos:
Deﬁnição 7.1 (População). A população é um conjunto formado por todos os ele-
mentos que possuem pelo menos uma característica observável.
Deﬁnição 7.2 (Amostra). A Amostra é apenas uma parte da população, ou seja, é
um subconjunto da população.
Dois outros conceitos estreitamente relacionados com os de População e Amostra
são os de Parâmetro e Estatística.
Deﬁnição 7.3 (Parâmetro). É uma característica numérica da população.
Deﬁnição 7.4 (Estatística). É uma característica numérica da amostra que será
usada para extrair informações sobre a população.
Alguns exemplos são:
1) População: os eleitores da cidade de Campina Grande
Amostra: 650 eleitores escolhidos aleatoriamente ( ao acaso)
Característica de interesse: percentual de eleitores que planejam votar num can-
didato X nas próximas eleições.
2) População: automóveis Uno Mille produzidos em 1995
Amostra: todos os automóveis produzidos em agosto de 1995
Características de interesse: número de defeitos apresentados nos primeiros 3
meses de uso, quilometragem média e uma possível relação entre estas duas variáveis.
57
3) População: todos os domicílios com TV na cidade de Campina Grande.
Amostra: 1000 domicílios com TV escolhidos ao acaso.
Característica de interesse: percentual de audiência de cada emissora de TV a
cada dia da semana no horário de 18 às 22 horas.
4) População: população acima de 15 anos na cidade de Campina Grande.
Amostra: 200 pessoas com mais de 15 anos.
Características de interesse:
i. percentual de bebedores de cerveja.
ii. dentre os bebedores de cerveja, quantos são homens?
iii. dentre os bebedores de cerveja, quantos preferem Brahma?
iv. dentre os bebedores de Brahma, quantas cervejas eles tomam por semana e a
que classesocial eles pertencem?
v. Existe alguma relação entre as variáveis Marca de Cerveja consumida e Classe
Social?
Características numéricas como média, variância e proporção são consideradas parâme-
tros se obtidas pelo uso de dados populacionais e não apresentam incerteza sobre seu real
valor. Por outro lado, quando estas características são baseadas em dados amostrais (dados
de uma parte da população) tem-se as estatísticas, as quais podem apresentar diferentes
valores se obtidas a partir de diversas amostras.
7.2 Noções Básicas de Amostragem
Vários motivos levam a necessidade de se observar apenas uma parte da população
(amostra), como, por exemplo: a falta de tempo, de recursos ﬁnanceiros e/ou humanos.
A amostra deve ser obtida através de Técnicas de Amostragem, as quais tem como
objetivo principal garantir a representatividade da população, ou seja, fazer com
que a amostra seja um retrato ﬁel da população.
Basicamente, existem dois tipos de amostragem: Probabilística e Não-Probabilística.
7.2.1 Amostragem Probabilística
Neste tipo de amostragem a probabilidade de cada elemento pertencer a amostra é
conhecida e diferente de zero. A amostragem probabilística implica em sorteio com regras
bem determinadas, cuja realização só será possível se a população for ﬁnita e totalmente
acessível.
A utilização de uma amostragem probabilística é a melhor recomendação que se deve
fazer no sentido de se garantir a representatividade da amostra, pois o acaso ou a aleato-
riedade será o(a) único(a) responsável por eventuais discrepâncias entre as características
58
da população e da amostra, o que é levado em consideração pelos métodos de análise da
Estatística Inferencial.
Os principais tipos de amostragem probabilística são:
Amostragem Aleatória Simples
A amostragem aleatória simples é uma técnica de coleta de dados amostrais que equi-
vale a um sorteio lotérico. Nela, todos os elementos da população têm igual probabilidade
de pertencer à amostra, e todas as possíveis amostras têm igual probabilidade de ocorrer.
O processo da amostragem aleatória simples exige que se atribuam números consecu-
tivos às unidades da população e proceda-se a um sorteio. Colocando-se todos os números
em um recipiente, por exemplo, e retirando um número, situação na qual cada unidade
de observação tem a mesma chance de ser selecionada (supondo que não há diferenças
em formato, peso, etc do material que compõe cada um dos números). Entretanto, tal
procedimento não é prático para uma população muito grande; busca-se, então, simular tal
sorteio, o que é feito pelo uso de uma tabela de dígitos pseudo-aleatórios (Ver Tabela em
Livros de Estatística), ou ainda, pelo uso de funções aleatórias existentes em programas
computacionais, tais como Excel ou programas especíﬁcos para análise estatística.
Amostragem Estratiﬁcada
Muitas vezes a população se divide em Sub-populações ou Estratos, sendo razoável
supor que, de estrato para estrato, a(s) variável(is) de interesse apresente(m) comporta-
mento(s) substancialmente diverso(s) (comportamento heterogêneo), tendo, entretanto,
comportamento(s) razoavelmente homogêneo(s) dentro de cada estrato. Em tais casos, se
o sorteio dos elementos da amostra for realizado sem levar em consideração a existência
dos estratos, pode acontecer que os diversos estratos não sejam convenientemente repre-
sentados na amostra, a qual seria mais inﬂuenciada pelas características da variável nos
estratos mais favorecidos pelo sorteio. Evidentemente, a tendência à ocorrência de tal fato
será tanto maior quanto menor o tamanho da amostra. Para evitar isso, pode-se adotar
uma amostragem estratiﬁcada.
A amostragem estratiﬁcada consiste em identiﬁcar os estratos (grupos distintos da
população), e em especiﬁcar quantos elementos da amostra serão retirados em cada estrato.
É costume considerar três tipos de amostragem estratiﬁcada: uniforme, proporcional e
ótima. Detalhes sobre estas técnicas podem ser obtidos em literatura especíﬁca.
Amostragem Sistemática
Uma amostragem é sistemática quando a retirada dos elementos da população é feita
periodicamente, sendo o intervalo de seleção calculado, para uma populaçõa ﬁnita, por
meio da divisão do tamanho da população pelo tamanho da amostra a ser selecionada.
7.2.2 Amostragem Não-Probabilística
Na amostragem não-probabilística não é possível calcular a probabilidade de cada
elemento pertencer a amostra. Este tipo de amostragem é muitas vezes empregado em
trabalhos estatísticos, por simplicidade ou por impossibilidade de se obterem amostras
probabilísticas, como seria desejável. Como em muitos casos os efeitos da utilização de uma
59
amostragem não-probabilística podem ser considerados equivalentes aos de amostragem
probabilística, resulta que os processos não-probabilísticos de amostragem têm também
sua importância. Apresentamos a seguir alguns casos de amostragem não-probabilística.
Inacessibilidade a toda a população
Essa situação ocorre com muita freqüência na prática. Somos então forçados a colher
a amostra na parte da população que nos é acessível. Surge aqui, portanto, uma distinção
entre população-objeto e população amostrada. A população-objeto é aquela que temos
em mente ao realizar o trabalho estatístico. Apenas uma parte dessa população, porém,
está acessível para que dela retiremos a amostra. Essa parte é a população amostrada.
Se as características da(s) variável(is) de interesse forem as mesmas na população-objeto
e na população amostrada, então esse tipo de amostragem equivalerá a uma amostragem
probabilística.
Uma situação muito comum em que ﬁcamos diante da inacessibilidade a toda a pop-
ulação é o caso em que parte da população é ainda hipotética. Assim, por exemplo,
seja a população que nos interessa constituída por todas as peças produzidas por certa
máquina. Ora, mesmo estando a máquina em funcionamento normal, existe uma parte da
população que é formada pelas peças que ainda vão ser produzidas. Ou, então, se nos
interessar a população de todos os portadores do vírus HIV, estaremos diante de um caso
semelhante. Deve-se notar que, em geral, estudos realizados com base nos elementos da
população amostrada terão, na verdade, seu interesse de aplicação voltado para os elemen-
tos restantes da população-objeto. Esse fato realça a importância de se estar convencido
de que as duas populações podem ser consideradas como tendo as mesmas características.
O presente caso de amostragem não-probabilística pode ocorrer também quando, em-
bora se tenha a possibilidade de atingir toda a população, retiramos a amostra de uma
parte que seja prontamente acessível. Assim, se fôssemos recolher uma amostra de um
monte de minério, poderíamos por simpliﬁcação retirar a amostra de uma camada próxima
à superfície exterior do monte, pois o acesso às porções interiores seria problemático.
Amostragem a esmo ou sem norma
É a amostragem em que o amostrador, para simpliﬁcar o processo, procura ser aleatório
sem, no entanto, realizar propriamente o sorteio usando algum dispositivo aleatório con-
ﬁável. Por exemplo, se desejarmos retirar uma amostra de 100 parafusos de uma caixa
contendo 10.000, evidentemente não faremos uma amostragem casual simples, pois seria
extremamente trabalhosa, mas procederemos à retirada simplesmente a esmo. Outro exem-
plo, poderia ser observar uma amostra de hotéis de uma determinada cidade, e que, por um
motivo qualquer, não possuímos a listagem dos hotéis. Então, poderíamos proceder a uma
amostragem simplesmente a esmo ou ao acaso, buscando hotéis localizados em diferentes
bairros, de diferentes tamanhos e estrelas, e caso tivéssemos interessados em pesquisar
hotéis numa única rua, procuraríamos observar hotéis tanto do lado direito, quanto do lado
esquerdoda rua, e evitaríamos observar hotéis que fossem vizinhos.
Os resultados da amostragem a esmo são, em geral, equivalentes aos de uma amostragem
probabilística se a população é homogênea (elementos com características bastante semel-
hantes) e se não existe a possibilidade de o amostrador ser inconscientemente inﬂuenciado
por alguma característica dos elementos da população.
60
Amostragens intencionais
Enquadram-se aqui os diversos casos em que o amostrador deliberadamente escolhe
certos elementos para pertencer à amostra, por julgar tais elementos bem representativos
da população.
O perigo desse tipo de amostragem é obviamente grande, pois o amostrador pode
facilmente se equivocar em seu pré-julgamento. Apesar disso, o uso de amostragens in-
tencionais, ou parcialmente intencionais, é bastante freqüente, ocorrendo em vários tipos
de situações reais. Exemplos freqüentes ocorrem na área empresarial, em que os admin-
istradores de uma empresa desejam que determinados elementos de uma população não
ﬁquem fora da amostra. Devemos, chamar a atenção que esta intencionalidade pode ser
usada tanto para garantir a representatividade da amostra, como também para induzir re-
sultados. Um exemplo deste último objetivo seria a intencionalidade de um político para
que pertençam a amostra, uma ou mais comunidades em que ele suspeita que a maioria
dos eleitores são favoráveis a sua candidatura.
7.2.3 Comentários Adicionais sobre Amostragem
Como podemos ver, há diferentes maneiras pelas quais as amostras podem ser sele-
cionadas, cada qual com vantagens e desvantagens.
É importante ressaltar que a deﬁnição do tamanho da amostra a ser retirada da
população é um outro problema associado à amostragem. O tamanho amostral deve mini-
mizar os custos operacionais da amostragem e será tanto maior quanto for a variabilidade
das características populacionais a serem estudadas.
7.2.4 Amostra Aleatória Simples
Deﬁnição 7.5 (Amostra Aleatória Simples - AAS). Variáveis aleatórias X1, X2, ..., Xn
constituem uma amostra aleatória simples de tamanho n, ou simplesmente amostra
aleatória (a.a.) de uma variável aleatória (v.a) X, quando satisfazem as seguintes
condições:
1) As variáveis aleatórias X1, X2, ..., Xn são independentes, e
2) Cada uma das variáveis aleatórias Xi, i = 1, 2, ..., n têm a mesma distribuição
de probabilidade da variável X.
Exemplo : Considere uma população formada pelos seguintes elementos {1, 3, 5, 5, 7}.
Considere a variável X: valor assumido pelo elemento na população. Assim, a distribuição
de probabilidade de X é dada por:
X = x 1 3 5 7
P (X = x)
Considere todas as amostras possíveis de tamanho 2, com reposição, da população
cuja distribuição é dada acima. Além disso considere X1 o número selecionado na primeira
61
extração e X2 o número selecionado na segunda extração. Assim, podemos construir a
distribuição de probabilidades conjunta de (X1, X2) e as distribuições marginais de X1 e
X2. Observe que X1 e X2 são independentes e têm distribuições iguais à distribuição de
X.
7.3 Distribuições Amostrais
Voltemos às deﬁnições de estatísticas e parâmetros.
Deﬁnição 7.6. Um parâmetro é uma medida usada para descrever uma característica
da população.
Assim, identiﬁcando a população pela variável aleatória X, seriam parâmetros a média
E(X) e a sua Variância V ar(X).
Deﬁnição 7.7. Uma estatística é uma característica da amostra, ou seja dada uma
amostra aleatória X1, X2, ..., Xn de uma população X, deﬁniremos uma estatística T
como qualquer função de X1, X2, ..., Xn, ou seja T = f(X1, X2, ..., Xn).
Assim, dada uma amostra aleatória X1, X2, ..., Xn, um exemplo de estatística seria a
média amostral
X¯ =
1
n
(X1 +X2 + · · ·+Xn).
Sendo X1, X2, ..., Xn uma amostra aleatória, uma pergunta natural seria o que acon-
tece com a estatística T quando retiramos todas as amostras de uma população conhecida
segundo um plano amostral adotado, ou seja qual a distribuição de T quandoX1, X2, ..., Xn
assume todos os valores possíveis. Essa distribuição será chamada de distribuição amostral
da estatística T .
Exemplo: Considerando o exemplo da seção 7.2.4 podemos construir a distribuição de
algumas estatísticas, como por exemplo a distribuição de X¯ = 1
n
(X1 +X2 + · · · +Xn) e
S2 =
∑n
i=1(Xi − X¯)2/(n− 1).
Assim, teríamos
X¯ = x¯ Total
P (X = x)
S2 = s Total
P (S2 = s)
7.3.1 Distribuição Amostral da Média
Voltando ao exemplo anterior podemos observar que µ = E(X) = 4, 2 e V ar(X) =
σ2 = 4, 16. Vemos também, pela distribuição de X¯ que E(X¯) = 4, 2 e V ar(X¯) = 2, 08.
Mostraremos a seguir que estes resultados não foram uma mera coincidência.
62
Teorema 7.1. Seja X uma variável aleatória com média µ e variância σ2, e seja
(X1, X2, ..., Xn) uma amostra aleatória de X. Então,
E(X¯) = µ
e
V ar(X¯) =
σ2
n
.
Um teorema bem mais forte do que este é o que se refere à distribuição de probabilidade
da variável X¯. Este teorema é conhecido como o Teorema Central do Limite e pode ser
enunciado da seguinte forma:
Teorema 7.2 (Teorema Central do Limite). Para amostras aleatórias (X1, X2, ..., Xn),
retiradas de uma população com média µ e variância σ2 ﬁnita, a distribuição amostral
da média X¯ aproxima-se, para n suﬁcientemente grande, de uma distribuição normal,
com média µ e variância σ2/n.
Observaçães:
No teorema acima não ﬁzemos nenhuma suposição sobre a natureza das distribuições
das variáveis X1, X2, ..., Xn, ou seja, independente de como se comportam essas variáveis,
sejam elas discretas ou contínuas, o teorema continua válido.
Se as variáveis X1, X2, ..., Xn têm distribuição normal, então X¯ terá também dis-
tribuição normal e não apenas uma aproximação.
Exemplo: Em uma certa cidade, a duração de conversas telefônicas em minutos, orig-
inárias de telefones públicos, segue um modelo exponencial com parâmetro 1/3. Observando-
se uma amostra aleatória de 50 dessas chamadas, qual será a probabilidade delas, em média,
não ultrapassarem 4 minutos?
Exemplo: Uma v.a. X tem distribuição normal, com média 100 e desvio padrão 10.
a) Se X¯ for a média de uma amostra de 16 elementos retirados dessa população,
calcule P (90 < X¯ < 110).
b) Que tamanho deveria ter uma amostra para que P (90 < X¯ < 110) = 0, 95?
7.3.2 Distribuição Amostral da Proporção
Considere uma população em que a proporção de elementos portadores de certa carac-
terística é p. Assim, deﬁniremos a variável aleatória X como: X = 1, se o indivíduo for
portador da característica e X = 0, se o indivíduo não possui a característica. Observe que
X tem distribuição de Bernoulli com parâmetro p. Logo, E(X) = p e V ar(X) = p(1−p).
Retira-se uma amostra aleatória de tamanho n, dessa população. Considere a v.a. Sn:
número de indivíduos com a característica na amostra. Assim, Sn : b(n, p). Seja, pˆ =
Sn
n
.
Então,
P (Sn = k) = P
(
Sn
n
=
k
n
)
= P
(
pˆ =
k
n
)
,
63
ou seja, a distribuição de pˆ é obtida da distribuição de Sn. Utilizando o Teorema Central
do Limite para a variável pˆ = Sn
n
, temos que:
pˆ ≈ N
(
p,
p(1− p)
n
)
.
Exemplo: Suponha que 30% dos estudantes de uma escola sejam mulheres, colhemos
uma amostra aleatória de 10 estudantes e calcula-se a proporção amostral de estudantes
do sexo feminino. Qual a probabilidade de que pˆ diﬁra de p em menos de 0,01?
Exemplo: Um procedimento de controle de qualidade foi planejado para garantir um
máximo de 10% de itens defeituosos na produção. A cada 6 horas sorteia-se uma amostra
de 20 peças e, havendo mais de 15% de defeituosas, encerra-se a produção para veriﬁcação
do processo. Qual a probabilidade de uma parada desnecessária?
Aplicação: Determinação do Tamanho de uma Amostra
Um dos problemas de se trabalhar com amostragem é a determinação do tamanho da
amostra. Umamaneira simples é a seguinte:
Suponha que estejamos estimando a média µ populacional e para isso usaremos a
média amostral, X¯, baseada numa amostra de tamanho n. Suponha ainda que se queira
determinar o valor de n de modo que
P (
∣∣X¯ − µ∣∣ ≤ �) = γ,
com 0 < γ < 1 e � > 0 é o erro amostral máximo que podemos suportar, ambos valores
ﬁxados.
Como X¯ ≈ N(µ, σ2/n), então X¯ − µ ≈ N(0, σ2/n) e portanto
P
(∣∣X¯ − µ∣∣ ≤ �) = P (−� ≤ X¯ − µ ≤ �) = P (−√n�
σ
≤ Z ≤
√
n�
σ
)
∼= γ,
onde Z = (X¯ − µ)√n/σ. Logo, podemos obter zγ/2 da N(0, 1), tal que P (−zγ/2 ≤ Z ≤
zγ/2) = γ, de modo que
zγ/2 =
√
n�
σ
,
de onde obtemos ﬁnalmente
n =
σ2z2γ/2
�2
.
Observação: Na prática, não se conhece o valor da variância populacional σ2, para re-
solver este problema utiliza-se uma pequena amostra piloto para estimar o valor da variância
populacional ou então baseia-se em alguma informação prévia sobre a mesma.
Exemplo: Suponha que uma pequena amostra piloto de tamanho 10, extraída de uma
população, forneceu os valores X¯ = 15 e S2 = 16. Fixando-se � = 0, 5 e γ = 0, 95, calcule
o valor de n.
Observação: S2 =
∑
(Xi−X¯)2
(n−1) , é a variância amostral. Normalmente usa-se esta es-
tatística para se estimar a variância populacional.
64
7a LISTA DE EXERCÍCIOS
1 - Uma variável de Bernoulli com probabilidade de sucesso p é amostrada, de forma in-
dependente, duas vezes. Apresente a distribuição de probabilidade da média amostral.
2 - O número de divórcios, por indivíduo adulto casado, em certa comunidade foi mod-
elado pela variável aleatória D, cuja distribuição de probabilidade é apresentada a
seguir:
D 0 1 2 3
pi 0,5 0,4 0,05 0,05
Uma amostra aleatória, representada por (D1, D2), foi sorteada com dois desses
indivíduos e os seguintes estimadores para a média de divórcios foram considerados:
µˆ1 =
√
D1D2 e µˆ2 = max(D1, D2) −min(D1, D2). Para cada estimador, obtenha
sua distribuição de probabilidade.
3 - Coleta-se uma amostra de 10 observações independentes de uma N(2, 2). Determine
a probabilidade de a média amostral:
a) Ser inferior a 1. (Resp. 0,0125)
b) Ser superior a 2,5. (Resp. 0,1315)
c) Estar entre 0 e 2. (Resp. 0,5)
4 - Supõe-se que o consumo mensal de água por residência em um certo bairro tem
distribuição normal com média 10 e desvio padrão 2 (em m3). Para uma amostra de
25 dessas residências, qual é a probabilidade de a média amostral não se afastar da
verdadeira média por mais de 1 m3? (Resp. 0,9876)
5 - Um fabricante aﬁrma que sua vacina contra gripe imuniza em 80% dos casos. Uma
amostra de 25 indivíduos que tomaram a vacina foi sorteada e testes foram feitos
para veriﬁcar a imunização ou não desses indivíduos. Se o fabricante estiver correto,
qual é a probabilidade da proporção de imunizados na amostra ser inferior a 0,75? E
superior a 0,85? (Resp. 0,2643 e 0,2643)
6 - A capacidade máxima de um elevador é de 500kg. Se a distribuição X dos pesos dos
usuários for suposta N(70, 100), qual a probabilidade de sete passageiros ultrapas-
sarem esse limite? (Resp. 0,35)
7 - Suponha que uma indústria farmacêutica deseja saber a quantos voluntários se deva
aplicar uma vacina, de modo que a proporção de indivíduos imunizados na amostra
diﬁra de menos de 2% da proporção verdadeira de imunizados na população, com
probabilidade 90%. Qual o tamanho da amostra a escolher sabendo-se que p(1−p) ≤
1/4? (Resp. 1692)
65
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I
DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA
Disciplina: Probabilidade e Estatística (6 créditos - Engenharias) Período 2003.2
Professores: Alexsandro, Alecxandro e Amanda Data:
Aluno(a): .
8a NOTA DE AULA
8 Estimação de Parâmetros
8.1 Introdução
Neste capítulo iremos estudar as propriedades de um estimador e a estimação intervalar.
Não iremos abordar os métodos de estiamação pontual, mas justiﬁcaremos porque X¯ e pˆ
são bons estimadores para a média e a proporção, respectivamente. Nosso objetivo será
construir intervalos de conﬁança para a média e para a proporção populacional a partir das
distribuições de X¯ e pˆ, respectivamente.
8.2 Propriedades de Estimadores
Considere uma amostra aleatória X1, X2, ..., Xn de uma v.a. que descreve alguma carac-
terística de interesse da população. Seja θ um parâmetro desta população e θˆ um estimador
para θ, ou seja θˆ = T (X1, X2, ..., Xn). Algumas deﬁnições são necessárias:
Deﬁnição 8.1. Estimativa é o valor assumido pelo estimador em uma particular
amostra.
Deﬁnição 8.2. O vício de um estimador é dado por
B(θˆ) = E(θˆ)− θ.
Deﬁnição 8.3. Um estimador θˆ é dito ser não viciado para o parâmetro θ se B(θˆ) = 0.
Ou seja, se E(θˆ) = θ.
Exemplo 8.1. Justiﬁque porque X¯ e pˆ são não viciados para µ e p, respectivamente.
Onde µ = E(X) e p é a proporção populacional.
Exemplo 8.2. Considere uma população com N elementos. Assim, a variância pop-
ulacional σ2 é deﬁnida como:
σ2 =
1
N
N∑
i=1
(Xi − µ)2,
onde, µ = 1
N
∑N
i=1Xi é a média populacional.
66
Um possível estimador para σ2, baseado numa amostra aleatória de tamanho n
extraída dessa população, é
σˆ2 =
1
n
n∑
i=1
(Xi − X¯)2.
Mostre que este estimador é viciado para σ2 e E(σˆ2) = (n−1)
n
σ2. Portanto, seu
vício B(σˆ2) = −σ2
n
. Logo, através de um simples ajuste em σˆ2 podemos obter um
estimador não viciado para σ2. Este estimador é
S2 =
1
n− 1
n∑
i=1
(Xi − X¯)2.
Deﬁnição 8.4. Um estimador θˆ é consistente se, à medida que o tamanho da amostra
aumenta, seu valor esperado converge para o parâmetro de interesse e sua variância
converge para zero. Ou seja, θˆ é consistente se as duas propriedades abaixo são satis-
feitas:
(i) limn→∞E(θˆ) = θ;
(ii) limn→∞ V ar(θˆ) = 0.
Observação: Se o estimador θˆ é não viciado para θ e deseja-se veriﬁcar sua con-
sistência, basta observar a segunda condição da deﬁnição acima. Ou seja, um estimador θˆ
não viciado é consistente para θ se limn→∞ V ar(θˆ) = 0.
Deﬁnição 8.5. Dados dois estimadores θˆ1 e θˆ2, não viciados para o parâmetro θ,
dizemos que θˆ1 é mais eﬁciente que θˆ2 se V ar(θˆ1) < V ar(θˆ2).
Exemplo 8.3. Considere X1, X2, ..., Xn uma amostra aleatória de uma distribuição
N(µ, σ2). Considere os estimadores µˆ1 = X¯ e µˆ2 = mediana(X1, X2, ..., Xn). Sendo
E(µˆ2) = µ e V ar(µˆ2) =
(
piσ2
2n
)
, quem é mais eﬁciente para µ?
Exemplo 8.4. Considerando a mesma situação do exemplo anterior e os estimadores
σˆ2 e S2 para σ2, sendo V ar(S2) = 2σ
4
n−1 e V ar(σˆ
2) = (n−1)
n
2σ4, qual dos dois estimadores
você escolheria para estimar σ2 analisando apenas a variância do estimador?
8.3 Estimação Intervalar
Até aqui discutimos apenas sobre estimadores pontuais, àqueles que fornecem como esti-
mativa um único valor numérico para o parâmetro de interesse. Para amostras diferentes
de uma mesma população podemos encontrar valores diferentes para a estimativa de um
parâmetro levando-se em consideração o mesmo estimador, isto porque o estimador é uma
variável aleatória. Assim, em muitas situações gostaríamos de construir uma estimativa
mais informativa para o parâmetro de interesse que inclua uma medida de precisão do valor
obtido. Esse método de estimação, denominado intervalo de conﬁança, incorpora, à
estimativa pontual do parâmetro, informações a respeito de sua variabilidade. Intervalos de
conﬁança são obtidos através da distribuição amostral de seus estimadores.
67
8.3.1 Intervalo de Conﬁança para a média de uma população com variância
conhecida
Considere uma amostra aleatória X1, X2, ..., Xn de uma população X, que tem média µ de-
sconhecida e variância σ2 conhecida. Daqui por diante faremos as seguintes considerações:
0 < γ < 1 e zγ/2 é um número tal que P (0 < Z < zγ/2) = γ/2 onde Z : N(0, 1).
Pelo Teorema Central do Limite, a média amostral X¯≈ N(µ, σ2/n). Assim, o erro
que cometemos ao estimarmos a média µ por X¯ será uma variável aleatória deﬁnida por
e = X¯ − µ e terá distribuição aproximadamente N(0, σ2/n). Logo, e
σ/
√
n
≈ N(0, 1).
Portanto, a probabilidade de cometermos erros de determinadas magnitudes, pode ser
calculada por
P
(∣∣∣∣ eσ/√n
∣∣∣∣ < zγ/2) = γ,
ou seja,
P
(
|X¯ − µ| < zγ/2 σ√
n
)
= γ,
desenvolvendo o módulo, obtemos
P
(
−zγ/2 σ√
n
< X¯ − µ < zγ/2 σ√
n
)
= γ,
daí,
P
(
X¯ − zγ/2 σ√
n
< µ < X¯ + zγ/2
σ√
n
)
= γ.
Portanto, o intervalo de conﬁança para µ, com coeﬁciente de conﬁança γ, é dado por
IC(µ, γ) =
[
X¯ − zγ/2 σ√
n
; X¯ + zγ/2
σ√
n
]
,
Observe que a expressão IC(µ, γ) envolve a quantidade X¯ que é uma variável aleatória
e, portanto, o intervalo obtido também é aleatório. Desta forma, podemos interpretar o
intervalo acima da seguinte maneira: se obtivermos várias amostras de mesmo tamanho
e para cada uma calcularmos os correspondentes intervalos de conﬁança com coeﬁciente
de conﬁança γ, esperamos que a proporção de intervalos que contenham o valor de µ seja
igual a γ.
Exemplo 8.5. Suponha que os comprimentos de jacarés adultos de uma certa raça
siga o modelo normal com média µ desconhecida e variância igual a 0,01 m2. Uma
amostra de dez animais foi sorteada e forneceu média 1,69 m. Calcule um intervalo de
conﬁança para o parâmetro desconhecido µ.
Observação: A amplitude do intervalo de conﬁança é dada pela diferença entre o
extremo superior e o extremo inferior, isto é, 2zγ/2
σ√
n
. O erro envolvido na estimação é
dado pela semi-amplitude, ou seja, zγ/2
σ√
n
.
68
Exemplo 8.6. A vida média de baterias automotivas de uma certa marca está sendo
estudada. Baseado em estudos similares, com outras marcas, é possível admitir que
a vida útil dessas baterias segue uma distribuição normal com desvio padrão de 4,5
meses. De qual tamanho deverá ser a amostra, para que a amplitude do intervalo de
90% de conﬁança para a vida média seja de 3 meses?
8.3.2 Intervalo de Conﬁança para a proporção populacional
De maneira análoga ao caso da média, podemos construir um intervalo de conﬁança para
a proporção populacional.
Pelo Teorema Central do Limite sabemos que
pˆ ≈ N
(
p,
p(1− p)
n
)
.
Assim, um intervalo de conﬁança para p com nível de conﬁança γ é dado por
IC(p, γ) =
[
pˆ− zγ/2
√
p(1− p)
n
; pˆ+ zγ/2
√
p(1− p)
n
]
.
Como p é desconhecido, o intervalo ainda não pode ser calculado diretamente. Uma possível
solução é substituirmos p(1− p) por pˆ(1− pˆ). Portanto, o intervalo será:
IC1(p, γ) =
[
pˆ− zγ/2
√
pˆ(1− pˆ)
n
; pˆ+ zγ/2
√
pˆ(1− pˆ)
n
]
.
Outra solução possível, é baseada no fato que a expressão p(1− p) tem valor máximo
igual a 1/4, quando 0 ≤ p ≤ 1. Nesse caso, podemos obter um intervalo de conﬁança
substituindo p(1− p) por 1/4:
IC2(p, γ) =
[
pˆ− zγ/2
√
1
4n
; pˆ+ zγ/2
√
1
4n
]
.
Observação: Ao aceitarmos IC1, estamos levando em consideração que a variância
de p é bem aproximada por pˆ(1−pˆ)
n
. Se preferirmos IC2, estaremos substituindo a variância
por um valor seguramente maior do que o real. Assim, estamos nos assegurando que o
coeﬁciente de conﬁança será de, no mínimo, γ. Ao utilizarmos IC2, estamos aceitando uma
menor precisão para pˆ, o que se reﬂete numa maior amplitude do intervalo de conﬁança,
quando comparado ao intervalo IC1.
Exemplo 8.7. Numa pesquisa de mercado, 400 pessoas foram entrevistadas sobre de-
terminado produto, e 60% delas preferiram a marca A. Construa um intervalo de con-
ﬁança para p com coeﬁciente de conﬁança γ = 0, 95.
69
8.3.3 Intervalo de Conﬁança para a média de uma população com variância
desconhecida
Até aqui consideramos a média de uma população desconhecida e a variância conhecida.
Esta situação não é muito realista, pois se não conhecemos a média, como podemos con-
hecer a variância de uma população? Desta forma, uma situação mais próxima da realidade
seria o caso em que, tanto a média como a variância, são desconhecidas. Iremos considerar
a siuação em que X : N(µ, σ2) com µ e σ desconhecidos.
Para isso, iremos utilizar a distribuição t de Student, que é deﬁnida como:
Deﬁnição 8.6. Uma v.a. T é dita ter distribuição t de Student com n graus de liber-
dade, se sua f.d.p. é da forma
fn(t) =
Γ[(n+ 1)/2]
Γ(n/2)
√
npi
(
1 +
t2
n
)−(n+1)/2
, −∞ < t <∞,
onde Γ (p) =
∫∞
0
xp−1e−xdx, p > 0, é conhecida como a função gama.
Observações:
(i) Notação: T : t(n);
(ii) Essa distribuição leva este nome em homenagem ao estatístico inglês W.S. Gosset,
que publicou sua pesquisa sob o pseudônimo de �Student�;
(iii) O gráﬁco de fn(t) é simétrico em torno de 0. Ele se assemelha ao gráﬁco da dis-
tribuição normal padrão, em verdade, mostra-se que
lim
n→∞
fn(t) =
1√
2pi
e−t
2/2.
(iv) Em virtude da importância desta distribuição, ela se encontra tabulada. A tabela
fornece o valor de tc, tal que P (−tα ≤ Tn ≤ tα) = 1 − α, para alguns valores de
0 < α < 1, onde Tn tem distribuição t de Student com n graus de liberdade.
Nosso objetivo agora é estudar a situação em que X : N(µ, σ2) com µ e σ descon-
hecidos. Assim, considerando uma amostra aleatória X1, ..., Xn de X, pode-se mostrar
que
(X¯ − µ)
S/
√
n
: t(n−1),
onde S2 = 1
n−1
∑n
i=1(Xi − X¯)2.
Assim, dado 0 < γ < 1 teremos
P
(∣∣∣∣(X¯ − µ)S/√n
∣∣∣∣ ≤ tα) = γ,
onde γ = 1− α, e tα é um número tal que P (−tα ≤ T(n−1) ≤ tα) = γ.
70
Logo, o intervalo de conﬁança para µ com nível de conﬁança 1− α, é dado por[
X¯ − tα S√
n
; X¯ + tα
S√
n
]
.
Exemplo 8.8. Numa grande empresa uma amostra aleatória de 20 empregados forneceu
a idade média igual a 32,8 e desvio padrão 5,3. Estimar a idade média de toda a em-
presa com uma conﬁança de 99%. Que suposição devemos fazer para estimar a idade
média?
Exemplo 8.9. Por analogia a produtos similares, o tempo de reação de um novo
medicamento pode ser considerado como tendo distribuição normal. Vinte pacientes
foram sorteados, receberam o medicamento e tiveram seu tempo de reação anotado. Os
dados foram os seguintes (em minutos): 2,9; 3,4; 3,5; 4,1; 4,6; 4,7; 4,5; 3,8; 5,3; 4,9;
4,8; 5,7; 5,8; 5,0; 3,4; 5,9; 6,3; 4,6; 5,5 e 6,2. Obtenha um intervalo de conﬁança para
o tempo médio de reação. Use γ = 0, 95.
71
8a LISTA DE EXERCÍCIOS
1 - De uma população normal com variância igual a 16, levantou-se uma amostra,
obtendo-se as observações: 10, 5, 10, 15. Determinar ao nível de 87% um IC para a
média da população.
Resp. [4,98; 11,02]
2 - A experiência com trabalhadores de uma certa indústria indica que o tempo necessário
para que um trabalhador, aleatoriamente selecionado, realize uma tarefa é distribuído
de maneira aproximadamente normal, com desvio padrão de 12 minutos. Uma
amostra de 25 trabalhadores forneceu x¯ = 140 min. Determinar os limites de con-
ﬁança de 95% para a média µ da população de todos os trabalhadores que fazem
aquele determinado serviço. Qual o erro cometido ao estimarmos este intervalo de
conﬁança?
Resp. [135,3; 144,7]
3 - Em uma linha de produção de certa peça mecânica, colheu-se uma amostra de 100
itens, constatando-se que 4 peças eram defeituosas. Construir um IC para a proporção
de itens defeituosos na população ao nível de 10%.
Resp. [0,78%; 7,21%]
4 - Em uma pesquisa de opinião, entre 600 pessoas pesquisadas, 240 responderam �sim�
a determinada pergunta. Estimar a porcentagem de pessoas com essa mesma opinião
na população, dando um intervalo de 95% de conﬁabilidade.
Resp. [36,08%; 43,92%]
5 - Seja X uma população normal com média µ e variância σ2, de que são extraídas
todas as amostras possíveis de tamanho 2. Dos estimadores abaixo:
µ̂1 =
1
2
X1 +
1
2
X2
µ̂2 =
14
X1 +
3
4
X2.
a) Qual ou quais dos estimadores acima são não-viesados para µ.
b) Qual dos dois estimadores acima é o melhor? Justiﬁque.
6 - Colhida uma amostra de 30 peças, forneceu os seguintes pesos:
250, 265, 267, 269, 271, 275, 277, 281, 283, 284,
287, 289, 291, 293, 293, 298, 301, 303, 306, 307,
307, 309, 311, 315, 319, 322, 324, 328, 335, 339.
Por meio da construção do intervalo de conﬁança, responder se esta amostra satisfaz
a espectativa pela qual o peso médio deve ser 300 Kg.
Sugestão: Adote um nível de 5%.
Resp. satisfaz, [288,33; 304,93]
72
7 - Sendo σ = 0, 5, determinar o número de elementos necessários para construir um
intervalo de 95% de conﬁança para a média adimitindo-se que nossa estimativa tenha
um erro de 10%.
Resp. n = 96
8 - Em 50 lances de uma moeda, foram obtidas 30 caras. A partir de um intervalo de
conﬁança de 96%, pode-se dizer que a moeda é honesta?
Resp. sim, [0,46; 0,74]
9 - Construa um IC para a média ao nível de 5% considerando a distribuição amostral
abaixo:
Classes ni
0 � 5 2
5 � 10 3
10 � 15 5
15 � 20 2
Resp. [7,26; 13,58]
10 - Suponha um experimento consistindo de n provas de Bernoulli, com probabilidade de
sucesso p. Seja X o número de sucessos, e considere os estimadores:
(i) pˆ1 =
X
n
(ii) pˆ2 =
{
1, se a primeira prova resultar sucesso
0, c.c.
a) Determine a esperança e a variância de cada estimador.
b) Veriﬁque se pˆ1 e pˆ2 são consistentes.
c) Por que pˆ2 não é um bom estimador para p?
73
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I
DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA
Disciplina: Probabilidade e Estatística (6 créditos - Engenharias) Período 2003.2
Professores: Alexsandro, Alecxandro e Amanda Data:
Aluno(a): .
9a NOTA DE AULA
9 Testes de Hipóteses
9.1 Introdução
Até o presente momento consideramos o problema de estimarmos um parâmetro descon-
hecido da população tanto pontualmente como através de um intervalo de conﬁança. Ap-
resentaremos agora, outra maneira de tratar o problema de fazer uma aﬁrmação sobre um
parâmetro desconhecido. Em vez de procurarmos uma estimativa do parâmetro, freqüen-
temente nos parecerá conveniente admitir um valor hipotético para ele e, depois, utilizar a
informação da amostra para conﬁrmar ou rejeitar esse valor hipotético.
A Inferência Estatística fornece um processo de análise denominado Teste de Hipóte-
ses, que permite se decidir por um valor do parâmetro θ ou por sua modiﬁcação com um
grau de risco conhecido.
Formularemos duas hipóteses básicas:
H0: hipótese nula
H1: hipótese alternativa
Geralmente, a hipótese H0 é a hipótese a ser testada. Caso rejeitemos H0, a hipótese
H1 será considerada aceitável.
9.2 Deﬁnições Básicas
9.2.1 Tipos de Testes
Iremos considerar os seguintes tipos de testes:
1. Teste bilteral
H0: θ = θ0
H1: θ 6= θ0
2. Teste unilateral à direita
H0: θ = θ0
H1: θ > θ0
74
3. Teste unilateral à esquerda
H0: θ = θ0
H1: θ < θ0
9.2.2 Tipos de Erros
Quando realizamos um teste de hipóteses estamos sujeitos a cometer certos tipos de erros,
a saber:
Deﬁnição 9.1 (Erro Tipo I). Rejeita-se H0, sendo H0 verdadeira. Denotando por
α a probabilidade de se cometer esse erro, teremos
α = P (rejeitar H0 | H0 verdadeira).
Deﬁnição 9.2 (Erro Tipo II). Não rejeita-se H0 quando H0 é falsa. Denotando por
β a probabilidade de se cometer esse erro, teremos
β = P (nao rejeitar H0 | H0 falsa).
9.2.3 Região Crítica do Teste
O objetivo do teste de hipóteses é decidir, usando uma estatística θˆ, se a hipótese H0 é ou
não aceitável. Essa decisão é tomada através da consideração de uma região crítica RC.
Ou seja, RC é a região onde rejeitaremos H0. Esta região é construída de modo que
P (θˆ ∈ RC | H0 verdadeira) = α,
onde α é ﬁxado a priori.
É importante destacar que a região crítica é sempre construída sob a hipótese de H0
ser verdadeira.
A probabilidade α de se cometer um erro tipo I é um valor arbitrário e recebe o nome
de nível de signiﬁcância do teste.
9.3 Procedimento Geral do Teste de Hipóteses
O procedimento padrão para a realização de um teste de hipóteses é o seguinte:
(i) Fixa-se qual a hipótese H0 a ser testada e qual a hipótese alternativa;
(ii) Usa-se a teoria estatística e as informações disponíveis para decidir qual estatística
(estimador) será usada para testar a hipótese H0;
(iii) Fixa-se a probabilidade α de cometer o erro tipo I e usa-se este valor para construir
a região crítica do teste. Essa região é construída sob H0, a partir de
α = P (rejeitar H0 | H0 verdadeira).
75
(iv) Através da amostra, calcula-se a estatística de teste;
(v) Se a estatística de teste pertencer à região crítica, rejeita-se H0, caso contrário, não
rejeitamos H0.
9.4 Testes para a média de uma população com variância con-
hecida
Vamos aplicar o procedimento geral para o caso em que queremos testar uma hipótese
sobre a média de uma população que tem variância conhecida.
(i) Deﬁnição das hipóteses:
a)
{
H0 : µ = µ0
H1 : µ 6= µ0
b)
{
H0 : µ = µ0
H1 : µ > µ0
c)
{
H0 : µ = µ0
H1 : µ < µ0
(ii) Escolha da Estatística para o teste
Neste caso, utilizaremos a estatística X¯ =
∑
Xi
n
. Assim, pelo T.C.L. sabemos que
X¯ − µ
σ/
√
n
≈ N(0, 1).
(iii) Fixado o nível de signiﬁcância do teste (α) e supondo H0 verdadeira, podemos con-
struir a região crítica do teste como:
a)RC =
{
x¯; P
(
X¯ ≤ µ0 − z 1−α
2
σ√
n
ou X¯ ≥ µ0 + z 1−α
2
σ√
n
)
= α
}
=
]
−∞;µ0 − z 1−α
2
σ√
n
]
∪[
µ0 + z 1−α
2
σ√
n
;∞
[
.
A região crítica também pode ser escrita em termos de valores padronizados, ou seja
RCp =
{
z; P
(
|Z| ≥ z 1−α
2
)
= α
}
=
]
−∞;−z 1−α
2
]
∪
[
z 1−α
2
;∞
[
.
b) RC =
{
x¯; P
(
X¯ ≥ µ0 + z 1−2α
2
σ√
n
)
= α
}
=
[
µ0 + z 1−α
2
σ√
n
;∞
[
. Ou então,
RCp =
{
z; P
(
Z > z 1−2α
2
)
= α)
}
=
[
z 1−2α
2
;∞
[
.
c) RC =
{
x¯; P
(
X¯ ≤ µ0 − z 1−2α
2
σ√
n
)
= α
}
=
]
−∞;µ0 − z 1−2α
2
σ√
n
]
. Ou então,
RCp =
{
z; P
(
Z ≤ −z 1−2α
2
)
= α)
}
=
]
−∞;−z 1−2α
2
]
.
76
(iv) Estatística de teste: dada uma amostra de tamanho n, a estatística de teste será x¯0 =∑n
i=1 xi
n
, ou então, considerando o intervalo com valores padronizados, a estatística
de teste será:
z0 =
x¯0 − µ0
σ/
√
n
.
(v) Conclusão: se x¯0 ∈ RC ou z0 ∈ RCp, rejeitamos H0, caso contrário, não rejeitamos
H0.
Exemplo 9.1. Seja X uma população normal com variância 36. Dessa população,
toma-se uma amostra de tamanho 16, obtendo-se x¯ = 43. Ao nível de 10%, testar as
hipóteses:
{
H0 : µ = 45
H1 : µ 6= 45
Exemplo 9.2. Uma fábrica anuncia que o índice de nicotina dos cigarros da marca X
apresenta-se abaixo de 26 mg por cigarro. Um laboratório realiza 10 análises do índice
obtendo: 26, 24, 23, 22, 28, 25, 27, 26, 28, 14. Sabendo-se que o índice de nicotina
dos cigarros da marca X se distribui normalmente com variância 5,36 mg2, pode-se
aceitar a aﬁrmação do fabricante, ao nível de 5%?
Exemplo 9.3. Um fabricante de lajotas de cerâmica introduz um novo material em sua
fabricação e acredita que aumentará a resistência média, que é de 206 kg. A resistência
das lajotas tem distribuição normal com desvio padrão de 12 kg. Retira-se uma amostra
de 30 lajotas, obtendo-se x¯ = 210 kg. Ao nível de 10%, pode o fabricante aceitar que a
resistência média de suas lajotas tenha aumentado?
9.5 Teste para a proporção populacional
Consideraremos uma população X onde X = 1 com probabilidade p e X = 0 com prob-
abilidade 1 − p. Assim, a estatística de teste será a proporção amostral pˆ. Pelo T.C.L.
sabemos que
pˆ ≈ N
(
p,
p(1− p)
n
)
.
Assim, podemos aplicar o teste de hipótesesseguindo os seguintes passos:
1. Retirada uma amostra aleatória de tamanho n dessa população queremos testar
hipóteses do tipo:
a)
{
H0 : p = p0
H1 : p 6= p0
b)
{
H0 : p = p0
H1 : p > p0
c)
{
H0 : p = p0
H1 : p < p0
77
2. Portanto, dado um nível de signiﬁcância α a região crítica do teste será respectiva-
mente:
a) RC = [0, p0 − z 1−α
2
√
p0(1−p0)
n
] ∪ [p0 + z 1−α
2
√
p0(1−p0)
n
, 1].
b) RC = [p0 + z 1−2α
2
√
p0(1−p0)
n
, 1].
c) RC = [0, p0 − z 1−2α
2
√
p0(1−p0)
n
].
Onde zα é um valor tabelado tal que P (0 ≤ Z ≤ zα) = α e Z : N(0, 1).
3. A estatística de teste é pˆ avaliada em uma amostra particular.
Exemplo 9.4. Uma estação de televisão aﬁrma que 60% dos televisores estavam lig-
ados no seu programa especial da última segunda-feira. Uma rede competidora deseja
contestar essa aﬁrmação e decide usar uma amostra de 200 famílias para um teste.
Qual deve ser o procedimento adotado para avaliar a veracidade da aﬁrmação da es-
tação, adimitindo-se que, das 200 famílias pesquisadas, 104 estavam assistindo ao pro-
grama? Utilize um nível de 5%.
9.6 Teste para a média de uma população normal com variância
desconhecida
Consideraremos agora, o caso em que queremos testar hipóteses sobre a média de uma
população com distribuição normal, porém, com variância desconhecida. Para isso, teremos
que estimar a variância através da estatística S2. Além disso, utilizaremos o fato de que
(X¯ − µ)
S/
√
n
: t(n−1).
Assim, a estatística do teste será T = (X¯−µ)
S/
√
n
.
Assim, podemos aplicar o teste de hipóteses seguindo os seguintes passos:
1. Queremos testar hipóteses do tipo:
a)
{
H0 : µ = µ0
H1 : µ 6= µ0
b)
{
H0 : µ = µ0
H1 : µ > µ0
c)
{
H0 : µ = µ0
H1 : µ < µ0
2. Fixado um nível de signiﬁcância α, a região crítica do teste será dada respectivamente
por:
a) RC =
]
−∞, µ0 − tα S√n
]
∪
[
µ0 + tα
S√
n
,∞
[
.
78
b) RC =
[
µ0 + t2α
S√
n
,∞
[
.
c) RC =
]
−∞, µ0 − t2α S√n
]
.
Onde tα é um valor tabelado tal que P (|T | < tα) = 1− α e T : t(n−1).
3. A estatística de teste é dada por X¯ avaliada em uma amostra particular.
Exemplo 9.5. Um fabricante aﬁrma que seus cigarros contêm não mais que 30 mg de
nicotina. Uma amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 3
mg. Ao nível de 5%, testar a aﬁrmação do fabricante.
Exemplo 9.6. Estamos desconﬁados de que a média das receitas municipais per capita
das cidades pequenas (0-20.000 habitantes) é maior do que a das receitas do estado,
que é de 1.229 unidades. Para comprovar ou não essa hipótese, sorteamos dez cidades
pequenas, e obtivemos os seguintes resultados: 1.230; 582; 576; 2.093; 2621; 1045;
1439; 717; 1838; 1.359.
obs: Para facilitar os cálculos, informamos que a soma das observações é 13.500, e
a soma dos quadrados das observações é 22.335.650, além disso, 13.5002 = 182.250.000.
a) Mostre que o teste de hipótese usado, com α = 0, 05, levará à aceitação de que
a média das cidades pequenas é igual à do estado.
b) Você não acha estranha essa conclusão quando observa que a média da amostra
obtida é bem maior do que a média do estado? Como você explicaria isso?
79
9a LISTA DE EXERCÍCIOS
1 - Os indevíduos de um país apresentam altura média de 170 cm e desvo padrão de 5
cm. A altura tem distribuição normal. Uma amostra de 40 indivíduos apresentou
média de 167 cm. Podemos aﬁrmar, ao nível de 5%, que essa amostra é formada por
indivíduos daquele país?
2 - Lança-se uma moeda 100 vezes e observa-se 40 caras. Baseado nesse resultado,
podemos aﬁrmar, ao nível de 5%, que a moeda não é honesta?
3 - A tensão de ruptura de cabos fabricados por uma empresa apresenta distribuição
normal, com média 1800 kg e desvio padrão de 100 kg. Mediante uma nova técnica
de produção, proclamou-se que a tensão de ruptura teria aumentado. Para testar essa
declaração, ensaiou-se uma amostra de 50 cabos, obtendo-se como tensão média de
ruptura 1850 kg. Pode-se aceitar a proclamação ao nível de 5%?
4 - Um certo tipo de rato apresenta, nos três primeiros meses de vida, um ganho médio
de peso de 58g. Uma amostra de 10 ratos foi alimentada desde o nascimento até a
idade de 3 meses com uma ração especial, e o ganho de peso de cada rato foi: 55,
58, 60, 62, 65, 67, 54, 64, 62 e 68. Há razões para crer, ao nível de 5%, que a ração
especial aumenta o peso nos três primeiros meses de vida?
5 - Um fabricante de droga medicinal aﬁrma que ela é 90% eﬁcaz na cura de uma alergia,
em um determinado período. Em uma amostra de 200 pacientes, a droga curou 150
pessoas. Testar ao nível de 1% se a pretensão do fabricante é legítima.
6 - Um exame padrão de inteligência tem sido usado por vários anos com média de 80
pontos e desvio padrão de 7 pontos. Um grupo de 25 estudantes é ensinado, dando-se
ênfase à resolução de testes. Se esse grupo obtem média de 83 pontos no exame, há
razões para se acreditar que a ênfase dada mudou o resultado do teste ao nível de
10%?
7 - De uma população normal levantaram-se os seguintes dados:
Classes ni
1` 3 1
3 ` 5 5
5 ` 7 13
7` 9 14
9` 11 10
11` 13 5
13` 15 2
Testar, ao nível de 5%, se a média dessa população é igual a 7.
8 - Uma máquina automática que empacota o alimento A é programada para colocar
100g de peso. Para veriﬁcar a precisão da máquina, uma amostra de 60 pacotes do
referido alimento fornece peso médio de 98g e desvio padrão de 6g. O que se pode
concluir ao nível de 1%?
80