E-book - BioestatÃstica

•
UNINGÁ

Center Pesca
28/06/2024
Prévia do material em texto
1
BIOESTATÍSTICA
Profa. Ma. Miriam Eulalina Martins Frota
UNIDADE 1 –
MEDIDAS DE POSIÇÃO E DISPERSÃO
INTRODUÇÃO
Grande parte da população está, de alguma forma, inserida num mundo que
trabalha com levantamento de dados. Isso é observado através de pesquisa de
opinião pública, através do censo, de pesquisas eleitorais, ao responder
perguntas sobre a qualidade de um determinado restaurante, ao votar em
programas de rádio ou televisão, ao votar em enquetes da Internet, etc.
Entretanto, não é correto pensar que a Estatística trata-se, apenas, de fazer
perguntas e contar as respostas.
Visto que a Estatística é, por definição, “a ciência que fornece os princípios e
os métodos para coleta, organização, resumo, análise e interpretação de
dados” [12], para que um bom levantamento de dados seja feito, é necessário
os conhecimentos da mesma.
Os estatísticos trabalham com informações, onde, na área de saúde, são
importantes as informações sobre causas de morte, prevalência de doenças,
efeitos de suplementos alimentares, eficiência de medicamentos, indicação de
cuidados paliativos etc. Diante disso, nesta unidade, serão abordados os
primeiros passos para a compreensão dos dados estatísticos, onde as técnicas
de amostragem, os tipos de gráficos, as tabelas de distribuições de frequência,
as medidas de posição (média, moda e mediana) e dispersão (variância, desvio
padrão e coeficiente de variação) serão apresentadas.
2
1. CONSIDERAÇÕES BÁSICAS EM ESTATÍSTICA DESCRITIVA
1.1 Universo, Amostra e Variável
Afim de se obter uma pesquisa estatística sobre determinado assunto, é
necessário aplicar formas e métodos de como obter esses dados, como
analisá-los e interpretá-los.
A coleta, a organização e a apresentação de dados estatísticos se dá através
da Estatística descritiva.
Na maioria das vezes, não é possível coletar todos os dados de um
determinado grupo por ser economicamente inviável ou impraticável. Esse
grupo é chamado de população e representa o todo, ou seja, o universo de
interesse. Com isso, a coleta e análise de dados é feita em uma parte da
população, chamada amostra. A amostra é um subconjunto finito da população.
Quando vamos analisar alguma característica de uma determinada
população, devemos especificar qual variável será analisada.
 Variáveis
A cada fenômeno corresponde um número de resultados possíveis. Assim,
por exemplo:
 para o fenômeno “estação do ano” são quatro os resultados possíveis:
verão, outono, inverno e primavera;
 para o fenômeno “número de animais de estimação” há um número de
resultados possíveis expresso através dos números naturais: 0, 1, 2, 3, …,
n;
 para o fenômeno “volume” temos uma situação diferente, pois os
resultados podem tomar um número infinito de valores numéricos dentro de
um determinado intervalo.
Com isso, podemos dizer que uma variável é definida, convencionalmente,
como sendo o conjunto de resultados possíveis de um fenômeno.
As variáveis podem, ainda, ser classificadas como qualitativa ou quantitativa.
 Variável qualitativa: quando seus valores são expressos por atributos,
como por exemplo, cor dos olhos, sexo (masculino ou feminino), cor da
pele, etc...
 Variável quantitativa: quando seus valores são expressos por números,
como por exemplo, peso, altura, salário, etc.... Além disso, se essa variável
3
puder assumir, teoricamente, qualquer valor num determinado intervalo, a
mesma recebe o nome de variável contínua e se ela só puder assumir
valores pertencentes a um conjunto enumerável, ela recebe o nome de
variável discreta. De modo geral, as medições dão origem a variáveis
contínuas e as contagens ou enumerações, a variáveis discretas.
INDICAÇÃO DE VÍDEO
O documentário O Prazer da Estatística – The Joy of Statistics leva os
espectadores a uma viagem através do maravilhoso mundo da estatística para
explorar o notável poder que esse mundo tem de mudar a nossa compreensão
da realidade.
O documentário está disponível em
http://www.youtube.com/watch?v=xLr68J2yDJ8.
1.2 Técnicas de Amostragem
Como dito anteriormente, para estudar determinada característica de uma
população, na grande maioria das vezes, é necessário analisar uma amostra
da mesma. Assim, devemos seguir técnicas de amostragem para que fique
assegurado que aquela amostra em questão represente a população em
relação a característica de interesse.
i) Amostragem casual ou aleatória simples: essa técnica funciona como um
sorteio aleatório, ou seja, enumera-se os elementos de uma população, de 1
até n, por exemplo, e desses n elementos sorteia-se k elementos. Entretanto,
no caso em que a população é muito numerosa, esse sorteio torna-se inviável
e, para esse caso, podemos usar a Tabela de Números Aleatórios (Anexo 1).
A Tabela de Números Aleatórios é construída de modo que os dez
algarismos (0 a 9) são distribuídos ao acaso nas linhas e colunas (Anexo 1). E
para a sua utilização, procedemos da seguinte forma: sorteamos um algarismo
qualquer da mesma, a partir do qual iremos considerar números de dois, três
ou mais algarismos, conforme nossa necessidade. Os números assim obtidos
irão indicar os elementos da amostra. A leitura da tabela pode ser feita
horizontalmente (da direita para a esquerda ou vice-versa), verticalmente (de
cima para baixo ou vice-versa), diagonalmente (no sentido ascendente ou
http://www.youtube.com/watch?v=xLr68J2yDJ8
4
descendente) ou formando o desenho de uma letra qualquer. A opção, porém,
deve ser feita antes de iniciado o processo.
Exemplo 1
Dos 30 funcionários de uma empresa, 20% serão escolhidos para realizar
exames de rotina. Como 20% de 30 é igual a 6, significa que dos 30
funcionários, 6 deverão fazer o exame. Assim, para realizar a escolha desses
funcionários, enumera-se os mesmos de 1 a 30 e, em seguida, escrevemos
esses números em papéis de mesmo tamanho, colocando-os dentro de uma
caixa. Agitamos e retiramos, um a um, sem reposição. Os seis números
formarão a amostra.
Exemplo 2
Deseja-se obter uma amostra, que corresponda a 10% da população, para a
pesquisa da estatura de noventa alunos de uma escola. Para isso, sorteia-se um
número aleatório e a partir dele, da esquerda para a direita, por exemplo, iremos
contar nove elementos (10% de 90), com dois dígitos cada, pois o maior valor da
população possui dois dígitos, na Tabela de Números Aleatórios. Supondo que o
número sorteado seja o 53 e escolhendo a 11ª linha, temos os seguintes
elementos:
53 08 58 96 63 05 61 25 70
Como o número 96 excede o valor máximo da população, esse valor deverá
ser desprezado e consideraremos o 11º elemento da linha.
Logo, a amostra é dada por: 53 08 58 63 05 61 25 70 22.
5
Figura 1: Tabela de Números Aleatórios. Fonte: [ 1 ].
ii) Amostragem estratificada – essa técnica é utilizada quando temos a
população subdividida em grupos, que são chamados de estratos. Nesse caso,
é necessário considerar elementos de cada estrato para que a amostra da
população seja representativa.
Exemplo 3
Considere que, dos 90 alunos, do exemplo 2, 33 sejam meninos e 57 sejam
meninas. Temos, nesse caso, dois estratos (sexo masculino e sexo feminino)
e queremos escolher 10% do total de 90.
SOLUÇÃO: devemos considerar 10% de cada estrato, ou seja, 10% do
estrato “sexo masculino” e 10% do estrato “ sexo feminino”. Assim,
10% de 33 = 3,3 e 10% de 57 = 5,7.
Como esses valores referem-se a pessoas, consideraremos 3 alunos do
6
sexo masculino e 6 alunos do sexo feminino, totalizando os 9 alunos que
correspondem aos 10% da população.
Na sequência, escolhemos 3 meninos dentre os 33 e 6 meninas dentre as
57. Podemos enumerar esses alunos de 1 a 90, sendo que os enumerados de
1 até 33 correspondem aos alunos do sexo masculino, e os enumerados de 34
até 90 correspondem as alunas do sexo feminino. Daí, procede-se a um
sorteio. Ou, então, usa-se a tabela de números aleatórios para proceder ao
sorteio, até que 3 alunos e 6 alunas sejam selecionados.
iii) Amostragem sistemática – nessa técnica de amostragem,os elementos
da população que participam da amostra são determinados por intervalos fixos,
e não utiliza-se a tabela de números aleatórios.
Por exemplo, no caso da população dos 90 alunos do exemplo 2, para
obtermos 9 amostras sistemáticas, podemos escolher os números 3, 6, 9, 12,
15, 18, 21, 24 e 27.
1.3 Tipos de Gráficos e Séries Estatísticas
Após a coleta e análise de dados, podemos dispo-los em uma tabela.
Uma tabela é um quadro que resume um conjunto de observações ou
informações, onde algumas normas devem ser seguidas:
a) Toda tabela deve conter Título e Fonte. Título: é a indicação que
precede a tabela e que contém a designação do fato observado, o
local e a época em que foi registrado. Fonte: é a indicação da
entidade responsável pelo fornecimento dos dados ou pela sua
elaboração.
b) Cabeçalho: evidencia o conteúdo das colunas e fica na parte
superior da tabela. Coluna indicadora: mostra o conteúdo das linhas.
a) Cada cruzamento entre linha e coluna é denominado célula ou casa.
b) Rodapé: espaço aproveitado em seguida ao fecho da tabela, em que
são colocadas as notas de natureza informativa (fonte, notas e
chamadas).
c) Nenhuma célula (casa) deve ficar em branco.
d) Hífen (-), indica que o valor numérico é nulo.
e) Reticência (...) , indica que não se dispõe do dado.
7
f) Interrogação (?) , indica dúvida quanto a exatidão do valor numérico.
g) Zeros (0; 0,0; 0,00), indica valor muito pequeno em relação a unidade
utilizada.
h) A tabela não é fechada lateralmente por traços verticais.
i) Não há obrigatoriedade de linha vertical entre as colunas, mas deve
ser usada quando a tabela apresenta muita informação (muitas
colunas e/ou muitas linhas).
Exemplo 4
Abaixo ilustramos os elementos que compõe uma tabela.
Figura 2: Elementos que compõe uma tabela. Fonte: [3].
Séries estatísticas
Uma série estatística trata-se de toda tabela que apresenta distribuição de
um conjunto de dados em função da época, do local ou da espécie.
Série temporal ou cronológica: é a série cujos dados estão dispostos em
correspondência com o tempo, ou seja, varia o tempo e permanece constante o
fato e o local.
8
Exemplo 5
Exemplo de série temporal.
Figura 3: Exemplo de série temporal. Fonte: a autora.
Série geográfica ou territorial: é a série cujos dados estão dispostos em
correspondência com o local, ou seja, varia o local e permanecem constantes a
época e o fato.
Exemplo 6
Exemplo de série geográfica.
Figura 4: Exemplo de série geográfica. Fonte: a autora.
Série específica ou qualitativa: é a série cujos dados estão dispostos em
correspondência com a espécie ou qualidade, ou seja, varia o fato e
permanecem constantes a época e o local.
9
Exemplo 7
Exemplo de série específica.
Figura 5: Exemplo de série específica. Fonte: a autora.
Um gráfico estatístico é uma maneira de apresentação dos dados, que tem
como objetivo produzir uma impressão mais rápida e viva do fenômeno
estudado, uma vez que os gráficos falam mais rapidamente à compreensão da
série. Os gráficos devem ser simples, claros e devem expressar a verdade
sobre o fenômeno em estudo. A seguir, apresentaremos os principais tipos de
gráficos estatísticos.
Gráfico de colunas: é construído no plano cartesiano. No eixo horizontal, são
construídas as colunas que representam a variação (medidas ou quantidades
numéricas) dos dados na pesquisa realizada. O fluxo de informações,
representado por um valor numérico, é indicado pelo eixo vertical. As colunas
devem sempre possuir a mesma largura e a distância entre elas deve ser
constante. Também podemos representar duas ou mais categorias de
informações.
10
Figura 6: Ilustração dos elementos do gráfico de colunas. Fonte: [4].
Exemplo 8
Foram entrevistadas 100 pessoas que haviam sido submetidas a uma
cirurgia estética reparadora. Indagadas se consideravam que a cirurgia havia
melhorado a aparência delas, 66 afirmaram que sim, 20 disseram que em
parte, 8 disseram que não e 6 não quiseram responder. Os dados são
apresentados no gráfico de colunas abaixo.
Figura 7: Você acredita que a cirurgia melhorou sua aparência? Fonte: [12].
11
Exemplo 9
Exemplo de um gráfico de colunas com duas categorias.
Figura 8: Exemplo de um gráfico de colunas com duas categorias. Fonte: [7].
Gráficos de barras: O gráfico de barras também é construído sobre o Plano
Cartesiano (primeiro quadrante). No eixo vertical, são construídas as barras
que representam a variação (medidas ou quantidades numéricas) dos dados
na pesquisa realizada. O fluxo de informações, representado por um valor
numérico, é indicado pelo eixo horizontal. As barras devem sempre possuir a
mesma largura e a distância entre elas deve ser constante. Podemos
representar duas ou mais categorias de informações.
Figura 9: Ilustração dos elementos do gráfico de barras. Fonte: [4].
12
Exemplo 10
Exemplo de um gráfico de barras.
Figura 10: Número de tratamentos da infecção latente pelo Mycobacterium tuberculosis
conforme indicação de tratamento. Brasil, 2018 a 2021. Fonte: [5].
Gráficos de setores: os gráficos de setores (ou pizza) são representados por
círculos divididos proporcionalmente de acordo com os dados da informação a
ser representada. Os valores são expressos em números ou em percentuais
(%). Esse tipo de gráfico é recomendado para visualização de informações de
apenas uma categoria e não é recomendado o uso em três dimensões.
https://educa.ibge.gov.br/professores/educa-recursos/20773-tipos-de-graficos-no-ensino.html
13
Figura 11: Ilustração dos elementos do gráfico de setores. Fonte: [4].
Exemplo 11
Exemplo de um gráfico de setores.
Figura 12: Exemplo de um gráfico de setores. Fonte: [7].
Gráfico de linhas: Esse tipo de gráfico é utilizado quando se deseja trabalhar
com duas ou mais informações provenientes de dados numéricos. Ele se utiliza
de uma ou mais linhas poligonais para representar uma série estatística, que
mostram a variação (medidas ou quantidades numéricas) dos dados na
pesquisa realizada, isto é, como os dados se movimentam no decorrer do
tempo e é feito no primeiro quadrante do plano cartesiano. É indicado quando
uma das variáveis representa o tempo e se pretende revelar o movimento dos
dados ao longo do tempo.
14
Figura 13: Ilustração dos elementos do gráfico de linhas. Fonte: [4].
Exemplo 12
Exemplo de um gráfico de linhas.
Figura 14: Exemplo de um gráfico de linhas. Fonte: [7].
1.4 Distribuição de Frequência
Após a coleta de dados de uma pesquisa estatística, é necessário a
organização dos mesmos. Esse procedimento é, em geral, feito por meio de
tabelas, que são chamadas de tabelas de distribuição de frequência.
Para a compreensão do conceito da tabela de distribuição de frequência,
começaremos considerando o conjunto de dados que apresenta a distância
horizontal (em metros) percorrida por um drone antes de apresentar algum tipo
de defeito. Um total de 40 testes foram realizados e são apresentados na
Tabela 1.
Tabela 1 – Distância percorrida, em metros, por um protótipo de drone
antes de apresentar algum tipo de defeito.
33,50 30,38 48,38 31,13 29,63 9,25 32,25 38,00 8,63 29,63
9,00 18,00 18,00 1,25 37,88 10,00 25,24 52,00 9,25 53,38
8,75 34,00 7,63 14,00 43,25 16,50 11,38 25,02 18,50 16,63
9,38 8,00 35,25 21,63 19,38 11,50 28,50 78,38 38,88 33,63
15
Fonte: a autora.
Observamos, na tabela 2, que os dados não estão organizados, e por isso,
recebem o nome de dados brutos. Os dados brutos constituem uma tabela,
denominada tabela bruta. O primeiro passo a se fazer é organizar esses
dados em ordem crescente ou decrescente. Essa organização é chamada de
rol. A tabela 2 mostra o rol crescente dos dados.
Tabela 2 – Rol crescente da distância percorrida, em metros, por um protótipo
de drone antes de apresentar algum tipo de defeito.
1,25 7,63 8,00 8,63 8,75 9,00 9,25 9,25 9,38 10,00
11,38 11,50 14,00 16,50 16,65 16,63 18,00 18,00 18,50 19,38
21,63 25,02 25,24 28,50 29,63 30,38 31,13 32,25 33,50 33,63
34,00 35,25 37,88 38,0038,88 43,25 48,38 52,00 53,38 78,38
Fonte: a autora.
Após a organização dos dados em rol, iremos construir uma tabela para que
a leitura dos dados fique mais compreensível. Para isso, devemos definir os
seguintes itens:
i. classe: é a subdivisão dos dados em intervalos ou faixas de valores.
ii. limite de classe: são os valores extremos de cada classe. Para uma
classe, temos o limitante inferior, que é o menor número que pode
pertencer à classe, além do limitante superior, que é o maior número que
pode pertencer à classe.
iii. amplitude amostral (AA): é a diferença entre o maior e o menor entre os
dados coletados.
iv. ponto médio de uma classe (��) : são os valores obtidos somando-se o
limitante inferior de classe ao limitante superior e dividindo-se o resultado
da soma por 2.
v. número de classes (i): para a construção de uma tabela de distribuição de
frequência, a primeira coisa com que devemos nos preocupar é determinar
o número de classes. Para tal, utilizamos a regra de Sturges, dada pela Eq.
(01), a seguir:
16
i = 1 + 3,3 log n , onde n é o número de dados coletados. Eq. (01)
vi. amplitude de classe (h): calculado o número de classes, devemos calcular
a amplitude da classe, que é calculada fazendo-se a razão entre a
amplitude total e o número de classes.
vii. frequência absoluta fi : é o número de vezes que determinado elemento
aparece na amostra ou, ainda, o número de vezes que um elemento
aparece numa classe.
viii. frequência relativa fr : é a razão entre a frequência absoluta da classe
em questão e o número total de elementos na amostra. A frequência
relativa é calculada usando-se a Eq. (02):
fri =
fi
n
Eq. (02)
ix. frequência relativa percentual fr% : é obtida multiplicando a frequência
relativa por 100, como apresenta a Eq. (03):
fri(%) = 100. fri Eq. (03)
x. frequência acumulada FAC : é obtida somando-se a frequência absoluta
da classe considerada com as frequências absolutas anteriores a essa
classe. A Eq. (04) mostra esse procedimento.
FAC = f1 + f2 +… + fn =
i=1
n
fi�
Eq. (04)
Na Eq. (04), �1 é a frequência absoluta da primeira classe, �2 é a frequência
absoluta da segunda classe e assim por diante, até a n-ésima classe. O
símbolo i=1
n fi� denota a soma das frequências da primeira, segunda, até a n-
ésima classe.
xi. frequência relativa acumulada FRAC : é a razão entre a frequência
acumulada de uma classe pelo número total de elementos na amostra,
como mostra a Eq. (05):
17
FRAC =
FAC
n
Eq. (05)
xii. frequência relativa acumulada percentual FRAC% : é o produto
da frequência relativa acumulada de uma classe por 100, como
apresentado na Eq. (06):
FRAC(%) = 100. FRAC Eq. (06)
Definido esses doze itens, vamos aplica-los na tabela 2 para que possamos
construir a Tabela de Distribuição de Frequências.
1º passo: determinar o número de classes desejado. Esse número deve estar
entre 5 e 20, por questões práticas e ainda deve ser um número inteiro. Como
temos n = 40 observações, podemos usar o critério de Sturges. Assim, o
número de classes igual a:
i = 1 + 3,3 log 40 ≅ 6
2º passo: calcular a amplitude das classes. Se necessário, faça uso de
arredondamentos e/ou mude o número de classes de modo que se usem
números convenientes.
h =
78,38 − 1,25
6 ≅ 13
3º passo: escolha ou o valor mínimo ou um valor conveniente, que seja um
pouco menor do que esse valor mínimo para ser o primeiro limitante inferior de
classe. Usando esse limitante inferior e a amplitude da classe, prossiga e liste
os outros limites inferiores de classe, adicionando a amplitude de classe ao
primeiro limite de classe inferior para obter o segundo limite inferior de classe, e
assim por diante.
4º passo: liste os limites inferiores de cada classe em uma coluna vertical e
prossiga para preencher os limitantes superiores. Feito isso, percorra o
conjunto de dados, colocando uma marca apropriada para cada valor dado.
Conte as marcas para encontrar a frequência total para cada classe.
18
Na sequencia, construímos a tabela 3, denominada de tabela de distribuição
de frequência. Observe, na Tabela 3, que na primeira classe temos a
frequência dos valores da distância horizontal percorrida pelo robô, que vai de
1 (inclusive) até 14 (exclusive), totalizando 12 valores. Nas classes seguintes,
usamos ideia análoga.
Tabela 3 - Distribuição de frequência da distância percorrida por um protótipo
de drone antes de apresentar algum tipo de defeito.
Fonte: a autora.
A partir da tabela de distribuição de frequência, podemos calcular as
frequências relativas ( fr) , frequências acumuladas (FAC ) e seus percentuais,
como apresentado na Tabela 4.
Tabela 4 – Distribuição de frequência da distância percorrida por protótipo de
drone, antes de apresentar algum tipo de defeito.
Classe (i) Distância
percorrida
fi fr fr% FAC FRAC FRAC%
1 1 ⊢ 14 12 0,300 30,0 12 0,300 30,0
2 14 ⊢ 27 11 0,275 27,5 23 0,575 57,5
Classe (i) Distância percorrida Frequência (fi)
1 1 ⊢ 14 12
2 14 ⊢ 27 11
3 27 ⊢ 40 12
4 40 ⊢ 53 3
5 53 ⊢ 66 1
6 66 ⊢ 79 1
Total 40
19
3 27 ⊢ 40 12 0,300 30,0 35 0,875 87,5
4 40 ⊢ 53 3 0,075 7,50 38 0,950 95,0
5 53 ⊢ 66 1 0,025 2,50 39 0,975 97,5
6 66 ⊢ 79 1 0,025 2,50 40 1,000 100,0
Total 40 1 100 - - -
Fonte: a autora.
O cálculo da frequência relativa da primeira classe foi determinado da
seguinte maneira: fr1 =
12
40
= 0,30. Esse procedimento foi usado para calcular as
demais frequências relativas. As frequências relativas percentuais foram
obtidas multiplicando-se por 100 as frequências relativas de cada classe.
O cálculo da frequência acumulada foi realizado como segue:
FAC1 = f1 = 12
FAC2 = f1 + f2 = 12 + 11 = 23
FAC3 = f1 + f2 + f3 = 12 + 11 + 12 = 35
E assim por diante, até a sexta classe. As frequências relativas acumuladas
foram calculadas como segue:
FRAC1 =
12
40
= 0,300
FRAC2 =
23
40
= 0,575
E assim por diante, até a sexta classe. Já as frequências relativas
percentuais foram obtidas multiplicando-se por 100 as frequências relativas
acumuladas.
Em muitas situações, é mais conveniente representar de forma gráfica uma
distribuição de frequência. E isso pode ser feito utilizando-se do histograma, do
polígono de frequência ou do polígono de frequência acumulada.
O histograma é um gráfico dado por um diagrama de colunas, em que cada
retângulo está associado a uma classe da distribuição de frequência. As
frequências de classe devem ser usadas na escala vertical. As barras na
20
escala horizontal são rotuladas de uma das maneiras: (1) fronteiras de classe;
(2) pontos médios das classes; ou (3) limites inferiores das classes.
Figura 15 – Histograma da distribuição de frequência da distância percorrida por um drone,
antes de apresentar algum tipo de defeito. Fonte: a autora.
O polígono de frequência é o gráfico de configuração linear. Ele é
obtido calculando-se o ponto médio de cada classe e marca-se esse ponto no
lado superior do histograma. O polígono de frequência é obtido ligando-se
esses pontos médios. A Figura 16 mostra o polígono de frequência, associado
aos dados da Tabela 4.
21
Figura 16 – Polígono de frequência da distância percorrida por um drone, antes de apresentar
algum tipo de defeito. Fonte: a autora.
O polígono de frequência acumulada, ou ogiva de Galton, é um gráfico que
permite descrever dados quantitativos por meio da frequência acumulada. A
ogiva é um gráfico de linha que une os pontos cujas abcissas são os limites
superiores das classes e ordenadas suas respectivas frequências acumuladas.
A Figura 17 apresenta o polígono de frequência acumulada para os dados
distribuídos em classe da Tabela 4.
22
Figura 17 – Polígono de frequência acumulada da distância percorrida por um drone, antes de
apresentar algum tipo de defeito. Fonte: a autora.
Exemplo 13
Os dados abaixo representam o valor (R$) do produto A vendido em 25
diferentes estabelecimentos. Construa uma tabela de distribuição de frequência
e identifique qual a faixa de preços com maior frequência.
Dados Brutos:20,5 - 19,5 - 15,6 - 24,1 - 9,9 - 15,4 - 12,7 - 5,4 - 17,0 - 28,6 -
16,9 - 7,8 - 23,3 - 11,8 - 18,4 - 13,4 - 14,3 - 19,2 - 9,2 - 16,8 - 8,8 - 22,1 - 20,8 -
12,6 - 15,9
Solução: Para a construção da tabela de distribuição de frequências, devemos
seguir os seguintes passos:
1. Organizar os dados em rol crescente:
5,4 - 7,8 – 8,8 – 9,2 – 9,9 – 11,8 – 12,6 – 12,7 – 13,4 – 14,3 – 15,4 15,6 – 15,9
– 16,8 – 16,9 – 17,0 – 18,4 – 19,2 – 19,5 – 20,5 – 20,8 – 22,1 – 23,3 - 24,1 –
28,6
2. Determinar o número de classes desejado.
i = 1 + 3,3 log 25 ≅ 5,6 ≅ 6
3. Calcular a amplitude das classes.
h =
28,6 − 5,4
6
≅ 3,86 ≅ 4
4. Escolher um valor mínimo para ser o 1º limitante inferior da classe e construir
uma tabela contendo o número de classes, os intervalos e as frequências
absolutas.
Como o primeiro valor do conjunto de dados é o valor 5,4, escolheremos o
número 5. A partir do número 5, iremos somar o número 4, até obtermos as 6
classes com seus respectivos intervalos. Para as frequências, a partir dos
dados em rol, foi contado quantos elementos pertencem a cada classe, ou seja,
na 1ª classe houve 3 valores para o produto A variando de R$ 5,00 a R$ 9,00 e
assim sucessivamente. A tabela abaixo mostra esse processo.
Tabela 5 - Distribuição de frequência do valor (R$) do produto A vendido em
25 diferentes estabelecimentos.
23
Fonte: a autora.
5. Calcular as frequências relativas ( fr) , frequências acumuladas (FAC ) e seus
percentuais.
Tabela 6 – Distribuição de frequência para o valor (R$) do produto A vendido
em 25 diferentes estabelecimentos.
Classe (i) Valor (R$) do
produto A
fi fr fr% FAC FRAC FRAC%
1 5 ⊢ 9 3 0,12 12% 3 0,12 12%
2 9 ⊢ 13 5 0,20 20% 8 0,32 32%
3 13 ⊢ 17 7 0,28 28% 15 0,60 60%
4 17 ⊢ 21 6 0,24 24% 21 0,84 84%
5 21 ⊢ 25 3 0,12 12% 24 0,96 96%
6 25 ⊢ 29 1 0,04 4% 25 1 100%
Classe
(i)
Valor (R$)
do produto A
Frequência
(fi)
1 5 ⊢ 9 3
2 9 ⊢ 13 5
3 13 ⊢ 17 7
4 17 ⊢ 21 6
5 21 ⊢ 25 3
6 25 ⊢ 29 1
Total 25
24
Total 25 1 100% - - -
Fonte: a autora.
O cálculo da frequência relativa da primeira classe foi determinado da
seguinte maneira: fr1 =
3
25
= 0,12. Esse procedimento foi usado para calcular as
demais frequências relativas. As frequências relativas percentuais foram
obtidas multiplicando-se por 100 as frequências relativas de cada classe.
O cálculo da frequência acumulada foi realizado como segue:
FAC1 = f1 = 3
FAC2 = f1 + f2 = 3 + 5 = 8
FAC3 = f1 + f2 + f3 = 3 + 5 + 7 = 15
E assim por diante, até a sexta classe. As frequências relativas acumuladas
foram calculadas como segue:
FRAC1 =
3
25
= 0,12
FRAC2 =
5
25
= 0,20
E assim por diante, até a sexta classe. Já as frequências relativas
percentuais foram obtidas multiplicando-se por 100 as frequências relativas
acumuladas.
Figura 18 – Histograma da distribuição de frequência para o valor (R$) do produto A vendido
em 25 diferentes estabelecimentos. Fonte: a autora.
25
Figura 19 – Polígono de frequência para o valor (R$) do produto A vendido em 25 diferentes
estabelecimentos. Fonte: a autora.
Figura 20 – Polígono de frequência acumulada para o valor (R$) do produto A vendido em 25
diferentes estabelecimentos. Fonte: a autora.
2. MEDIDAS DE POSIÇÃO
As medidas de posição de uma série de dados nos orientam quanto à
posição da distribuição em relação ao eixo horizontal do histograma. As
usualmente empregadas são a média, a mediana e a moda. Vamos discuti-las
em separado.
26
2.1 Média Aritmética
A média aritmética é a mais importante de todas as medidas de posição
existentes para descrever dados em geral. A média aritmética ( x� ) é uma
medida de tendência central, determinada pela adição de todos os valores e
divisão pelo número de valores. Essa definição nos permite escrever a Eq. (07):
x� =
x1 + x2 + x3 +… + xn
n
=
xi�
n
Eq. (07)
onde, x1, x2, ..., xn são as variáveis que se estão estudando, n é o número de
valores estudados, e xi� denota a soma de todos os valores em estudo.
Exemplo 14
Um professor de Educação Física mediu a circunferência abdominal de 10
homens que se apresentaram em uma academia de ginástica. Obteve os
seguintes valores, em centímetros: 88, 83, 79, 76, 78, 70, 80, 82, 86, 106.
Solução: A média é:
x� =
88 + 83 + 79 + 76 + 78 + 70 + 80 + 82 + 86 + 106
10
=
828
10
= 82,8
ou seja, a média da circunferência abdominal desses homens é 82,8 cm.
Acabamos de calcular a média aritmética para o caso em que os dados não
estão agrupados. Agora, vamos aprender a calcular a média aritmética para o
caso em que os dados estão agrupados sem intervalo de classe. Nessa
situação, como as frequências são números indicadores da intensidade de
cada valor, elas funcionam como fatores de ponderação e, assim, calculada a
média aritmética ponderada, como apresentado pela Eq. (08):
x� =
xi.� fi
fi�
Eq. (08)
onde, fi é a frequência, e xi é o valor da variável.
27
Exemplo 15
Na Figura 21, são apresentados os números de acidentes de trabalho no
primeiro semestre de 2020, nas 60 fábricas de uma indústria de remédios.
Figura 21 – Ilustração para o exemplo. Fonte: a autora.
Determine o número médio de acidentes das 60 fábricas de remédios.
Solução: das informações dispostas na figura 21, montamos uma tabela
para auxiliar-nos no cálculo da média aritmética. Assim,
Tabela 6 – Tabela de distribuição para o cálculo da média.
Fonte: a autora.
Daí, segue que o número médio de acidentes de trabalho nas 60 fábricas
de remédios é:
xi fi xi. fi
0 18 0
1 16 16
2 7 14
3 10 30
4 5 20
5 2 10
6 2 12
fi� = 60 xi.� fi = 102
28
x� =
102
60
= 1,7 acidentes
Portanto, o número médio de acidentes de trabalho nas 60 fábricas de
remédios foi de 1,7 acidentes.
Vejamos, agora, o caso do cálculo da média aritmética quando os dados
estão agrupados em classe. Nesse caso, convenciona-se que os valores
incluídos num determinado intervalo coincidem com seu ponto médio, e
determinamos a média ponderada. Vejamos o exemplo seguinte.
Exemplo 16
A Tabela 7 apresenta a distribuição de frequências do número de salários-
mínimos dos funcionários de um laboratório.
Tabela 7 – Distribuição de frequência do número de salários-mínimos
recebidos pelos funcionários de um laboratório.
Fonte: a autora.
Determine o número médio de salários-mínimos desses funcionários.
Solução: das informações dispostas na Tabela 7, montamos a Tabela 8 para
auxiliar-nos no cálculo da média aritmética. Assim.
Tabela 8 – Tabela de distribuição para resolução do exercício.
Classes (de salários-mínimos) fi
0 ⊢ 2 5
2⊢ 4 2
4⊢ 6 4
6⊢ 8 2
8⊢ 10 7
Classes (de salários-
mínimos)
fi xi xi. fi
0 ⊢ 2 5 1 5
29
Fonte: a autora.
Daí, segue que o número médio de salários-mínimos é:
x� =
108
20
= 5,4 salários − mínimos
Portanto, o número médio de salários-mínimos recebidos pelos funcionários
do laboratório é 5,4.
2⊢ 4 2 3 6
4⊢ 6 4 5 20
6⊢ 8 2 7 14
8⊢ 10 7 9 63
Total fi� = 20 - xi.� fi = 108
Exemplo 17
A média salarial de 100 médicos-veterinários recém-formados é igual a
R$ 5.000,00. Se o salário de João, também médico-veterinário recém-
formado, fosse incluído no cálculo, a média salarial seria igual a R$ 5.100,00.
Determine o salário de João, em reais.
Solução: temos que a média salarial, x� = 5.000, das 100 pessoas pode ser
calculada por meio da equação:
x� =
S1 + S2 +…+ S100
100
= 5.000
Ou seja, a soma dos salários dos 100 médicos-veterinários é:
S1 + S2 +…+ S100 = 500.000 (1)
Considerando agora a inclusão de João, a média salarial é igual a x� = 5.100
e é calculada por meio da equação:
x� =
S1 + S2 + …+ S100 + SJoão
101
= 5.100
Ou seja, a soma dos salários de 101 médicos-veterinários é:
S1 + S2 +…+ S100 + SJoão = 515.100 (2)
Assim, subtraindo (1) de (2), segue que o salário de João é igual a
R$ 15.100.
30
2.2 Moda
A Moda (Mo) é o valor que ocorre com maior frequência num conjunto de
dados, e esse(s) valor(es) é(são) denominado(s) “valor modal”. Um conjunto de
dados poderá ser classificado em:
(i) amodal – quando não apresentar valor modal;
(ii) unimodal– quando apresentar único valor modal;
(iii) bimodal – quando apresentar dois valores modais;
(iv) trimodal – quando apresentar três valores modais;
(v) polimodal – quando apresentar quatro ou mais valores modais.
Exemplo 18
Determine a moda dos dados 1,1, 2, 5, 3, 7, 4, 7, 8, 7, 9, 6.
Solução: organizando os dados em rol crescente, obtemos a seguinte
distribuição:
1 – 1 – 2 – 3 – 4 – 5 – 6 – 7– 7 – 7 – 8 – 9
Note que, na série, há repetição dos valores 1 (2 vezes) e 7 (3 vezes).
Assim, o conjunto de dados é unimodal e o valor modal é 7, porque é o
resultado que se repete mais vezes.
A moda desse conjunto de dados, pode, ainda, ser visualizada
graficamente:
Figura 22: Dados sobre um eixo e a respectiva moda. Fonte: [12].
31
Acabamos de calcular a moda para o caso em que os dados não estão
agrupados. Agora, vamos aprender a calcular a moda para o caso em que os
dados estão agrupados sem intervalo de classe. Nessa situação, é muito
fácil determinar o valor modal, bastando determinar a classe que apresenta
maior frequência. Vejamos o exemplo que segue.
Exemplo 19
Determinada carreira profissional, em um órgão público, apresenta 5 níveis
de salários com uma distribuição apresentada na Tabela 9.
Tabela 9 – Distribuição salarial de funcionários de uma carreira pública.
Salários (R$) 1.500,00 2.000,00 2.500,00 3.000,00 3.500,00
Quantidade de
funcionários
8 13 23 18 3
Fonte: a autora.
Determine o salário modal desse órgão público.
Solução: o salário modal desse compartimento público é R$ 2.500,00, pois
esse valor caracteriza o maior número de ocorrências (23 vezes).
Vejamos agora o caso do cálculo da moda quando os dados estão
agrupados em classe. Nesse caso, é comum fazer uso da equação de Czuber
para o cálculo do valor modal, como mostra a Eq. (09):
Mo = lMo +
d1
d1 + d2
. hMo
Eq. (09)
Nela, lMo é o limite inferior da classe modal, �1 é a diferença entre a
frequência da classe modal e a frequência da classe anterior à classe modal,
�2 é a diferença entre a frequência da classe modal e a frequência da classe
posterior à classe modal, e hMo é a amplitude da classe modal. Vejamos o
exemplo seguinte.
32
Exemplo 20
A Tabela 10 apresenta a distribuição de frequências das notas obtidas numa
prova de bioestatística, realizada por 50 estudantes universitários do curso de
Nutrição.
Tabela 10 - Distribuição de frequência das notas em Bioestatística.
Fonte: a autora.
Determine a nota modal.
Solução: a classe modal corresponde à classe que apresenta maior
frequência. É claro que essa frequência corresponde à terceira classe. Assim,
lMo = 4, d1 = 15 − 12 = 3, d2 = 15 − 13 = 2 e hMo = 2. Logo, a nota modal é:
Mo = 4 +
3
3 + 2
. 2 = 5,2
Portanto, a nota modal em Bioestatística foi de 5,2.
Nota Frequência
0 ⊢ 2 4
2 ⊢ 4 12
4 ⊢ 6 15
6 ⊢ 8 13
8 ⊢ 10 6
A moda é, em geral, usada para medidas rápidas e aproximações de posição
ou, ainda, quando a medida de posição deve ser o valor mais frequente da
distribuição.
2.3 Mediana
Mediana (Me) é o valor que divide um conjunto de dados em duas partes:
uma com números menores ou iguais à mediana, outra com números maiores
ou iguais à mediana. Dessa maneira, a mediana encontra-se no centro de uma
série estatística organizada em rol.
33
Após a organização do dados em rol, para determinar a mediana é preciso
observar se o conjunto de dados possui um número par ou ímpar de elementos.
Feita essa observação, procede-se da seguinte forma:
 Se o número de elementos for ímpar, a mediana será o valor central.
 Se o número de elementos for par, a mediana será a média aritmética entre
os dois termos centrais. Nesse caso, a mediana será um valor que não
necessariamente pertence à série de dados.
Exemplo 21
Os dados a seguir correspondem ao rol crescente de medidas da
concentração de um poluente líquido (em ppb) ao longo de 25 dias:
24 − 24 −24 −25 − 25 − 30 − 32 − 32 − 32 − 35 − 36 − 36 − 40 − 40 − 40 −
40− 46 – 48 − 48 − 50 − 54 − 54 − 60 − 60 − 65
Determine a concentração mediana desse poluente, em ppb.
Solução: note que os dados estão organizados em rol crescente e que temos
25 valores. O 13º elemento é o que ocupa a posição central (está destacado
no rol) e esse valor é a mediana do conjunto de dados. Assim sendo, a
concentração mediana do poluente é igual a 40 ppb.
Exemplo 22
Cientistas ambientais mediram as emissões de gases de efeito estufa de
uma amostra de vinte carros. As quantidades listadas estão em toneladas (por
ano), expressas em equivalente de CO2.
8,5 – 5,0 – 4,0 – 7,0 – 8,0 – 9,0 – 1,5 – 4,5 – 10,0 – 6,5 – 6,0 – 7,5 – 5,5 – 9,5
– 8,5 – 70 – 9,0 – 8,5 – 3,0 – 20.
Qual é a mediana teórica da quantidade de gases de efeito estufa dessa
amostra de carros?
Solução: primeiramente, vamos organizar o conjunto de dados em rol
crescente. Assim, temos:
1,5 – 2,0 – 3,0 – 4,0 – 4,5 – 5,0 – 5,5 – 6 – 6,5 – 7,0 – 7,0 – 7,5 – 8,0 – 8,5 –
8,5 – 8,5 – 9,0 – 9,0 – 9,5 – 10,0
34
Note que temos um número par de elementos, e os dois termos centrais têm
média aritmética igual a 7,0. Portanto, a mediana é igual a 7,0 toneladas (por
ano).
Acabamos de calcular a mediana para o caso em que os dados não estão
agrupados. Agora, vamos aprender a calcular a mediana para o caso em que
os dados estão agrupados sem intervalo de classe. Nessa situação,
devemos executar os seguintes passos:
(i) calcular a frequência acumulada;
(ii) determinar um valor tal, que divida a distribuição em dois grupos que
contenham o mesmo número de elementos.
Exemplo 23
Os salários dos 40 funcionários de uma clínica, em 31 de dezembro de
2022, estavam distribuídos segundo as informações da Tabela 11.
Tabela 11 – Distribuição de frequência salarial de uma construtora.
Fonte: a autora.
Determine a mediana dos salários dos funcionários da clínica.
Solução: para determinar o valor da mediana, primeiramente, vamos
determinar a frequência acumulada, como apresentado na Tabela 12, para o
conjunto de dados. Assim:
Tabela 12 – Distribuição de frequências para os salários dos funcionários da
clínica.
Salário (R$) Número de funcionários
800,00 4
1.100,00 8
2.000,00 10
2.800,00 16
3.600,00 2
Total 40
Salário (R$) fi FAC
35
Fonte: a autora.
Daí, a posição da mediana será 40
2
= 20 , ou seja, o valor pertence à 3ª
classe e corresponde ao salário de R$ 2.000,00. Portanto, a mediana do
salário da clínica é igual a R$ 2.000,00.
800,00 4 4
1.100,00 8 12
2.000,00 10 22
2.800,00 16 38
3.600,00 2 40
Total 40 -
Vejamos agora o caso do cálculo da mediana quando os dados estão
agrupados em classe. Nesse caso, usa-se a Eq. (10) de interpolação linear:
Me = lMe +
n
2 − FACant
fMe
. hMe
Eq. (10)
Nela: lMe é o limitante inferior da classe mediana; n é o número de elementos
coletados na pesquisa; FACant é a frequência acumulada da classe anterior à
classe mediana; fMe é a frequência absoluta da classe mediana; e hMe é a
amplitude da classe da mediana.
Exemplo 24
A Tabela 13 apresenta a distribuição de frequência do percentual de
redução da carga bacteriana, empregando um novo desinfetante desenvolvido
por um engenheiro químico. Determinar o percentual mediano desse conjunto
de dados.
Tabela 13 – Distribuição de frequência do percentual de redução da carga
bacteriana, empregando um novo desinfetante.
Percentual de redução Frequência (fi)
1 ⊢ 14 12
36
Fonte: a autora.
Solução: vamos, primeiramente, escrever a Tabela 14 com a coluna de
frequência acumulada e identificar a classe mediana. Assim:
Tabela 14 – Distribuições de frequência.
Fonte: a autora.
Depreende-se, da Tabela 14, que n = 40 e que a classe que contém a
mediana é a segunda (hachurada na Tabela 14). Para essa classe, temos:
lMe = 14, FACant = 12, fMe = 11 e hMe = 27 − 14 = 13. Daí:
Me = 14 +
40
2 − 12
11 . 13 = 23,45
Portanto, o percentual de redução mediano foi de 23,45.
Logo, o valor mediano de redução da carga bacteriana, empregando um
novo desinfetante, é igual a 23,45%.
14 ⊢ 27 11
27 ⊢ 40 12
40 ⊢ 53 3
53 ⊢ 66 1
66 ⊢ 79 1
Total 40Percentual de redução fi FAC
1 ⊢ 14 12 12
14 ⊢ 27 11 23
27 ⊢ 40 12 35
40 ⊢ 53 3 38
53 ⊢ 66 1 39
66 ⊢ 79 1 40
Total 40 -
3. MEDIDAS DE SEPARATRIZES
As medidas de separatrizes são valores que ocupam posições no conjunto
de dados, em rol, dividindo-o em partes iguais e podendo ser:
37
I. quartis – divide a série em quatro partes iguais e são assim representados:
i. Q1 (25% dos dados coletados são valores menores ou iguais ao valor do
primeiro quartil)
ii. Q2 (50% dos dados coletados são valores menores ou iguais ao valor do
segundo quartil, e é evidente que Q2 coincide com a mediana)
iii. Q3 (75% dos dados são valores menores ou iguais ao valor do terceiro
quartil).
II. decis – divide a série em dez partes iguais e são assim representados:
i. D1 (10% dos dados são valores menores ou iguais ao valor do primeiro
decil)
ii. D2 (20% dos dados são valores menores ou iguais ao valor do segundo
decil)
iii. D3 (30% dos dados são valores menores ou iguais ao valor do terceiro decil)
iv. D4 (40% dos dados são valores menores ou iguais ao valor do quarto decil)
v. D5 (50% dos dados são valores menores ou iguais ao valor do quinto decil)
vi. D6 (60% dos dados são valores menores ou iguais ao valor do sexto decil)
vii. D7 (70% dos dados são valores menores ou iguais ao valor do sétimo decil)
viii. D8 (80% dos dados são valores menores ou iguais ao valor do oitavo decil)
ix. D9 (90% dos dados são valores menores ou iguais ao valor do nono decil).
III. percentis - dividem o conjunto de dados em cem partes iguais. A seguir,
são apresentados alguns dos percentis mais usados:
i. P5 (5% dos dados são valores menores ou iguais ao valor do quinto
percentil)
ii. P10 (10% dos dados são valores menores ou iguais ao valor do décimo
percentil)
iii. P25 (25% dos dados são valores menores ou iguais ao valor do vigésimo
quinto percentil)
iv. P50 (50% dos dados são valores menores ou iguais ao valor do percentil
cinquenta)
v. P75 (75% dos dados são valores menores ou iguais ao valor do percentil
setenta e cinco)
38
vi. P90 (90% dos dados são valores menores ou iguais ao valor do percentil
noventa)
vii. P95 (95% dos dados são valores menores ou iguais ao valor do percentil
noventa e cinco).
Exemplo 25
Um estudo conduzido para quantificar o percentual de rendimento, em óleo,
do oleaginoso girassol para a produção de biodiesel é apresentado na Tabela
15.
Tabela 15 – Rendimento percentual de extração de oleaginosas.
Amostra Rendimento
(%)
Amostra Rendimento
(%)
Amostra Rendimento
(%)
1 1,59 11 4,50 21 6,41
2 1,83 12 5,18 22 7,33
3 1,93 13 5,20 23 7,97
4 2,32 14 5,30 24 8,10
5 2,71 15 5,34 25 8,24
6 3,09 16 5,56 26 8,39
7 3,73 17 6,04 27 9,35
8 4,03 18 6,07 28 9,71
9 4,25 19 6,09 29 9,78
10 4,40 20 6,17 30 9,92
Fonte: a autora.
Com base nessas informações, determine:
a) o primeiro quartil.
b) o segundo decil.
c) o octogésimo percentil.
Solução: primeiro, temos de organizar os dados em rol. Note que a Tabela 15
já está organizada em rol. Assim:
a) para o primeiro quartil, temos que 25% dos valores são menores ou iguais
ao valor do primeiro quartil. Daí, rendimento = 25
100
× 30 = 7,5 . Note que a
grandeza rendimento não é inteira, então iremos arredonda-la para cima.
39
Assim, os percentuais de rendimento que ocupam entre a 1ª e a 8ª posição
formam primeiro quartil, ou seja, Q1 = {1,59; 1,83; 1,93; 2,32; 2,71; 3,09; 3,73;
4,03}.
b) para o segundo decil, temos que 20% dos valores são menores ou iguais ao
segundo decil. Daí, rendimento = 20
100
× 30 = 6 . Assim, os percentuais de
rendimento que ocupam entre a 1ª e a 6ª posição formam o segundo decil, ou
seja, D2 = {1,59; 1,83; 1,93; 2,32; 2,71; 3,09}.
c) para o octogésimo percentil, temos que 80% dos valores são menores ou
iguais a 80º percentil. Daí, rendimento = 80
100
× 30 = 24 . Assim, os
percentuais de rendimento que ocupam entre a 1ª e a 24ª posição formam o
octogésimo percentil, ou seja, P80 = {1,59; 1,83; 1,93; 2,32; 2,71; 3,09; 3,73;
4,03; 4,25; 4,40; 4,50; 5,18; 5,20; 5,30; 5,34; 5,56; 6,04; 6,07; 6,09; 6,17; 6,41;
7,33; 7,97; 8,10}.
4. MEDIDAS DE ASSIMETRIA E CURTOSE
Ao construir uma distribuição de frequências e/ou um histograma, busca-se
identificar visualmente a forma da distribuição dos dados. A medida de
assimetria é um indicador dessa forma da distribuição e é classificada como:
a) simétrica se média = mediana = moda. Esse caso é ilustrado pela Figura 22.
Figura 22 – Distribuição simétrica. Fonte: a autora.
40
b) assimétrica negativa se média ≤ mediana ≤ moda. O lado mais longo do
polígono de frequência (cauda da distribuição) está à esquerda do centro,
como apresentado na Figura 23.
Figura 23 – Distribuição assimétrica negativa. Fonte: a autora.
c) assimétrica positiva se moda ≤ mediana ≤ média. O lado mais longo do
polígono de frequência está à direita do centro, como apresentado na Figura 24.
Figura 24 – Distribuição assimétrica positiva. Fonte: a autora.
Exemplo 26
O ozônio, embora benéfico na estratosfera, onde forma uma camada
protetora contra efeitos danosos da radiação ultravioleta, tem efeitos tóxicos
nas camadas mais baixas da atmosfera, por afetar diretamente os seres vivos.
O conjunto de dados a seguir apresenta a concentração, em ppb, de ozônio em
25 pontos distintos de uma metrópole:
41
24 – 24 – 24 – 25 – 25 – 30 – 32 – 32 – 35 – 36 – 36 – 40 – 40 – 40 – 40 – 40 –
46 – 48 – 48 – 50 – 54 – 60 – 60 – 65
Verifique se esse conjunto de dados é simétrico ou assimétrico.
Solução: Para esse conjunto de dados, temos que a média é igual a 40 ppb, a
mediana é igual a 40 ppb e a moda é igual a 40 ppb (confira!). Assim, segue
que essa distribuição é simétrica.
A medida de curtose representa o grau de achatamento de uma distribuição,
isto é, quão espalhados os dados estão em torno da média e pode-se usar a
curva normal padrão como referência. A curtose pode ser representada
graficamente ou numericamente.
Numericamente, o valor da medida de curtose é calculado conforme a Eq.
(11).
C =
Q3 − Q1
2 P90 − P10
Eq. (11)
onde, Q3 e Q1 são o terceiro e primeiro quartis; P90 e P10 são o nonagésimo e o
décimo percentis.
Graficamente, em relação a medida de curtose, a distribuição pode ser:
a) Mesocúrtica: que é própria curva normal padrão, onde C = 0,263.
b) Platicúrtica: possui grau de achatamento maior que da curva normal padrão,
o que nos indica que os dados estão mais espalhados (logo, o desvio padrão
também é maior), onde C > 0,263.
c) Leptocúrtica: seu grau de achatamento é menor que o da curva normal
padrão (curva mais pontiaguda), indica que os dados estão mais concentrados
(desvio padrão menor), onde C <
0,263.
42
Figura 24 – Representações gráficas das medidas de curtose. Fonte: a autora.
5. MEDIDAS DE DISPERSÃO
As medidas de tendência central, vistas anteriormente, apresentam, de forma
resumida, as informações contidas em um conjunto de dados, mas não
mostram tudo. Por exemplo, a temperatura média em 1 dia na mesma cidade
não dá ideia da variação da temperatura ao longo do dia.
Observe, agora, um exemplo numérico:
Considere os seguintes conjuntos de dados:
A: 20, 20, 20, 20, 20
B: 26, 17, 18, 19, 20
C: - 37, - 37, - 2, 68, 108
A média aritmética de cada conjunto de dados é:
x�A =
20 + 20 + 20 + 20 + 20
5
= 20
x�B =
26 + 17 + 18 + 19 + 20
5
= 20
x�C =
−37 + −37 + −2 + 68 + 108
5 = 20
Observe que, embora as médias aritméticas sejam iguais, existe diferença na
dispersão desses dados em relação à média. Temos que o conjunto de dados
A é mais homogêneo que o conjunto de dados B, que, por sua vez, é mais
43
homogêneo que o conjunto de dados C. Ou seja, quando comparamos esses
conjuntos de dados de A para C, temos aumento na dispersão dos dados por
eles apresentados.
Por isso, vamos discutir a dispersão ou variabilidade dos dados estudados.
As medidas de dispersão que serão apresentadas são: amplitude total,
variância, desvio-padrão e coeficiente de variação.
5.1 Amplitude Total
A amplitude total (AT) deum conjunto de dados é a diferença entre o maior
valor e o menor valor desse conjunto, como pode ser visto na Eq. (12). Essa
medida de dispersão é muito sensível aos extremos e não compara os valores
da distribuição com a média dos dados.
AT = valor máximo dos dados − (valor mínimo dos dados) Eq. (12)
Exemplo 27
Os dados dispostos na figura abaixo, referem-se a duas amostras de medidas de
colesterol em certa pessoa utilizando os métodos de mensuração Autoanalisador e
Microenzimático. Calcule as amplitudes para cada conjunto de dados e compare a
variabilidade dos dois métodos. Resolução: A amplitude para o método
Autoanalisador = 226 – 177 = 49 mg/dL. A amplitude para o método
Microenzimático = 209 – 192 = 17 mg/dL. Claramente o método Autoanalisador
parece mais variável.
Figura 25: Duas amostras de medidas de colesterol em certa pessoa utilizando os métodos de
mensuração Autoanalisador e Microenzimático. Fonte: [11 ]
44
Solução: A amplitude para o método Autoanalisador = 226 – 177 = 49 mg/dL. A
amplitude para o método Microenzimático = 209 – 192 = 17 mg/dL. Com os cálculos
das amplitudes, observamos que o método Autoanalisador parece mais variável.
5.2 Variância
A variância é uma medida de dispersão estatística, determinando quão
longe os valores coletados estão em relação ao valor esperado. As variâncias
populacional e amostral são calculadas de acordo com as Eq. (13) e (14),
respectivamente:
σ2 =
xi − μ 2�
N
Eq. (13)
s2 =
xi − x� 2�
n − 1
Eq. (14)
Nelas, σ2 é a variância populacional, s2 é a variância amostral, xi é o valor da
variável, μ é a média aritmética dos elementos da população, x� é a média
aritmética dos elementos da amostra, N é o número de elementos da
população, e n é o número de elementos da amostra.
Exemplo 28
Calcule a variância para os dados dos métodos Autoanalisador e
Microenzimático do exemplo 27.
Solução: A fim de facilitar os cálculos, construiremos uma tabela de valores
para cada método e, em seguida, calcularemos a variância de cada um.
Tabela 16: Tabela de desvios em relação à média para o método
Autoanalisador .
xi xi − x� xi − x� 2
177 177 – 200 =−23 529
45
Fonte: a autora.
Substituindo os valores obtidos na Eq (14), temos:
s2 =
xi − x� 2�
n − 1
=
1.360
5 − 1
= 340
Logo, a variância do método Autoanalisador é de 340 (mg/dL)2.
Tabela 17: Tabela de desvios em relação à média para o método
Microenzimático .
Fonte: a autora.
Substituindo os valores obtidos na Eq (14), temos:
s2 =
xi − x� 2�
n − 1
=
158
5 − 1
= 39,5
Logo, a variância do método Microenzimático é de 39,5 (mg/dL)2.
193 193 – 200 =− 7 49
195 195 – 200 =− 5 25
209 209 – 200 = 9 81
226 (226 - 200) = 26 676
xi − x� = 0� xi − x� 2 = 1.360�
xi xi − x� xi − x� 2
192 192 – 200 =−8 64
197 197 – 200 =− 3 9
200 200 – 200 = 0 0
202 202 – 200 = 2 4
209 209 – 200 = 9 81
xi − x� = 0� xi − x� 2 = 158�
46
Vejamos agora o cálculo da variância para o caso em que os dados estão
agrupados sem intervalo de classe. Nesse caso, a variância é dada pela Eq.
(15):
s2 =
xi2fi�
n
−
xifi� 2
n2
Eq. (15)
Nela, xi é o ponto médio da classe considerada, n é o número de elementos
da amostra, e fi é a frequência absoluta.
Exemplo 29
Os dados da Tabela 18 correspondem ao número de semanas de férias
usadas pelos funcionários de uma clínica. Determine a variância amostral para
esse conjunto de dados.
Tabela 18 – Número de semanas de férias, usadas pelos funcionários de uma
clínica.
Fonte: a autora.
Solução: para o cálculo da variância amostral, montamos a Tabela 19. Assim:
Tabela 19 – Valores calculados para determinação da variância amostral.
Número semanas de
férias
Frequência observada
0 20
1 40
2 80
3 50
4 10
xi fi xifi xi2fi
0 20 0 0
1 40 40 40
2 80 160 320
3 50 150 350
47
Fonte: a autora.
Assim, a variância amostral é:
s2 =
870
200
−
390 2
2002
= 0,5475
Logo, a variância amostral é 0,5475 semanas2.
4 10 40 160
fi = 200� xifi = 390� xi2fi = 870�
Vejamos agora o cálculo da variância para o caso em que os dados estão
agrupados com intervalo de classe. Nesse caso, a equação da variância é
dada por:
s2 =
xi2fi�
n
−
xifi� 2
n2
Eq. (16)
Na Eq. (16), xi é o ponto médio da classe considerada, n é o número de
elementos da amostra, e fi é a frequência absoluta da classe.
Exemplo 30
A Tabela 20 apresenta a distribuição de frequência do percentual de
redução da carga bacteriana, empregando um novo desinfetante. Determine a
variância amostral desse conjunto de dados.
Tabela 20 - Percentual de redução da carga bacteriana.
Fonte: a autora.
Percentual de redução Frequência (fi)
1 ⊢ 14 12
14 ⊢ 27 11
27 ⊢ 40 12
40 ⊢ 53 3
53 ⊢ 66 1
66 ⊢ 79 1
Total 40
48
Solução: para o cálculo da variância amostral, montamos a Tabela 21.
Tabela 21 – Cálculo de valores para determinação da variância amostral.
fi xi xifi xi2fi
1 ⊢ 14 12 7,5 90 675
14 ⊢ 27 11 20,5 225,5 4.622,75
27 ⊢ 40 12 33,5 402 13.467
40 ⊢ 53 3 46,5 139,5 6.486,75
53 ⊢ 66 1 59,5 59,5 3.540,25
66 ⊢ 79 1 72,5 72,5 5.256,25
Total fi = 40� - xifi = 989� xi2fi = 34.048�
Fonte: a autora.
Assim, a variância amostral é:
s2 =
34.048
40
−
989 2
402
= 239,87
Logo, a variância é 239,87 %2.
5.3 Desvio-Padrão
Como a variância é calculada a partir dos quadrados dos desvios em relação
à média, ela é um número cuja unidade está ao quadrado em relação à variável
estudada, o que, do ponto de vista prático, é inconveniente. O desvio-padrão
é definido como a raiz quadrada da variância, e assim, esse valor é mais
conveniente, pois a medida de dispersão tem a mesma unidade da média. O
desvio-padrão populacional e amostral é definido pelas Eq. (17) e (18):
σ = σ2 Eq. (17)
s = s2 Eq. (18)
Nelas, σ é desvio-padrão populacional, σ2 é a variância populacional, s é o
desvio padrão amostral e s2 é a variância amostral.
49
Exemplo 31
No exemplo 28, verificamos que a variância do método Autoanalisador foi
s2 = 340 (mg/dL)2 . Assim, o desvio-padrão é s = 340 = 18,4 (mg/dL) . Já, a
variância do método Microenzimático foi s2 = 39,5 (mg/dL)2 . Assim, o desvio-
padrão é s = 39,5 = 6,3 (mg/dL).
No exemplo 29, mostramos que a variância foi �2 = 0,5475 semanas2 e, daí,
o desvio-padrão é igual a � = 0,5475 = 0,740 semanas.
No exemplo 30, verificamos que a variância foi s2 = 239,87 %2 e, daí, o
desvio-padrão é igual a s = 15,49%.
REFLITA
Quando todos os valores são iguais, o desvio-padrão é 0. Do contrário, o
desvio-padrão tem de ser positivo.
5.4 Coeficiente de variação
O Coeficiente de variação relaciona a média aritmética e o desvio‐padrão e é
definido pela Eq. (19), sendo empregado na comparação do grau de
concentração em torno da média para duas ou mais séries estatísticas distintas.
Dizemos que uma série é mais homogênea que outra quando apresentar
menor coeficiente de variação.
CV = 100.
s
x�
Eq. (19)
Nela, s é o desvio-padrão amostral e x� é a média aritmética da amostra.
Exemplo 32
Na Tabela 22, são apresentados os valores da concentração de partículas
poluentes em duas regiões distintas de uma grande cidade brasileira.
Tabela 22 – Concentração de partículas, em partes por bilhão (ppb).
Região Concentração (ppb) Desvio-padrão (ppb)
A 1.000 200
B 1.000 300
50
Fonte: a autora.
Qual das regiões apresenta mais homogeneidade nos dados?
Solução: vamos calcular os coeficientes de variação das concentrações das
partículas poluidoras das regiões A e B.
CVA = 100.
200
1.000
= 20%
CVB = 100.
300
1.000
= 30%
Como o coeficiente de variação da região A é menor que o da região B,
segue que a concentração de partículas poluidoras na região A é mais
homogênea do que na região B.
REFLITA:
“Utilizando o coeficiente de variação, sempre que quisermos descobrir qual
grupo de dados é mais homogêneo, ou seja, o que possui a menor
variabilidade em torno da média, devemos optar pelo grupo de dados que tiver
o menor percentual do coeficiente de variação. Caso o coeficiente de variação
seja muito elevado, a média não será a melhor medida para representarmos os
dados devidoà alta variabilidade em torno dela.”
Fonte: PARENTI, Tatiana. Bioestatística. Grupo A, 2018. E-book. ISBN
9788595022072. Disponível em:
https://integrada.minhabiblioteca.com.br/#/books/9788595022072/. Acesso em:
14 fev. 2024. [ ]
INDICAÇÃO DE LEITURA
“O interesse de profissionais e alunos da área de saúde em bioestatística
explica-se pelo uso intenso das técnicas estatísticas na pesquisa científica.
Entretanto, bioestatística é uma ciência complexa, que não se aprende com a
simples busca de alguns termos na Internet. Então, é difícil aprender estatística?
Sim e não. Aprender a fazer cálculos estatísticos usando programas de
computador não é difícil, embora exija tempo, interesse e atenção. Contudo,
não se pode apenas automatizar o uso de certos métodos; afinal, a leitura, a
51
condução e a avaliação de uma pesquisa dependem, em boa parte, do
conhecimento do pesquisador sobre as potencialidades e limitações das
técnicas estatísticas utilizadas. Livros são referências essenciais para a
divulgação científica, sobretudo do conhecimento já consolidado. Por isso, esta
sexta edição de Introdução à Bioestatística foi escrita e reescrita muitas vezes,
na tentativa de produzir conteúdo para facilitar a aprendizagem”.
VIEIRA, Sonia. Introdução à Bioestatística. Grupo GEN, 2021. E-book. ISBN
9788595158566. Disponível em:
https://integrada.minhabiblioteca.com.br/#/books/9788595158566/. Acesso em:
14 fev. 2024.
52
CONSIDERAÇÕES FINAIS
Após estudarmos a Unidade I, temos boa parte das ferramentas necessárias
para trabalhar com a estatística descritiva.
Nessa Unidade, abordamos os tipos de amostragem, as principais formas de
representações gráficas para uma série de dados e as tabelas de distribuição
de frequencias. Apresentamos, também, os principais conceitos sobre medidas
de posição, sendo elas a Média, Moda e Mediana, onde esses valores nos
dizem sobre a tendência de concentração dos dados observados. E, por fim,
vimos as medidas de dispersão: amplitude, variância, desvio-padrão e
coeficiente de variação. Na sequencia, na Unidade II, abordaremos a
probabilidade.
53
UNIDADE 2 –
ESTUDO DA PROBABILIDADE E DAS DISTRIBUIÇÕES DE
PROBABILIDADE
INTRODUÇÃO
A probabilidade é fundamental para a Bioestatística, pois fornece
ferramentas matemáticas indispensáveis para se trabalhar com o acaso e com
as incertezas inerentes a fenômemos do mundo real. Trata-se de uma medida
numérica que expressa a chance de um determinado evento ocorrer.
Nesta unidade, serão abordados a definição clássica de probabilidade, as
regras da soma e do produto, o cálculo da probabilidade condicional e algumas
distribuições de probabilidade, sendo elas: a distribuição Binomial, distribuição
de Poisson e a distribuição normal.
54
1. INTRODUÇÃO À PROBABILIDADE
Para que seja possível o estudo da probabilidade, é necessário as definições
de alguns conceitos.
Definição 1 - Um experimento é um processo que permite ao pesquisador
realizar observações.
Definição 2 - Um evento é o conjunto de resultados de um dado experimento
e este pode ser simples ou composto. O evento é dito simples, quando o
mesmo não pode ser decomposto em eventos mais simples e é dito composto
quando este pode ser decomposto em eventos mais simples.
Definição 3 - O espaço amostral, que será denotado por S, é o conjunto de
todos os resultados possíveis de um experimento. O número de resultados
possíveis do espaço amostral será denotado por n(S).
Exemplo 1:
Ao lançar uma moeda, o espaço amostral, denotado por S, é cara e coroa.
Escrevemos:
S = {cara e coroa}
Definição 4 - Um evento aleatório é qualquer subconjunto de um espaço
amostral, onde o mesmo é denotado por letras maiúsculas do alfabeto.
Exemplo 2:
Imagine um jogo em que se lançam duas moedas e o jogador ganha se
ocorrerem faces iguais. O espaço amostral é:
S = {cara e cara; cara e coroa; coroa e cara; coroa e coroa}
O jogador ganha se ocorrer qualquer um dos dois elementos do evento A:
A = {cara e cara, coroa e coroa}
55
Definição 5 - Dado o evento A, denomina-se o evento complementar de A,
denotado por ��, o conjunto dos eventos que não pertencem a A.
Exemplo 3:
No exemplo 2, em que o jogador ganha se ocorrerem faces iguais nas
duas moedas, o complemento de A é:
A� = {cara e coroa, coroa e cara}.
Definição 6 - Um evento equiprovável é aquele no qual cada ponto amostral
tem a mesma chance de ocorrência.
Exemplo 4:
No lançamento simultâneo de três moedas honestas, denotando c por cara
e k por coroa, segue que o espaço amostral tem 8 elementos e é igual a
S:
c c c
c c k
c k c
c k k
k c c
k c k
k k c
k k k
.
Seja A o evento sair duas caras e uma coroa, ou seja,
A = {c c k, c k c, k c c}.
Dessa forma, o evento complementar de A é
A� = c c c, c k k, k c k, k k c, k k k .
Observe que, no espaço amostral S, todos os eventos têm iguais chances
de saírem, isto é, as chances de sair o evento c c c é idêntica às chances de
saírem quaisquer outros eventos desse espaço amostral.
Definição 7 - Dois eventos são chamados de mutuamente exclusivos quando
não possuem elementos em comum.
56
Exemplo 5:
Ao dizer que você tem menos de 30 anos, fica excluída a possibilidade de
ter mais de 50 anos, ou seja, denotando por A = ter menos de 30 anos e B =
ter mais de 50 anos, segue que A e B são mutuamente exclusivos.
Definição 8 - Dois eventos são independentes se a ocorrência de um deles
não tiver efeito sobre a ocorrência do outro.
REFLITA:
“É importante considerar o risco de confundir eventos independentes com
eventos mutuamente exclusivos. Às vezes, as pessoas entendem que as duas
expressões querem dizer a mesma coisa: que os eventos não se sobrepõem.
No entanto, eventos mutuamente exclusivos – isto é, se um ocorre, o outro não
pode ocorrer – não são independentes. Pense no jogo de uma moeda: quando
se joga uma moeda, não há como ocorrer cara e coroa ao mesmo tempo. Logo,
esses eventos são mutuamente exclusivos. Eles são independentes? Não. A
probabilidade de sair cara é 50%; porém, dada à condição de que ocorreu
coroa, é zero. Então, a probabilidade de sair cara muda se sair coroa.” [12]
Definição 9 - Dados dois eventos distintos A e B de um espaço amostral,
define-se a união dos eventos A e B como sendo o evento que possui
elementos de A ou de B ou de ambos.
Definição 10 - Dados dois eventos distintos A e B de um espaço amostral,
define-se a interseção dos eventos A e B como sendo o evento que possui
elementos de A e de B.
2. PROBABILIDADE
Considere um experimento aleatório, onde S é o seu espaço amostral e
admita que todos os elementos de S tenham a mesma chance de acontecer,
ou seja, que S é um conjunto equiprovável.
A probabilidade de um evento A (A ⊂ S) é um número real P(A), tal que:
57
P A =
n(A)
N(S)
Eq. (01)
onde:
n(A) é o número de elementos de A;
N(S) é o número de elementos de S.
Propriedades:
Pelos exemplos que acabamos de ver, podemos concluir que, sendo n(S) = n:
1. A probabilidade do evento certo é igual a 1:
P(S) = 1
2. A probabilidade do evento impossível é igual a zero:
P(∅) = 0
3. A probabilidade de um evento E qualquer (E ⊂ S) é um número real P(E),
tal que:
0 ≤ P(E) ≤ 1
4. A probabilidade de um evento elementar E qualquer é, lembrando que n(E)
= 1:
P E =
1
n
5. Se P(E) denota a probabilidade do evento E ocorrer, então, a probabilidade
do evento complementar de E é igual a P E� = 1 − P E .
Exemplo 6
Um médico verificou que, de 2.964 nascidos vivos, 73 tinham alguma
deficiência ou doença séria. Com base nessa amostra, qual é a estimativa da
probabilidade de um recém-nascido ter deficiência ou doença séria?
Solução:
Seja S o espaço amostral, isto é, o conjunto formado pelos nascidos vivos.
Então N(S) = 2.964.
Seja A o evento dos nascidos vivos apresentarem alguma deficiência ou
58
doença séria. Então n(A) = 73.
Logo,
P A =
n(A)
N(S)
=
73
2.964
= 0,0246 = 2,46%
Exemplo 7
O baralho francês de 52 cartas, ilustrado na Figura 1, é constituído de 13
cartas de cada um dos naipes franceses:paus, ouros, espadas e copas.
Figura 1 – Baralho francês de 52 cartas. Fonte: a autora.
Ao escolher aleatoriamente uma carta do baralho, qual a probabilidade de
sair:
a) uma carta de paus?
b) uma figura?
c) uma figura de paus?
Solução:
a) Seja X o evento de sair uma carta de paus. Observe que ele pode ocorrer
13 vezes. Assim:
P X =
13
52
= 0,250 ou 25,0%
Portanto, a probabilidade de sair uma carta de paus é de 25%.
b) Seja Y o evento de sair uma figura (reis, damas e valetes). Observe que ele
59
pode ocorrer 12 vezes. Assim:
P Y =
12
52
≅ 0,231 ou 23,1%
Portanto, a probabilidade de sair uma figura é, aproximadamente, de 23,1%.
c) Seja Z o evento de sair uma figura de paus. Observe que ele pode ocorrer 3
vezes. Assim:
P Z =
3
52
≅ 0,058 ou 5,8%
Portanto, a probabilidade de sair uma figura de paus é, aproximadamente,
de 5,8%.
Exemplo 8
Considere o experimento do lançamento simultâneo de três moedas
honestas para responder às questões seguintes.
a) Qual a probabilidade de saírem três caras?
b) Qual a probabilidade de saírem duas coroas?
c) Qual a probabilidade de saírem duas coroas consecutivas?
d) Qual a probabilidade de não saírem duas coroas consecutivas?
Solução: o espaço amostral para esse experimento contém 8 elementos, a
saber: S = c c c , c c k , c k c , c k k , k c c , k c k , k k c , k k k , em que c
denota cara, e k, coroa.
a) Seja A o evento de saírem três caras, isto é, c c c . Observe que ele pode
ocorrer 1 vez. Assim:
P A =
1
8
= 0,125 ou 12,5%
Portanto, a probabilidade de saírem três caras é de 12,5%.
60
b) Seja B o evento de saírem duas coroas. Observe que ele pode ocorrer 4
vezes, a saber: c k k , k c k , k k c e k k k . Assim:
P C =
4
8
= 0,500 ou 50,0%
Portanto, a probabilidade de saírem duas coroas é de 12,5%.
c) Seja C o evento de saírem duas coroas consecutivas. Observe que ele
pode ocorrer 3 vezes. A saber, c k k , k k c e k k k . Assim:
P C =
3
8
= 0,375 ou 37,5%
Portanto, a probabilidade de saírem duas coroas consecutivas é de 37,5%.
d) Observe que o evento de não saírem duas coroas consecutivas é o
complemento do evento C, isto é, trata-se de C� . Observe que ele pode ocorrer
5 vezes, a saber: c c c , c c k , c k c , k c c e k c k . Assim:
P C� =
5
8
= 0,625 ou 62,5%
Portanto, a probabilidade de não saírem duas coroas consecutivas é de
62,5%.
Note, nos itens (c) e (d), que P C + P C� = 1.
Exemplo 9
Dois dados idênticos, honestos e com seis faces cada, são lançados
simultaneamente. Com base nessa informação, determine a probabilidade de
que:
a) saia, pelo menos, um número 3.
b) a soma dos dois resultados seja igual a 5.
c) saia, pelo menos, um número 3 e a soma dos dois resultados seja igual a 5.
Solução: o espaço amostral contém 36 elementos, e a Tabela 1 o ilustra.
61
Tabela 1 – Espaço amostral para o lançamento de dois dados honestos e
idênticos.
Dado 1
Dado 2
Face 1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
Fonte: a autora.
a) Seja X o evento de sair, pelo menos, um número 3. Observe que ele pode
ocorrer 11 vezes. Assim:
P X =
11
36
≅ 0,306 ou 30,6%
b) Seja Y o evento de a soma dos dois resultados ser igual a 5. Observe que
ele pode ocorrer 4 vezes. Assim:
P Y =
4
36
≅ 0,111ou 11,1%
c) Observe, nesse caso, que o evento saia, pelo menos, um número 3 e a
soma dos dois resultados seja igual a 5 é a intersecção dos eventos X e Y dos
itens (a) e (b). Observe que ele pode ocorrer 2 vezes, a saber: (3,2) e (2,3).
Assim:
P Y =
2
36
≅ 5,56 × 10−2 ou 5,56%
62
Exemplo 10
Determine a probabilidade de que, quando um casal tem três filhos,
exatamente dois deles sejam meninas. Admita que meninos e meninas sejam
igualmente prováveis e que o gênero de uma criança não seja influenciado
pelo gênero de qualquer outra criança.
Solução: primeiramente, vamos construir o espaço amostral e vamos
denotar por X o evento de virem a nascer exatamente 2 meninas. O espaço
amostral para esse experimento contém 8 elementos, a saber: S =
AAA , AAO , AOA , AOO , OAA , OAO , OOA , OOO , em que A denota
menina, e O denota menino. Observe que o espaço amostral contém 8
possibilidades, 3 correspondem a exatamente 2 meninas de modo que:
P X =
3
8
= 0,375
Portanto, é esperada a probabilidade de 37,5% de que, se um casal tem 3
filhos, exatamente 2 sejam meninas.
SAIBA MAIS
As leis de Mendel são um conjunto de fundamentos que explicam o mecanismo
da transmissão hereditária durante as gerações. As leis de Mendel são
enunciadas a seguir:
1ª lei de Mendel: “Cada caráter é determinado por um par de fatores que se
separam na formação dos gametas, indo um fator do par para cada gameta,
que é, portanto, puro”.
2ª lei de Mendel: “As diferenças de uma característica são herdadas
independentemente das diferenças em outras características”.
INDICAÇÕES DE VÍDEO
Os vídeos a seguir, do canal do professor Kennedy Ramos, explicam a primeira
e a segunda leis de Mendel. O vídeo da 1ª lei está disponível em
https://www.youtube.com/watch?v=ZmGqPRe4Jc8 e o da 2ª lei está disponível
em https://www.youtube.com/watch?v=qg6ly6ocYJs.
63
Exemplo 11
Quando Mendel realizou seu famoso experimento genético com ervilhas, uma
prole de mudas consistia em 428 ervilhas verdes e 152 ervilhas amarelas.
Com base nesses resultados, estime a probabilidade de se obter uma prole de
ervilhas amarelas.
Solução: Note que o espaço amostral, que é constituído do total de ervilhas,
contém 580 (428 + 152) elementos. Assim, seja A o evento das proles de
ervilhas amarelas.
P A =
152
580
≅ 0,262
Logo, a probabilidade de se obter uma prole de ervilhas amarelas é de 26,2%.
Observe que a probabilidade de se obter a prole de ervilhas verdes é de,
aproximadamente, 74,3%. Esse resultado está razoavelmente próximo do
valor esperado de ¾, como afirmado por Mendel.
Exemplo 12
Presentes em 149 países, as doenças tropicais negligenciadas representam
um inimigo que se aproveita da fragilidade social e econômica. São vírus,
bactérias e parasitos que atingem um bilhão de pessoas, sobretudo na faixa
tropical do globo, onde se concentram as populações mais vulneráveis dos
países em desenvolvimento. Com a intensa circulação de pessoas, o
problema se torna cada vez mais uma questão global. As doenças tropicais
negligenciadas são: malária, dengue, doença de chagas, leishmaniose,
esquistossomose, tuberculose e hanseníase. Admita que, em uma pequena
comunidade, situada na zona tropical, com 1.200 habitantes, tenha sido
realizada uma pesquisa sobre a contaminação de seus habitantes quanto a
duas doenças tropicais negligenciadas: malária e dengue. Nessa pesquisa,
constatou-se que 600 pessoas já tinham contraído malária, 500 já tinham
contraído dengue e 300 nenhuma dessas duas doenças. Escolhendo-se um
habitante dessa comunidade ao acaso e sabendo-se que ele não tenha
contraído malária, qual a probabilidade de esse habitante ter contraído
64
dengue?
Solução: Para resolver esse exercício, vamos empregar o diagrama de Venn,
como ilustrado na Figura 2, em que I e E denotam o número de habitantes que
já contraíram a malária e a dengue, respectivamente.
Figura 2 – Diagrama de Venn. Fonte: a autora.
Seja x o número de habitantes que contraíram as duas doenças. O diagrama
de Venn da esquerda ilustra a situação descrita no enunciado. Daí,
600 − x + x + 500 − x = 1.200
x = 200
Com x = 200, o diagrama de Venn da direita ilustra a situação de alunos que
falam língua estrangeira na escola. Observe que o número de habitantes que
não contraíram malária é 600 (300 nenhuma das duas doenças e 300
contraíram apenas dengue). Seja E o evento de o habitante não ter contraído
malária e ter contraído dengue, segue que a probabilidade de ocorrência do
evento E é
P E =
300
600
=
1
2
INDICAÇÃO DE VÍDEO
No cálculo de probabilidade, é comum fazermos usodos diagramas de
Venn para nos auxiliarem na resolução de situações-problema. Assista ao
vídeo Diagramas de Venn, do canal Brasil Escola, para relembrar esse
procedimento.
65
O vídeo está disponível em
https://www.youtube.com/watch?v=4OzeSbLNUqg.
Outra maneira de se abordar a definição de probabilidade é por meio da
frequência relativa. Nessa situação, observamos (ou realizamos) um dado
experimento e quantificamos o número de vezes em que o evento X, por
exemplo, ocorreu. Assim, a probabilidade de ocorrência do evento X é
aproximada por meio da Eq. (2).
P X =
número de vezes que X ocorreu
número de vezes que o experimento foi repetido
Eq. (2)
Exemplo 13
A Tabela 2 apresenta dados de sobrevivência (em dias) de uma corte de
animais acometidos por uma doença aguda. Na primeira coluna, t corresponde
aos dias, sendo t = 0 o dia em que a contagem começou a ser feita. vt, na
segunda coluna, é a quantidade de animais vivos no início do dia t. dt, na
terceira coluna, indica quantos animais morreram no decorrer do dia t.
Tabela 2 – Dados de sobrevivência de animais acometidos por uma doença
aguda.
t vt dt
0 10.000 500
1 9.500 700
2 8.800 800
3 8.000 800
4 7.200 1.080
5 6.120 720
6 5.400 1.350
66
7 4.050 1.350
8 2.700 1.200
9 1.500 1.500
Fonte: a autora.
Com referência a essas informações, julgue os itens que se seguem.
A) Se um animal que estivesse vivo no início do dia t = 4 fosse escolhido ao
acaso, a probabilidade de ele ter chegado vivo no dia t = 7 seria superior a
60%.
Solução: seja A o evento do animal estar vivo e A� o complementar de A, isto
é, o evento do animal ter morrido. Assim, no dia 4, temos, inicialmente, 7.200
animais vivos. Do dia 4 até o início do dia 7, o número de animais que vieram
a morrer foi de 3.150 (1.080 + 720 + 1.350). Aplicando a Eq. (2):
P A� =
3.150
7.200 = 0,4375 ou 43,75%
Daí, P A = 1 − P A� = 1 − 0,4375 = 0,5625 ou 56,25 , ou seja, a probabilidade
de o animal estar vivo no dia 7 é de 56,25%, que é inferior a 60% e, portanto,
a afirmação está errada.
B) Se um animal que estivesse vivo no início do dia t = 3 fosse escolhido ao
acaso, a probabilidade de ele ter morrido até o dia t = 6 seria superior a 50%.
Solução: seja A o evento do animal morrer. Assim, no dia 3, temos,
inicialmente, 8.000 animais vivos. Do dia 3 até o início do dia 7, o número de
animais que vieram a morrer foi de 3.950 (800 + 1.080 + 720 + 1.350).
Aplicando a Eq. (2):
P A =
3.950
8.000
= 0,49375 ou 49,375%
Ou seja, a probabilidade do animal que estava vivo no dia 3 vir a morrer até
o dia 6 é de 49,375% e, portanto, a afirmação está errada.
C) Se um animal que estivesse vivo no início do dia t = 4 fosse escolhido ao
67
acaso, a probabilidade de ele morrer nesse dia seria igual a 15%.
Solução: seja B o evento do animal vir a morrer no dia 4. Note que o número
de animais que morrem nesse dia é igual a 1.080, enquanto o número de
animais no início desse dia é igual a 7.200. Assim, aplicando a Eq. (2):
P B =
1.080
7.200
= 0,15 ou 15,0%
Logo, a probabilidade do animal vir a morrer no dia 4 é de 15%, e a
afirmação está correta.
2. AS REGRAS DA ADIÇÃO E MULTIPLICAÇÃO PARA O CÁLCULO DE
PROBABILIDADE
Até agora, discutimos o cálculo de probabilidade de eventos simples, ou seja,
calculávamos a probabilidade de um evento A qualquer, contando o número de
possibilidades dentro de um espaço amostral S. Agora, vamos dar atenção aos
eventos compostos, ou seja, vamos examinar situações de contar resultados
em “experimentos”. Isso significa que empregaremos as técnicas da adição e
da multiplicação para calcular a probabilidade desse evento.
Vamos começar com a técnica da adição.
Regra 1 da soma: eventos mutuamente exclusivos.
 Se A e B são dois eventos mutuamente exclusivos, então a probabilidade
de ocorrer o evento A ou o evento B é dada pela soma das probabilidades
de A e B, isto é
P(A ∪ B) = P A + P B Eq. (3)
Exemplo 14:
Em um recipiente há 40 bolas, onde 15 delas são vermelhas, 10 são azuis,
8 amarelas e 7 pretas. Se uma bola for tirada aleatoriamente, qual é a
probabilidade de ela ser vermelha ou preta?
Solução:
68
Considere os eventos A e B, onde
A: sair uma bola vermelha
B: sair uma bola preta
Sabemos que não há intersecção, e que há um total de 15 + 10 + 8 + 7 =
40 bolas no recipiente. Então:
P(A ∪ B) = P(A) + P(B) =
15
40
+
7
40
=
22
40
=
11
20
= 0,55 = 55%.
Logo, a probabilidade de sair uma bola vermelha ou preta é de 55%.
Regra 2 da soma: eventos não mutuamente exclusivos.
 Se os eventos não são mutuamente exclusivos, ou seja, se A e B podem
ocorrer ao mesmo tempo, a probabilidade de ocorrer A ou B é dada pela
probabilidade de A, mais a probabilidade de B, menos a probabilidade de A
e B. Escreve-se:
P A ∪ B = P A + P B − P A ∩ B Eq. (4)
É necessário subtrair o conjunto intersecção porque, quando somamos P(A)
+ P(B), a probabilidade do conjunto interseção P(A ⋂ B) é somada duas vezes.
Quando os eventos são mutuamente exclusivos, não se faz a subtração,
porque a probabilidade de os eventos ocorrerem ao mesmo tempo é zero, ou
seja, não há intersecção.
Exemplo 15
Considere um baralho convencional com 52 cartas, do Exemplo 3. Ao
selecionar uma carta ao acaso, qual a probabilidade de sair uma carta de paus
ou uma figura?
Solução: já vimos, no Exemplo 3, que a probabilidade de sair uma carta de
paus é P X = 13
52
, a probabilidade de sair uma figura é P Y = 12
52
, e a
probabilidade de sair uma figura de paus é P X ∩ Y = 3
52
. Volte lá e confira!
Observe que o evento Z, que fora definido no Exemplo 3, é tal que Z = X ∩ Y.
69
Daí, a probabilidade de sair uma carta de paus ou figura é calculada
empregando-se a Eq. (3):
P X ∪ Y =
13
52
+
12
52
−
3
52
=
22
52
≅ 0,423 ou 42,3%
Portanto, ao selecionar uma carta ao acaso, a probabilidade de sair uma
carta de paus ou uma figura é de 42,3%.
Exemplo 16
Considere o experimento do lançamento simultâneo de três moedas
honestas.
Qual a probabilidade de saírem duas caras consecutivas ou exatamente
uma coroa?
Solução: o espaço amostral para esse experimento contém 8 elementos, a
saber: S = c c c , c c k , c k c , c k k , k c c , k c k , k k c , k k k . Seja A o
evento de saírem duas caras consecutivas. Observe que ele pode ocorrer 3
vezes, a saber: c c c , c c k e k c c . Assim, aplicando a Eq. (1):
P A =
3
8
Seja B o evento de sair exatamente uma coroa. Observe que ele pode
ocorrer 3 vezes, a saber: c c k , c k c e k c c . Assim, aplicando a Eq. (1):
P B =
3
8
Seja C o evento obtido da intersecção entre os eventos A e B, isto é, C =
A ∩ B. O evento C consiste em saírem duas caras consecutivas e uma coroa.
Note que isso ocorre 2 vezes, a saber: c c k e k c c . Assim, aplicando a Eq.
(1):
P C =
2
8
Daí, a probabilidade de saírem duas caras consecutivas ou exatamente uma
70
coroa é calculada empregando-se a Eq. (3):
P A ∪ B =
3
8
+
3
8
−
2
8
=
4
8 = 0,500 ou 50,0%
Portanto, no lançamento simultâneo de três moedas honestas, a
probabilidade de saírem duas caras consecutivas ou exatamente uma coroa é
de 50,0%.
No que segue, antes de apresentar as regras da multiplicação, é necessário
lembrar da definição de dois eventos independentes. Dois eventos são
independentes se a ocorrência de um deles não tiver efeito sobre a ocorrência
do outro (Definição 8). Por exemplo, quando se joga um dado duas vezes, o
resultado da primeira jogada não tem nenhum efeito sobre o resultado da
segunda. São eventos independentes.
Regra 1 da multiplicação: eventos independentes
Se A e B são eventos independentes, a probabilidade de ocorrer A e B é dada
pela probabilidade de ocorrer A, multiplicada pela probabilidade de ocorrer B.
Escreve-se:
P A ∩ B = P A × P B Eq. (5)
Exemplo 17
Um paciente tem 60% de chances de não desenvolver uma doença X. O
mesmo paciente tem 80% de chances de não desenvolver a doença Y. Qual a
probabilidade de esse paciente não desenvolver nenhuma das duas doenças?
Solução: Sejam A e B os eventos do paciente não desenvolver
E-book - BioestatÃstica

UNINGÁ

Mais conteúdos dessa disciplina