Prévia do material em texto
1 BIOESTATÍSTICA Profa. Ma. Miriam Eulalina Martins Frota UNIDADE 1 – MEDIDAS DE POSIÇÃO E DISPERSÃO INTRODUÇÃO Grande parte da população está, de alguma forma, inserida num mundo que trabalha com levantamento de dados. Isso é observado através de pesquisa de opinião pública, através do censo, de pesquisas eleitorais, ao responder perguntas sobre a qualidade de um determinado restaurante, ao votar em programas de rádio ou televisão, ao votar em enquetes da Internet, etc. Entretanto, não é correto pensar que a Estatística trata-se, apenas, de fazer perguntas e contar as respostas. Visto que a Estatística é, por definição, “a ciência que fornece os princípios e os métodos para coleta, organização, resumo, análise e interpretação de dados” [12], para que um bom levantamento de dados seja feito, é necessário os conhecimentos da mesma. Os estatísticos trabalham com informações, onde, na área de saúde, são importantes as informações sobre causas de morte, prevalência de doenças, efeitos de suplementos alimentares, eficiência de medicamentos, indicação de cuidados paliativos etc. Diante disso, nesta unidade, serão abordados os primeiros passos para a compreensão dos dados estatísticos, onde as técnicas de amostragem, os tipos de gráficos, as tabelas de distribuições de frequência, as medidas de posição (média, moda e mediana) e dispersão (variância, desvio padrão e coeficiente de variação) serão apresentadas. 2 1. CONSIDERAÇÕES BÁSICAS EM ESTATÍSTICA DESCRITIVA 1.1 Universo, Amostra e Variável Afim de se obter uma pesquisa estatística sobre determinado assunto, é necessário aplicar formas e métodos de como obter esses dados, como analisá-los e interpretá-los. A coleta, a organização e a apresentação de dados estatísticos se dá através da Estatística descritiva. Na maioria das vezes, não é possível coletar todos os dados de um determinado grupo por ser economicamente inviável ou impraticável. Esse grupo é chamado de população e representa o todo, ou seja, o universo de interesse. Com isso, a coleta e análise de dados é feita em uma parte da população, chamada amostra. A amostra é um subconjunto finito da população. Quando vamos analisar alguma característica de uma determinada população, devemos especificar qual variável será analisada. Variáveis A cada fenômeno corresponde um número de resultados possíveis. Assim, por exemplo: para o fenômeno “estação do ano” são quatro os resultados possíveis: verão, outono, inverno e primavera; para o fenômeno “número de animais de estimação” há um número de resultados possíveis expresso através dos números naturais: 0, 1, 2, 3, …, n; para o fenômeno “volume” temos uma situação diferente, pois os resultados podem tomar um número infinito de valores numéricos dentro de um determinado intervalo. Com isso, podemos dizer que uma variável é definida, convencionalmente, como sendo o conjunto de resultados possíveis de um fenômeno. As variáveis podem, ainda, ser classificadas como qualitativa ou quantitativa. Variável qualitativa: quando seus valores são expressos por atributos, como por exemplo, cor dos olhos, sexo (masculino ou feminino), cor da pele, etc... Variável quantitativa: quando seus valores são expressos por números, como por exemplo, peso, altura, salário, etc.... Além disso, se essa variável 3 puder assumir, teoricamente, qualquer valor num determinado intervalo, a mesma recebe o nome de variável contínua e se ela só puder assumir valores pertencentes a um conjunto enumerável, ela recebe o nome de variável discreta. De modo geral, as medições dão origem a variáveis contínuas e as contagens ou enumerações, a variáveis discretas. INDICAÇÃO DE VÍDEO O documentário O Prazer da Estatística – The Joy of Statistics leva os espectadores a uma viagem através do maravilhoso mundo da estatística para explorar o notável poder que esse mundo tem de mudar a nossa compreensão da realidade. O documentário está disponível em http://www.youtube.com/watch?v=xLr68J2yDJ8. 1.2 Técnicas de Amostragem Como dito anteriormente, para estudar determinada característica de uma população, na grande maioria das vezes, é necessário analisar uma amostra da mesma. Assim, devemos seguir técnicas de amostragem para que fique assegurado que aquela amostra em questão represente a população em relação a característica de interesse. i) Amostragem casual ou aleatória simples: essa técnica funciona como um sorteio aleatório, ou seja, enumera-se os elementos de uma população, de 1 até n, por exemplo, e desses n elementos sorteia-se k elementos. Entretanto, no caso em que a população é muito numerosa, esse sorteio torna-se inviável e, para esse caso, podemos usar a Tabela de Números Aleatórios (Anexo 1). A Tabela de Números Aleatórios é construída de modo que os dez algarismos (0 a 9) são distribuídos ao acaso nas linhas e colunas (Anexo 1). E para a sua utilização, procedemos da seguinte forma: sorteamos um algarismo qualquer da mesma, a partir do qual iremos considerar números de dois, três ou mais algarismos, conforme nossa necessidade. Os números assim obtidos irão indicar os elementos da amostra. A leitura da tabela pode ser feita horizontalmente (da direita para a esquerda ou vice-versa), verticalmente (de cima para baixo ou vice-versa), diagonalmente (no sentido ascendente ou http://www.youtube.com/watch?v=xLr68J2yDJ8 4 descendente) ou formando o desenho de uma letra qualquer. A opção, porém, deve ser feita antes de iniciado o processo. Exemplo 1 Dos 30 funcionários de uma empresa, 20% serão escolhidos para realizar exames de rotina. Como 20% de 30 é igual a 6, significa que dos 30 funcionários, 6 deverão fazer o exame. Assim, para realizar a escolha desses funcionários, enumera-se os mesmos de 1 a 30 e, em seguida, escrevemos esses números em papéis de mesmo tamanho, colocando-os dentro de uma caixa. Agitamos e retiramos, um a um, sem reposição. Os seis números formarão a amostra. Exemplo 2 Deseja-se obter uma amostra, que corresponda a 10% da população, para a pesquisa da estatura de noventa alunos de uma escola. Para isso, sorteia-se um número aleatório e a partir dele, da esquerda para a direita, por exemplo, iremos contar nove elementos (10% de 90), com dois dígitos cada, pois o maior valor da população possui dois dígitos, na Tabela de Números Aleatórios. Supondo que o número sorteado seja o 53 e escolhendo a 11ª linha, temos os seguintes elementos: 53 08 58 96 63 05 61 25 70 Como o número 96 excede o valor máximo da população, esse valor deverá ser desprezado e consideraremos o 11º elemento da linha. Logo, a amostra é dada por: 53 08 58 63 05 61 25 70 22. 5 Figura 1: Tabela de Números Aleatórios. Fonte: [ 1 ]. ii) Amostragem estratificada – essa técnica é utilizada quando temos a população subdividida em grupos, que são chamados de estratos. Nesse caso, é necessário considerar elementos de cada estrato para que a amostra da população seja representativa. Exemplo 3 Considere que, dos 90 alunos, do exemplo 2, 33 sejam meninos e 57 sejam meninas. Temos, nesse caso, dois estratos (sexo masculino e sexo feminino) e queremos escolher 10% do total de 90. SOLUÇÃO: devemos considerar 10% de cada estrato, ou seja, 10% do estrato “sexo masculino” e 10% do estrato “ sexo feminino”. Assim, 10% de 33 = 3,3 e 10% de 57 = 5,7. Como esses valores referem-se a pessoas, consideraremos 3 alunos do 6 sexo masculino e 6 alunos do sexo feminino, totalizando os 9 alunos que correspondem aos 10% da população. Na sequência, escolhemos 3 meninos dentre os 33 e 6 meninas dentre as 57. Podemos enumerar esses alunos de 1 a 90, sendo que os enumerados de 1 até 33 correspondem aos alunos do sexo masculino, e os enumerados de 34 até 90 correspondem as alunas do sexo feminino. Daí, procede-se a um sorteio. Ou, então, usa-se a tabela de números aleatórios para proceder ao sorteio, até que 3 alunos e 6 alunas sejam selecionados. iii) Amostragem sistemática – nessa técnica de amostragem,os elementos da população que participam da amostra são determinados por intervalos fixos, e não utiliza-se a tabela de números aleatórios. Por exemplo, no caso da população dos 90 alunos do exemplo 2, para obtermos 9 amostras sistemáticas, podemos escolher os números 3, 6, 9, 12, 15, 18, 21, 24 e 27. 1.3 Tipos de Gráficos e Séries Estatísticas Após a coleta e análise de dados, podemos dispo-los em uma tabela. Uma tabela é um quadro que resume um conjunto de observações ou informações, onde algumas normas devem ser seguidas: a) Toda tabela deve conter Título e Fonte. Título: é a indicação que precede a tabela e que contém a designação do fato observado, o local e a época em que foi registrado. Fonte: é a indicação da entidade responsável pelo fornecimento dos dados ou pela sua elaboração. b) Cabeçalho: evidencia o conteúdo das colunas e fica na parte superior da tabela. Coluna indicadora: mostra o conteúdo das linhas. a) Cada cruzamento entre linha e coluna é denominado célula ou casa. b) Rodapé: espaço aproveitado em seguida ao fecho da tabela, em que são colocadas as notas de natureza informativa (fonte, notas e chamadas). c) Nenhuma célula (casa) deve ficar em branco. d) Hífen (-), indica que o valor numérico é nulo. e) Reticência (...) , indica que não se dispõe do dado. 7 f) Interrogação (?) , indica dúvida quanto a exatidão do valor numérico. g) Zeros (0; 0,0; 0,00), indica valor muito pequeno em relação a unidade utilizada. h) A tabela não é fechada lateralmente por traços verticais. i) Não há obrigatoriedade de linha vertical entre as colunas, mas deve ser usada quando a tabela apresenta muita informação (muitas colunas e/ou muitas linhas). Exemplo 4 Abaixo ilustramos os elementos que compõe uma tabela. Figura 2: Elementos que compõe uma tabela. Fonte: [3]. Séries estatísticas Uma série estatística trata-se de toda tabela que apresenta distribuição de um conjunto de dados em função da época, do local ou da espécie. Série temporal ou cronológica: é a série cujos dados estão dispostos em correspondência com o tempo, ou seja, varia o tempo e permanece constante o fato e o local. 8 Exemplo 5 Exemplo de série temporal. Figura 3: Exemplo de série temporal. Fonte: a autora. Série geográfica ou territorial: é a série cujos dados estão dispostos em correspondência com o local, ou seja, varia o local e permanecem constantes a época e o fato. Exemplo 6 Exemplo de série geográfica. Figura 4: Exemplo de série geográfica. Fonte: a autora. Série específica ou qualitativa: é a série cujos dados estão dispostos em correspondência com a espécie ou qualidade, ou seja, varia o fato e permanecem constantes a época e o local. 9 Exemplo 7 Exemplo de série específica. Figura 5: Exemplo de série específica. Fonte: a autora. Um gráfico estatístico é uma maneira de apresentação dos dados, que tem como objetivo produzir uma impressão mais rápida e viva do fenômeno estudado, uma vez que os gráficos falam mais rapidamente à compreensão da série. Os gráficos devem ser simples, claros e devem expressar a verdade sobre o fenômeno em estudo. A seguir, apresentaremos os principais tipos de gráficos estatísticos. Gráfico de colunas: é construído no plano cartesiano. No eixo horizontal, são construídas as colunas que representam a variação (medidas ou quantidades numéricas) dos dados na pesquisa realizada. O fluxo de informações, representado por um valor numérico, é indicado pelo eixo vertical. As colunas devem sempre possuir a mesma largura e a distância entre elas deve ser constante. Também podemos representar duas ou mais categorias de informações. 10 Figura 6: Ilustração dos elementos do gráfico de colunas. Fonte: [4]. Exemplo 8 Foram entrevistadas 100 pessoas que haviam sido submetidas a uma cirurgia estética reparadora. Indagadas se consideravam que a cirurgia havia melhorado a aparência delas, 66 afirmaram que sim, 20 disseram que em parte, 8 disseram que não e 6 não quiseram responder. Os dados são apresentados no gráfico de colunas abaixo. Figura 7: Você acredita que a cirurgia melhorou sua aparência? Fonte: [12]. 11 Exemplo 9 Exemplo de um gráfico de colunas com duas categorias. Figura 8: Exemplo de um gráfico de colunas com duas categorias. Fonte: [7]. Gráficos de barras: O gráfico de barras também é construído sobre o Plano Cartesiano (primeiro quadrante). No eixo vertical, são construídas as barras que representam a variação (medidas ou quantidades numéricas) dos dados na pesquisa realizada. O fluxo de informações, representado por um valor numérico, é indicado pelo eixo horizontal. As barras devem sempre possuir a mesma largura e a distância entre elas deve ser constante. Podemos representar duas ou mais categorias de informações. Figura 9: Ilustração dos elementos do gráfico de barras. Fonte: [4]. 12 Exemplo 10 Exemplo de um gráfico de barras. Figura 10: Número de tratamentos da infecção latente pelo Mycobacterium tuberculosis conforme indicação de tratamento. Brasil, 2018 a 2021. Fonte: [5]. Gráficos de setores: os gráficos de setores (ou pizza) são representados por círculos divididos proporcionalmente de acordo com os dados da informação a ser representada. Os valores são expressos em números ou em percentuais (%). Esse tipo de gráfico é recomendado para visualização de informações de apenas uma categoria e não é recomendado o uso em três dimensões. https://educa.ibge.gov.br/professores/educa-recursos/20773-tipos-de-graficos-no-ensino.html 13 Figura 11: Ilustração dos elementos do gráfico de setores. Fonte: [4]. Exemplo 11 Exemplo de um gráfico de setores. Figura 12: Exemplo de um gráfico de setores. Fonte: [7]. Gráfico de linhas: Esse tipo de gráfico é utilizado quando se deseja trabalhar com duas ou mais informações provenientes de dados numéricos. Ele se utiliza de uma ou mais linhas poligonais para representar uma série estatística, que mostram a variação (medidas ou quantidades numéricas) dos dados na pesquisa realizada, isto é, como os dados se movimentam no decorrer do tempo e é feito no primeiro quadrante do plano cartesiano. É indicado quando uma das variáveis representa o tempo e se pretende revelar o movimento dos dados ao longo do tempo. 14 Figura 13: Ilustração dos elementos do gráfico de linhas. Fonte: [4]. Exemplo 12 Exemplo de um gráfico de linhas. Figura 14: Exemplo de um gráfico de linhas. Fonte: [7]. 1.4 Distribuição de Frequência Após a coleta de dados de uma pesquisa estatística, é necessário a organização dos mesmos. Esse procedimento é, em geral, feito por meio de tabelas, que são chamadas de tabelas de distribuição de frequência. Para a compreensão do conceito da tabela de distribuição de frequência, começaremos considerando o conjunto de dados que apresenta a distância horizontal (em metros) percorrida por um drone antes de apresentar algum tipo de defeito. Um total de 40 testes foram realizados e são apresentados na Tabela 1. Tabela 1 – Distância percorrida, em metros, por um protótipo de drone antes de apresentar algum tipo de defeito. 33,50 30,38 48,38 31,13 29,63 9,25 32,25 38,00 8,63 29,63 9,00 18,00 18,00 1,25 37,88 10,00 25,24 52,00 9,25 53,38 8,75 34,00 7,63 14,00 43,25 16,50 11,38 25,02 18,50 16,63 9,38 8,00 35,25 21,63 19,38 11,50 28,50 78,38 38,88 33,63 15 Fonte: a autora. Observamos, na tabela 2, que os dados não estão organizados, e por isso, recebem o nome de dados brutos. Os dados brutos constituem uma tabela, denominada tabela bruta. O primeiro passo a se fazer é organizar esses dados em ordem crescente ou decrescente. Essa organização é chamada de rol. A tabela 2 mostra o rol crescente dos dados. Tabela 2 – Rol crescente da distância percorrida, em metros, por um protótipo de drone antes de apresentar algum tipo de defeito. 1,25 7,63 8,00 8,63 8,75 9,00 9,25 9,25 9,38 10,00 11,38 11,50 14,00 16,50 16,65 16,63 18,00 18,00 18,50 19,38 21,63 25,02 25,24 28,50 29,63 30,38 31,13 32,25 33,50 33,63 34,00 35,25 37,88 38,0038,88 43,25 48,38 52,00 53,38 78,38 Fonte: a autora. Após a organização dos dados em rol, iremos construir uma tabela para que a leitura dos dados fique mais compreensível. Para isso, devemos definir os seguintes itens: i. classe: é a subdivisão dos dados em intervalos ou faixas de valores. ii. limite de classe: são os valores extremos de cada classe. Para uma classe, temos o limitante inferior, que é o menor número que pode pertencer à classe, além do limitante superior, que é o maior número que pode pertencer à classe. iii. amplitude amostral (AA): é a diferença entre o maior e o menor entre os dados coletados. iv. ponto médio de uma classe (��) : são os valores obtidos somando-se o limitante inferior de classe ao limitante superior e dividindo-se o resultado da soma por 2. v. número de classes (i): para a construção de uma tabela de distribuição de frequência, a primeira coisa com que devemos nos preocupar é determinar o número de classes. Para tal, utilizamos a regra de Sturges, dada pela Eq. (01), a seguir: 16 i = 1 + 3,3 log n , onde n é o número de dados coletados. Eq. (01) vi. amplitude de classe (h): calculado o número de classes, devemos calcular a amplitude da classe, que é calculada fazendo-se a razão entre a amplitude total e o número de classes. vii. frequência absoluta fi : é o número de vezes que determinado elemento aparece na amostra ou, ainda, o número de vezes que um elemento aparece numa classe. viii. frequência relativa fr : é a razão entre a frequência absoluta da classe em questão e o número total de elementos na amostra. A frequência relativa é calculada usando-se a Eq. (02): fri = fi n Eq. (02) ix. frequência relativa percentual fr% : é obtida multiplicando a frequência relativa por 100, como apresenta a Eq. (03): fri(%) = 100. fri Eq. (03) x. frequência acumulada FAC : é obtida somando-se a frequência absoluta da classe considerada com as frequências absolutas anteriores a essa classe. A Eq. (04) mostra esse procedimento. FAC = f1 + f2 +… + fn = i=1 n fi� Eq. (04) Na Eq. (04), �1 é a frequência absoluta da primeira classe, �2 é a frequência absoluta da segunda classe e assim por diante, até a n-ésima classe. O símbolo i=1 n fi� denota a soma das frequências da primeira, segunda, até a n- ésima classe. xi. frequência relativa acumulada FRAC : é a razão entre a frequência acumulada de uma classe pelo número total de elementos na amostra, como mostra a Eq. (05): 17 FRAC = FAC n Eq. (05) xii. frequência relativa acumulada percentual FRAC% : é o produto da frequência relativa acumulada de uma classe por 100, como apresentado na Eq. (06): FRAC(%) = 100. FRAC Eq. (06) Definido esses doze itens, vamos aplica-los na tabela 2 para que possamos construir a Tabela de Distribuição de Frequências. 1º passo: determinar o número de classes desejado. Esse número deve estar entre 5 e 20, por questões práticas e ainda deve ser um número inteiro. Como temos n = 40 observações, podemos usar o critério de Sturges. Assim, o número de classes igual a: i = 1 + 3,3 log 40 ≅ 6 2º passo: calcular a amplitude das classes. Se necessário, faça uso de arredondamentos e/ou mude o número de classes de modo que se usem números convenientes. h = 78,38 − 1,25 6 ≅ 13 3º passo: escolha ou o valor mínimo ou um valor conveniente, que seja um pouco menor do que esse valor mínimo para ser o primeiro limitante inferior de classe. Usando esse limitante inferior e a amplitude da classe, prossiga e liste os outros limites inferiores de classe, adicionando a amplitude de classe ao primeiro limite de classe inferior para obter o segundo limite inferior de classe, e assim por diante. 4º passo: liste os limites inferiores de cada classe em uma coluna vertical e prossiga para preencher os limitantes superiores. Feito isso, percorra o conjunto de dados, colocando uma marca apropriada para cada valor dado. Conte as marcas para encontrar a frequência total para cada classe. 18 Na sequencia, construímos a tabela 3, denominada de tabela de distribuição de frequência. Observe, na Tabela 3, que na primeira classe temos a frequência dos valores da distância horizontal percorrida pelo robô, que vai de 1 (inclusive) até 14 (exclusive), totalizando 12 valores. Nas classes seguintes, usamos ideia análoga. Tabela 3 - Distribuição de frequência da distância percorrida por um protótipo de drone antes de apresentar algum tipo de defeito. Fonte: a autora. A partir da tabela de distribuição de frequência, podemos calcular as frequências relativas ( fr) , frequências acumuladas (FAC ) e seus percentuais, como apresentado na Tabela 4. Tabela 4 – Distribuição de frequência da distância percorrida por protótipo de drone, antes de apresentar algum tipo de defeito. Classe (i) Distância percorrida fi fr fr% FAC FRAC FRAC% 1 1 ⊢ 14 12 0,300 30,0 12 0,300 30,0 2 14 ⊢ 27 11 0,275 27,5 23 0,575 57,5 Classe (i) Distância percorrida Frequência (fi) 1 1 ⊢ 14 12 2 14 ⊢ 27 11 3 27 ⊢ 40 12 4 40 ⊢ 53 3 5 53 ⊢ 66 1 6 66 ⊢ 79 1 Total 40 19 3 27 ⊢ 40 12 0,300 30,0 35 0,875 87,5 4 40 ⊢ 53 3 0,075 7,50 38 0,950 95,0 5 53 ⊢ 66 1 0,025 2,50 39 0,975 97,5 6 66 ⊢ 79 1 0,025 2,50 40 1,000 100,0 Total 40 1 100 - - - Fonte: a autora. O cálculo da frequência relativa da primeira classe foi determinado da seguinte maneira: fr1 = 12 40 = 0,30. Esse procedimento foi usado para calcular as demais frequências relativas. As frequências relativas percentuais foram obtidas multiplicando-se por 100 as frequências relativas de cada classe. O cálculo da frequência acumulada foi realizado como segue: FAC1 = f1 = 12 FAC2 = f1 + f2 = 12 + 11 = 23 FAC3 = f1 + f2 + f3 = 12 + 11 + 12 = 35 E assim por diante, até a sexta classe. As frequências relativas acumuladas foram calculadas como segue: FRAC1 = 12 40 = 0,300 FRAC2 = 23 40 = 0,575 E assim por diante, até a sexta classe. Já as frequências relativas percentuais foram obtidas multiplicando-se por 100 as frequências relativas acumuladas. Em muitas situações, é mais conveniente representar de forma gráfica uma distribuição de frequência. E isso pode ser feito utilizando-se do histograma, do polígono de frequência ou do polígono de frequência acumulada. O histograma é um gráfico dado por um diagrama de colunas, em que cada retângulo está associado a uma classe da distribuição de frequência. As frequências de classe devem ser usadas na escala vertical. As barras na 20 escala horizontal são rotuladas de uma das maneiras: (1) fronteiras de classe; (2) pontos médios das classes; ou (3) limites inferiores das classes. Figura 15 – Histograma da distribuição de frequência da distância percorrida por um drone, antes de apresentar algum tipo de defeito. Fonte: a autora. O polígono de frequência é o gráfico de configuração linear. Ele é obtido calculando-se o ponto médio de cada classe e marca-se esse ponto no lado superior do histograma. O polígono de frequência é obtido ligando-se esses pontos médios. A Figura 16 mostra o polígono de frequência, associado aos dados da Tabela 4. 21 Figura 16 – Polígono de frequência da distância percorrida por um drone, antes de apresentar algum tipo de defeito. Fonte: a autora. O polígono de frequência acumulada, ou ogiva de Galton, é um gráfico que permite descrever dados quantitativos por meio da frequência acumulada. A ogiva é um gráfico de linha que une os pontos cujas abcissas são os limites superiores das classes e ordenadas suas respectivas frequências acumuladas. A Figura 17 apresenta o polígono de frequência acumulada para os dados distribuídos em classe da Tabela 4. 22 Figura 17 – Polígono de frequência acumulada da distância percorrida por um drone, antes de apresentar algum tipo de defeito. Fonte: a autora. Exemplo 13 Os dados abaixo representam o valor (R$) do produto A vendido em 25 diferentes estabelecimentos. Construa uma tabela de distribuição de frequência e identifique qual a faixa de preços com maior frequência. Dados Brutos:20,5 - 19,5 - 15,6 - 24,1 - 9,9 - 15,4 - 12,7 - 5,4 - 17,0 - 28,6 - 16,9 - 7,8 - 23,3 - 11,8 - 18,4 - 13,4 - 14,3 - 19,2 - 9,2 - 16,8 - 8,8 - 22,1 - 20,8 - 12,6 - 15,9 Solução: Para a construção da tabela de distribuição de frequências, devemos seguir os seguintes passos: 1. Organizar os dados em rol crescente: 5,4 - 7,8 – 8,8 – 9,2 – 9,9 – 11,8 – 12,6 – 12,7 – 13,4 – 14,3 – 15,4 15,6 – 15,9 – 16,8 – 16,9 – 17,0 – 18,4 – 19,2 – 19,5 – 20,5 – 20,8 – 22,1 – 23,3 - 24,1 – 28,6 2. Determinar o número de classes desejado. i = 1 + 3,3 log 25 ≅ 5,6 ≅ 6 3. Calcular a amplitude das classes. h = 28,6 − 5,4 6 ≅ 3,86 ≅ 4 4. Escolher um valor mínimo para ser o 1º limitante inferior da classe e construir uma tabela contendo o número de classes, os intervalos e as frequências absolutas. Como o primeiro valor do conjunto de dados é o valor 5,4, escolheremos o número 5. A partir do número 5, iremos somar o número 4, até obtermos as 6 classes com seus respectivos intervalos. Para as frequências, a partir dos dados em rol, foi contado quantos elementos pertencem a cada classe, ou seja, na 1ª classe houve 3 valores para o produto A variando de R$ 5,00 a R$ 9,00 e assim sucessivamente. A tabela abaixo mostra esse processo. Tabela 5 - Distribuição de frequência do valor (R$) do produto A vendido em 25 diferentes estabelecimentos. 23 Fonte: a autora. 5. Calcular as frequências relativas ( fr) , frequências acumuladas (FAC ) e seus percentuais. Tabela 6 – Distribuição de frequência para o valor (R$) do produto A vendido em 25 diferentes estabelecimentos. Classe (i) Valor (R$) do produto A fi fr fr% FAC FRAC FRAC% 1 5 ⊢ 9 3 0,12 12% 3 0,12 12% 2 9 ⊢ 13 5 0,20 20% 8 0,32 32% 3 13 ⊢ 17 7 0,28 28% 15 0,60 60% 4 17 ⊢ 21 6 0,24 24% 21 0,84 84% 5 21 ⊢ 25 3 0,12 12% 24 0,96 96% 6 25 ⊢ 29 1 0,04 4% 25 1 100% Classe (i) Valor (R$) do produto A Frequência (fi) 1 5 ⊢ 9 3 2 9 ⊢ 13 5 3 13 ⊢ 17 7 4 17 ⊢ 21 6 5 21 ⊢ 25 3 6 25 ⊢ 29 1 Total 25 24 Total 25 1 100% - - - Fonte: a autora. O cálculo da frequência relativa da primeira classe foi determinado da seguinte maneira: fr1 = 3 25 = 0,12. Esse procedimento foi usado para calcular as demais frequências relativas. As frequências relativas percentuais foram obtidas multiplicando-se por 100 as frequências relativas de cada classe. O cálculo da frequência acumulada foi realizado como segue: FAC1 = f1 = 3 FAC2 = f1 + f2 = 3 + 5 = 8 FAC3 = f1 + f2 + f3 = 3 + 5 + 7 = 15 E assim por diante, até a sexta classe. As frequências relativas acumuladas foram calculadas como segue: FRAC1 = 3 25 = 0,12 FRAC2 = 5 25 = 0,20 E assim por diante, até a sexta classe. Já as frequências relativas percentuais foram obtidas multiplicando-se por 100 as frequências relativas acumuladas. Figura 18 – Histograma da distribuição de frequência para o valor (R$) do produto A vendido em 25 diferentes estabelecimentos. Fonte: a autora. 25 Figura 19 – Polígono de frequência para o valor (R$) do produto A vendido em 25 diferentes estabelecimentos. Fonte: a autora. Figura 20 – Polígono de frequência acumulada para o valor (R$) do produto A vendido em 25 diferentes estabelecimentos. Fonte: a autora. 2. MEDIDAS DE POSIÇÃO As medidas de posição de uma série de dados nos orientam quanto à posição da distribuição em relação ao eixo horizontal do histograma. As usualmente empregadas são a média, a mediana e a moda. Vamos discuti-las em separado. 26 2.1 Média Aritmética A média aritmética é a mais importante de todas as medidas de posição existentes para descrever dados em geral. A média aritmética ( x� ) é uma medida de tendência central, determinada pela adição de todos os valores e divisão pelo número de valores. Essa definição nos permite escrever a Eq. (07): x� = x1 + x2 + x3 +… + xn n = xi� n Eq. (07) onde, x1, x2, ..., xn são as variáveis que se estão estudando, n é o número de valores estudados, e xi� denota a soma de todos os valores em estudo. Exemplo 14 Um professor de Educação Física mediu a circunferência abdominal de 10 homens que se apresentaram em uma academia de ginástica. Obteve os seguintes valores, em centímetros: 88, 83, 79, 76, 78, 70, 80, 82, 86, 106. Solução: A média é: x� = 88 + 83 + 79 + 76 + 78 + 70 + 80 + 82 + 86 + 106 10 = 828 10 = 82,8 ou seja, a média da circunferência abdominal desses homens é 82,8 cm. Acabamos de calcular a média aritmética para o caso em que os dados não estão agrupados. Agora, vamos aprender a calcular a média aritmética para o caso em que os dados estão agrupados sem intervalo de classe. Nessa situação, como as frequências são números indicadores da intensidade de cada valor, elas funcionam como fatores de ponderação e, assim, calculada a média aritmética ponderada, como apresentado pela Eq. (08): x� = xi.� fi fi� Eq. (08) onde, fi é a frequência, e xi é o valor da variável. 27 Exemplo 15 Na Figura 21, são apresentados os números de acidentes de trabalho no primeiro semestre de 2020, nas 60 fábricas de uma indústria de remédios. Figura 21 – Ilustração para o exemplo. Fonte: a autora. Determine o número médio de acidentes das 60 fábricas de remédios. Solução: das informações dispostas na figura 21, montamos uma tabela para auxiliar-nos no cálculo da média aritmética. Assim, Tabela 6 – Tabela de distribuição para o cálculo da média. Fonte: a autora. Daí, segue que o número médio de acidentes de trabalho nas 60 fábricas de remédios é: xi fi xi. fi 0 18 0 1 16 16 2 7 14 3 10 30 4 5 20 5 2 10 6 2 12 fi� = 60 xi.� fi = 102 28 x� = 102 60 = 1,7 acidentes Portanto, o número médio de acidentes de trabalho nas 60 fábricas de remédios foi de 1,7 acidentes. Vejamos, agora, o caso do cálculo da média aritmética quando os dados estão agrupados em classe. Nesse caso, convenciona-se que os valores incluídos num determinado intervalo coincidem com seu ponto médio, e determinamos a média ponderada. Vejamos o exemplo seguinte. Exemplo 16 A Tabela 7 apresenta a distribuição de frequências do número de salários- mínimos dos funcionários de um laboratório. Tabela 7 – Distribuição de frequência do número de salários-mínimos recebidos pelos funcionários de um laboratório. Fonte: a autora. Determine o número médio de salários-mínimos desses funcionários. Solução: das informações dispostas na Tabela 7, montamos a Tabela 8 para auxiliar-nos no cálculo da média aritmética. Assim. Tabela 8 – Tabela de distribuição para resolução do exercício. Classes (de salários-mínimos) fi 0 ⊢ 2 5 2⊢ 4 2 4⊢ 6 4 6⊢ 8 2 8⊢ 10 7 Classes (de salários- mínimos) fi xi xi. fi 0 ⊢ 2 5 1 5 29 Fonte: a autora. Daí, segue que o número médio de salários-mínimos é: x� = 108 20 = 5,4 salários − mínimos Portanto, o número médio de salários-mínimos recebidos pelos funcionários do laboratório é 5,4. 2⊢ 4 2 3 6 4⊢ 6 4 5 20 6⊢ 8 2 7 14 8⊢ 10 7 9 63 Total fi� = 20 - xi.� fi = 108 Exemplo 17 A média salarial de 100 médicos-veterinários recém-formados é igual a R$ 5.000,00. Se o salário de João, também médico-veterinário recém- formado, fosse incluído no cálculo, a média salarial seria igual a R$ 5.100,00. Determine o salário de João, em reais. Solução: temos que a média salarial, x� = 5.000, das 100 pessoas pode ser calculada por meio da equação: x� = S1 + S2 +…+ S100 100 = 5.000 Ou seja, a soma dos salários dos 100 médicos-veterinários é: S1 + S2 +…+ S100 = 500.000 (1) Considerando agora a inclusão de João, a média salarial é igual a x� = 5.100 e é calculada por meio da equação: x� = S1 + S2 + …+ S100 + SJoão 101 = 5.100 Ou seja, a soma dos salários de 101 médicos-veterinários é: S1 + S2 +…+ S100 + SJoão = 515.100 (2) Assim, subtraindo (1) de (2), segue que o salário de João é igual a R$ 15.100. 30 2.2 Moda A Moda (Mo) é o valor que ocorre com maior frequência num conjunto de dados, e esse(s) valor(es) é(são) denominado(s) “valor modal”. Um conjunto de dados poderá ser classificado em: (i) amodal – quando não apresentar valor modal; (ii) unimodal– quando apresentar único valor modal; (iii) bimodal – quando apresentar dois valores modais; (iv) trimodal – quando apresentar três valores modais; (v) polimodal – quando apresentar quatro ou mais valores modais. Exemplo 18 Determine a moda dos dados 1,1, 2, 5, 3, 7, 4, 7, 8, 7, 9, 6. Solução: organizando os dados em rol crescente, obtemos a seguinte distribuição: 1 – 1 – 2 – 3 – 4 – 5 – 6 – 7– 7 – 7 – 8 – 9 Note que, na série, há repetição dos valores 1 (2 vezes) e 7 (3 vezes). Assim, o conjunto de dados é unimodal e o valor modal é 7, porque é o resultado que se repete mais vezes. A moda desse conjunto de dados, pode, ainda, ser visualizada graficamente: Figura 22: Dados sobre um eixo e a respectiva moda. Fonte: [12]. 31 Acabamos de calcular a moda para o caso em que os dados não estão agrupados. Agora, vamos aprender a calcular a moda para o caso em que os dados estão agrupados sem intervalo de classe. Nessa situação, é muito fácil determinar o valor modal, bastando determinar a classe que apresenta maior frequência. Vejamos o exemplo que segue. Exemplo 19 Determinada carreira profissional, em um órgão público, apresenta 5 níveis de salários com uma distribuição apresentada na Tabela 9. Tabela 9 – Distribuição salarial de funcionários de uma carreira pública. Salários (R$) 1.500,00 2.000,00 2.500,00 3.000,00 3.500,00 Quantidade de funcionários 8 13 23 18 3 Fonte: a autora. Determine o salário modal desse órgão público. Solução: o salário modal desse compartimento público é R$ 2.500,00, pois esse valor caracteriza o maior número de ocorrências (23 vezes). Vejamos agora o caso do cálculo da moda quando os dados estão agrupados em classe. Nesse caso, é comum fazer uso da equação de Czuber para o cálculo do valor modal, como mostra a Eq. (09): Mo = lMo + d1 d1 + d2 . hMo Eq. (09) Nela, lMo é o limite inferior da classe modal, �1 é a diferença entre a frequência da classe modal e a frequência da classe anterior à classe modal, �2 é a diferença entre a frequência da classe modal e a frequência da classe posterior à classe modal, e hMo é a amplitude da classe modal. Vejamos o exemplo seguinte. 32 Exemplo 20 A Tabela 10 apresenta a distribuição de frequências das notas obtidas numa prova de bioestatística, realizada por 50 estudantes universitários do curso de Nutrição. Tabela 10 - Distribuição de frequência das notas em Bioestatística. Fonte: a autora. Determine a nota modal. Solução: a classe modal corresponde à classe que apresenta maior frequência. É claro que essa frequência corresponde à terceira classe. Assim, lMo = 4, d1 = 15 − 12 = 3, d2 = 15 − 13 = 2 e hMo = 2. Logo, a nota modal é: Mo = 4 + 3 3 + 2 . 2 = 5,2 Portanto, a nota modal em Bioestatística foi de 5,2. Nota Frequência 0 ⊢ 2 4 2 ⊢ 4 12 4 ⊢ 6 15 6 ⊢ 8 13 8 ⊢ 10 6 A moda é, em geral, usada para medidas rápidas e aproximações de posição ou, ainda, quando a medida de posição deve ser o valor mais frequente da distribuição. 2.3 Mediana Mediana (Me) é o valor que divide um conjunto de dados em duas partes: uma com números menores ou iguais à mediana, outra com números maiores ou iguais à mediana. Dessa maneira, a mediana encontra-se no centro de uma série estatística organizada em rol. 33 Após a organização do dados em rol, para determinar a mediana é preciso observar se o conjunto de dados possui um número par ou ímpar de elementos. Feita essa observação, procede-se da seguinte forma: Se o número de elementos for ímpar, a mediana será o valor central. Se o número de elementos for par, a mediana será a média aritmética entre os dois termos centrais. Nesse caso, a mediana será um valor que não necessariamente pertence à série de dados. Exemplo 21 Os dados a seguir correspondem ao rol crescente de medidas da concentração de um poluente líquido (em ppb) ao longo de 25 dias: 24 − 24 −24 −25 − 25 − 30 − 32 − 32 − 32 − 35 − 36 − 36 − 40 − 40 − 40 − 40− 46 – 48 − 48 − 50 − 54 − 54 − 60 − 60 − 65 Determine a concentração mediana desse poluente, em ppb. Solução: note que os dados estão organizados em rol crescente e que temos 25 valores. O 13º elemento é o que ocupa a posição central (está destacado no rol) e esse valor é a mediana do conjunto de dados. Assim sendo, a concentração mediana do poluente é igual a 40 ppb. Exemplo 22 Cientistas ambientais mediram as emissões de gases de efeito estufa de uma amostra de vinte carros. As quantidades listadas estão em toneladas (por ano), expressas em equivalente de CO2. 8,5 – 5,0 – 4,0 – 7,0 – 8,0 – 9,0 – 1,5 – 4,5 – 10,0 – 6,5 – 6,0 – 7,5 – 5,5 – 9,5 – 8,5 – 70 – 9,0 – 8,5 – 3,0 – 20. Qual é a mediana teórica da quantidade de gases de efeito estufa dessa amostra de carros? Solução: primeiramente, vamos organizar o conjunto de dados em rol crescente. Assim, temos: 1,5 – 2,0 – 3,0 – 4,0 – 4,5 – 5,0 – 5,5 – 6 – 6,5 – 7,0 – 7,0 – 7,5 – 8,0 – 8,5 – 8,5 – 8,5 – 9,0 – 9,0 – 9,5 – 10,0 34 Note que temos um número par de elementos, e os dois termos centrais têm média aritmética igual a 7,0. Portanto, a mediana é igual a 7,0 toneladas (por ano). Acabamos de calcular a mediana para o caso em que os dados não estão agrupados. Agora, vamos aprender a calcular a mediana para o caso em que os dados estão agrupados sem intervalo de classe. Nessa situação, devemos executar os seguintes passos: (i) calcular a frequência acumulada; (ii) determinar um valor tal, que divida a distribuição em dois grupos que contenham o mesmo número de elementos. Exemplo 23 Os salários dos 40 funcionários de uma clínica, em 31 de dezembro de 2022, estavam distribuídos segundo as informações da Tabela 11. Tabela 11 – Distribuição de frequência salarial de uma construtora. Fonte: a autora. Determine a mediana dos salários dos funcionários da clínica. Solução: para determinar o valor da mediana, primeiramente, vamos determinar a frequência acumulada, como apresentado na Tabela 12, para o conjunto de dados. Assim: Tabela 12 – Distribuição de frequências para os salários dos funcionários da clínica. Salário (R$) Número de funcionários 800,00 4 1.100,00 8 2.000,00 10 2.800,00 16 3.600,00 2 Total 40 Salário (R$) fi FAC 35 Fonte: a autora. Daí, a posição da mediana será 40 2 = 20 , ou seja, o valor pertence à 3ª classe e corresponde ao salário de R$ 2.000,00. Portanto, a mediana do salário da clínica é igual a R$ 2.000,00. 800,00 4 4 1.100,00 8 12 2.000,00 10 22 2.800,00 16 38 3.600,00 2 40 Total 40 - Vejamos agora o caso do cálculo da mediana quando os dados estão agrupados em classe. Nesse caso, usa-se a Eq. (10) de interpolação linear: Me = lMe + n 2 − FACant fMe . hMe Eq. (10) Nela: lMe é o limitante inferior da classe mediana; n é o número de elementos coletados na pesquisa; FACant é a frequência acumulada da classe anterior à classe mediana; fMe é a frequência absoluta da classe mediana; e hMe é a amplitude da classe da mediana. Exemplo 24 A Tabela 13 apresenta a distribuição de frequência do percentual de redução da carga bacteriana, empregando um novo desinfetante desenvolvido por um engenheiro químico. Determinar o percentual mediano desse conjunto de dados. Tabela 13 – Distribuição de frequência do percentual de redução da carga bacteriana, empregando um novo desinfetante. Percentual de redução Frequência (fi) 1 ⊢ 14 12 36 Fonte: a autora. Solução: vamos, primeiramente, escrever a Tabela 14 com a coluna de frequência acumulada e identificar a classe mediana. Assim: Tabela 14 – Distribuições de frequência. Fonte: a autora. Depreende-se, da Tabela 14, que n = 40 e que a classe que contém a mediana é a segunda (hachurada na Tabela 14). Para essa classe, temos: lMe = 14, FACant = 12, fMe = 11 e hMe = 27 − 14 = 13. Daí: Me = 14 + 40 2 − 12 11 . 13 = 23,45 Portanto, o percentual de redução mediano foi de 23,45. Logo, o valor mediano de redução da carga bacteriana, empregando um novo desinfetante, é igual a 23,45%. 14 ⊢ 27 11 27 ⊢ 40 12 40 ⊢ 53 3 53 ⊢ 66 1 66 ⊢ 79 1 Total 40Percentual de redução fi FAC 1 ⊢ 14 12 12 14 ⊢ 27 11 23 27 ⊢ 40 12 35 40 ⊢ 53 3 38 53 ⊢ 66 1 39 66 ⊢ 79 1 40 Total 40 - 3. MEDIDAS DE SEPARATRIZES As medidas de separatrizes são valores que ocupam posições no conjunto de dados, em rol, dividindo-o em partes iguais e podendo ser: 37 I. quartis – divide a série em quatro partes iguais e são assim representados: i. Q1 (25% dos dados coletados são valores menores ou iguais ao valor do primeiro quartil) ii. Q2 (50% dos dados coletados são valores menores ou iguais ao valor do segundo quartil, e é evidente que Q2 coincide com a mediana) iii. Q3 (75% dos dados são valores menores ou iguais ao valor do terceiro quartil). II. decis – divide a série em dez partes iguais e são assim representados: i. D1 (10% dos dados são valores menores ou iguais ao valor do primeiro decil) ii. D2 (20% dos dados são valores menores ou iguais ao valor do segundo decil) iii. D3 (30% dos dados são valores menores ou iguais ao valor do terceiro decil) iv. D4 (40% dos dados são valores menores ou iguais ao valor do quarto decil) v. D5 (50% dos dados são valores menores ou iguais ao valor do quinto decil) vi. D6 (60% dos dados são valores menores ou iguais ao valor do sexto decil) vii. D7 (70% dos dados são valores menores ou iguais ao valor do sétimo decil) viii. D8 (80% dos dados são valores menores ou iguais ao valor do oitavo decil) ix. D9 (90% dos dados são valores menores ou iguais ao valor do nono decil). III. percentis - dividem o conjunto de dados em cem partes iguais. A seguir, são apresentados alguns dos percentis mais usados: i. P5 (5% dos dados são valores menores ou iguais ao valor do quinto percentil) ii. P10 (10% dos dados são valores menores ou iguais ao valor do décimo percentil) iii. P25 (25% dos dados são valores menores ou iguais ao valor do vigésimo quinto percentil) iv. P50 (50% dos dados são valores menores ou iguais ao valor do percentil cinquenta) v. P75 (75% dos dados são valores menores ou iguais ao valor do percentil setenta e cinco) 38 vi. P90 (90% dos dados são valores menores ou iguais ao valor do percentil noventa) vii. P95 (95% dos dados são valores menores ou iguais ao valor do percentil noventa e cinco). Exemplo 25 Um estudo conduzido para quantificar o percentual de rendimento, em óleo, do oleaginoso girassol para a produção de biodiesel é apresentado na Tabela 15. Tabela 15 – Rendimento percentual de extração de oleaginosas. Amostra Rendimento (%) Amostra Rendimento (%) Amostra Rendimento (%) 1 1,59 11 4,50 21 6,41 2 1,83 12 5,18 22 7,33 3 1,93 13 5,20 23 7,97 4 2,32 14 5,30 24 8,10 5 2,71 15 5,34 25 8,24 6 3,09 16 5,56 26 8,39 7 3,73 17 6,04 27 9,35 8 4,03 18 6,07 28 9,71 9 4,25 19 6,09 29 9,78 10 4,40 20 6,17 30 9,92 Fonte: a autora. Com base nessas informações, determine: a) o primeiro quartil. b) o segundo decil. c) o octogésimo percentil. Solução: primeiro, temos de organizar os dados em rol. Note que a Tabela 15 já está organizada em rol. Assim: a) para o primeiro quartil, temos que 25% dos valores são menores ou iguais ao valor do primeiro quartil. Daí, rendimento = 25 100 × 30 = 7,5 . Note que a grandeza rendimento não é inteira, então iremos arredonda-la para cima. 39 Assim, os percentuais de rendimento que ocupam entre a 1ª e a 8ª posição formam primeiro quartil, ou seja, Q1 = {1,59; 1,83; 1,93; 2,32; 2,71; 3,09; 3,73; 4,03}. b) para o segundo decil, temos que 20% dos valores são menores ou iguais ao segundo decil. Daí, rendimento = 20 100 × 30 = 6 . Assim, os percentuais de rendimento que ocupam entre a 1ª e a 6ª posição formam o segundo decil, ou seja, D2 = {1,59; 1,83; 1,93; 2,32; 2,71; 3,09}. c) para o octogésimo percentil, temos que 80% dos valores são menores ou iguais a 80º percentil. Daí, rendimento = 80 100 × 30 = 24 . Assim, os percentuais de rendimento que ocupam entre a 1ª e a 24ª posição formam o octogésimo percentil, ou seja, P80 = {1,59; 1,83; 1,93; 2,32; 2,71; 3,09; 3,73; 4,03; 4,25; 4,40; 4,50; 5,18; 5,20; 5,30; 5,34; 5,56; 6,04; 6,07; 6,09; 6,17; 6,41; 7,33; 7,97; 8,10}. 4. MEDIDAS DE ASSIMETRIA E CURTOSE Ao construir uma distribuição de frequências e/ou um histograma, busca-se identificar visualmente a forma da distribuição dos dados. A medida de assimetria é um indicador dessa forma da distribuição e é classificada como: a) simétrica se média = mediana = moda. Esse caso é ilustrado pela Figura 22. Figura 22 – Distribuição simétrica. Fonte: a autora. 40 b) assimétrica negativa se média ≤ mediana ≤ moda. O lado mais longo do polígono de frequência (cauda da distribuição) está à esquerda do centro, como apresentado na Figura 23. Figura 23 – Distribuição assimétrica negativa. Fonte: a autora. c) assimétrica positiva se moda ≤ mediana ≤ média. O lado mais longo do polígono de frequência está à direita do centro, como apresentado na Figura 24. Figura 24 – Distribuição assimétrica positiva. Fonte: a autora. Exemplo 26 O ozônio, embora benéfico na estratosfera, onde forma uma camada protetora contra efeitos danosos da radiação ultravioleta, tem efeitos tóxicos nas camadas mais baixas da atmosfera, por afetar diretamente os seres vivos. O conjunto de dados a seguir apresenta a concentração, em ppb, de ozônio em 25 pontos distintos de uma metrópole: 41 24 – 24 – 24 – 25 – 25 – 30 – 32 – 32 – 35 – 36 – 36 – 40 – 40 – 40 – 40 – 40 – 46 – 48 – 48 – 50 – 54 – 60 – 60 – 65 Verifique se esse conjunto de dados é simétrico ou assimétrico. Solução: Para esse conjunto de dados, temos que a média é igual a 40 ppb, a mediana é igual a 40 ppb e a moda é igual a 40 ppb (confira!). Assim, segue que essa distribuição é simétrica. A medida de curtose representa o grau de achatamento de uma distribuição, isto é, quão espalhados os dados estão em torno da média e pode-se usar a curva normal padrão como referência. A curtose pode ser representada graficamente ou numericamente. Numericamente, o valor da medida de curtose é calculado conforme a Eq. (11). C = Q3 − Q1 2 P90 − P10 Eq. (11) onde, Q3 e Q1 são o terceiro e primeiro quartis; P90 e P10 são o nonagésimo e o décimo percentis. Graficamente, em relação a medida de curtose, a distribuição pode ser: a) Mesocúrtica: que é própria curva normal padrão, onde C = 0,263. b) Platicúrtica: possui grau de achatamento maior que da curva normal padrão, o que nos indica que os dados estão mais espalhados (logo, o desvio padrão também é maior), onde C > 0,263. c) Leptocúrtica: seu grau de achatamento é menor que o da curva normal padrão (curva mais pontiaguda), indica que os dados estão mais concentrados (desvio padrão menor), onde C < 0,263. 42 Figura 24 – Representações gráficas das medidas de curtose. Fonte: a autora. 5. MEDIDAS DE DISPERSÃO As medidas de tendência central, vistas anteriormente, apresentam, de forma resumida, as informações contidas em um conjunto de dados, mas não mostram tudo. Por exemplo, a temperatura média em 1 dia na mesma cidade não dá ideia da variação da temperatura ao longo do dia. Observe, agora, um exemplo numérico: Considere os seguintes conjuntos de dados: A: 20, 20, 20, 20, 20 B: 26, 17, 18, 19, 20 C: - 37, - 37, - 2, 68, 108 A média aritmética de cada conjunto de dados é: x�A = 20 + 20 + 20 + 20 + 20 5 = 20 x�B = 26 + 17 + 18 + 19 + 20 5 = 20 x�C = −37 + −37 + −2 + 68 + 108 5 = 20 Observe que, embora as médias aritméticas sejam iguais, existe diferença na dispersão desses dados em relação à média. Temos que o conjunto de dados A é mais homogêneo que o conjunto de dados B, que, por sua vez, é mais 43 homogêneo que o conjunto de dados C. Ou seja, quando comparamos esses conjuntos de dados de A para C, temos aumento na dispersão dos dados por eles apresentados. Por isso, vamos discutir a dispersão ou variabilidade dos dados estudados. As medidas de dispersão que serão apresentadas são: amplitude total, variância, desvio-padrão e coeficiente de variação. 5.1 Amplitude Total A amplitude total (AT) deum conjunto de dados é a diferença entre o maior valor e o menor valor desse conjunto, como pode ser visto na Eq. (12). Essa medida de dispersão é muito sensível aos extremos e não compara os valores da distribuição com a média dos dados. AT = valor máximo dos dados − (valor mínimo dos dados) Eq. (12) Exemplo 27 Os dados dispostos na figura abaixo, referem-se a duas amostras de medidas de colesterol em certa pessoa utilizando os métodos de mensuração Autoanalisador e Microenzimático. Calcule as amplitudes para cada conjunto de dados e compare a variabilidade dos dois métodos. Resolução: A amplitude para o método Autoanalisador = 226 – 177 = 49 mg/dL. A amplitude para o método Microenzimático = 209 – 192 = 17 mg/dL. Claramente o método Autoanalisador parece mais variável. Figura 25: Duas amostras de medidas de colesterol em certa pessoa utilizando os métodos de mensuração Autoanalisador e Microenzimático. Fonte: [11 ] 44 Solução: A amplitude para o método Autoanalisador = 226 – 177 = 49 mg/dL. A amplitude para o método Microenzimático = 209 – 192 = 17 mg/dL. Com os cálculos das amplitudes, observamos que o método Autoanalisador parece mais variável. 5.2 Variância A variância é uma medida de dispersão estatística, determinando quão longe os valores coletados estão em relação ao valor esperado. As variâncias populacional e amostral são calculadas de acordo com as Eq. (13) e (14), respectivamente: σ2 = xi − μ 2� N Eq. (13) s2 = xi − x� 2� n − 1 Eq. (14) Nelas, σ2 é a variância populacional, s2 é a variância amostral, xi é o valor da variável, μ é a média aritmética dos elementos da população, x� é a média aritmética dos elementos da amostra, N é o número de elementos da população, e n é o número de elementos da amostra. Exemplo 28 Calcule a variância para os dados dos métodos Autoanalisador e Microenzimático do exemplo 27. Solução: A fim de facilitar os cálculos, construiremos uma tabela de valores para cada método e, em seguida, calcularemos a variância de cada um. Tabela 16: Tabela de desvios em relação à média para o método Autoanalisador . xi xi − x� xi − x� 2 177 177 – 200 =−23 529 45 Fonte: a autora. Substituindo os valores obtidos na Eq (14), temos: s2 = xi − x� 2� n − 1 = 1.360 5 − 1 = 340 Logo, a variância do método Autoanalisador é de 340 (mg/dL)2. Tabela 17: Tabela de desvios em relação à média para o método Microenzimático . Fonte: a autora. Substituindo os valores obtidos na Eq (14), temos: s2 = xi − x� 2� n − 1 = 158 5 − 1 = 39,5 Logo, a variância do método Microenzimático é de 39,5 (mg/dL)2. 193 193 – 200 =− 7 49 195 195 – 200 =− 5 25 209 209 – 200 = 9 81 226 (226 - 200) = 26 676 xi − x� = 0� xi − x� 2 = 1.360� xi xi − x� xi − x� 2 192 192 – 200 =−8 64 197 197 – 200 =− 3 9 200 200 – 200 = 0 0 202 202 – 200 = 2 4 209 209 – 200 = 9 81 xi − x� = 0� xi − x� 2 = 158� 46 Vejamos agora o cálculo da variância para o caso em que os dados estão agrupados sem intervalo de classe. Nesse caso, a variância é dada pela Eq. (15): s2 = xi2fi� n − xifi� 2 n2 Eq. (15) Nela, xi é o ponto médio da classe considerada, n é o número de elementos da amostra, e fi é a frequência absoluta. Exemplo 29 Os dados da Tabela 18 correspondem ao número de semanas de férias usadas pelos funcionários de uma clínica. Determine a variância amostral para esse conjunto de dados. Tabela 18 – Número de semanas de férias, usadas pelos funcionários de uma clínica. Fonte: a autora. Solução: para o cálculo da variância amostral, montamos a Tabela 19. Assim: Tabela 19 – Valores calculados para determinação da variância amostral. Número semanas de férias Frequência observada 0 20 1 40 2 80 3 50 4 10 xi fi xifi xi2fi 0 20 0 0 1 40 40 40 2 80 160 320 3 50 150 350 47 Fonte: a autora. Assim, a variância amostral é: s2 = 870 200 − 390 2 2002 = 0,5475 Logo, a variância amostral é 0,5475 semanas2. 4 10 40 160 fi = 200� xifi = 390� xi2fi = 870� Vejamos agora o cálculo da variância para o caso em que os dados estão agrupados com intervalo de classe. Nesse caso, a equação da variância é dada por: s2 = xi2fi� n − xifi� 2 n2 Eq. (16) Na Eq. (16), xi é o ponto médio da classe considerada, n é o número de elementos da amostra, e fi é a frequência absoluta da classe. Exemplo 30 A Tabela 20 apresenta a distribuição de frequência do percentual de redução da carga bacteriana, empregando um novo desinfetante. Determine a variância amostral desse conjunto de dados. Tabela 20 - Percentual de redução da carga bacteriana. Fonte: a autora. Percentual de redução Frequência (fi) 1 ⊢ 14 12 14 ⊢ 27 11 27 ⊢ 40 12 40 ⊢ 53 3 53 ⊢ 66 1 66 ⊢ 79 1 Total 40 48 Solução: para o cálculo da variância amostral, montamos a Tabela 21. Tabela 21 – Cálculo de valores para determinação da variância amostral. fi xi xifi xi2fi 1 ⊢ 14 12 7,5 90 675 14 ⊢ 27 11 20,5 225,5 4.622,75 27 ⊢ 40 12 33,5 402 13.467 40 ⊢ 53 3 46,5 139,5 6.486,75 53 ⊢ 66 1 59,5 59,5 3.540,25 66 ⊢ 79 1 72,5 72,5 5.256,25 Total fi = 40� - xifi = 989� xi2fi = 34.048� Fonte: a autora. Assim, a variância amostral é: s2 = 34.048 40 − 989 2 402 = 239,87 Logo, a variância é 239,87 %2. 5.3 Desvio-Padrão Como a variância é calculada a partir dos quadrados dos desvios em relação à média, ela é um número cuja unidade está ao quadrado em relação à variável estudada, o que, do ponto de vista prático, é inconveniente. O desvio-padrão é definido como a raiz quadrada da variância, e assim, esse valor é mais conveniente, pois a medida de dispersão tem a mesma unidade da média. O desvio-padrão populacional e amostral é definido pelas Eq. (17) e (18): σ = σ2 Eq. (17) s = s2 Eq. (18) Nelas, σ é desvio-padrão populacional, σ2 é a variância populacional, s é o desvio padrão amostral e s2 é a variância amostral. 49 Exemplo 31 No exemplo 28, verificamos que a variância do método Autoanalisador foi s2 = 340 (mg/dL)2 . Assim, o desvio-padrão é s = 340 = 18,4 (mg/dL) . Já, a variância do método Microenzimático foi s2 = 39,5 (mg/dL)2 . Assim, o desvio- padrão é s = 39,5 = 6,3 (mg/dL). No exemplo 29, mostramos que a variância foi �2 = 0,5475 semanas2 e, daí, o desvio-padrão é igual a � = 0,5475 = 0,740 semanas. No exemplo 30, verificamos que a variância foi s2 = 239,87 %2 e, daí, o desvio-padrão é igual a s = 15,49%. REFLITA Quando todos os valores são iguais, o desvio-padrão é 0. Do contrário, o desvio-padrão tem de ser positivo. 5.4 Coeficiente de variação O Coeficiente de variação relaciona a média aritmética e o desvio‐padrão e é definido pela Eq. (19), sendo empregado na comparação do grau de concentração em torno da média para duas ou mais séries estatísticas distintas. Dizemos que uma série é mais homogênea que outra quando apresentar menor coeficiente de variação. CV = 100. s x� Eq. (19) Nela, s é o desvio-padrão amostral e x� é a média aritmética da amostra. Exemplo 32 Na Tabela 22, são apresentados os valores da concentração de partículas poluentes em duas regiões distintas de uma grande cidade brasileira. Tabela 22 – Concentração de partículas, em partes por bilhão (ppb). Região Concentração (ppb) Desvio-padrão (ppb) A 1.000 200 B 1.000 300 50 Fonte: a autora. Qual das regiões apresenta mais homogeneidade nos dados? Solução: vamos calcular os coeficientes de variação das concentrações das partículas poluidoras das regiões A e B. CVA = 100. 200 1.000 = 20% CVB = 100. 300 1.000 = 30% Como o coeficiente de variação da região A é menor que o da região B, segue que a concentração de partículas poluidoras na região A é mais homogênea do que na região B. REFLITA: “Utilizando o coeficiente de variação, sempre que quisermos descobrir qual grupo de dados é mais homogêneo, ou seja, o que possui a menor variabilidade em torno da média, devemos optar pelo grupo de dados que tiver o menor percentual do coeficiente de variação. Caso o coeficiente de variação seja muito elevado, a média não será a melhor medida para representarmos os dados devidoà alta variabilidade em torno dela.” Fonte: PARENTI, Tatiana. Bioestatística. Grupo A, 2018. E-book. ISBN 9788595022072. Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9788595022072/. Acesso em: 14 fev. 2024. [ ] INDICAÇÃO DE LEITURA “O interesse de profissionais e alunos da área de saúde em bioestatística explica-se pelo uso intenso das técnicas estatísticas na pesquisa científica. Entretanto, bioestatística é uma ciência complexa, que não se aprende com a simples busca de alguns termos na Internet. Então, é difícil aprender estatística? Sim e não. Aprender a fazer cálculos estatísticos usando programas de computador não é difícil, embora exija tempo, interesse e atenção. Contudo, não se pode apenas automatizar o uso de certos métodos; afinal, a leitura, a 51 condução e a avaliação de uma pesquisa dependem, em boa parte, do conhecimento do pesquisador sobre as potencialidades e limitações das técnicas estatísticas utilizadas. Livros são referências essenciais para a divulgação científica, sobretudo do conhecimento já consolidado. Por isso, esta sexta edição de Introdução à Bioestatística foi escrita e reescrita muitas vezes, na tentativa de produzir conteúdo para facilitar a aprendizagem”. VIEIRA, Sonia. Introdução à Bioestatística. Grupo GEN, 2021. E-book. ISBN 9788595158566. Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9788595158566/. Acesso em: 14 fev. 2024. 52 CONSIDERAÇÕES FINAIS Após estudarmos a Unidade I, temos boa parte das ferramentas necessárias para trabalhar com a estatística descritiva. Nessa Unidade, abordamos os tipos de amostragem, as principais formas de representações gráficas para uma série de dados e as tabelas de distribuição de frequencias. Apresentamos, também, os principais conceitos sobre medidas de posição, sendo elas a Média, Moda e Mediana, onde esses valores nos dizem sobre a tendência de concentração dos dados observados. E, por fim, vimos as medidas de dispersão: amplitude, variância, desvio-padrão e coeficiente de variação. Na sequencia, na Unidade II, abordaremos a probabilidade. 53 UNIDADE 2 – ESTUDO DA PROBABILIDADE E DAS DISTRIBUIÇÕES DE PROBABILIDADE INTRODUÇÃO A probabilidade é fundamental para a Bioestatística, pois fornece ferramentas matemáticas indispensáveis para se trabalhar com o acaso e com as incertezas inerentes a fenômemos do mundo real. Trata-se de uma medida numérica que expressa a chance de um determinado evento ocorrer. Nesta unidade, serão abordados a definição clássica de probabilidade, as regras da soma e do produto, o cálculo da probabilidade condicional e algumas distribuições de probabilidade, sendo elas: a distribuição Binomial, distribuição de Poisson e a distribuição normal. 54 1. INTRODUÇÃO À PROBABILIDADE Para que seja possível o estudo da probabilidade, é necessário as definições de alguns conceitos. Definição 1 - Um experimento é um processo que permite ao pesquisador realizar observações. Definição 2 - Um evento é o conjunto de resultados de um dado experimento e este pode ser simples ou composto. O evento é dito simples, quando o mesmo não pode ser decomposto em eventos mais simples e é dito composto quando este pode ser decomposto em eventos mais simples. Definição 3 - O espaço amostral, que será denotado por S, é o conjunto de todos os resultados possíveis de um experimento. O número de resultados possíveis do espaço amostral será denotado por n(S). Exemplo 1: Ao lançar uma moeda, o espaço amostral, denotado por S, é cara e coroa. Escrevemos: S = {cara e coroa} Definição 4 - Um evento aleatório é qualquer subconjunto de um espaço amostral, onde o mesmo é denotado por letras maiúsculas do alfabeto. Exemplo 2: Imagine um jogo em que se lançam duas moedas e o jogador ganha se ocorrerem faces iguais. O espaço amostral é: S = {cara e cara; cara e coroa; coroa e cara; coroa e coroa} O jogador ganha se ocorrer qualquer um dos dois elementos do evento A: A = {cara e cara, coroa e coroa} 55 Definição 5 - Dado o evento A, denomina-se o evento complementar de A, denotado por ��, o conjunto dos eventos que não pertencem a A. Exemplo 3: No exemplo 2, em que o jogador ganha se ocorrerem faces iguais nas duas moedas, o complemento de A é: A� = {cara e coroa, coroa e cara}. Definição 6 - Um evento equiprovável é aquele no qual cada ponto amostral tem a mesma chance de ocorrência. Exemplo 4: No lançamento simultâneo de três moedas honestas, denotando c por cara e k por coroa, segue que o espaço amostral tem 8 elementos e é igual a S: c c c c c k c k c c k k k c c k c k k k c k k k . Seja A o evento sair duas caras e uma coroa, ou seja, A = {c c k, c k c, k c c}. Dessa forma, o evento complementar de A é A� = c c c, c k k, k c k, k k c, k k k . Observe que, no espaço amostral S, todos os eventos têm iguais chances de saírem, isto é, as chances de sair o evento c c c é idêntica às chances de saírem quaisquer outros eventos desse espaço amostral. Definição 7 - Dois eventos são chamados de mutuamente exclusivos quando não possuem elementos em comum. 56 Exemplo 5: Ao dizer que você tem menos de 30 anos, fica excluída a possibilidade de ter mais de 50 anos, ou seja, denotando por A = ter menos de 30 anos e B = ter mais de 50 anos, segue que A e B são mutuamente exclusivos. Definição 8 - Dois eventos são independentes se a ocorrência de um deles não tiver efeito sobre a ocorrência do outro. REFLITA: “É importante considerar o risco de confundir eventos independentes com eventos mutuamente exclusivos. Às vezes, as pessoas entendem que as duas expressões querem dizer a mesma coisa: que os eventos não se sobrepõem. No entanto, eventos mutuamente exclusivos – isto é, se um ocorre, o outro não pode ocorrer – não são independentes. Pense no jogo de uma moeda: quando se joga uma moeda, não há como ocorrer cara e coroa ao mesmo tempo. Logo, esses eventos são mutuamente exclusivos. Eles são independentes? Não. A probabilidade de sair cara é 50%; porém, dada à condição de que ocorreu coroa, é zero. Então, a probabilidade de sair cara muda se sair coroa.” [12] Definição 9 - Dados dois eventos distintos A e B de um espaço amostral, define-se a união dos eventos A e B como sendo o evento que possui elementos de A ou de B ou de ambos. Definição 10 - Dados dois eventos distintos A e B de um espaço amostral, define-se a interseção dos eventos A e B como sendo o evento que possui elementos de A e de B. 2. PROBABILIDADE Considere um experimento aleatório, onde S é o seu espaço amostral e admita que todos os elementos de S tenham a mesma chance de acontecer, ou seja, que S é um conjunto equiprovável. A probabilidade de um evento A (A ⊂ S) é um número real P(A), tal que: 57 P A = n(A) N(S) Eq. (01) onde: n(A) é o número de elementos de A; N(S) é o número de elementos de S. Propriedades: Pelos exemplos que acabamos de ver, podemos concluir que, sendo n(S) = n: 1. A probabilidade do evento certo é igual a 1: P(S) = 1 2. A probabilidade do evento impossível é igual a zero: P(∅) = 0 3. A probabilidade de um evento E qualquer (E ⊂ S) é um número real P(E), tal que: 0 ≤ P(E) ≤ 1 4. A probabilidade de um evento elementar E qualquer é, lembrando que n(E) = 1: P E = 1 n 5. Se P(E) denota a probabilidade do evento E ocorrer, então, a probabilidade do evento complementar de E é igual a P E� = 1 − P E . Exemplo 6 Um médico verificou que, de 2.964 nascidos vivos, 73 tinham alguma deficiência ou doença séria. Com base nessa amostra, qual é a estimativa da probabilidade de um recém-nascido ter deficiência ou doença séria? Solução: Seja S o espaço amostral, isto é, o conjunto formado pelos nascidos vivos. Então N(S) = 2.964. Seja A o evento dos nascidos vivos apresentarem alguma deficiência ou 58 doença séria. Então n(A) = 73. Logo, P A = n(A) N(S) = 73 2.964 = 0,0246 = 2,46% Exemplo 7 O baralho francês de 52 cartas, ilustrado na Figura 1, é constituído de 13 cartas de cada um dos naipes franceses:paus, ouros, espadas e copas. Figura 1 – Baralho francês de 52 cartas. Fonte: a autora. Ao escolher aleatoriamente uma carta do baralho, qual a probabilidade de sair: a) uma carta de paus? b) uma figura? c) uma figura de paus? Solução: a) Seja X o evento de sair uma carta de paus. Observe que ele pode ocorrer 13 vezes. Assim: P X = 13 52 = 0,250 ou 25,0% Portanto, a probabilidade de sair uma carta de paus é de 25%. b) Seja Y o evento de sair uma figura (reis, damas e valetes). Observe que ele 59 pode ocorrer 12 vezes. Assim: P Y = 12 52 ≅ 0,231 ou 23,1% Portanto, a probabilidade de sair uma figura é, aproximadamente, de 23,1%. c) Seja Z o evento de sair uma figura de paus. Observe que ele pode ocorrer 3 vezes. Assim: P Z = 3 52 ≅ 0,058 ou 5,8% Portanto, a probabilidade de sair uma figura de paus é, aproximadamente, de 5,8%. Exemplo 8 Considere o experimento do lançamento simultâneo de três moedas honestas para responder às questões seguintes. a) Qual a probabilidade de saírem três caras? b) Qual a probabilidade de saírem duas coroas? c) Qual a probabilidade de saírem duas coroas consecutivas? d) Qual a probabilidade de não saírem duas coroas consecutivas? Solução: o espaço amostral para esse experimento contém 8 elementos, a saber: S = c c c , c c k , c k c , c k k , k c c , k c k , k k c , k k k , em que c denota cara, e k, coroa. a) Seja A o evento de saírem três caras, isto é, c c c . Observe que ele pode ocorrer 1 vez. Assim: P A = 1 8 = 0,125 ou 12,5% Portanto, a probabilidade de saírem três caras é de 12,5%. 60 b) Seja B o evento de saírem duas coroas. Observe que ele pode ocorrer 4 vezes, a saber: c k k , k c k , k k c e k k k . Assim: P C = 4 8 = 0,500 ou 50,0% Portanto, a probabilidade de saírem duas coroas é de 12,5%. c) Seja C o evento de saírem duas coroas consecutivas. Observe que ele pode ocorrer 3 vezes. A saber, c k k , k k c e k k k . Assim: P C = 3 8 = 0,375 ou 37,5% Portanto, a probabilidade de saírem duas coroas consecutivas é de 37,5%. d) Observe que o evento de não saírem duas coroas consecutivas é o complemento do evento C, isto é, trata-se de C� . Observe que ele pode ocorrer 5 vezes, a saber: c c c , c c k , c k c , k c c e k c k . Assim: P C� = 5 8 = 0,625 ou 62,5% Portanto, a probabilidade de não saírem duas coroas consecutivas é de 62,5%. Note, nos itens (c) e (d), que P C + P C� = 1. Exemplo 9 Dois dados idênticos, honestos e com seis faces cada, são lançados simultaneamente. Com base nessa informação, determine a probabilidade de que: a) saia, pelo menos, um número 3. b) a soma dos dois resultados seja igual a 5. c) saia, pelo menos, um número 3 e a soma dos dois resultados seja igual a 5. Solução: o espaço amostral contém 36 elementos, e a Tabela 1 o ilustra. 61 Tabela 1 – Espaço amostral para o lançamento de dois dados honestos e idênticos. Dado 1 Dado 2 Face 1 2 3 4 5 6 1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) 2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) 3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) 4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) 5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) 6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6) Fonte: a autora. a) Seja X o evento de sair, pelo menos, um número 3. Observe que ele pode ocorrer 11 vezes. Assim: P X = 11 36 ≅ 0,306 ou 30,6% b) Seja Y o evento de a soma dos dois resultados ser igual a 5. Observe que ele pode ocorrer 4 vezes. Assim: P Y = 4 36 ≅ 0,111ou 11,1% c) Observe, nesse caso, que o evento saia, pelo menos, um número 3 e a soma dos dois resultados seja igual a 5 é a intersecção dos eventos X e Y dos itens (a) e (b). Observe que ele pode ocorrer 2 vezes, a saber: (3,2) e (2,3). Assim: P Y = 2 36 ≅ 5,56 × 10−2 ou 5,56% 62 Exemplo 10 Determine a probabilidade de que, quando um casal tem três filhos, exatamente dois deles sejam meninas. Admita que meninos e meninas sejam igualmente prováveis e que o gênero de uma criança não seja influenciado pelo gênero de qualquer outra criança. Solução: primeiramente, vamos construir o espaço amostral e vamos denotar por X o evento de virem a nascer exatamente 2 meninas. O espaço amostral para esse experimento contém 8 elementos, a saber: S = AAA , AAO , AOA , AOO , OAA , OAO , OOA , OOO , em que A denota menina, e O denota menino. Observe que o espaço amostral contém 8 possibilidades, 3 correspondem a exatamente 2 meninas de modo que: P X = 3 8 = 0,375 Portanto, é esperada a probabilidade de 37,5% de que, se um casal tem 3 filhos, exatamente 2 sejam meninas. SAIBA MAIS As leis de Mendel são um conjunto de fundamentos que explicam o mecanismo da transmissão hereditária durante as gerações. As leis de Mendel são enunciadas a seguir: 1ª lei de Mendel: “Cada caráter é determinado por um par de fatores que se separam na formação dos gametas, indo um fator do par para cada gameta, que é, portanto, puro”. 2ª lei de Mendel: “As diferenças de uma característica são herdadas independentemente das diferenças em outras características”. INDICAÇÕES DE VÍDEO Os vídeos a seguir, do canal do professor Kennedy Ramos, explicam a primeira e a segunda leis de Mendel. O vídeo da 1ª lei está disponível em https://www.youtube.com/watch?v=ZmGqPRe4Jc8 e o da 2ª lei está disponível em https://www.youtube.com/watch?v=qg6ly6ocYJs. 63 Exemplo 11 Quando Mendel realizou seu famoso experimento genético com ervilhas, uma prole de mudas consistia em 428 ervilhas verdes e 152 ervilhas amarelas. Com base nesses resultados, estime a probabilidade de se obter uma prole de ervilhas amarelas. Solução: Note que o espaço amostral, que é constituído do total de ervilhas, contém 580 (428 + 152) elementos. Assim, seja A o evento das proles de ervilhas amarelas. P A = 152 580 ≅ 0,262 Logo, a probabilidade de se obter uma prole de ervilhas amarelas é de 26,2%. Observe que a probabilidade de se obter a prole de ervilhas verdes é de, aproximadamente, 74,3%. Esse resultado está razoavelmente próximo do valor esperado de ¾, como afirmado por Mendel. Exemplo 12 Presentes em 149 países, as doenças tropicais negligenciadas representam um inimigo que se aproveita da fragilidade social e econômica. São vírus, bactérias e parasitos que atingem um bilhão de pessoas, sobretudo na faixa tropical do globo, onde se concentram as populações mais vulneráveis dos países em desenvolvimento. Com a intensa circulação de pessoas, o problema se torna cada vez mais uma questão global. As doenças tropicais negligenciadas são: malária, dengue, doença de chagas, leishmaniose, esquistossomose, tuberculose e hanseníase. Admita que, em uma pequena comunidade, situada na zona tropical, com 1.200 habitantes, tenha sido realizada uma pesquisa sobre a contaminação de seus habitantes quanto a duas doenças tropicais negligenciadas: malária e dengue. Nessa pesquisa, constatou-se que 600 pessoas já tinham contraído malária, 500 já tinham contraído dengue e 300 nenhuma dessas duas doenças. Escolhendo-se um habitante dessa comunidade ao acaso e sabendo-se que ele não tenha contraído malária, qual a probabilidade de esse habitante ter contraído 64 dengue? Solução: Para resolver esse exercício, vamos empregar o diagrama de Venn, como ilustrado na Figura 2, em que I e E denotam o número de habitantes que já contraíram a malária e a dengue, respectivamente. Figura 2 – Diagrama de Venn. Fonte: a autora. Seja x o número de habitantes que contraíram as duas doenças. O diagrama de Venn da esquerda ilustra a situação descrita no enunciado. Daí, 600 − x + x + 500 − x = 1.200 x = 200 Com x = 200, o diagrama de Venn da direita ilustra a situação de alunos que falam língua estrangeira na escola. Observe que o número de habitantes que não contraíram malária é 600 (300 nenhuma das duas doenças e 300 contraíram apenas dengue). Seja E o evento de o habitante não ter contraído malária e ter contraído dengue, segue que a probabilidade de ocorrência do evento E é P E = 300 600 = 1 2 INDICAÇÃO DE VÍDEO No cálculo de probabilidade, é comum fazermos usodos diagramas de Venn para nos auxiliarem na resolução de situações-problema. Assista ao vídeo Diagramas de Venn, do canal Brasil Escola, para relembrar esse procedimento. 65 O vídeo está disponível em https://www.youtube.com/watch?v=4OzeSbLNUqg. Outra maneira de se abordar a definição de probabilidade é por meio da frequência relativa. Nessa situação, observamos (ou realizamos) um dado experimento e quantificamos o número de vezes em que o evento X, por exemplo, ocorreu. Assim, a probabilidade de ocorrência do evento X é aproximada por meio da Eq. (2). P X = número de vezes que X ocorreu número de vezes que o experimento foi repetido Eq. (2) Exemplo 13 A Tabela 2 apresenta dados de sobrevivência (em dias) de uma corte de animais acometidos por uma doença aguda. Na primeira coluna, t corresponde aos dias, sendo t = 0 o dia em que a contagem começou a ser feita. vt, na segunda coluna, é a quantidade de animais vivos no início do dia t. dt, na terceira coluna, indica quantos animais morreram no decorrer do dia t. Tabela 2 – Dados de sobrevivência de animais acometidos por uma doença aguda. t vt dt 0 10.000 500 1 9.500 700 2 8.800 800 3 8.000 800 4 7.200 1.080 5 6.120 720 6 5.400 1.350 66 7 4.050 1.350 8 2.700 1.200 9 1.500 1.500 Fonte: a autora. Com referência a essas informações, julgue os itens que se seguem. A) Se um animal que estivesse vivo no início do dia t = 4 fosse escolhido ao acaso, a probabilidade de ele ter chegado vivo no dia t = 7 seria superior a 60%. Solução: seja A o evento do animal estar vivo e A� o complementar de A, isto é, o evento do animal ter morrido. Assim, no dia 4, temos, inicialmente, 7.200 animais vivos. Do dia 4 até o início do dia 7, o número de animais que vieram a morrer foi de 3.150 (1.080 + 720 + 1.350). Aplicando a Eq. (2): P A� = 3.150 7.200 = 0,4375 ou 43,75% Daí, P A = 1 − P A� = 1 − 0,4375 = 0,5625 ou 56,25 , ou seja, a probabilidade de o animal estar vivo no dia 7 é de 56,25%, que é inferior a 60% e, portanto, a afirmação está errada. B) Se um animal que estivesse vivo no início do dia t = 3 fosse escolhido ao acaso, a probabilidade de ele ter morrido até o dia t = 6 seria superior a 50%. Solução: seja A o evento do animal morrer. Assim, no dia 3, temos, inicialmente, 8.000 animais vivos. Do dia 3 até o início do dia 7, o número de animais que vieram a morrer foi de 3.950 (800 + 1.080 + 720 + 1.350). Aplicando a Eq. (2): P A = 3.950 8.000 = 0,49375 ou 49,375% Ou seja, a probabilidade do animal que estava vivo no dia 3 vir a morrer até o dia 6 é de 49,375% e, portanto, a afirmação está errada. C) Se um animal que estivesse vivo no início do dia t = 4 fosse escolhido ao 67 acaso, a probabilidade de ele morrer nesse dia seria igual a 15%. Solução: seja B o evento do animal vir a morrer no dia 4. Note que o número de animais que morrem nesse dia é igual a 1.080, enquanto o número de animais no início desse dia é igual a 7.200. Assim, aplicando a Eq. (2): P B = 1.080 7.200 = 0,15 ou 15,0% Logo, a probabilidade do animal vir a morrer no dia 4 é de 15%, e a afirmação está correta. 2. AS REGRAS DA ADIÇÃO E MULTIPLICAÇÃO PARA O CÁLCULO DE PROBABILIDADE Até agora, discutimos o cálculo de probabilidade de eventos simples, ou seja, calculávamos a probabilidade de um evento A qualquer, contando o número de possibilidades dentro de um espaço amostral S. Agora, vamos dar atenção aos eventos compostos, ou seja, vamos examinar situações de contar resultados em “experimentos”. Isso significa que empregaremos as técnicas da adição e da multiplicação para calcular a probabilidade desse evento. Vamos começar com a técnica da adição. Regra 1 da soma: eventos mutuamente exclusivos. Se A e B são dois eventos mutuamente exclusivos, então a probabilidade de ocorrer o evento A ou o evento B é dada pela soma das probabilidades de A e B, isto é P(A ∪ B) = P A + P B Eq. (3) Exemplo 14: Em um recipiente há 40 bolas, onde 15 delas são vermelhas, 10 são azuis, 8 amarelas e 7 pretas. Se uma bola for tirada aleatoriamente, qual é a probabilidade de ela ser vermelha ou preta? Solução: 68 Considere os eventos A e B, onde A: sair uma bola vermelha B: sair uma bola preta Sabemos que não há intersecção, e que há um total de 15 + 10 + 8 + 7 = 40 bolas no recipiente. Então: P(A ∪ B) = P(A) + P(B) = 15 40 + 7 40 = 22 40 = 11 20 = 0,55 = 55%. Logo, a probabilidade de sair uma bola vermelha ou preta é de 55%. Regra 2 da soma: eventos não mutuamente exclusivos. Se os eventos não são mutuamente exclusivos, ou seja, se A e B podem ocorrer ao mesmo tempo, a probabilidade de ocorrer A ou B é dada pela probabilidade de A, mais a probabilidade de B, menos a probabilidade de A e B. Escreve-se: P A ∪ B = P A + P B − P A ∩ B Eq. (4) É necessário subtrair o conjunto intersecção porque, quando somamos P(A) + P(B), a probabilidade do conjunto interseção P(A ⋂ B) é somada duas vezes. Quando os eventos são mutuamente exclusivos, não se faz a subtração, porque a probabilidade de os eventos ocorrerem ao mesmo tempo é zero, ou seja, não há intersecção. Exemplo 15 Considere um baralho convencional com 52 cartas, do Exemplo 3. Ao selecionar uma carta ao acaso, qual a probabilidade de sair uma carta de paus ou uma figura? Solução: já vimos, no Exemplo 3, que a probabilidade de sair uma carta de paus é P X = 13 52 , a probabilidade de sair uma figura é P Y = 12 52 , e a probabilidade de sair uma figura de paus é P X ∩ Y = 3 52 . Volte lá e confira! Observe que o evento Z, que fora definido no Exemplo 3, é tal que Z = X ∩ Y. 69 Daí, a probabilidade de sair uma carta de paus ou figura é calculada empregando-se a Eq. (3): P X ∪ Y = 13 52 + 12 52 − 3 52 = 22 52 ≅ 0,423 ou 42,3% Portanto, ao selecionar uma carta ao acaso, a probabilidade de sair uma carta de paus ou uma figura é de 42,3%. Exemplo 16 Considere o experimento do lançamento simultâneo de três moedas honestas. Qual a probabilidade de saírem duas caras consecutivas ou exatamente uma coroa? Solução: o espaço amostral para esse experimento contém 8 elementos, a saber: S = c c c , c c k , c k c , c k k , k c c , k c k , k k c , k k k . Seja A o evento de saírem duas caras consecutivas. Observe que ele pode ocorrer 3 vezes, a saber: c c c , c c k e k c c . Assim, aplicando a Eq. (1): P A = 3 8 Seja B o evento de sair exatamente uma coroa. Observe que ele pode ocorrer 3 vezes, a saber: c c k , c k c e k c c . Assim, aplicando a Eq. (1): P B = 3 8 Seja C o evento obtido da intersecção entre os eventos A e B, isto é, C = A ∩ B. O evento C consiste em saírem duas caras consecutivas e uma coroa. Note que isso ocorre 2 vezes, a saber: c c k e k c c . Assim, aplicando a Eq. (1): P C = 2 8 Daí, a probabilidade de saírem duas caras consecutivas ou exatamente uma 70 coroa é calculada empregando-se a Eq. (3): P A ∪ B = 3 8 + 3 8 − 2 8 = 4 8 = 0,500 ou 50,0% Portanto, no lançamento simultâneo de três moedas honestas, a probabilidade de saírem duas caras consecutivas ou exatamente uma coroa é de 50,0%. No que segue, antes de apresentar as regras da multiplicação, é necessário lembrar da definição de dois eventos independentes. Dois eventos são independentes se a ocorrência de um deles não tiver efeito sobre a ocorrência do outro (Definição 8). Por exemplo, quando se joga um dado duas vezes, o resultado da primeira jogada não tem nenhum efeito sobre o resultado da segunda. São eventos independentes. Regra 1 da multiplicação: eventos independentes Se A e B são eventos independentes, a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A, multiplicada pela probabilidade de ocorrer B. Escreve-se: P A ∩ B = P A × P B Eq. (5) Exemplo 17 Um paciente tem 60% de chances de não desenvolver uma doença X. O mesmo paciente tem 80% de chances de não desenvolver a doença Y. Qual a probabilidade de esse paciente não desenvolver nenhuma das duas doenças? Solução: Sejam A e B os eventos do paciente não desenvolver