Prévia do material em texto
CAPÍTULO 1: Introdução PÁGINA 3 Como é estimada a taxa de desenvolvimento de uma nova doença? Para estimar a taxa de desenvolvimento de uma nova doença, por exemplo, a doença cardiovascular, precisamos de uma estratégia de amostragem específica. Para esta análise, usaríamos uma amostra apenas de pessoas sem doença cardiovascular e as acompanharíamos ao longo do tempo (prospectivamente) para avaliar o desenvolvimento da doença. Uma questão principal nesses tipos de estudos é o período de acompanhamento. O pesquisador deve decidir se irá acompanhar os participantes por 1, 5 ou 10 anos, ou por algum outro período, para observar o desenvolvimento ou não da doença. Se for interessante estimar o desenvolvimento da doença ao longo de 10 anos, será preciso acompanhar cada participante da amostra por 10 anos para determinar o status da doença de cada um. A proporção do número de novos casos da doença em relação ao tamanho total da amostra reflete a proporção ou a incidência cumulativa de novos casos da doença ao longo do período de acompanhamento predeterminado. Suponha que acompanhamos cada um dos participantes da nossa amostra por 5 anos e descobrimos que 2,4% desenvolveram a doença. Novamente, de modo geral, é interessante fornecer uma faixa de valores plausível para a proporção de novos casos da doença. Isso é conseguido incorporando uma margem de erro que reflita a precisão da nossa estimativa. A incorporação da margem de erro pode resultar em uma estimativa da incidência cumulativa da doença entre 1,2 e 3,6% ao longo de 5 anos. A epidemiologia é um campo de conhecimento focado no estudo da saúde e da doença em populações humanas, padrões de saúde ou de doença, e os fatores que influenciam esses padrões. O estudo descrito aqui é um exemplo de estudo epidemiológico. Os leitores interessados em aprender mais sobre epidemiologia devem consultar Magnus. Como são identificados os fatores de risco ou características que podem estar relacionados ao desenvolvimento ou à progressão da doença? Suponha que criamos a hipótese de que um determinado fator de risco ou exposição específicos estejam relacionados ao desenvolvimento de uma doença. Há diversos projetos ou formas de estudo diferentes em que podemos coletar informações para avaliar o relacionamento entre um possível fator de risco e as primeiras manifestações de uma doença. O projeto de estudo mais apropriado depende, entre outras coisas, da distribuição do fator de risco e do resultado na população de interesse (por exemplo, quantos participantes estão suscetíveis a ter, ou não, um determinado fator de risco). (Discutimos diferentes projetos de estudo no Capítulo 2 e qual projeto é o melhor em uma situação específica.) Independente do projeto específico utilizado, o fator de risco e o resultado devem ser medidos em cada membro da amostra. Se estivermos interessados na relação entre o fator de risco e o desenvolvimento da doença, mais uma vez envolveríamos participantes sem a doença no começo do estudo e acompanharíamos todos os participantes em relação ao desenvolvimento da doença. Para avaliar se há uma relação entre um fator de risco e o resultado, estimamos a proporção (ou percentual) de participantes com o fator de risco que desenvolvem a doença e comparamos com a proporção (ou percentual) de participantes que não têm o fator de risco e desenvolvem a doença. Existem várias maneiras de fazer essa comparação; ela pode ser baseada em uma diferença em proporções ou em uma razão de proporções. (Os detalhes dessas comparações são amplamente discutidos no Capítulo 6 e no Capítulo 7.) Suponha que entre os participantes com o fator de risco, 12% desenvolvam a doença durante o período de acompanhamento e entre aqueles sem o fator de risco, 6% desenvolvam doença. A razão das proporções é chamada de risco relativo e aqui é igual á 0,12 / 0,06 = 2,0. A interpretação é que duas vezes mais pessoas com o fator de risco desenvolvem a doença em comparação a pessoas sem o fator de risco. O problema, então, é determinar se essa estimativa, observada em uma amostra de estudo, reflete um risco aumentado na população. Representar a incerteza pode resultar em uma estimativa do risco relativo de 1,1 a 3,2 vezes maior para pessoas com o fator de risco. Como a faixa contém valores de risco superiores a 1, os dados refletem um risco maior (porque o valor de 1 sugere que não há aumento de risco). Outro problema em avaliar a relação entre um fator de risco específico e o status da doença envolve entender relações complexas entre fatores de risco. Pessoas com o fator de risco podem ser diferentes de pessoas sem o fator de risco; por exemplo, podem ser mais velhas e mais propensas a ter outros fatores de risco. Existem métodos que podem ser usados para avaliar a associação entre o fator de risco hipotético e o status da doença, levando em consideração o impacto dos outros fatores de risco. Essas técnicas envolvem modelagem estatística. Discutimos como esses modelos são desenvolvidos e, mais importante, como os resultados são interpretados, no Capítulo 9. CAPÍTULO 4: Resumo dos dados coletados na amostra PÁGINAS 41-44 4.2 Variáveis ordinais e categóricas Variáveis ordinais e variáveis categóricas possuem um número fixo de opções de resposta, as quais podem ser ordenadas ou não, respectivamente. Variáveis categóricas e ordinais geralmente têm mais de duas opções de resposta, enquanto variáveis dicotômicas possuem somente duas opções de resposta. Estatísticas resumidas para variáveis categóricas e ordinais enfocam principalmente frequências relativas (ou porcentagens) ou respostas obtidas para cada categoria. 4.2.1 Estatísticas descritivas para variáveis categóricas e ordinais Considere novamente um estudo sobre fatores de risco cardiovasculares como o Framingham Heart Study. Nele, podemos coletar informações sobre os participantes tais como: pressão sanguínea, colesterol total e índice de massa corporal (IMC). Muitas vezes, os médicos classificam os pacientes em categorias; por exemplo, o NHLBI e a American Heart Association usam a classificação de pressão sanguínea apresentada na Tabela 4–11. A American Heart Association usa a seguinte classificação para os níveis de colesterol total: desejável, menos de 200 mg/dl; e risco alto, 240 mg/dl ou mais. O Índice de massa corporal (IMC) é calculado dividindo o peso em quilogramas pela altura em metros elevada ao quadrado, e geralmente utiliza as seguintes categorias: baixo peso, abaixo de 18,5; peso normal, de 18,5 a 24,9; sobrepeso, de 25,0 a 29,9; e obeso, 30,0 ou acima. Todos esses são exemplos de variáveis ordinais. Em cada um dos casos, é considerado mais saudável estar na categoria mais baixa. Exemplo 4.2. Usando os dados do sétimo exame do Framingham Offspring Study (n = 3539), criamos as categorias que foram definidas previamente para pressão sanguínea, colesterol total e IMC. Tabelas de distribuição de frequência, similares às apresentadas para os dados dicotômicos, também são usadas para resumir as variáveis categóricas ordinais. A Tabela 4–5 é uma tabela de distribuição de frequência da variável ordinal de pressão sanguínea. As categorias mutuamente exclusivas (sem sobreposição) e exaustivas (que cobrem todas as possibilidades) são apresentadas na primeira coluna da tabela. A frequência, ou o número de participantes em cada categoria, é apresentada na coluna do meio, e a frequência relativa, em porcentagem, está na coluna à direita. Apesar do tamanho da amostra ser de n=3539, note que há apenas n=3533 respostas válidas. Não há dados sobre pressão sanguínea de seis indivíduos. Mais de um terço da amostra (34,1%) tem pressão normal, 41.1% são classificados como pré-hipertensão, 18,5% têm hipertensão estágio 1 e 6,3% tem hipertensão estágio 2. Para variáveis ordinais, muitas vezes duascolunas são adicionadas à tabela de distribuição de frequência: frequência acumulada e frequência relativa acumulada, respectivamente (Veja a Tabela 4–6). Nesse exemplo, a frequência acumulada representa o número de pacientes que estão no nível de pressão sanguínea ou abaixo dele. Por exemplo, 2.658 pacientes apresentam pressão normal ou pré-hipertensão. Há 3.311 pacientes com pressão normal, pré-hipertensão ou hipertensão estágio 1. A frequência relativa acumulada é útil para resumir as variáveis ordinais e indicar o percentual de pacientes em um nível específico ou abaixo dele. Nesse exemplo, 75,2% dos pacientes não foram classificados como hipertensos (ou seja, eles apresentam pressão normal ou pré-hipertensão). Note que para a última categoria de pressão sanguínea (a mais alta), a frequência acumulada equivale ao tamanho da amostra (n=3533) e a frequência relativa acumulada é de 100%, indicando que todos os pacientes estão no nível mais alto ou abaixo dele. A Tabela 4-7 mostra a tabela de distribuição de frequência para o colesterol total. As categorias de colesterol total são descritas a seguir e, novamente, são baseadas nos valores de colesterol mensurados. Pessoas com colesterol total abaixo de 200 mg/dl são classificadas como tendo colesterol total desejável; 200-239 mg/dl, são classificadas como limítrofe; e 240 mg/dl ou acima, são classificadas como tendo colesterol total alto. No sétimo exame do Framingham Offspring Study, 51,6% dos pacientes tinham colesterol total desejável e outros 34,3% tinham colesterol total limítrofe. Usando a frequência relativa acumulada, podemos resumir os dados da seguinte forma: 85,9% dos pacientes apresentam níveis de colesterol total desejável ou limítrofe. Os 14,1% restantes possuem colesterol total alto. TABELA 4-5 Tabela de distribuição de frequência para categorias de pressão sanguínea Frequência Frequência relativa (%) Normal Pré-hipertensão Hipertensão estágio 1 Hipertensão estágio 2 Total 1206 1452 653 222 3533 34,1 41,1 18,5 6,3 100,0 TABELA 4-6 Tabela de distribuição de frequência para categorias de pressão sanguínea com frequência acumulada e frequência relativa acumulada Frequência Frequência relativa (%) Frequência acumulada Frequência relativa acumulada (%) Normal Pré-hipertensão Hipertensão estágio 1 Hipertensão estágio 2 Total 1206 1452 653 222 3533 34,1 75,2 93,7 100,0 34,1 41,1 18,5 6,3 100,0 1206 2658 3311 3533 A Tabela 4–8 mostra a tabela de distribuição de frequência para a variável ordinal IMC. Tanto a altura como o peso são medidos diretamente e o IMC é calculado conforme descrito anteriormente. Na amostra do sétimo exame do Framingham Offspring Study, 28% dos pacientes apresentam peso normal, 41,3% são classificados com sobrepeso e 30,1% são obesos. Usando a frequência relativa acumulada, podemos dizer que quase 70% dos pacientes estão abaixo do peso, com peso normal ou com sobrepeso. Isso é o mesmo que dizer que 70% dos pacientes da amostra não são obesos. As tabelas 4–5 a 4–8 contêm estatísticas resumidas para variáveis ordinais. As principais estatísticas resumidas para variáveis ordinais são frequência relativa e frequência relativa acumulada. As tabelas 4–9 a 4–11 contêm estatísticas resumidas para variáveis categóricas. Variáveis categóricas são aquelas com duas ou mais respostas distintas, sendo que estas não são ordenadas. Alguns exemplos de variáveis categóricas mensuradas no Framingham Heart Study são: estado civil, mão dominante e tabagismo. Tabelas de distribuição de frequência contendo frequência e frequência relativa fornecem resumos adequados das variáveis categóricas. Frequência acumulada e frequência relativa acumulada normalmente não são úteis para resumir variáveis categóricas, pois como não há ordem inerente às categorias, não é interessante combiná-las. A Tabela 4–9 mostra a tabela de distribuição de frequência para a variável categórica estado civil. As categorias mutuamente exclusivas e exaustivas encontram-se na primeira coluna. A frequência, ou o número de participantes em cada categoria, é apresentada na coluna do meio, e a frequências relativa, em porcentagem, está na coluna à direita. Há n=3530 respostas válidas para a pergunta sobre estado civil. Nove participantes não responderam à esta pergunta. A amostra é composta majoritariamente por pessoas casadas (73,1%); aproximadamente 10% são divorciados, 10% são viúvos, 6% são solteiros e 1% são separados. A frequência relativa é a estatística mais relevante para descrever uma variável categórica. Frequência acumulada e Frequência Frequência relativa (%) Frequência acumulada Frequência relativa acumulada (%) TABELA 4-7 Tabela de distribuição de frequência para categorias de colesterol total Desejável Limítrofe Alto Total 1712 1139 469 3320 51,6 34,3 14,1 100,0 1712 2851 3320 51,6 85,9 100,0 TABELA 4-8 Tabela de distribuição de frequência para categorias de Índice de massa corporal Frequência Frequência Relativa (%) Frequência acumulada Frequência relativa acumulada (%) Abaixo do peso Peso normal Sobrepeso Obeso Total 20 932 1374 1000 3326 0,6 28,0 41,3 30,1 100,1 20 932 2326 3326 0,6 28,6 69,9 100,0 frequência relativa acumulada geralmente não são estatísticas descritivas informativas para variáveis categóricas. Estado civil é uma variável categórica; como não há uma ordem a seguir para as respostas, a primeira coluna pode ser organizada de formas diferentes. Por exemplo, às vezes as respostas são listadas da mais frequente a menos frequente, ou as repostas podem ser apresentadas em ordem alfabética. Qualquer ordem pode ser considerada apropriada. Por outro lado, respostas a variáveis ordinais são ordenadas e, portanto, somente podem ser apresentadas do maior para o menor (mais saudável a menos saudável) ou vice-versa. As opções de resposta em escala ordinal não podem ser reorganizadas. A Tabela 4–10 é uma tabela de distribuição de frequência para uma variável categórica dicotômica. Variáveis dicotômicas são um caso especial de variáveis categóricas com exatamente duas opções de resposta. A Tabela 4–10 mostra a distribuição da mão dominante de participantes que compareceram ao sétimo exame do Framingham Offspring Study. As opções de resposta são "direita" ou "esquerda". Há n = 3.513 respostas válidas para a avaliação da mão dominante. Um total de 26 participantes não forneceu dados sobre a mão dominante. A maioria da amostra de Framingham é destra (89,5%). A Tabela 4–11 é uma tabela de distribuição de frequência para uma variável categórica que reflete a posição do tabagismo. A posição do tabagismo aqui é medida como não fumante, ex-fumante ou fumante atualmente. Há n = 3.536 respostas válidas para as perguntas sobre a condição do tabagismo. Três participantes não forneceram dados adequados a serem classificados. Quase metade da amostra é de ex- fumantes (48,8%), mais de um terço (37,6%) nunca fumou e aproximadamente 14% são fumantes atualmente. Os efeitos do tabagismo adversos à saúde foram um grande foco das mensagens de saúde pública em anos recentes, e o percentual de participantes que se declaram fumantes atualmente deve ser interpretado com relação ao período do estudo. A Tabela 4–12 mostra as proporções dos participantes que se declaram fumantes atualmente no momento de cada exame do Framingham offspring. As datas de cada exame também são fornecidas. TABELA 4-9 Tabela de distribuição de frequência para estado civil Frequência Frequência Relativa (%) Solteiro Casado Viúvo Divorciado Separado Total203 2850 334 367 46 3530 5,8 73,1 9,5 10,4 1,3 100,0 Nas próximas duas seções, apresentamos exibições gráficas para variáveis ordinais e categóricas, respectivamente. Enquanto os resumos numéricos para variáveis ordinais e categóricas são idênticos (pelo menos em termos das frequências e frequências relativas), as exibições gráficas para variáveis ordinais e categóricas são diferentes, em um modo muito importante. TABELA 4-10 Tabela de distribuição de frequência para mão dominante Frequência Frequência relativa (%) Direita Esquerda Total TABELA 4-11 Tabela de distribuição de frequência para condição do tabagismo Frequência Frequência relativa (%) Não fumante Ex-fumante Fumante atualmente Total 3.143 370 3.513 89,5 10,5 100,0 1.330 1.724 482 3.536 37,6 48,8 13,6 100,0 TABELA 4-12 Fumantes atualmente no Framingham Offspring Study por data do exame Datas Fumantes atualmente (%) Ago 1971-Set 1975 Out 1979-Out 1983 Dez 1983-Set 1987 Abr 1987-Set 1991 Jan 1991-Jun 1995 Jan 1995-Set 1998 Set 1998-Out 2001 Ciclo do exame 59,7 28,5 23,9 21,7 17,4 13,8 13,6 CAPÍTULO 6: Estimativas de intervalo de confiança PÁGINAS 101-102 Começamos agora a inferência estatística. No Capítulo 4, apresentamos estatísticas descritivas usadas para resumir os dados da amostra. No Capítulo 5, apresentamos os principais conceitos de probabilidade e o Teorema central do limite. Na inferência estatística, usamos todos esses conceitos para fazer inferências sobre parâmetros de população desconhecidos com base em estatísticas de amostra. Há duas grandes áreas de inferência estatística: estimativa e teste de hipóteses. Na estimativa, as estatísticas de amostra são usadas para gerar estimativas sobre parâmetros de população desconhecidos. No teste de hipóteses, uma declaração específica ou hipótese é gerada sobre um parâmetro de população, e as estatísticas da amostra são usadas para avaliar a probabilidade de que a hipótese seja verdadeira. Discutimos estimativa aqui e apresentamos o teste de hipóteses no Capítulo 7. Estimativa é o processo de determinar um valor provável para um parâmetro de população (p. ex., a verdadeira média da população ou proporção da população) com base em uma amostra aleatória. Na prática, selecionamos uma amostra da população e usamos estatísticas da amostra (p. ex., a média da amostra ou a proporção da amostra) para estimar o parâmetro desconhecido. A amostra deve ser representativa da população, com participantes da população selecionados aleatoriamente. Como diferentes amostras podem produzir diferentes resultados, é necessário quantificar a precisão — ou a falta dela — que pode existir entre estimativas de diferentes amostras. As técnicas para estimativa, bem como para outros procedimentos em inferência estatística, dependem da classificação adequada da principal variável do estudo (que também chamamos de resultado ou meta final) como contínua ou dicotômica. (Há outros tipos de variáveis, que são discutidas nos Capítulos 7, 10 e 11; aqui focamos em resultados contínuos e dicotômicos.) Outro assunto importante é o número de grupos de comparação na investigação. Por exemplo, no caso do grupo de duas comparações é importante determinar se as amostras dos grupos são independentes (isto é, fisicamente separadas, como homens contra mulheres) ou dependentes (também chamadas de combinadas ou correlacionadas). Essas questões ditam a técnica de estimativa adequada. A Tabela 6–1 descreve essas questões e identifica as técnicas de estimativa que discutimos aqui. TABELA 6-1 Técnicas de estimativa Uma amostra Duas amostras independentes Duas amostras dependentes, combinadas Uma amostra Duas amostras independentes Número de amostras Variável de resultado Parâmetro a ser estimado Contínua Contínua Contínua Dicotômica Dicotômica Média Diferença de médias Diferença de média Proporção (p. ex., prevalência, incidência cumulativa) Diferença ou razão de proporções (p. ex., risco atribuível, risco relativo, razão de possibilidades) CAPÍTULO 7: Teste de hipóteses PÁGINAS 123-127 A segunda área de inferência estatística é o teste de hipóteses. No teste de hipóteses, uma declaração específica ou hipótese é gerada sobre um parâmetro de população, e as estatísticas da amostra são usadas para avaliar a probabilidade de que a hipótese seja verdadeira. Essa declaração ou hipótese é baseada em informações disponíveis e na convicção do pesquisador a respeito do parâmetro. O processo de teste de hipóteses envolve estabelecer duas hipóteses que competem entre si: uma reflete nenhuma diferença, nenhuma associação ou nenhum efeito (chamada hipótese nula) e a outra reflete a convicção do pesquisador (chamada de hipótese ou alternativa de pesquisa). Selecionamos uma amostra aleatória (ou várias amostras quando há mais grupos de comparação) e geramos estatísticas de resumo. Em seguida, avaliamos a probabilidade de que os dados da amostra sustentem a hipótese de pesquisa ou alternativa. Similar à estimativa, o processo de teste de hipóteses é baseado na teoria da probabilidade e no Teorema central do limite. As técnicas para teste de hipóteses dependem novamente da classificação adequada da principal variável de resultado ou meta final do estudo. O número de grupos de comparação na investigação também deve ser especificado. Mais uma vez, é importante determinar se os grupos de comparação são independentes (ou seja, fisicamente separados, como homens versus mulheres ou participantes designados para receber uma nova droga ou placebo em um ensaio clínico) ou dependentes (isto é, combinados ou correlacionados, como pré e pós-avaliações sobre os mesmos participantes). Essas questões ditam a técnica de teste de hipóteses adequada. Em estimativa, focamos explicitamente em técnicas para uma e duas amostras. Discutimos a estimativa para um parâmetro específico (p. ex., a média m ou proporção p de uma população), por diferenças (p. ex., diferença em médias µ1 – µ2, a diferença de risco p1 – p2) e para razões [(p. ex., o risco relativo RR = p1/p2 e a razão de possibilidades ou = (p1 /(1 – p1))/(p2 /(1 – p2))]. Aqui focamos em procedimentos para uma, duas e mais de duas amostras. O teste de hipóteses pode generalizar para a situação de mais de dois grupos, enquanto a estimativa não é intuitiva quando há mais de dois grupos. A Tabela 7–1 esboça procedimentos de teste de hipóteses que consideramos aqui. 7.1 INTRODUÇÃO AO TESTE DE HIPÓTESES Antes de discutir os diferentes procedimentos que são adequados para cada cenário esboçado na tabela 7–1, primeiro apresentamos a abordagem geral usando um exemplo simples. Os Centros de Controle e Prevenção de Doença (CDC) informaram a respeito das tendências de peso, altura e índice de massa corporal (IMC) desde 1960 até 2002.1 Os dados para o relatório foram coletados no Exame Nacional de Saúde [National Health Examination] e nas Pesquisas de Exame de Nutrição e Saúde Nacionais [National Health and Nutrition Examination Surveys], que foram conduzidos entre 1960 e 2002. A tendência geral era de que os norte-americanos eram muito mais pesados e um pouco mais altos em 2002 em comparação com 1960. O relatório indicou que homens e mulheres ganharam aproximadamente 11 kg, em média, entre 1960 e 2002. Em 2002, o peso médio para o homem norte-americano era relatado em 86,5 quilos, e o peso médio para a mulher norte-americana era relatado em 74 quilos. Suponha que foquemos no peso médio dos homens. Em 2002, o peso médio para os homens era relatado em 86,5 quilos. Suponha que um pesquisador trace a hipótese de que ospesos sejam ainda maiores em 2006 (ou seja, que a tendência continuou nos 4 anos seguintes). Em um teste de hipóteses, configuramos hipóteses concorrentes sobre o parâmetro desconhecido. Uma hipótese é chamada de hipótese nula, e a outra é chamada de hipótese alternativa ou de pesquisa. A hipótese de pesquisa é de que o peso médio dos homens em 2006 seja superior a 86,5 quilos. A hipótese nula é que não haja alteração no peso e, portanto, o peso médio ainda seja 86,5 quilos em 2006. As hipóteses nula e de pesquisa são denotadas como Hipótese nula, H0: µ = 191 (nenhuma alteração), Hipótese de pesquisa, H1: µ > 191 (convicção do pesquisador). TABELA 7-1 Técnicas de teste de hipóteses Uma amostra Duas amostras independentes Duas amostras dependentes, combinadas Mais de duas amostras independentes Uma amostra Duas amostras independentes Mais de duas amostras independentes Uma amostra Duas ou mais amostras independentes Número de amostras Variável de resultado Contínua Contínua Contínua Contínua Dicotômica Dicotômica Dicotômica Categórica ou ordinal (mais de 2 opções de resposta) Categórica ou ordinal Para testar as hipóteses, selecionamos uma amostra aleatória de homens norte-americanos em 2006 e medimos seus pesos. Suponha que tenhamos recursos disponíveis para recrutar n = 100 homens para a nossa amostra. Pesamos cada participante e computamos estatísticas de resumo nos dados da amostra. Suponha que na amostra determinamos o seguinte: n = 100, Χ� = 197,1, s = 25,6. Os dados da amostra sustentam a hipótese nula ou de pesquisa? A média da amostra de 89,5 quilos é numericamente maior que 86,5 quilos. Entretanto, essa diferença é mais do que seria esperado, por acaso? No teste de hipóteses, presumimos que a hipótese nula se mantenha até que seja provado o contrário. Portanto, precisamos determinar a probabilidade de observar uma média de amostra de 89,5 ou mais quando a verdadeira média da população é 86,5 (ou seja, se a hipótese nula for verdadeira ou estiver abaixo da hipótese nula). Computamos essa probabilidade usando o Teorema central do limite. Especificamente: Ρ(𝑋𝑋� > 197,1) = Ρ �𝑧𝑧 > 197,1 − 19125,6 √100 � = Ρ (𝑧𝑧 > 2,38) = 1 − 0,9913 = 0,0087 (Observe que usamos o desvio padrão da amostra para computar a pontuação z. Geralmente, trata-se de uma substituição adequada, desde que a amostra seja grande, n> 30.) Assim, há menos de 1% de chance de observar uma média de amostra da ordem de 89,5 kg quando a média populacional real for 86,5. Você acha que a hipótese nula é provavelmente verdadeira? Com base na improbabilidade de observar uma média de amostra de 89,5 abaixo da hipótese nula (isto é, chance menor que 1%), podemos inferir, a partir dos nossos dados, que a hipótese nula provavelmente não seja verdadeira. Suponha que os dados da amostra tenham sido diferentes. Suponha que, em 2006, observamos o seguinte: n = 100, Χ� = 192,1, s = 25,6. Qual é a probabilidade de observar uma média de amostra de 87 ou mais quando a verdadeira média da população é 86,5 (isto é, se a hipótese nula for verdadeira)? Computamos outra vez essa probabilidade usando o Teorema central do limite. Especificamente: Ρ(𝑋𝑋� > 192,1) = Ρ �𝑧𝑧 > 192,1 − 19125,6 √100 � = Ρ (𝑧𝑧 > 0,43) = 1 − 0,6664 = 0,3336 Há uma chance de que 33,4% da observação da média de uma amostra tão grande quanto 87 quando a verdadeira média da população é 86,5. Você acha que a hipótese nula é provavelmente verdadeira? Precisamos determinar um limiar ou um ponto de corte (chamado de valor crítico) para decidir quando acreditar na hipótese nula e quando acreditar na hipótese de pesquisa. É importante observar que, embora seja possível observar qualquer média da amostra quando a verdadeira média da população é 86,5, alguns valores são bastante improváveis. Com base nas duas amostras anteriores, parece razoável acreditar na hipótese de pesquisa quando Χ� = 89,5, mas para acreditar na hipótese nula quando Χ� = 87. O que precisamos é de um valor limiar tal que se Χ� estiver acima desse limiar, acreditamos que H1 seja verdadeira e se Χ� estiver abaixo desse limiar, acreditamos que H0 seja verdadeira. A dificuldade em determinar um limiar para Χ� é que ele depende da escala de medição. Neste exemplo, o valor crítico pode ser 88,5 quilos (isto é, se a média da amostra for 88,5 quilos ou mais, acreditamos que H1 seja verdadeira e se a média da amostra for menor que 88,5 quilos, acreditamos que H0 seja verdadeira). Suponha que estejamos interessados em avaliar um aumento na pressão sanguínea ao longo do tempo. O valor crítico seria diferente, pois pressões sanguíneas são medidas em milímetros de mercúrio (mmHg) e não em quilos. A seguir, explicamos como o valor crítico é determinado e como lidamos com o problema da escala. Primeiro, para abordar o problema da escala para determinar o valor crítico, convertemos nossos dados da amostra (em particular, a média da amostra) em uma pontuação z. Sabemos, desde o Capítulo 5, que o centro da distribuição z é 0 e os valores extremos são os que excedem 2 ou recaem abaixo de 22 (valores acima de 2 e abaixo de 22 representam aproximadamente 5% de todos os valores z). Se a média da amostra observada estiver perto da média especificada em H0 (µ =191), então z é próximo a 0. Se a média da amostra observada for muito maior do que a média especificada em H0, então z é amplo. No teste de hipótese, selecionamos um valor crítico na distribuição z. Isso é feito determinando o que é chamado de nível de significância primeiro, denotado a. Lembre-se de que, se a hipótese nula for verdadeira, é possível observar qualquer média da amostra. O que estamos fazendo aqui é desenhar uma linha em valores extremos. O nível de significância é a probabilidade de rejeitarmos a hipótese nula (em favor da alternativa) quando ela, de fato, for verdadeira: α = Nível de significância = P(Rejeitar H0 | H0 é verdadeira). Por α ser uma probabilidade, ele fica entre 0 e 1. O valor usual para α é 0,05, ou 5%. Se um pesquisador selecionar α = 0,05, ele/ela está permitindo uma probabilidade de 5% de rejeitar incorretamente a hipótese nula em favor da alternativa quando a nula for verdadeira. Os valores típicos para α são 0,01, 0,05 e 0,10, com α = 0,05 sendo o valor mais comumente usado. Suponha que no nosso estudo sobre peso tenhamos selecionado α = 0,05. Precisamos determinar o valor de z que mantenha 5% dos valores acima dele (Figura 7–1). O valor crítico de z para α = 0,05 é z = 1,645 (ou seja, 5% da distribuição está acima de 1,645). Com esse valor, podemos definir o que chamamos nossa regra de decisão para o teste. A regra é rejeitar H0 se a pontuação z for 1,645 ou mais. Com a primeira amostra, temos Χ� = 197,1 e z = 2,38. Por causa de 2,38 > 1,645, rejeitamos a hipótese nula. (A mesma conclusão pode ser atingida comparando a probabilidade de 0,0087 de observar uma média da amostra tão extrema quanto 89,5 para o nível de significância de 0,05. Se a probabilidade observada for menor que o nível de significância, rejeitamos H0.) Como a causa da pontuação z excede o valor crítico (2,38 > 1,645), concluímos que o peso médio para os homens em 2006 é superior a 86,5 quilos, o valor reportado em 2002. Se observássemos a segunda amostra (Χ� = 192,1), não rejeitaríamos a hipótese nula, porque a pontuação z é 0,43, que não está na região de rejeição (isto é, a região na extremidade da cauda da curva em 1,645 ou acima desse valor). Com a segunda amostra, não temos evidências para concluir que os pesos aumentaram. (Mais uma vez, a mesma conclusão pode ser atingida comparando-se probabilidades. A probabilidade de observar uma média da amostra tão extrema quanto 87 é de 33,4%, o que não está abaixo do nosso nívelde 5% de significância.) O procedimento para teste de hipóteses é baseado nas ideias descritas anteriormente. Especificamente, definimos hipóteses concorrentes, selecionamos uma amostra aleatória da população de interesse e computamos as estatísticas de resumo. Em seguida, determinamos se os dados da amostra sustentam a hipótese nula ou alternativa. O procedimento pode ser dividido nas cinco etapas a seguir. Usamos esta abordagem de cinco etapas para fazer testes de hipóteses para todos os cenários da Tabela 7–1. Etapa 1: Definir a hipótese e determinar o nível de significância. H0: Hipótese nula (nenhuma alteração, nenhuma diferença), H1: Hipótese de pesquisa (convicção do pesquisador), α = 0,05. A hipótese de pesquisa ou alternativa pode tomar uma das três formas. Um pesquisador pode acreditar que o parâmetro aumentou, diminuiu ou foi alterado. Por exemplo, um pesquisador pode criar a hipótese: 1. H1: µ> µ 0, em que µ 0 é o comparador ou valor nulo (p. ex., µ 0 =191 no nosso exemplo sobre peso de homens, em 2006) e um aumento é a hipótese – esse tipo de teste é chamado de teste de cauda superior. 2. H1: µ< µ 0, em que uma diminuição é a hipótese – chamado de teste de cauda inferior. 3. H1: µ≠ µ 0, em que uma diferença é a hipótese – chamado de teste bicaudal. FIGURA 7-1 Valor crítico de Z para α = 0,05 0,05 1,645 A forma exata da hipótese de pesquisa depende da convicção do pesquisador sobre o parâmetro de interesse e se ele possivelmente aumentou, diminuiu ou está diferente do valor nulo. A hipótese de pesquisa é definida pelo pesquisador antes que qualquer dado seja coletado. Etapa 2: Selecionar a estatística de teste adequada. A estatística de teste é um único número que resume a informação da amostra. Um exemplo de uma estatística de teste é a estatística z computada como 𝑧𝑧 = Χ� − 𝜇𝜇0 𝑠𝑠/√𝑛𝑛 Quando o tamanho da amostra é pequeno, usamos estatísticas t (exatamente como fizemos na estimativa no Capítulo 6). Conforme apresentamos cada cenário, estatísticas de teste alternativas são fornecidas junto com condições para o uso adequado. Etapa 3: Definir a regra de decisão. A regra de decisão é uma declaração que diz sob quais circunstâncias rejeitar a hipótese nula. A regra de decisão é baseada em valores específicos da estatística de teste (p. ex., rejeitar H0 se z ≥ 1,645). A regra de decisão para um teste específico depende de três fatores: a hipótese de pesquisa, a estatística de teste e o nível de significância. A regra de decisão depende se é proposto um teste de cauda superior, inferior ou bicaudal. No teste de cauda superior, a regra de decisão faz os pesquisadores rejeitarem H0, se a estatística de teste for maior que o valor crítico ou igual a ele. No teste de cauda inferior, a regra de decisão faz os pesquisadores rejeitarem H0, se a estatística de teste for menor que o valor crítico ou igual a ele. No teste bicaudal, a regra de decisão faz os pesquisadores rejeitarem H0, se a estatística de teste for extrema – maior que um valor crítico superior ou igual a ele, ou menor que um valor crítico inferior ou igual a ele. A forma exata da estatística de teste também é importante para determinar a regra de decisão. Se a estatística do teste segue a distribuição normal padrão (z), a regra de decisão é baseada na distribuição padrão normal. Se a estatística do teste segue a distribuição t, a regra de decisão é baseada na distribuição t. O valor crítico adequado é selecionado da distribuição t, novamente dependendo da hipótese alternativa específica e do nível de significância. O terceiro fator é o nível de significância, que é selecionado na Etapa 1 (p. ex., α = 0,05). Por exemplo, em um teste de cauda superior z, se α = 0,05, o valor crítico é z = 1,645. As Figuras 7–2 até a Figura 7–4 ilustram as regiões de rejeição definidas pela regra de decisão para testes z de cauda superior, inferior e bicaudais com α = 0,05. Observe que as regiões de rejeição estão nas caudas superior, inferior e em ambas as curvas, respectivamente. Observe, no teste bicaudal, que a região de rejeição está dividida em duas partes iguais. A área total na região de rejeição ainda é igual a α. Na Figura 7–4, α = 0,05 e a área em cada cauda é 0,025. Os valores críticos dos testes z de cauda superior, inferior e bicaudais podem ser encontrados na Tabela 1C, no Apêndice. Os valores críticos dos testes z de cauda superior, inferior e bicaudais podem ser encontrados na Tabela 2, no Apêndice. FIGURA 7-2 Região de rejeição para teste Z de cauda superior (H1: µ > µ 0) com α = 0,05 0,05 1,645 FIGURA 7-3 Região de rejeição para teste Z de cauda inferior (H1: µ > µ 0) com α = 0,05 0,05 -1,645 Etapa 4: Computar a estatística de teste. Aqui computamos a estatística de teste substituindo os dados da amostra observados na estatística de teste identificada na Etapa 2. Etapa 5: Conclusão. A conclusão final é feita comparando-se a estatística de teste (que é um resumo das informações observadas na amostra) com a regra de decisão. A conclusão final é, ou rejeitar a hipótese nula (pois os dados da amostra são muito improváveis se a hipótese nula for verdadeira) ou não rejeitar a hipótese nula (pois os dados da amostra não são muito improváveis). FIGURA 7-4 Região de rejeição para teste Z bicaudal (H1: µ ≠ µ 0) com α = 0,05 -1,960 1,960 CAPÍTULO 9: Métodos multivariáveis PÁGINAS 193-195 Nos Capítulos 6 e 7, apresentamos procedimentos de inferência estatística para estimativa e teste de hipóteses. Discutimos vários cenários que diferem em termos de natureza da variável de resultado (contínua, dicotômica, categórica ou ordinal), o número de grupos de comparação (um, dois ou mais de dois), e se os grupos eram independentes (fisicamente separados) ou dependentes (combinados). Em cada cenário, consideramos uma variável de resultado e investigamos se havia diferenças nessa variável de resultado entre os grupos de comparação ou se houve uma associação entre uma exposição ou fator de risco e um resultado. O que não consideramos até este ponto é a possibilidade de que diferenças ou associações observadas podem se dar devido a outras características ou variáveis. Métodos estatísticos multivariáveis são usados para avaliar as inter-relações entre diversos fatores de risco ou variáveis de exposição e um único resultado. O tópico de análise multivariável é extensivo. Aqui, descrevemos apenas princípios gerais e conceitos. Os leitores interessados devem consultar Kleinbaum, Kupper e Muller; Jewell; e Hosmer e Lemeshow, para uma discussão mais aprofundada. Discutimos especificamente o uso de técnicas de modelagem multivariável para abordar confusão e modificação de efeito. No Capítulo 2, definimos confusão como uma distorção do efeito de uma exposição ou fator de risco em um resultado por outra característica ou variável. A modificação de efeito ocorre quando há uma relação diferente entre a exposição ou fator de risco e o resultado, dependendo do nível de outra característica ou variável. Nas duas situações, a terceira variável pode exagerar ou mascarar a associação entre o fator de risco e o resultado. A modificação de efeito também é chamada de interação estatística. Analiticamente, confusão e modificação de efeito são administradas de modo diferente. Quando há confusão, métodos multivariáveis podem ser usados para gerar uma estimativa da associação entre uma exposição ou fator de risco e um resultado que ajusta ou leva em consideração o impacto do fator de confusão. Em contraste, com modificação de efeito há uma relação diferente entre o fator de risco e o resultado, dependendo do nível de uma terceira variável, portanto, uma estimativa geral da associação não transmite exatamentea informação nos dados. Na presença de modificação de efeito, os resultados geralmente são apresentados separadamente para cada nível da terceira variável (usando as técnicas apresentadas no Capítulo 6 e no Capítulo 7). Para formalizar esses conceitos, primeiro apresentamos alguns exemplos e depois passamos para os métodos. Suponha que queiramos avaliar a associação entre tabagismo e doença cardiovascular em um estudo de coorte. Podemos descobrir que os fumantes na coorte são muito mais propensos a desenvolver doença cardiovascular. Suponha que estimamos um risco relativo de 𝑅𝑅�𝑅𝑅 = 2,6 com um intervalo de confiança de 95% (1,5; 4,1). No nosso estudo, fumantes têm 2,6 vezes o risco de desenvolver doença cardiovascular em comparação a não fumantes. Entretanto, pode ser o caso também de que os fumantes são menos propensos a fazer exercícios e têm níveis de colesterol mais altos. Sem examinar essas outras características, faríamos a inferência incorreta de que há uma forte associação entre tabagismo e doença cardiovascular, quando a relação pode ser devida, em parte, à falta de exercício ou ao colesterol alto. Métodos multivariáveis podem ser usados para abordar essas relações complexas e destrinchar qual proporção da associação pode ser devida ao tabagismo, em oposição a outros fatores de risco. Em outras palavras, usamos esses métodos para ajustar a magnitude de associação para o impacto de outras variáveis (p. ex., a associação entre tabagismo e doença cardiovascular ajustada para exercício e colesterol). Também são discutidos métodos que nos permitem avaliar se uma associação permanece estatisticamente significativa depois de ajustar o impacto de outras variáveis. Métodos multivariáveis também podem ser usados para avaliar a modificação de efeito – especificamente, a situação em que o relacionamento entre um fator de risco e o resultado de interesse varia por causa de uma terceira variável. Por exemplo, suponha que estejamos interessados na eficácia de uma nova droga para reduzir o colesterol total. Um ensaio clínico é conduzido e se comprova que a droga é eficaz, com uma redução estatisticamente significativa no colesterol total em pacientes que recebem a nova droga, em comparação a pacientes que recebem placebo. Suponha que os pesquisadores analisem mais de perto os dados e descubram que a redução (ou efeito da droga) está presente apenas em participantes com um marcador genético específico e que não há redução em pessoas que não possuem o marcador. Isso é um exemplo de modificação de efeito, ou interação estatística. O efeito do tratamento é diferente, dependendo da presença ou ausência do marcador genético. Métodos multivariáveis podem ser usados para identificar modificação de efeito. Quando a modificação de efeito está presente, a estratégia é apresentar resultados separados de acordo com a terceira variável (isto é, relatar o efeito do tratamento separadamente em pessoas com e sem o marcador). Outros usos de métodos multivariáveis incluem a consideração de diversos fatores de risco simultaneamente, em que o objetivo é avaliar a importância relativa de cada um em relação a uma única variável de resultado. Por exemplo, o Framingham Heart Study tem um histórico longo de desenvolvimento de funções de risco multivariável.4,5 Essas funções de risco são usadas para prever a probabilidade de que uma pessoa desenvolva doença cardiovascular durante um período fixo (p. ex., os próximos 10 anos) como uma função dos seus fatores de risco. Os fatores de risco incluem idade, sexo, pressão sanguínea sistólica, níveis de colesterol total e HDL, tabagismo atualmente e status da diabetes. Técnicas multivariáveis são usadas nessa configuração para englobar todos os fatores de risco simultaneamente. Essa aplicação é similar à primeira, exceto que, em vez de focar na associação entre um fator de risco e o resultado (ajustando outros), estamos interessados nas relações entre cada um dos fatores de risco e o resultado. Há muitos outros usos dos métodos multivariáveis. Focamos aqui apenas em algumas aplicações específicas. As computações são intensivas e, por isso, nossa apresentação é mais geral, com ênfase especial em interpretação, e não em computação. Na prática, as computações são feitas usando um pacote de computação estatística.6 É importante observar que a análise estatística de qualquer estudo deve começar com uma descrição completa dos dados do estudo, usando os métodos descritos no Capítulo 4. As análises primárias devem proceder, conforme planejado, para gerar estimativas de parâmetros desconhecidos ou executar testes de hipóteses usando as técnicas descritas no Capítulo 6 e no Capítulo 7, respectivamente. As análises que apresentamos no Capítulo 6 e no Capítulo 7 são chamadas de análises não ajustadas ou cruas, já que focam exclusivamente na associação entre um fator de risco ou exposição e o resultado. Métodos multivariáveis são usados após os dados do estudo serem descritos e após as análises não ajustadas serem feitas. Na configuração de ensaios clínicos, as análises não ajustadas geralmente são as análises finais, devido, primeiramente, ao componente da escolha aleatória que, (em teoria), elimina a possibilidade de confusão. Enquanto os métodos multivariáveis que descrevemos são formas de dar conta da confusão, não se deve confiar neles para "corrigir" problemas em um estudo. Modelos multivariáveis são usados para o ajuste estatístico da confusão, enquanto o projeto cuidadoso do estudo pode oferecer muito mais no que diz respeito a minimizar a confusão. A escolha aleatória é uma forma muito eficaz de minimizar a confusão. Infelizmente, nem todos os estudos se enquadram na escolha aleatória. Há outras opções de minimizar a confusão (p. ex., combinação), mas em todos os casos é importante reconhecer que modelos multivariáveis podem apenas ajustar ou dar conta de diferenças em variáveis que confundem medidas no estudo. Portanto, os pesquisadores devem planejar cuidadosamente os estudos, não apenas com um olhar em direção a minimizar confusão sempre que possível, mas também com a prudência de medir variáveis que possam ser possíveis fatores de confusão. CAPÍTULO 12: Visualização de dados PÁGINAS 280-281, 286-289, 303-313, 316-322, 325-327 12.1 PRINCÍPIOS DO PROJETO Antes de entrarmos nos princípios específicos do projeto para tabelas e figuras efetivas, primeiro precisamos considerar uma das várias perguntas críticas que orienta nosso processo: Como vamos nos envolver com nosso público? Se estivermos apresentando resultados oralmente para um público, devemos ir rapidamente para as conclusões. Em uma apresentação oral, os membros do público não conseguem digerir todos os detalhes ou intervir em uma análise – eles precisam entender a pergunta de interesse, sua importância e nossa abordagem para a análise. A forma dessas apresentações é mais ampla – ou seja, o grande quadro. Em contraste, se estivermos distribuindo um relatório escrito dos resultados, temos uma oportunidade de oferecer muito mais detalhes, já que os leitores podem ir e voltar no material, em seu próprio ritmo. Dito isso, devemos ainda permanecer na tarefa e não sobrecarregar os leitores com dados inconsequentes. Ao mesmo tempo, devemos fornecer aos leitores informações necessárias e suficientes para fazer comparações adequadas e chegar a conclusões válidas. Quando tivermos uma abordagem geral em mente, passamos para as especificidades. Vários recursos excelentes estão disponíveis para orientar o desenvolvimento de tabelas e figuras eficientes. Talvez, o mais amplamente reconhecido desses recursos seja os de Edward E. Tufte, que publicou diversos livros sobre o tópico e também oferece muitos recursos on-line.2,3 Tufte promove diversos princípios que, geralmente, são direcionados para o desenvolvimento defiguras ou exibições gráficas, mas esses princípios também se aplicam ao desenvolvimento de tabelas. Ele recomenda que o desenvolvedor "provoque o pensamento sobre o assunto em mãos", para motivar os leitores ou consumidores a querer saber mais e se tornar tão interessados que vão querer compartilhar a informação. Deve ficar claramente evidente para os leitores ou consumidores que os dados ou resultados estatísticos são importantes: O leitor precisa se mostrar interessado pelo que está sendo mostrado e querer se envolver. Quando estamos desenvolvendo tabelas ou figuras para resumir dados e resultados estatísticos para contar uma história, precisamos começar nossa história com uma visão de alto nível, do grande quadro, depois passar para os detalhes. Tufte recomenda honestidade na visualização dos dados e clareza na apresentação. Uma forma de chegar a isso é minimizando o que ele chama de "lixo gráfico". Lixo gráfico se refere a recursos desnecessários em uma tabela ou figura que não transmitem nenhum significado. Tufte argumenta que o lixo gráfico prejudica a mensagem principal da tabela ou da figura. Em contraste, ele favorece as apresentações de dados que incentivam a comparação como uma forma específica de envolver-se com os dados e resultados estatísticos. Para facilitar esse tipo de envolvimento, as tabelas e figuras devem ser configuradas de modo que forneçam, aos leitores ou consumidores, os dados corretos e suficientemente detalhados para tornar as comparações válidas e para descobrir o significado, conforme eles exploram os dados ou resultados estatísticos. Outro conjunto de princípios voltado para exibições gráficas, mas também aplicável a demonstrações tabulares, são os princípios de CONVINCE para a visualização de dados eficiente. Os princípios de CONVINCE são consistentes com aqueles estabelecidos por Tufte, mas reforçam questões essenciais e são fáceis de lembrar pelo acrônimo: • Comunicar significado, com identificação clara de títulos, eixos, legendas, variáveis, linhas e colunas. • Objetividade na apresentação, que é maximizada com dimensionamento justo de eixos de modo que os dados e resultados estatísticos não sejam ocultados ou exagerados. • Necessidade de todos os elementos da tabela e da figura – ou seja, evitar desordem e itens desnecessários em tabelas e figuras que prejudicam a mensagem em mãos, consistente com a recomendação de Tufte de minimizar o lixo gráfico. • Verdade visual – novamente exigindo o uso adequado de tipos específicos de tabelas e gráficos, junto com o dimensionamento e a identificação que apresentam dados de modo honesto e equilibrado. • Imaginar o público – reforçar a noção de que nós, enquanto desenvolvedores de tabelas e figuras, devemos conhecer nosso público, o que eles precisam saber e como podemos melhor atender suas necessidades por meio da nossa entrega. • Notabilidade – um princípio específico que talvez seja mais evidente em exibições gráficas, pelas quais os leitores ou consumidores conseguem acessar mais dados ou níveis adicionais de detalhes, caso precisem ou queiram se aprofundar mais. Isso talvez seja mais bem atingido através de gráficos interativos. • Contexto – um princípio que se sobrepõe aos princípios de Tufte, estimulando-nos a oferecer, aos leitores ou consumidores, contexto suficiente para entender a pergunta de interesse e sua importância, e depois, dados e resultados estatísticos adequados, de modo que eles possam tirar conclusões válidas. • Encorajar a interação – envolver os leitores e consumidores para que se interessem pelos dados e os explorem mais a fundo. Um terceiro conjunto de princípios vem de Steven Few, que sugere oito ideias ou princípios nucleares para a visualização de dados.5 Mais uma vez, os princípios de Few são voltados para figuras, mas, de modo geral, podem ser aplicados para tabelas e figuras. Ele nos obriga a: • Simplificar os dados e resultados estatísticos para a apresentação. Esse é sempre um equilíbrio delicado, já que nunca queremos simplificar demais os dados, para não correr o risco de perder nuances importantes, mas encontrar o ponto em que essas nuances fiquem claras e os dados sejam compreendidos. • Perguntar. Poucos nos incentivam a criar tabelas e figuras que incentivem o leitor a querer saber mais, a perguntar de onde vêm os dados, a considerar por que estamos investigando essa pergunta ou problema em particular e, idealmente, pensar sobre quais ações podem ser tomadas com base no que comunicamos. • Comparar. Devemos desenvolver tabelas e figuras que permitam aos leitores fazer comparações válidas, de modo que possam interpretar diferenças, efeitos e impacto. • Explorar. Devemos desenvolver tabelas e figuras que permitam aos leitores explorar os dados e descobrir coisas por conta própria. • Comparecer. Esse princípio se refere à nossa necessidade de entender os leitores ou consumidores dos dados ou resultados estatísticos, para que possamos comunicar, mais efetivamente, nossos resultados. O que nosso público precisa ver para entender os dados ou resultados estatísticos? Qual a melhor forma de comunicarmos nossas descobertas para atender nossas necessidades? Devemos destacar o que é verdadeiramente importante e garantir que as mensagens principais fiquem claramente visíveis e interpretáveis, e não perdidas em tabelas desordenadas ou figuras muito complicadas. • Garantir a diversidade. Poucos sugerem que os dados devem ser apresentados sob diferentes pontos de vista para incentivar a diversidade de interpretações – um resultado que talvez seja mais facilmente atingido por meio de exibições gráficas interativas em oposição a exibições tabulares, mas que, apesar disso, seja importante lembrar em todas as apresentações de dados e resultados estatísticos. Precisamos apresentar dados e resultados estatísticos que sejam amplamente acessíveis a públicos diversificados. Devemos considerar os níveis de alfabetização, o histórico educacional e diferentes perspectivas do nosso público. Podemos, por exemplo, ter uma abordagem diferente ao preparar tabelas ou figuras para um artigo de uma pesquisa em comparação a uma apresentação para um grupo comunitário. • Ser cético. Enquanto criadores e consumidores de dados e resultados estatísticos, devemos questionar o que vemos. De onde vieram os dados? Quais inferências são adequadas? Quais são as limitações dos dados? • Responder. A noção aqui diz respeito a compartilhar dados e resultados estatísticos. Como bioestatísticos, certamente focamos a coleta, a administração e a análise dos dados. Um aspecto adicional essencial e necessário do nosso trabalho é a comunicação dos resultados. Na verdade, é nossa responsabilidade compartilhar resultados, conforme descrito nas "Diretrizes éticas para a prática estatística"1 ("Ethical Guidelines for Statistical Practice.) Antes de nos aprofundarmos ainda mais no desenvolvimento de tabelas e figuras eficientes, vale a pena repetir várias mensagens de suma importância. Não importa em que formato escolhemos relatar os nossos dados e resultados estatísticos, precisamos defender a ideia do porquê os dados e resultados estatísticos serem importantes – ou seja, por quê o leitor deveria se interessar por eles. Devemos destacar os elementos importantes, sermos claros em nosso processo (quais etapas seguimos e por que), para garantir que o leitor ou o consumidor possa focar nos aspectos mais importantes dos dados e resultados estatísticos. Nossa meta final é nos certificarmos de que nossa mensagem seja precisa, clara e inesquecível. 12.3.1 COMPONENTES DE UMA TABELA Antes de discutirmos tipos específicos de tabelas e seus conteúdos, vamos delinear os componentes de uma tabela. Como lembrete, geralmente, não convém combinar tabelas menores ou dividir tabelas maiores,já que, no primeiro caso, a mensagem pode ficar confusa, e no segundo caso, a mensagem pode ser perdida. Boas tabelas têm um título claro e conciso. O título deve ser suficientemente claro para que o leitor não precise voltar ao texto para entender o que está sendo mostrado na tabela. O título deve descrever o que está sendo mostrado entre quem (ou seja, principais grupos de comparação) e quando. Via de regra, não deve ter mais de duas linhas e deve aparecer na parte superior da tabela. As tabelas de um artigo ou relatório também devem ser numeradas na ordem em que são mencionadas nesse artigo ou relatório. A menos que a revista, site ou cliente recomendem o contrário, as tabelas devem ser incluídas no trabalho ou relatório bastante próximas ao local onde os dados ou resultados estatísticos são discutidos, e não no final, o que pode dificultar a consulta enquanto o leitor lê o texto. Tabelas muito longas com mais detalhes granulares podem ser movidas para um apêndice ou, se disponível, um suplemento on-line. Conforme pensamos em estruturar um trabalho ou relatório, devemos considerar a sequência lógica das tabelas. As principais descobertas devem sempre vir antes dos dados ou resultados que são secundários ou auxiliares. Muitas vezes, uma primeira tabela contém uma descrição dos participantes do estudo ou outros dados que forneçam o contexto para as principais descobertas, que vêm logo a seguir. Os dados (tamanhos da amostra, médias, percentuais, resultados de testes estatísticos) compõem o corpo da tabela. As colunas são, muitas vezes, organizadas dentro da tabela para estabelecer as comparações mais importantes dos dados. Ao definirmos a estrutura de uma tabela (às vezes chamada de estrutura da tabela), devemos levar em consideração as comparações de interesse. Os dados a serem comparados devem ser apresentados, se possível, em colunas adjacentes. Por exemplo, se quisermos mostrar melhoria de desempenho em um teste padronizado, antes contra depois, de uma intervenção educacional, as medidas coletadas antes da intervenção e após a intervenção devem ser apresentadas em colunas adjacentes para facilitar essa comparação. Cada coluna da tabela deve também ter um cabeçalho claro. Os cabeçalhos da coluna devem ser suficientemente concisos para que não ultrapassem uma linha. Um cabeçalho por coluna é o suficiente, já que mais de um cabeçalho pode gerar confusão. Uma chave de coluna, que descreve a variável de agrupamento (p. ex., "Tratamento"), aparece acima dos cabeçalhos de coluna. Às vezes, os cabeçalhos da coluna são suficientes para descrever e diferenciar os grupos, outras vezes, uma chave de coluna é necessária para esclarecer o significado. A chave de coluna é, às vezes, usada para descrever as estatísticas que serão mostradas nas colunas – como exemplo, veja como tabulamos os resultados de uma análise de regressão no Exemplo 12.1. Muitas vezes, variáveis diferentes são mostradas nas linhas de uma tabela. Nomes e unidades de variáveis de medida devem ser especificados de modo claro e preciso. As unidades de medida são extremamente importantes. Algumas medidas clínicas e laboratoriais, por exemplo, podem ser medidas e relatadas regularmente usando diferentes escalas, portanto, é essencial que as unidades exatas sejam relatadas para garantir que os leitores e consumidores possam fazer comparações válidas. Assim como revistas têm guias de estilo específicos para relatar dados e resultados estatísticos em tabelas e figuras, há também diretrizes para relatar medidas clínicas e laboratoriais que devem ser consultadas ao relatar tais dados. Algumas revistas, sites ou clientes podem preferir unidades métricas (p. ex., metros e gramas) a unidades imperiais (dos EUA) (p. ex., pés, libras), e suas convenções devem ser seguidas, conforme for adequado. Os dados devem ser arredondados tanto quanto for apropriado; geralmente, duas casas decimais são mais do que suficientes. Os componentes de uma tabela são mostrados na Figura 12–4. Linhas de grade, que muitas vezes são vistas em planilhas, são desnecessárias em tabelas; na verdade, podem dificultar a leitura dos dados em uma tabela. Deve haver algumas linhas, se for o caso, no corpo da tabela. A tabela deve usar espaçamento consistente e as colunas devem estar razoavelmente perto para facilitar as comparações de interesse. Espaço em branco ao redor da tabela e estrategicamente posicionado dentro da tabela pode ajudar a destacar determinados aspectos dos dados e resultados estatísticos. O objetivo é a clareza – criar uma tabela que permita que o leitor ou o consumidor se aprimore sobre as principais mensagens dos dados e resultados estatísticos. Exemplo 12.1. A análise de regressão logística é usada para avaliar as associações entre as categorias de índice de massa corporal (IMC) – normal (IMC ≤ 25,0), sobrepeso (25,0 < IMC < 30,0) e obeso (IMC ≥ 30,0) – e três resultados – enfarte do miocárdio incidental, doença cardiovascular incidental e derrame incidental, que são considerados separadamente. A Tabela 12–1 resume as associações entre categorias de IMC (peso normal, sobrepeso e obesidade) usando razões de chances e intervalos de confiança de 95% para razões de chances. A Tabela 12–2 mostra os mesmos dados que a Tabela 12–1, mas sem linhas de grade e um pouco mais de espaçamento. Qual tabela é mais fácil de ler? FIGURA 12-4 Componentes de uma tabela Número da tabela. Título da tabela Descrição do que vem a seguir Chave da coluna Cabeçalho 1 Cabeçalho 2 ... Cabeçalho x Linhas (variáveis e unidades) Dados Observação: Notas de rodapé, referências Notas de rodapé, como as notas nas partes inferiores das Tabelas 12–1 e 12–2, podem ser usadas para fornecer informações adicionais necessárias para interpretar os dados ou resultados estatísticos apresentados na tabela. Tais explicações não devem ser incluídas nos cabeçalhos das colunas ou no título, já que podem diminuir a interpretabilidade dos resultados. Todas as abreviações e símbolos podem ser esclarecidos nas notas de rodapé. A Tabela 12–3 mostra os mesmos dados que as Tabelas 12–1 e 12–2, mas usa abreviações de alguns dos resultados para aumentar a legibilidade. As abreviações são explicadas nas notas de rodapé. A decisão de usar ou não abreviações depende do público. Se o público estiver familiarizado com as abreviações, elas podem promover a legibilidade. Se o público não estiver familiarizado com as abreviações, elas dão mais trabalho para localizar as definições. TABELA 12-1 Associação entre categorias de IMC e doença cardiovascular incidental após ajuste para fatores de risco clínicos* Razão de possibilidades* (OR) (95% de intervalo de confiança) Peso normal Sobrepeso Obeso Enfarto do miocárdio incidental Doença cardiovascular incidental Derrame incidental 1,00 (Referência) 1,00 (Referência) 1,00 (Referência) 1,01 (0,69-1,29) 1,21 (0,89-1,37) 0,99 (0,82-1,08) 1,14 (1,01-1,50) 1,36 (1,13-2,54) 1,18 (1,09-1,23) * Ajustado para idade, sexo, pressão sanguínea diastólica e sistólica, colesterol sérico total, lipoproteína de alta densidade e tabagismo; peso normal (índice de massa corporal [IMC]≤ 25,0), sobrepeso (25,0 < IMC < 30,0) e obeso (IMC ≥ 30,0). TABELA 12-2 Associação entre categorias de IMC e doença cardiovascular incidental após ajuste para fatores de risco clínicos* Razão de possibilidades* (OR) (95% de intervalo de confiança) Peso normal Sobrepeso Obeso Enfarto do miocárdio incidental Doença cardiovascular incidental Derrame incidental 1,00 (Referência) 1,00 (Referência) 1,00 (Referência) 1,01 (0,69-1,29) 1,21 (0,89-1,37) 0,99 (0,82-1,08) 1,14 (1,01-1,50) 1,36 (1,13-2,54) 1,18 (1,09-1,23) * Ajustado para idade, sexo, pressão sanguíneadiastólica e sistólica, colesterol sérico total, lipoproteína de alta densidade e tabagismo; peso normal (índice de massa corporal [IMC]≤ 25,0), sobrepeso (25,0 < IMC < 30,0) e obeso (IMC ≥ 30,0). TABELA 12-3 Associação entre categorias de IMC e doença cardiovascular incidental após ajuste para fatores de risco clínicos* Razão de possibilidades* (OR) (95% de intervalo de confiança) Peso normal Sobrepeso Obeso EM incidental** DCVincidental Derrame incidental 1,00 (Referência) 1,00 (Referência) 1,00 (Referência) 1,01 (0,69-1,29) 1,21 (0,89-1,37) 0,99 (0,82-1,08) 1,14 (1,01-1,50) 1,36 (1,13-2,54) 1,18 (1,09-1,23) * Ajustado para idade, sexo, pressão sanguínea diastólica e sistólica, colesterol sérico total, lipoproteína de alta densidade e tabagismo; peso normal (índice de massa corporal [IMC]≤ 25,0), sobrepeso (25,0 < IMC < 30,0) e obeso (IMC ≥ 30,0). ** Observação: EM = enfarte do miocárdio; DCV = doença cardiovascular. É uma boa prática rascunhar estruturas de tabelas, ou modelos, antes de começar uma análise estatística. As estruturas da tabela delineiam o que será apresentado nas tabelas, e como. As estruturas da tabela ajudam a organizar o raciocínio do autor para desenvolver uma história clara e lógica da investigação e dos resultados. A Tabela 12–4 é um exemplo de uma estrutura de tabela feita para resumir as características de contexto dos participantes em um estudo que compara um grupo que recebeu uma intervenção com um grupo de controle. Observe que, na estrutura da tabela, nomes de variáveis são especificados junto com as unidades (primeira coluna). Estatísticas de resumo que serão mostradas são especificadas e, em alguns casos, o número exato de casas decimais que serão mostradas é indicado (veja a última coluna, onde os valores p serão relatados). Na Tabela 12–4, o título é mostrado na parte superior da tabela e as colunas representam os diferentes grupos de intervenção, que são os grupos de comparação primários. Apenas um tipo de fonte deve ser usado em uma tabela; itálico, negrito e outros destaques devem ser usados com moderação, se necessário. Às vezes, os criadores de tabelas querem ter certeza de que o leitor ou consumidor encontre os dados principais ou faça as comparações principais, mas, se a tabela for organizada adequadamente, isso deve ser autoevidente. Há exceções: Por exemplo, o uso de negrito pode ser útil quando houver grande quantidade de dados para entender e pode ser útil chamar a atenção para aspectos específicos dos dados. A Tabela 12–5 e a Tabela 12–6 mostram os mesmos dados com e sem destaques. Os destaques são úteis? Observe que alguns podem ser úteis, enquanto outros geram confusão. Quando um trabalho ou relatório incluir uma série de tabelas com os mesmos grupos de comparação, a organização dos grupos de comparação deve ser consistente em todas as tabelas. Nunca devemos reordenar os grupos ou trocar a orientação das tabelas (isto é, trocar de linhas para colunas). TABELA 12-3 Exemplo de uma estrutura de tabela Tratamento Grupo de intervenção (n = xx) Grupo de controle (n = xx) Valor p* Idade, anos Anos vividos nos Estados Unidos, anos Proficiência em inglês x,xx x,xx x,xx * Valores p para medidas contínuas com base em duas amostras independentes do teste t; valores p para características categóricas com base nos testes qui-quadrados de independência. Tabela xx. Características demográficas de participantes asiático-americanos por grupo de estudo Característica Sem proficiência prática Proficiência elementar Proficiência limitada Proficiência total Proficiência nativa ou bilíngue 12.4.3 DEMONSTRAR DADOS E DISTRIBUIÇÕES Alguns estudos têm amostras pequenas por causa do projeto (p. ex., séries de casos ou estudos de ciências básicas), enquanto outros focam em condições raras (p. ex., síndrome da morte súbita infantil). Se desejarmos demonstrar os dados coletados em uma amostra de estudo pequena, uma boa opção para uma variável contínua é um gráfico dotplot (gráfico de pontos). Gráficos dotplots mostram observações reais, em oposição a estatísticas de resumo, assim, são adequados para pequenas amostras. Exemplo 12.8. É feito um estudo para medir as idades de mães que passaram pela perda de uma criança por síndrome da morte súbita infantil (SIDS), definida como morte devido a causa desconhecida antes de 1 ano de idade. Uma amostra de n = 9 crianças é identificada para as quais a causa da morte foi SIDS. As idades das mães, em anos, são as seguintes e estão demonstrada em um gráfico dotplot na Figura 12–18: 19 21 26 28 30 32 33 39 30 0,85 (0,72, 0,97) 0,71 (0,63, 0,84) 1,05 (0,87, 1,36) 1,10 (0,95, 1,30) 0,99 (0,92, 1,04) 1,03 (0,91, 1,24) 0,91 (0,77, 0,99) 0,91 (0,86, 0,97) 0,97 (0,84, 1,06) 1,01 (0,95, 1,13) 0,94 (0,87, 1,02) 0,95 (0,86, 1,11) TABELA 12-5 Impacto de alto consumo* de grãos e doença cardiovascular incidental e câncer Grão Razão de possibilidades (95% de intervalo de confiança) Doença cardiovascular incidental Pão integral Cereal integral Grãos refinados Pão branco Arroz (branco e integral) Grãos totais Câncer incidental Pão integral Cereal integral Grãos refinados Pão branco Arroz (branco e integral) Grãos totais * Alto consumo é consumo acima da média. TABELA 12-6 Impacto de alto consumo* de grãos e doença cardiovascular incidental e câncer Grão Razão de possibilidades (95% de intervalo de confiança) Doença cardiovascular incidental Pão integral Cereal integral Grãos refinados Pão branco Arroz (branco e integral) Grãos totais Câncer incidental Pão integral Cereal integral Grãos refinados Pão branco Arroz (branco e integral) Grãos totais * Alto consumo é consumo acima da média. 0,85 (0,72, 0,97) 0,71 (0,63, 0,84) 1,05 (0,87, 1,36) 1,10 (0,95, 1,30) 0,99 (0,92, 1,04) 1,03 (0,91, 1,24) 0,91 (0,77, 0,99) 0,91 (0,86, 0,97) 0,97 (0,84, 1,06) 1,01 (0,95, 1,13) 0,94 (0,87, 1,02) 0,95 (0,86, 1,11) Em estudos maiores, é importante resumir as distribuições em vez de demonstrar observações reais. No Capítulo 4, discutimos histogramas e gráficos de barras como boas formas de resumir as distribuições de variáveis ordinais e categóricas, respectivamente. Aqui, recapitulamos essa discussão e acrescentamos um pouco mais de detalhes relativos ao projeto dessas visualizações. Gráficos de barras são usados para resumir variáveis dicotômicas e categóricas e são considerados as figuras mais fáceis de construir e entender. Em muitos estudos, é importante mostrar a distribuição de uma característica particular na amostra do estudo ou em subgrupos- chave da amostra. Novamente, considere o Exemplo 12.7, que discute os dados extraídos do relatório de avaliação de pessoas sem-teto de 2015 da Agência de Planejamento e Desenvolvimento Comunitário (Office of Community Planning and Development). A Figura 12–19 mostra a distribuição racial/étnica das pessoas sem-teto (como vimos no Capítulo 4, em que raça/etnia é uma variável categórica, portanto, um gráfico de barras é uma exibição gráfica adequada). As barras de um gráfico de barras podem ser verticais ou horizontais; podemos demonstrar frequências ou frequências relativas – a que fizer mais sentido para transmitir a mensagem desejada. As Figuras 12–19 e 12–20 são gráficos de barras que exibem os mesmos dados, apresentados verticalmente e depois horizontalmente. Qual formato é mais fácil de ler e interpretar? Você tem uma preferência? FIGURA 12–18 Distribuição das idades das mães em um estudo da síndrome da mortesúbita infantil Idade da mãe, anos FIGURA 12–19 Raça/etnia de pessoas sem-teto nos Estados Unidos, 2015 Pe rc en tu al Raça/Etnia Branco Afro- americano Asiático Nativo- americano procedent es das ilhas do Pacífico Multirraças Dados do Departamento de Habitação e Desenvolvimento Urbano dos EUA, Agência de Planejamento e Desenvolvimento Comunitário (US Department of Housing and Urban Development, Office of Community Planning and Development) Estimativas de ponto no tempo de pessoas sem-teto: Relatório Anual de Avaliação de Pessoas Sem-Teto 2015 [The 2015 Annual Homeless Assessment Report (HAR)] para o Congresso. https://www.hudexchange.info/resources/documents/2015-AHAR-Part-1.pdf. Novembro de 2015. FIGURA 12–20 Raça de pessoas sem-teto nos Estados Unidos, 2015 Percentual R aç a/ Et ni a Branco Afro-americano Asiático Nativo-americano procedentes das ilhas do Pacífico Multirraças Dados do Departamento de Habitação e Desenvolvimento Urbano dos EUA, Agência de Planejamento e Desenvolvimento Comunitário (US Department of Housing and Urban Development, Office of Community Planning and Development) Estimativas de ponto no tempo de pessoas sem-teto: Relatório Anual de Avaliação de Pessoas Sem-Teto 2015 [The 2015 Annual Homeless Assessment Report (HAR)] para o Congresso. https://www.hudexchange.info/resources/documents/2015-AHAR-Part-1.pdf. Novembro de 2015. A Figura 12–21 mostra os percentuais de pessoas sem-teto abrigadas e desabrigadas em 2015 por grupo etário. Devido às pessoas sem-teto serem classificadas como abrigadas ou desabrigadas (uma variável dicotômica), podemos simplificar a apresentação e mostrar apenas uma das respostas – por exemplo, os percentuais de desabrigados (Figura 12–22). Qual apresentação comunica os dados com mais eficiência? FIGURA 12–21 Percentuais de pessoas sem-teto que estão abrigadas e desabrigadas por grupo etário Abaixo de 18 18 a 24 Acima de 24 Abrigados Desabrigados Dados do Departamento de Habitação e Desenvolvimento Urbano dos EUA, Agência de Planejamento e Desenvolvimento Comunitário (US Department of Housing and Urban Development, Office of Community Planning and Development) Estimativas de ponto no tempo de pessoas sem-teto: Relatório Anual de Avaliação de Pessoas Sem-Teto 2015 [The 2015 Annual Homeless Assessment Report (HAR)] para o Congresso. https://www.hudexchange.info/resources/documents/2015-AHAR-Part-1.pdf. Novembro de 2015. Histogramas são usados para resumir as distribuições de variáveis ordinais. Por exemplo, a Figura 12–23 mostra o número de horas de atividade física por semana (uma variável ordinal, com respostas que variam de 0 a 15 horas por semana) para participantes que compareceram ao nono exame do Framingham Offspring Study. A distribuição de uma variável contínua também pode ser exibida em um histograma criando-se grupos para resumir os dados para apresentação. Os grupos podem ser definidos para incluir percentuais especificados dos dados (p. ex., 10 grupos, ou décimos) ou por limites clinicamente relevantes (p. ex., categorias de índice de massa corporal normal, sobrepeso e obeso; categorias de pressão sanguínea sistólica ótima, normal, pré-hipertensão e hipertensão). Histogramas podem ser feitos para mostrar frequências ou frequências relativas – a que for melhor para transmitir a mensagem. Como exemplo, a Figura 12–24 mostra a distribuição de colesterol sérico total, medido como variável contínua em miligramas por decilitro (mg/dl), em uma amostra de mais de 4.000 participantes. As medidas contínuas são organizadas em recipientes de aproximadamente 50 unidades de mg/dl cada (p. ex., 100–150 mg/dl, 150–200 mg/dl) para apresentação. FIGURA 12–22 Percentuais de pessoas sem-teto que estão desabrigadas por grupo etário Abaixo de 18 18 a 24 Acima de 24 Dados do Departamento de Habitação e Desenvolvimento Urbano dos EUA, Agência de Planejamento e Desenvolvimento Comunitário (US Department of Housing and Urban Development, Office of Community Planning and Development) Estimativas de ponto no tempo de pessoas sem-teto: Relatório Anual de Avaliação de Pessoas Sem-Teto 2015 [The 2015 Annual Homeless Assessment Report (HAR)] para o Congresso. https://www.hudexchange.info/resources/documents/2015-AHAR-Part-1.pdf. Novembro de 2015. Idade, anos Pe rc en tu al d e de sa br ig ad os FIGURA 12–23 Horas de atividade física por semana Horas de atividade física por semana Pe rc en tu al FIGURA 12–24 Distribuição do colesterol sérico total (mg/dl) Fr eq uê nc ia Colesterol sérico total Conforme discutido no Capítulo 4, as distribuições de variáveis contínuas também podem ser exibidas usando diagramas de caixas. Os mesmos dados mostrados na Figura 12–24 são apresentados em um diagrama de caixa na Figura 12–25. Lembre-se de que, em um diagrama de caixa, a linha horizontal do meio é a mediana, as linhas horizontais superiores e inferiores representam os limites para detectar valores atípicos [ou seja, Q1 − 1,5(Q3 − Q1) e Q3 + 1,5(Q3 − Q1)] e os pontos representam valores atípicos. Qual figura melhor transmite para um leitor a distribuição de colesterol sérico total na amostra do estudo? Diagramas de caixa também são úteis para comparar distribuições de variáveis contínuas entre grupos. Por exemplo, a Figura 12–26 mostra as distribuições do colesterol sérico total em homens e mulheres. Qual a comparação entre o colesterol sérico total em homens e mulheres? FIGURA 12–25 Distribuição do colesterol sérico total (mg/dl) C ol es te ro l s ér ic o to ta l 12.4.4 Figuras para comparar estimativas entre grupos Nos Capítulos 6, 7, 10 e 11, discutimos várias técnicas estatísticas para comparar dois ou mais grupos em resultados dicotômicos, categóricos, ordinais, contínuos e no momento do evento. Com resultados dicotômicos, categóricos e ordinais, a comparação é geralmente de proporções ou percentuais. Com resultados contínuos, geralmente se envolvem médias, presumindo que tenhamos amostras razoavelmente amplas e resultados distribuídos de modo aproximadamente normal; do contrário, focamos em comparar distribuições usando testes não paramétricos. Com resultados no momento do evento, geralmente comparamos curvas de sobrevivência. Não importando as estatísticas que são comparadas, como prática geral, devemos também apresentar estimativas de variabilidade, tais como erros padrão ou intervalos de confiança para cada grupo, para que os leitores possam julgar se os grupos são significativamente diferentes. Considere novamente o Exemplo 12.4, que descreveu um estudo de coorte que avaliou diferenças entre pesos ao nascer e outros resultados de gravidez de bebês nascidos de mães de diferentes contextos raciais/étnicos. Suponha que estejamos interessados em estimar e FIGURA 12–26 Distribuição do colesterol sérico total (mg/dl) em homens e mulheres Masculino Feminino comparar pesos médios ao nascer, em gramas, por raça/etnia. A Figura 12–27 apresenta pesos médios ao nascer junto com erros padrão dos pesos médios ao nascer em cada grupo racial/étnico. Erros padrão quantificam a variabilidade nas estimativas do peso médio ao nascer em cada grupo. Suponha que uma análise de variância seja feita e revele uma diferença estatisticamente significativa em pesos médios ao nascer entre os três grupos raciais/étnicos com p = 0,04. Pode ser interessante também avaliar diferenças em pares nos pesos médios ao nascer. Poderíamos