Gráficos e medidas-resumo

Bioestatística I

•

UFES

Camilla Loren

11/01/2021

Prévia do material em texto

1 @nutristudies.loren 
→ Transmitem informações dos dados com rapidez 
 
 
→ Quando bem construído permite que o leitor entenda 
as principais característica dos dados 
 
→ Permite verificar a distribuição dos dados de forma 
bem visual 
 
→ Fica a critérios do autor se vai usar gráficos ou tabela 
 
→ Tipos: 
 
 
 
 
→ Fácil interpretação 
 
 
 
 
 
 
 
GRÁFICOS DE BARRAS 
→ Usado para apresentar ou descrever variáveis 
QUALITATIVAS ou quantitativas discreta 
- Preferivelmente qual. ordinais 
 
→ Qual a interpretação? 
- Cada barra representa o n° cada indivíduos (p.ex.) 
em relação a uma resposta 
 
→ Linhas de grade – gráficos 3D 
 
- Frequência de fumantes no sexo feminino e no 
masculino 
 
→ Barras horizontais 
 
 
 
 
 
 
2 @nutristudies.loren 
→ Representação gráfica de 2 ou mais variáveis 
 
- Mostra que a prevalência de excesso de peso e 
obesidade é maior em crianças entre 0 a 8 anos 
 
 
- Mostra que tanto o consumo de refrigerante quanto 
de suco é maior pelos adolescentes do que pelos 
idosos 
 
- Idosos consomem mais leite integral do que 
adolescentes e adultos 
 
→ As categorias (casado, solteiro, divorciado/separado, 
viúvo) são representados pelas barras 
 
→ Barras: 
- Base: tamanho arbitrário (não segue regra) 
- Altura: proporcional á frequência relativa (%) ou 
absoluta (n) 
 
ELEMENETOS OBRIGATÓRIOS 
→ Título – abaixo do gráfico/figura 
→ Fonte – abaixo da figura; refere-se a uma 
“característica” generalizada – p.ex. estado civil 
 
→ Nome dos eixos: 
- Eixo x: horizontal, categorias da variável 
- Eixo y: vertical, freq. absoluta ou relativa 
 
→ Escala: mostra quanto de quanto temos no eixo y 
 
 
- Mesmas “informações”, mas com escalas diferentes 
o que muda a altura das barras 
 
 
GRAFICOS DE SETORES 
→ Muito usado para apresentar variáveis qualitativas ou 
quantitativas discretas, desde que o n° de categorias 
seja pequeno 
- Preferivelmente nominais 
 
→ Qualitativas nominais – apresenta forma circular e 
não estabelece uma ordem 
 
→ O círculo é 100% 
 
 
→ Tamanho de cada “fatia” é proporcional a freq. 
relativa de indivíduos na categoria 
 
→ Interpretação é feita através da leitura da legenda 
 
 
 
3 @nutristudies.loren 
 
→ Não deve usar para descrever variáveis com muitas 
categorias 
 
 
 
GRAFICOS DE LINHAS 
→ Usado para representar variáveis quantitativas 
relativas ao tempo 
 
• Eixo horizontal: escala temporal (ano, meses, dia...) 
• Eixo vertical: variável a ser estudada (frequência, 
taxa...) 
 
 
→ Cada mensuração é um ponto nos eixos 
 
→ Os segmentos de reta unem os pontos 
 
→ Muito bons para reduzir as informações visualmente 
 
 
→ Gráfico com várias informações 
 
- Eixo horizontal: idade 
- Eixo horizontal: freq. de aleitamento 
- Linhas - cores e símbolos: anos 
GRAFICO DE DISPERSÃO 
→ Representa a relação entre duas variáveis 
quantitativas continuas distintas 
- Relação de causa e efeito entre as variáveis 
 
→ Cada ponto no gráfico representa um par de valores 
 
→ Um depende do outro 
 
 
 
-Percebe-se uma tendência de aumento: conforme 
aumenta o IMC, aumenta o % de gordura 
- Eixo X – variável 1 – independente 
- Eixo Y – variável 2 – dependente 
Ou seja, o aumento do % de gordura depende do 
aumento de IMC 
 
→ Como quantificar essa relação/ tendência de 
aumento? 
- Essa relação é expressa pelo valor de R2 ou 
coeficiente de determinação 
 
- R2: entre 0 e 1 ou entre 0% e 100% 
 
- O programa estatístico faz o cálculo de R2 e 
dispõe a linha central 
 
 
R2 = 0,744 – pode ser considerado um valor alto por 
estar mais próximo do valor 1 e indica que o % de 
gordura aumenta à medida que o IMC aumenta 
 
- Quanto mais próximo da linha central (regressão 
perfeita), maior o R2 mais próximo da tendência de 
algo acontecer 
 
 
4 @nutristudies.loren 
 
- Relação linear positiva e forte entre as duas variáveis - 
o IMC pode ser um bom preditor de porcentagem de 
gordura do corpo 
 
- A variação do percentual de gordura é 74,4% 
explicado pela variação do IMC 
 
- Se atentar a direção da reta: positiva – crescente; 
negativa: decrescente 
→ Utilizadas para caracterizar um conjunto de dados 
quantitativos 
 
 
 
MEDIDAS DE TENDENCIA CENTRAL 
→ Caracterizam um conjunto de observações por meio 
de um valor em torno do qual se distribuem 
 
→ Representam os dados de forma ainda mais 
condensada do que as tabelas e gráficos 
 
 
MÉDIA 
→ Mais utilizada 
 
→ Sintetiza em um único valor todas as observações 
amostrais 
 
→ “centro da gravidade” de uma distribuição 
Soma das observações amostrais/ n° total de 
observações 
 
 
→ Variáveis quantitativas discretas 
- Quando a amostra é grande, normalmente há 
valores repetidos – organizar em tabela de 
frequência 
Exemplo 1: 
 
- 6 pessoas não têm nenhum filho, 8 pessoas têm 1 filho... 
 
 
 
- Multiplica o n° de filhos pela frequência, depois soma os 
resultados dessa multiplicação e divide pelo total da 
frequência = média 
 
 
 
 
 
5 @nutristudies.loren 
Exemplo 2: 
N° de doenças relatadas por 10 adultos pacientes em 
um Hospital de Vitória-ES 
 
 
 
 
→ Média de dados agrupados em classes – é preciso 
calcular o valor central da classe 
Média de estatura de 30 adolescentes, conforme o 
estado nutricional 
 
 
- Valor central é a média dos dois extremos de classe: 
(valor mínimo + valor máximo) / 2 
 
Classe 1: (1,5 + 1,9) / 2 = 1,75 
 
 
MEDIANA 
→ Valor que o ocupa a posição central de uma série de 
observações, quando ordenadas de forma crescente 
ou decrescentes 
 
→ Se a amostra tiver dimensão impar – mediana sempre 
coincide com a observação central 
 
→ Se for dimensão par - mediana toma o valor da 
média das duas observações mais centrais 
 
 
 
→ Dados discrepantes – valores muito fora daquilo com 
que estamos trabalhando 
 
 
→ Quando usar média ou mediana? 
 
 
- Próximos da média há mais produtos, produtos mais 
caros ou mais baratos não estão tão próximo da media 
 
6 @nutristudies.loren 
 
 
- 13,90 não representa nem os valores mais baixos, nem 
os mais altos; 100 é um dado discrepante 
→ Existem casos, em que o uso da média aritmética é 
mais razoável do que a mediana que um valor 
discrepante 
 
 
 
MODA 
→ Valor da variável que ocorre com maior frequência 
 
→ Um conjunto de dados pode não ter moda, ou ter 
duas ou mais moda: 
• Amodal: nenhum valor se repete 
• Unimodal: apenas um valor repetido com maior freq. 
• Bimodal: dois valores com mesma frequência 
• Multimodal: + de 2 valores com mesma frequência 
 
→ Quando uma tabela de distribuição de freq. 
apresenta grande quantidade de dados 
- Destaca-se a classe de maior freq. – classe modal 
- Área em que os dados estão mais concentrados 
 
 
→ Também pode ser usado para dados qualitativos – 
categoria que mais ocorre 
 
 
 
 
MEDIDAS DE DISPERSÃO 
→ Medem a variabilidade e o grau de agregação dos 
dados, ou seja, sua dispersão 
 
→ Por causa da variabilidade, a média, a mediana e a 
moda não são suficientes para descrever um 
conjunto 
 
→ São necessárias medidas que reflitam a variação 
dentro de um conjunto de dados 
 
→ Permite comparar amostras de diferentes tamanhos e 
determinar se uma amostra é mais 
variável/heterogênea que a outra 
 
 
→ Mostra quanto que uma informação varia em 
relação a outra 
 
- A: teve pouco variabilidade de altura 
- B: altura variou muito mais 
- Quando tiver valor bem próximos – pouca variação 
 
AMPLITUDE 
→ Mínimo: conjunto de dados é o n° de menor valor 
→ Máximo: conjunto de dados é o n° de maior valor 
 
7 @nutristudies.loren 
Valores extremos da distribuição 
→ Para calcular a variabilidade: 
- Obtém-se os valores máx. e mín. e calcula a 
amplitude 
 
 
→ Bem fácil de calcular e interpretar→ Não mede bem a variabilidade – pois usa apenas os 
dois valores extremos 
 
→ 2 conjuntos de dados podem ter variabilidade 
diferente, mas terem mesma amplitude 
 
→ Quando há valores discrepantes: 
 
 
 
VARIÂNCIA E DESVIO PADRÃO 
VARIÂNCIA 
→ Medida de variabilidade dos dados em torno da 
média 
 
→ Diferença (desvio) de cada observação em relação 
à média 
 
→ Quanto maior os desvios, maior a variabilidade 
presente nos dados 
 
→ Como calcular: 
- 1°. calcula a média das observações e subtrai o 
resultado da média do valor de observações, para 
obter o desvio 
- 2°. elevar cada desvio ao quadrado para ficar 
positivo e obter o quadrado dos desvios para fazer o 
cálculo 
3°. soma o valor dos quadrados dos desvios 
4°. Divida o resultado por n-1 – n = n° é observações 
 
 
→ A variância é valor das somas dos quadrados dos 
desvios de cada observação dividida por (n-1) 
 
→ Desvantagem: não está na mesma unidade das 
variáveis 
 
DESVIO PADRÃO 
→ É a raiz quadrada da variância 
 
 
→ Mede a dispersão/afastamento dos valores em 
relação a média 
 
→ Quanto maior o desvio padrão, maior a variabilidade 
 
 
→ Valor de DP pequeno: dados tendem estarem mais 
próximo da média 
 
→ Valores de DP grande: dados distantes da média 
- A média não é uma representação precisa dos 
dados 
 
 
 
8 @nutristudies.loren 
COEFICIENTE DE VARIAÇÃO 
→ É a razão entre o desvio padrão e a média 
 
→ O resultado é multiplicado por 100, para que o 
coeficiente de variação seja dado em porcentagem 
 
→ Quanto menor o coef. de variação (CV) – mais 
homogêneo os dados 
 
→ Possibilita comparação de distribuições diferentes 
 
→ Quanto maior for a dispersão no conjunto de 
observações, maior será o valor do coef. De variação 
 
 
→ Pode ser classificado em: 
- Ótimo – CV <10% (baixo) 
- Bom – CV <20% (médio) 
- Regular – CV <30% (alto) 
- Ruim – CV >30% (muito alto)