Teste t de Student e ANOVA - Saúde Coletiva 4

Propaganda
UNIVERSIDADE FEDERAL DO PARÁ
INSTITUTO DE CIÊNCIAS DA SAÚDE
FACULDADE DE ODONTOLOGIA
Odontologia em Saúde Coletiva IV
Prof.ª Dr.ª Ana Daniela Silva da Silveira
REVISAR É PRECISO!
LEMBRAM DOS FEIJÕES?!??
EXISTE
DIFERENÇA
QUANTO AO
TEMPO DE
COZIMENTO?
QUAIS AS HIPÓTESES?
EXISTE DIFERENÇA QUANTO AO TEMPO DE COZIMENTO?
1- NÃO! NÃO EXISTE DIFERENÇA, OU SEJA, OS TEMPOS SÃO
IGUAIS...
2- SIM! EXISTE DIFERENÇA...
O meu estudo seguirá esta ordem…
1. Definir as hipóteses
3. Adotar o nível de significância (α)
2. Identificar as variáveis
4. Tomar a decisão quanto ao tipo
Analisar as variáveis quanto:
de
 Natureza: numérica ou categórica;
minimizar.
 Distribuição: normal ou anormal;
5. Escolher o teste que seja o mais
 Continuidade;
adequado para minha decisão.
 Instabilidade;
erro
que
quero
evitar
ou
Realizou-se uma pesquisa com o objetivo de se verificar se existe diferença entre o
tempo de cozimento do feijão marrom e do tempo de cozimento do feijão preto.
Foram feitas 10 análises para cada um dos grupos...
Análises
Feijão marrom
Feijão preto
1
33
45
2
35
49
3
33.5
46.5
4
40
46
5
37
52
6
38
57
7
41
55
8
34
57
9
34.2
56
10
35
51
MÉDIA (±DP)
36,07(±2,8)
51,45(±4,6)
Distribuição dos valores de tempo
de cozimento dos feijões marrons
O que eu entendo ao
analisar este gráfico?
95%
 - 2dp
30,47
36,07
 + 2dp
41,66
Distribuição dos valores de tempo
de cozimento dos feijões marrons
Que o tempo de
cozimento médio dos
feijões marrons é de
36,07 minutos, com
intervalo de confiança
de 30,47 – 41,66
 - 2dp
30,47
95%
36,07
Entendo também que, se
eu respeitei os padrões de
amostragem, significa que
a chance da média de
tempo de cozimento da
população de feijões ser
maior que 30,47 e menor
que 41,66 é de 95%
 + 2dp
41,66
Distribuição dos valores de tempo de cozimento
Feijão marrom
36,07(±2,8)
Feijão preto
51,45(±4,6)
Então, neste caso, vou
assumir o parâmetro
de 5%
Zona de rejeição = 2,5%
 - 2dp
30,47
α=0,05
95%
36,07
41,66
Zona de rejeição = 2,5%
Feijão preto
Feijão marrom
30,47
36,07
41,66
42,08
51,45
60,81
*Me perdoem os matemáticos e estatísticos, mas esse esquema foi o que eu consegui criar para explicar o próximo slide...
O valor de p
O valor de p é a probabilidade de dois grupos serem iguais, ou seja, aceitar H0!
Em geral, assume-se um parâmetro de análise para o p, um nível de decisão para se descartar H0 e se
dizer, com segurança, que de fato há diferença entre os grupos. Este nível de decisão é exatamente o
valor de α, ou nível de significância.
Geralmente, este nível de decisão é de 5%, ou seja, o valor de p, ou p valor, deve ser menor que 0,05
para que se diga que os grupos são diferentes entre si, rejeitar H0, ou como estamos acostumados a
dizer, ter diferença estatisticamente significante.
Como eu faço para descobrir o calor de p?
Eu preciso testar as hipóteses...
E como eu faço isso?
UNIVERSIDADE FEDERAL DO PARÁ
INSTITUTO DE CIÊNCIAS DA SAÚDE
FACULDADE DE ODONTOLOGIA
Odontologia em Saúde Coletiva IV
Prof.ª Dr.ª Ana Daniela Silva da Silveira
Os testes de hipóteses que eu vou
utilizar
dependem
de
algumas
características do meu estudo e das
minhas variáveis...
Classificação das Variáveis
TIPO
CLASSE
SUB-CLASSE
-
EXEMPLOS
CATEGÓRICAS
Nominal
Exaustivas
Gênero musical preferido
Mutuamente
Exclusivas
Sexo, Cor dos Olhos,
Etnia
Ordinal
QUANTITATIVAS
Contínua
Discreta
Fonte: Berquó et al, 1981; Costa, 1998 apud Roncalli, 2008
Escolaridade
Intervalar
Temperatura
Racional
Idade, Peso, Altura
Número de Dentes
Cariados, Perdidos e
Obturado (CPO-D)
Princípio para aplicação de Testes
A aplicação adequada de um teste estatístico
depende de alguns fatores:
1- O tipo de pergunta que se deseja responder
1- A classificação da variável dependente e da independente
Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008
Princípio para aplicação de Testes
Desse modo, são possíveis várias combinações em
função destes fatores:
Variável
Dependente
Variável
Independente
Pergunta
Quantitativa
Contínua/
Discreta
Quantitativa
Contínua/ Discreta
As variáveis se correlacionam
entre si? Com que
magnitude?
Categórica
Categórica
Quantitativa
Contínua/
Discreta
Categórica
As médias (ou medianas) da
variável dependente diferem
entre as categorias da
variável independente?
Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008
Pergunta da Pesquisa: As médias da variável
dependente diferem entre os grupos estudados?
1a Pergunta: Os dados apresentam distribuição normal?
Sim – Testes
Paramétricos
Não – Testes
Não-Paramétricos
2a Pergunta: Com quantos grupos ou com quantas
categorias da variável estou trabalhando?
2 grupos
Mais de
2 grupos
2 grupos
Mais de
2 grupos
3a Pergunta: Existe vinculação entre as categorias da variável?
Sim
Não
Sim
Não
Sim
Não
Sim
Não
Friedman
KruskalWallis
4a Pergunta: Qual teste devo usar?
Teste “t”
Pareado
Teste “t”
Análise
Variância
Análise
Variância
Wilcoxon
MannWhitney
Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008
1a Pergunta: Qual o tipo de variável?
Quantitativa
Categórica
2a Pergunta: Com quantos grupos ou com quantas
categorias da variável estou trabalhando?
Mais de
2 grupos
2 grupos
2 grupos
Mais de
2 grupos
3a Pergunta: Os dados apresentam distribuição normal?
Sim
Não
Sim
Não
Não
Não
4a Pergunta: Qual teste devo usar?
Correlação Correlação
Pearson
Spearman
Regressão
Múltipla
Regressão
Múltipla
QuiQuadrado
Exato de
Fisher
n > 20
n < 20
Regressão
Logística
Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008
Pergunta da Pesquisa: As variáveis dependente e
independente se correlacionam entre si? Qual a magnitude?
Comparando médias de
populações com
Distribuição Normal:
Teste “t” de Student
Teste t-Student
O teste t-Student é um teste paramétrico de largo uso. Como ele analisa amostras
quantitativas, seu objetivo vai ser comparar os dois grupos...
Devemos observar:
a) amostras randômicas de cada população investigada;
b) as variâncias devem ser homogêneas;
c) as variáveis das populações de onde as amostras foram selecionadas devem
apresentar distribuição aproximadamente normal.
Teste t-Student – situações...
- As duas médias, relativas à mesma variável
quantitativa, se referem a duas populações cujas
variâncias, embora desconhecidas, são iguais.
- As duas médias, relativas à mesma variável
quantitativa, se referem a duas populações cujas
variâncias, embora desconhecidas, são
diferentes.
- As duas médias se referem a duas medidas
relativas à mesma variável quantitativa, tomadas
dos mesmos elementos de uma população, mas
em duas situações distintas
2
1
s
F 2
s 2
Teste t-Student – situações...
- As duas médias, relativas à mesma variável
quantitativa, se referem a duas populações cujas
variâncias, embora desconhecidas, são iguais
(homocedásticas).
t
Onde S² é a variância
ponderada das duas
amostras...
x1  x2
1 1 2
   s
 n1 n2 
s
2

n1 1 s

 n2 1 s
n1  n2  2
2
1
2
2
Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008
Teste t-Student – situações...
- As duas médias, relativas à mesma variável
quantitativa, se referem a duas populações cujas
variâncias, embora desconhecidas, são
diferentes (heterocedásticas).
t
x1  x2
2
1
O valor de t dependerá dos
graus de liberdade...
2
s
s 2

n1 n2
2
s
s 2



n1 n2 

g
2
2
2
2
s 1 s 2
  

 n1    n2 
n1  1
n2  1
2
1
2
Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008
Exemplo…
Tamanho da amostra, média e variância da estatura,
em centímetros, de recém-nascidos não-portadores
de anomalias congênitas, segundo sexo.
Sexo
n
x
S2
Masc
1.442
49,29
5,76
Fem
1.361
48,54
6,30
Fonte: Arena, 1976, apud Vieira, 1981
Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008
Na prática…
Duas populações
distintas
Sexo
n
x
S2
Masc
1.442
49,29
5,76
Fem
1.361
48,54
6,30
Na prática…
Na prática…
Observar o que temos:
1- Quantas amostras?
2- São relacionadas ou
independentes?
3- Eu tenho todos os dados?
Na prática…
Observar o que temos:
1- Quantas amostras?
2- São relacionadas ou
independentes?
3- Eu tenho todos os dados?
Na prática…
Observar o que temos:
1- Quantas amostras?
2- São relacionadas ou
independentes?
3- Eu tenho todos os dados?
Na prática…
Na prática…
Mas o que é o valor de p
mesmo?
Mas o que é o valor de p mesmo?
O valor de p é a probabilidade de dois grupos serem iguais, ou seja, aceitar
H0!
Em geral, assume-se um parâmetro de análise para o p, um nível de decisão
para se descartar H0 e se dizer, com segurança, que de fato há diferença
entre os grupos. Este nível de decisão é exatamente o valor de α, ou nível
de significância.
Geralmente, este nível de decisão (α ) é de 5%, ou seja, o valor de p, ou p
valor, deve ser menor que 0,05 para que se diga que os grupos são diferentes
entre si, rejeitar H0, ou como estamos acostumados a dizer, ter diferença
estatisticamente significante.
Na prática…
Teste t-Student – situações...
- As duas médias se referem a duas medidas
relativas à mesma variável quantitativa, tomadas
dos mesmos elementos de uma população, mas
em duas situações distintas
t
d
2
s
n
Onde d é a média das
diferenças entre cada par de
dados e S² a variância desta
média.
O “t” encontrado está
associado a n – 1 graus de
liberdade
Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008
Exemplo…
Exemplo 2…
Na prática…
Vamos supor que eu quero fazer um estudo e definir o valor de cor (∆E) em dentes
de boi em duas situações; antes e depois de aplicar algum produto clareador que
eu inventei... (estudo fictício)
Na prática…
Observar o que temos:
1- Quantas amostras?
2- São relacionadas ou
independentes?
3- Eu tenho todos os dados?
Na prática…
Na prática…
Na prática…
Na prática…
Comparando médias de
populações com
Distribuição Normal: a
Análise de Variância
A Análise de Variância - ANOVA
É o teste estatístico indicado para variáveis com distribuição
normal, estabelecendo a comparação entre três ou mais médias.
Pode ser de dois tipos:
One-way – quando os elementos foram categorizados de um único
modo – tipo de medicamento
Two-way – Quando os elementos foram categorizados de dois
modos – tipo de medicamento e sexo
Adaptado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008
A Análise de Variância - ANOVA
Vimos que o teste t serve para a comparação entre duas
amostras. Agora, iremos comparar três ou mais...
O uso do ANOVA
Ex.: testar
4 drogas
diferentes (diuréticos) ao mesmo tempo e avaliar o efeito
indicará
a probabilidade
de sedroga
rejeitarsobre
H0... Se,
ao
de cada
o débito
urinário em 16 voluntários.
final H0 for rejeitada
deve-se proceder
para2a a 2 (6 testes t separados)
teste t: comparar
os grupos
comparação 2 a 2
- perda de tempo
- erro tipo I de 30% (5% de erro em 6 análises)
Então, vamos usar o teste ANOVA (comparação de pares):
Ulisses Doria Filho. Introdução a Bioestatística para simples mortais. Rio de Janeiro: Elsevier; 2003. p. 114-20
A Análise de Variância - ANOVA
Princípio básico do Teste ANOVA:
Em uma tabela de dados com determinado número de repetições
(indivíduos, p.ex.) e de tratamentos (grupos de estudo, p.ex.), espera-se
que a variação entre os grupos seja superior àquela inerente ao modelo
(resíduo) dentro de determinados limites.
Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008
A Análise de Variância - ANOVA
Comparação entre as médias de grupos estudados.
Grupo A
Grupo B
Grupo C
Variância
1
2
3
4
5
Variância
Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008
A Análise de Variância - ANOVA
Comparação entre as médias de grupos estudados.
Grupo A
Grupo B
Grupo C
Variância
1
2
3
4
5
Variância
Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008
A Análise de Variância - ANOVA
Comparação entre as médias de grupos estudados.
Grupo A
Grupo B
Grupo C
Variância
1
2
3
4
5
Variância
Entre os Grupos
Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008
A Análise de Variância - ANOVA
Comparação entre as médias de grupos estudados.
Grupo A
Grupo B
Grupo C
Variância
1
2
3
No Modelo (Resíduo)
4
5
Variância
Entre os Grupos
Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008
A Análise de Variância - ANOVA
Para se determinar essa variação dos dados, procede-se com o teste F
estimação da variância ENTRE os grupos
F = estimação da variância DENTRO dos grupos
A Análise de Variância - ANOVA
O Pós-Teste de Tukey-Kramer
O teste ANOVA nos informa somente se há diferença entre os grupos. Para
saber onde residem as diferenças, usa-se o Pós-Teste de Tukey
Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008
EXEMPLO
Foi efetuada uma investigação em três grupos de estudantes: o grupo A estava
constituído por seis (6) alunos não-fumantes (NF); o segundo, por seis (6)
discentes que fumavam moderadamente em torno de dez (10) a quinze (15)
cigarros por dia (FM); e o terceiro, por cinco (5)
estudantes que fumavam mais de 40 cigarros
por dia (FI). Mediu-se a função pulmonar através
do fluxo médio expiratório.
H0: o fumo não influencia a função pulmonar
medida pelo fluxo médio expiratório:
H1: o fumo influencia a função pulmonar
medida pelo fluxo médio expiratório, havendo
diferença, pelo menos, entre duas médias.
Nível de decisão: alfa = 0.01.
BIOHELP.pdf, 2007
Na prática…
Vamos supor que eu quero fazer um estudo e definir o valor de cor (∆E) em dentes
de boi em duas situações; imediatamente após, 6 meses depois e um ano depois
de aplicar algum produto clareador que eu inventei... (estudo fictício)
Na prática…
Observar o que temos:
1- Quantas amostras?
2- São relacionadas ou
independentes?
3- Eu tenho todos os dados?
Na prática…
Na prática…
Na prática…
O uso do ANOVA
indicará a probabilidade
de se rejeitar H0... Se, ao
E SE DESSE DIFERENÇA?
final H0 for rejeitada
deve-se proceder para a
comparação 2 a 2
Na prática…
Na prática…
No BIOESTAT 5.0 é possível ainda verificar a interferência de mais de uma variável...
EXEMPLO
Em uma escola do ensino médio efetuou-se levantamento sobre o número de
alunos reprovados nas disciplinas Ciências, Matemática e Português (tratamentos),
ao mesmo tempo em que se procurou verificar a proporção dos inabilitados nessas
matérias nos turnos da Manhã (linha 1), da Tarde (linha 2) e da Noite (linha 3).
Em cada turno estavam matriculados 800 discentes, de onde foram retiradas as
amostras.
H0: o tipo de disciplina cursada não afeta os índices de reprovação;
H1: pelo menos duas médias são diferentes;
H0: o turno cursado pelo estudante não afeta os índices de reprovação;
H1: pelo menos duas médias são diferentes;
Nível de decisão: alfa = 0.05.
Na prática…
Na prática…
Na prática…
Ciências, Matemática, Português
Manhã, tarde e noite
Na prática…
Ciências, Matemática, Português
Manhã, tarde e noite
Então, ‘bora’ estudar...
1- Baixem o arquivo “Aula 9 – Teste t de Student e ANOVA.xlsx” que é um
banco de dados tabulado no Microsoft Excel.
2- Observem que estes dados são fictícios e o suposto estudo também
é...
3- Faça a estatística das planilhas ‘Exercício 1’, ‘Exercício 2’ e ‘Exercício 3’...
4- Para cada passo, proceda com o “print screen” da sua tela de
computador...
5- O exercício pode ser feito em dupla, mas a entrega é individual
6- Você pode usar qualquer software estatístico que desejar
Então, ‘bora’ estudar...
1- Baixem o arquivo “Aula 9 – Teste t de Student e ANOVA.xlsx” que é um
banco de dados tabulado no Microsoft Excel.
2- Observem que estes dados são fictícios e o suposto estudo também
é...
3- Faça a estatística das planilhas ‘Exercício 1’, ‘Exercício 2’ e ‘Exercício 3’...
4- Para cada passo, proceda com o “print screen” da sua tela de
computador...
5- O exercício pode ser em dupla
6- Você pode usar qualquer software estatístico que desejar
FIM!
Qualquer dúvida, entrem em contato!
CONTATOS:
 Profª Ana Daniela Silveira: [email protected]
https://www.facebook.com/professora.anadaniela.3
 Profª Maria Amélia: [email protected]
Download