UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS DA SAÚDE FACULDADE DE ODONTOLOGIA Odontologia em Saúde Coletiva IV Prof.ª Dr.ª Ana Daniela Silva da Silveira REVISAR É PRECISO! LEMBRAM DOS FEIJÕES?!?? EXISTE DIFERENÇA QUANTO AO TEMPO DE COZIMENTO? QUAIS AS HIPÓTESES? EXISTE DIFERENÇA QUANTO AO TEMPO DE COZIMENTO? 1- NÃO! NÃO EXISTE DIFERENÇA, OU SEJA, OS TEMPOS SÃO IGUAIS... 2- SIM! EXISTE DIFERENÇA... O meu estudo seguirá esta ordem… 1. Definir as hipóteses 3. Adotar o nível de significância (α) 2. Identificar as variáveis 4. Tomar a decisão quanto ao tipo Analisar as variáveis quanto: de Natureza: numérica ou categórica; minimizar. Distribuição: normal ou anormal; 5. Escolher o teste que seja o mais Continuidade; adequado para minha decisão. Instabilidade; erro que quero evitar ou Realizou-se uma pesquisa com o objetivo de se verificar se existe diferença entre o tempo de cozimento do feijão marrom e do tempo de cozimento do feijão preto. Foram feitas 10 análises para cada um dos grupos... Análises Feijão marrom Feijão preto 1 33 45 2 35 49 3 33.5 46.5 4 40 46 5 37 52 6 38 57 7 41 55 8 34 57 9 34.2 56 10 35 51 MÉDIA (±DP) 36,07(±2,8) 51,45(±4,6) Distribuição dos valores de tempo de cozimento dos feijões marrons O que eu entendo ao analisar este gráfico? 95% - 2dp 30,47 36,07 + 2dp 41,66 Distribuição dos valores de tempo de cozimento dos feijões marrons Que o tempo de cozimento médio dos feijões marrons é de 36,07 minutos, com intervalo de confiança de 30,47 – 41,66 - 2dp 30,47 95% 36,07 Entendo também que, se eu respeitei os padrões de amostragem, significa que a chance da média de tempo de cozimento da população de feijões ser maior que 30,47 e menor que 41,66 é de 95% + 2dp 41,66 Distribuição dos valores de tempo de cozimento Feijão marrom 36,07(±2,8) Feijão preto 51,45(±4,6) Então, neste caso, vou assumir o parâmetro de 5% Zona de rejeição = 2,5% - 2dp 30,47 α=0,05 95% 36,07 41,66 Zona de rejeição = 2,5% Feijão preto Feijão marrom 30,47 36,07 41,66 42,08 51,45 60,81 *Me perdoem os matemáticos e estatísticos, mas esse esquema foi o que eu consegui criar para explicar o próximo slide... O valor de p O valor de p é a probabilidade de dois grupos serem iguais, ou seja, aceitar H0! Em geral, assume-se um parâmetro de análise para o p, um nível de decisão para se descartar H0 e se dizer, com segurança, que de fato há diferença entre os grupos. Este nível de decisão é exatamente o valor de α, ou nível de significância. Geralmente, este nível de decisão é de 5%, ou seja, o valor de p, ou p valor, deve ser menor que 0,05 para que se diga que os grupos são diferentes entre si, rejeitar H0, ou como estamos acostumados a dizer, ter diferença estatisticamente significante. Como eu faço para descobrir o calor de p? Eu preciso testar as hipóteses... E como eu faço isso? UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS DA SAÚDE FACULDADE DE ODONTOLOGIA Odontologia em Saúde Coletiva IV Prof.ª Dr.ª Ana Daniela Silva da Silveira Os testes de hipóteses que eu vou utilizar dependem de algumas características do meu estudo e das minhas variáveis... Classificação das Variáveis TIPO CLASSE SUB-CLASSE - EXEMPLOS CATEGÓRICAS Nominal Exaustivas Gênero musical preferido Mutuamente Exclusivas Sexo, Cor dos Olhos, Etnia Ordinal QUANTITATIVAS Contínua Discreta Fonte: Berquó et al, 1981; Costa, 1998 apud Roncalli, 2008 Escolaridade Intervalar Temperatura Racional Idade, Peso, Altura Número de Dentes Cariados, Perdidos e Obturado (CPO-D) Princípio para aplicação de Testes A aplicação adequada de um teste estatístico depende de alguns fatores: 1- O tipo de pergunta que se deseja responder 1- A classificação da variável dependente e da independente Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008 Princípio para aplicação de Testes Desse modo, são possíveis várias combinações em função destes fatores: Variável Dependente Variável Independente Pergunta Quantitativa Contínua/ Discreta Quantitativa Contínua/ Discreta As variáveis se correlacionam entre si? Com que magnitude? Categórica Categórica Quantitativa Contínua/ Discreta Categórica As médias (ou medianas) da variável dependente diferem entre as categorias da variável independente? Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008 Pergunta da Pesquisa: As médias da variável dependente diferem entre os grupos estudados? 1a Pergunta: Os dados apresentam distribuição normal? Sim – Testes Paramétricos Não – Testes Não-Paramétricos 2a Pergunta: Com quantos grupos ou com quantas categorias da variável estou trabalhando? 2 grupos Mais de 2 grupos 2 grupos Mais de 2 grupos 3a Pergunta: Existe vinculação entre as categorias da variável? Sim Não Sim Não Sim Não Sim Não Friedman KruskalWallis 4a Pergunta: Qual teste devo usar? Teste “t” Pareado Teste “t” Análise Variância Análise Variância Wilcoxon MannWhitney Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008 1a Pergunta: Qual o tipo de variável? Quantitativa Categórica 2a Pergunta: Com quantos grupos ou com quantas categorias da variável estou trabalhando? Mais de 2 grupos 2 grupos 2 grupos Mais de 2 grupos 3a Pergunta: Os dados apresentam distribuição normal? Sim Não Sim Não Não Não 4a Pergunta: Qual teste devo usar? Correlação Correlação Pearson Spearman Regressão Múltipla Regressão Múltipla QuiQuadrado Exato de Fisher n > 20 n < 20 Regressão Logística Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008 Pergunta da Pesquisa: As variáveis dependente e independente se correlacionam entre si? Qual a magnitude? Comparando médias de populações com Distribuição Normal: Teste “t” de Student Teste t-Student O teste t-Student é um teste paramétrico de largo uso. Como ele analisa amostras quantitativas, seu objetivo vai ser comparar os dois grupos... Devemos observar: a) amostras randômicas de cada população investigada; b) as variâncias devem ser homogêneas; c) as variáveis das populações de onde as amostras foram selecionadas devem apresentar distribuição aproximadamente normal. Teste t-Student – situações... - As duas médias, relativas à mesma variável quantitativa, se referem a duas populações cujas variâncias, embora desconhecidas, são iguais. - As duas médias, relativas à mesma variável quantitativa, se referem a duas populações cujas variâncias, embora desconhecidas, são diferentes. - As duas médias se referem a duas medidas relativas à mesma variável quantitativa, tomadas dos mesmos elementos de uma população, mas em duas situações distintas 2 1 s F 2 s 2 Teste t-Student – situações... - As duas médias, relativas à mesma variável quantitativa, se referem a duas populações cujas variâncias, embora desconhecidas, são iguais (homocedásticas). t Onde S² é a variância ponderada das duas amostras... x1 x2 1 1 2 s n1 n2 s 2 n1 1 s n2 1 s n1 n2 2 2 1 2 2 Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008 Teste t-Student – situações... - As duas médias, relativas à mesma variável quantitativa, se referem a duas populações cujas variâncias, embora desconhecidas, são diferentes (heterocedásticas). t x1 x2 2 1 O valor de t dependerá dos graus de liberdade... 2 s s 2 n1 n2 2 s s 2 n1 n2 g 2 2 2 2 s 1 s 2 n1 n2 n1 1 n2 1 2 1 2 Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008 Exemplo… Tamanho da amostra, média e variância da estatura, em centímetros, de recém-nascidos não-portadores de anomalias congênitas, segundo sexo. Sexo n x S2 Masc 1.442 49,29 5,76 Fem 1.361 48,54 6,30 Fonte: Arena, 1976, apud Vieira, 1981 Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008 Na prática… Duas populações distintas Sexo n x S2 Masc 1.442 49,29 5,76 Fem 1.361 48,54 6,30 Na prática… Na prática… Observar o que temos: 1- Quantas amostras? 2- São relacionadas ou independentes? 3- Eu tenho todos os dados? Na prática… Observar o que temos: 1- Quantas amostras? 2- São relacionadas ou independentes? 3- Eu tenho todos os dados? Na prática… Observar o que temos: 1- Quantas amostras? 2- São relacionadas ou independentes? 3- Eu tenho todos os dados? Na prática… Na prática… Mas o que é o valor de p mesmo? Mas o que é o valor de p mesmo? O valor de p é a probabilidade de dois grupos serem iguais, ou seja, aceitar H0! Em geral, assume-se um parâmetro de análise para o p, um nível de decisão para se descartar H0 e se dizer, com segurança, que de fato há diferença entre os grupos. Este nível de decisão é exatamente o valor de α, ou nível de significância. Geralmente, este nível de decisão (α ) é de 5%, ou seja, o valor de p, ou p valor, deve ser menor que 0,05 para que se diga que os grupos são diferentes entre si, rejeitar H0, ou como estamos acostumados a dizer, ter diferença estatisticamente significante. Na prática… Teste t-Student – situações... - As duas médias se referem a duas medidas relativas à mesma variável quantitativa, tomadas dos mesmos elementos de uma população, mas em duas situações distintas t d 2 s n Onde d é a média das diferenças entre cada par de dados e S² a variância desta média. O “t” encontrado está associado a n – 1 graus de liberdade Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008 Exemplo… Exemplo 2… Na prática… Vamos supor que eu quero fazer um estudo e definir o valor de cor (∆E) em dentes de boi em duas situações; antes e depois de aplicar algum produto clareador que eu inventei... (estudo fictício) Na prática… Observar o que temos: 1- Quantas amostras? 2- São relacionadas ou independentes? 3- Eu tenho todos os dados? Na prática… Na prática… Na prática… Na prática… Comparando médias de populações com Distribuição Normal: a Análise de Variância A Análise de Variância - ANOVA É o teste estatístico indicado para variáveis com distribuição normal, estabelecendo a comparação entre três ou mais médias. Pode ser de dois tipos: One-way – quando os elementos foram categorizados de um único modo – tipo de medicamento Two-way – Quando os elementos foram categorizados de dois modos – tipo de medicamento e sexo Adaptado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008 A Análise de Variância - ANOVA Vimos que o teste t serve para a comparação entre duas amostras. Agora, iremos comparar três ou mais... O uso do ANOVA Ex.: testar 4 drogas diferentes (diuréticos) ao mesmo tempo e avaliar o efeito indicará a probabilidade de sedroga rejeitarsobre H0... Se, ao de cada o débito urinário em 16 voluntários. final H0 for rejeitada deve-se proceder para2a a 2 (6 testes t separados) teste t: comparar os grupos comparação 2 a 2 - perda de tempo - erro tipo I de 30% (5% de erro em 6 análises) Então, vamos usar o teste ANOVA (comparação de pares): Ulisses Doria Filho. Introdução a Bioestatística para simples mortais. Rio de Janeiro: Elsevier; 2003. p. 114-20 A Análise de Variância - ANOVA Princípio básico do Teste ANOVA: Em uma tabela de dados com determinado número de repetições (indivíduos, p.ex.) e de tratamentos (grupos de estudo, p.ex.), espera-se que a variação entre os grupos seja superior àquela inerente ao modelo (resíduo) dentro de determinados limites. Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008 A Análise de Variância - ANOVA Comparação entre as médias de grupos estudados. Grupo A Grupo B Grupo C Variância 1 2 3 4 5 Variância Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008 A Análise de Variância - ANOVA Comparação entre as médias de grupos estudados. Grupo A Grupo B Grupo C Variância 1 2 3 4 5 Variância Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008 A Análise de Variância - ANOVA Comparação entre as médias de grupos estudados. Grupo A Grupo B Grupo C Variância 1 2 3 4 5 Variância Entre os Grupos Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008 A Análise de Variância - ANOVA Comparação entre as médias de grupos estudados. Grupo A Grupo B Grupo C Variância 1 2 3 No Modelo (Resíduo) 4 5 Variância Entre os Grupos Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008 A Análise de Variância - ANOVA Para se determinar essa variação dos dados, procede-se com o teste F estimação da variância ENTRE os grupos F = estimação da variância DENTRO dos grupos A Análise de Variância - ANOVA O Pós-Teste de Tukey-Kramer O teste ANOVA nos informa somente se há diferença entre os grupos. Para saber onde residem as diferenças, usa-se o Pós-Teste de Tukey Retirado da aula do Prof. Dr. Angelo Roncalli (UFRN), 2008 EXEMPLO Foi efetuada uma investigação em três grupos de estudantes: o grupo A estava constituído por seis (6) alunos não-fumantes (NF); o segundo, por seis (6) discentes que fumavam moderadamente em torno de dez (10) a quinze (15) cigarros por dia (FM); e o terceiro, por cinco (5) estudantes que fumavam mais de 40 cigarros por dia (FI). Mediu-se a função pulmonar através do fluxo médio expiratório. H0: o fumo não influencia a função pulmonar medida pelo fluxo médio expiratório: H1: o fumo influencia a função pulmonar medida pelo fluxo médio expiratório, havendo diferença, pelo menos, entre duas médias. Nível de decisão: alfa = 0.01. BIOHELP.pdf, 2007 Na prática… Vamos supor que eu quero fazer um estudo e definir o valor de cor (∆E) em dentes de boi em duas situações; imediatamente após, 6 meses depois e um ano depois de aplicar algum produto clareador que eu inventei... (estudo fictício) Na prática… Observar o que temos: 1- Quantas amostras? 2- São relacionadas ou independentes? 3- Eu tenho todos os dados? Na prática… Na prática… Na prática… O uso do ANOVA indicará a probabilidade de se rejeitar H0... Se, ao E SE DESSE DIFERENÇA? final H0 for rejeitada deve-se proceder para a comparação 2 a 2 Na prática… Na prática… No BIOESTAT 5.0 é possível ainda verificar a interferência de mais de uma variável... EXEMPLO Em uma escola do ensino médio efetuou-se levantamento sobre o número de alunos reprovados nas disciplinas Ciências, Matemática e Português (tratamentos), ao mesmo tempo em que se procurou verificar a proporção dos inabilitados nessas matérias nos turnos da Manhã (linha 1), da Tarde (linha 2) e da Noite (linha 3). Em cada turno estavam matriculados 800 discentes, de onde foram retiradas as amostras. H0: o tipo de disciplina cursada não afeta os índices de reprovação; H1: pelo menos duas médias são diferentes; H0: o turno cursado pelo estudante não afeta os índices de reprovação; H1: pelo menos duas médias são diferentes; Nível de decisão: alfa = 0.05. Na prática… Na prática… Na prática… Ciências, Matemática, Português Manhã, tarde e noite Na prática… Ciências, Matemática, Português Manhã, tarde e noite Então, ‘bora’ estudar... 1- Baixem o arquivo “Aula 9 – Teste t de Student e ANOVA.xlsx” que é um banco de dados tabulado no Microsoft Excel. 2- Observem que estes dados são fictícios e o suposto estudo também é... 3- Faça a estatística das planilhas ‘Exercício 1’, ‘Exercício 2’ e ‘Exercício 3’... 4- Para cada passo, proceda com o “print screen” da sua tela de computador... 5- O exercício pode ser feito em dupla, mas a entrega é individual 6- Você pode usar qualquer software estatístico que desejar Então, ‘bora’ estudar... 1- Baixem o arquivo “Aula 9 – Teste t de Student e ANOVA.xlsx” que é um banco de dados tabulado no Microsoft Excel. 2- Observem que estes dados são fictícios e o suposto estudo também é... 3- Faça a estatística das planilhas ‘Exercício 1’, ‘Exercício 2’ e ‘Exercício 3’... 4- Para cada passo, proceda com o “print screen” da sua tela de computador... 5- O exercício pode ser em dupla 6- Você pode usar qualquer software estatístico que desejar FIM! Qualquer dúvida, entrem em contato! CONTATOS: Profª Ana Daniela Silveira: [email protected] https://www.facebook.com/professora.anadaniela.3 Profª Maria Amélia: [email protected]