TIPO DA VARIÁVEL NUMÉRICAS CATEGÓRICAS (Incluso as “ordinais”) (qualquer var. pode ser categorizada) -Coef. de correlação; NUMÉRICA -Análise de regressão V A R I Á -Testes ´t´; -Teste de proporção V -Testes do Qui-Quadrado CATEGÓRICA -ANOVA E -Similares não-paraL métricos. Temos a situação cujo o objetivo é comparar uma proporção (p) de uma variável categórica ou categorizada, obtida através de uma amostra, com uma proporção conhecida de uma população (situação análoga a comparar uma média amostral com uma média conhecida) Portanto a var. em questão deve ser uma variável categórica ou que foi categorizada. Exemplos: - A proporção de mulheres ansiosas na pós-graduação é equivalente à proporção de mulheres ansiosas na pop. em geral; - A proporção de pessoas acima de 50 anos com depressão na zona rural é equivalente à zona urbana (conhecida); -A proporção de negros nas universidades é equivalente à proporção na sociedade. Suposição: As observações (xi) são independentes uma das outras Teste de hipótese associado: H0: p = п (prop. conhecida) X H1: p ≠ п; ou simplesmente: H0 : as proporções são equivalentes X H1: as proporções não são equivalentes Lembrando que a proporção é numero de resultados que interessam, de respostas de uma categoria, dividido pelo tamanho da amostra (p = x/n). Teste estatístico: Teste para a comparação de uma proporção. Procedimento: A estatística onde SE p0 = proporção conhecida; tem distribuição Z (Normal (0,1)). Então acho o valor da est. e comparo com o valor da distribuição Z com nível de significância = 0.05. OU (mais comum) verifico qual a probabilidade do valor da est. na distr. Z comparo com = 0.05. Se for menor rejeito HO. Exemplo: Uma amostra de 40 alunos de determinada escola foi coletada e verificou-se que 16 estavam acima do ponto de corte de uma escala de stress. Sabe que a proporção de alunos estressados na população gira em torno de 27%. Estes alunos estão mais ou menos estressados que o normal? Efetuando os cálculos temos: p =16/40 = 0.40%, SE = (0.40*0.60)/40 = 0.006, cuja raiz quadrada = 0.0775, então 0.40 -0.27 = 0.13, que dividido por 0.0775 dá 1.677, que na distribuição Z equivale a um p = 0.10, logo não rejeitamos H0, os alunos não estão mais estressados que a média. Vejamos no programa estatístico MINITAB como realizá-lo. Na barra de ferramentas vamos em ´Stat´, depois ´Basic Statistics´ e daí em ´1 Proportion´. no ícone ` Options´. Na tela resultante ativamos a janela ´Summarized data´, em `Number of trials´ colocamos o tamanho da amostra (40) e em ´Number of successes´ o número de resultados que nos interessam (16) e então clicamos . Na tela do ´Options´ vamos em `Test proportion:´ e digitamos a proporção conhecida da população (0.27). O default do programa é 0.50. A janela ´Alternative` com a inscrição “ not equal” refere-se a um teste bicaudal. Depois OK e OK. No output temos o teste de hipótese realizado (bicaudal), o no. de sucessos, o tamanho da amostra, a proporção estimada, um I.C. de 95 para esta proporção e o p value. Suponha que os alunos do exemplo anterior fossem de uma escola localiza da em um bairro conhecido por sua violência, e a pesquisadora estivesse, a priori, interessada em saber se a taxa de stress era superior à taxa média de 27%. Neste caso específico pode-se optar pela realização de um teste monocaudal: H0: p ≤ p0 X H1: p > p0 . A única modificação necessária para este teste é ir no ´Options´ e na janela do ´Alternative´ marcarmos a opção “greater than”, que corresponde ao teste monocaudal. Nos resultados temos o teste monocaudal, as saídas anteriormente vistas e o valor de p = 0.05, então no teste monocaudal rejeitamos que as taxas de stress são equivalentes, diferente do anterior, pois são testes diferentes É necessário justificar o uso do teste monocaudal antes da realização Objetivo: Comparar duas proporções oriundas de duas amostras de populações independentes. Observe que teremos duas vars. no nosso banco de dados, uma referente às populações e a outra referente ao que se quer comparar, por exemplo, comparar o percentual de crianças com problemas de aprendizado entre duas escolas. Suposições: 1 - Dentro de cada amostra as observações (xi) são independentes; 2 – As amostras são independentes entre si; 3 – Cada observação, cada unidade amostral só pode ser categorizada em uma e somente uma categoria, ou seja, as categorias das variáveis são mutuamente exclusivas. Teste de hipótese associado H0: Há associação entre as variáveis X H1: Não há associação entre as variáveis. Teste estatístico: O teste utilizado neste tipo de situação é denominado teste do Qui-Quadrado (χ²), vejamos, utilizando o exemplo anterior, como é calculada esta estatística. Vamos em ´ Stats´ , ´Tables’ e daí em ´Cross Tabulations´, que irá cruzar as variáveis, criar uma tabela de contingência. Na nova tela alocamos as vars.em ‘Classification variables’, e acionamos ‘Row percents’ e Chi-Square analysis’ e OK. Ao lado temos a tabela de contingência gerada, onde vemos que na escola 0 temos 20 pessoas sem problemas e 12 com já na escola 1 temos 20 sem e 8 com problemas. Estes valores são ditos frequências observadas. Temos também os percentuais por linha, 62,5% na escola A não tem problemas e 37,5% tem; na escola B 71,4% não tem e 28,6% tem. O fato de calcularmos o percentual nas linhas ou nas colunas não altera o valor do cálculo, tanto faz, é uma opção de como o pesquisador quer demonstrar seus resultados Abaixo da tabela de contingência temos o valor da est. calculada (0,54) e o p-value correspondente ( p = 0,46), logo não rejeito H0, não há associação entre escola e problema, pode-se dizer que o percentual de crianças com problemas na escola 0 (37,5%) não difere significativamente do percentual de crianças com problemas na escola 1 (28,6%). Podemos então verificar que o teste Х² realiza a comparação entre dois percentuais em tabelas com duas variáveis com duas categorias. Além das frequências observadas existem as frequências esperadas, que são calculadas a partir das marginais das linhas (32 e 26) e das marginais das colunas (40 e 20) As freq. esperadas para cada casela são estimadas do seguinte modo: Cas. 1(linha) 1(coluna) = [Marg. linha 1 (32) * Marg. coluna 1 (40)]/ Total (60) = (32*40)/60 = 21,33. Cas. 1(linha) 2(coluna) = [Marg. linha 1 (32) * Marg. coluna 2 (20)]/ Total (60) = (32*20)/60 = 10,67. E assim por diante para cada uma das caselas da tabela. O teste do χ² basicamente irá medir se a distância entre o observado e o esperado é grande, se for haverá associação entre as vars. c.c. não haverá. Procedimento: A estatística que é a soma das diferen- ças entre esperados e observados tem distribuição χ² com (l-1)*(c-1) graus de liberdade, onde l é o no. de linhas e c o no. de colunas. Então comparo o valor da distribuição com o nível de significância adotado. OU (mais comum) verifico qual a probabilidade do valor da est. na distr. e comparo com = 0.05. Se for menor rejeito HO. No nosso exemplo a est. é : (21,33 – 20)²/21,33 + …+ (10,67 – 12)²/10,67 = 0,536 que na dist. χ² com 1 g.l. equivale a um p = 0,46, logo não rejeito H0, não há associação entre as vars. Porém podemos especificar mais matematicamente nosso teste de hipótese, e anunciá-lo da seguinte forma: H0: Todos os percentuais de uma mesma Linha (ou Coluna) são equivalenaos percentuais da outra Linha (ou Coluna) quando na mesma coluna (ou linha); X H1: Há pelo menos um percentual diferente. Podemos ser mais específicos ainda no nosso teste de hipótese: H0: O percentual de crianças com problemas entre as duas escolas é equivalente; X H1 Não é equivalente. OU H0: p1 = p2; X H0: p1 ≠ p2. Existe uma restrição uma condição muito importante para a aplicação do χ²: Não pode haver mais de 20% das caselas com valor esperado menor do que 5. Então em um tabela 2X2 basta uma casela. Quando isto ocorrer (ao menos uma casela com valor esperado < 5) utilizamos outro teste, o teste exato de Fisher, cujas as hipóteses e suposições são as mesmas, exceto a acima exposta. A seguinte estatística fornece diretamente o valor de p a ser comparado com o nível de significância adotado, onde Imaginemos a seguinte tabela: Deseja-se verificar se o percentual de resposta entre as 2 drogas é equivalentes, então o cálculo é: Então p = 0.009, rejeito H0, as proporções são significativamente diferentes. Mas como faço para saber se a condição anteriormente vista está sendo satisfeita ? O Minitab avisa-nos automaticamente. Na tabela ao lado temos as vars. Sexo e Prática de religião, note que abaixo dos resultados temos o aviso: 2 cells with expected counts less than 5: 2 células com valor esperado abaixo de 5. Portanto a condição não está satisfeita, 2 de 4 caselas = 50% das caselas, logo o teste não tem validade, necessário aplicar o teste exato de Fisher. O raciocínio do teste do χ² estende-se para tabela 2x3, 3x3, 4x2, 5x3, enfim para qualquer tabela de contingência LxC. Abaixo temos uma tabela das vars. Droga X Curso, podemos ver que há diferença significativa, a proporção de usuários de drogas varia significativamente conforme o curso. Qual o teste de hipótese aqui?? Mas quem difere de quem ? Tal qual na Anova, uma saída é particionarmos a tabela e realizarmos comparações em tabelas 2x2. Uma boa idéia é iniciar as comparações pelos níveis que apresentarem maior diferença percentual. Teoricamente e cada vez mais na prática é necessário corrigir os resultados destes testes “post hoc” através de Bonferroni (0.05/no. testes), logo analise a tabela (diferenças práticas) e defina as comparações a realizar. Ao lado temos o cruzamento das vars. Curso X Relig., note a quantidade de caselas em branco, aqui não podemos utilizar o teste do χ². Também não existe um semelhante de Fisher para tabelas diferentes das 2x2. A única solução é agrupar níveis, categorias, de uma, ou das duas vars.. No agrupamento procu re agrupar as categorias que possuem amostras menores, de modo a eliminá-las. No exemplo provavelmente teríamos teríamos de agrupar as religiões 3, 4 e 7 e o curso 4. Obviamente que esse agrupamento precisa fazer sentido, ter lógica, não dá para misturar Comercial e Botafogo (O Botafogo é muiiiito melhor). Tudo o que foi visto até agora refere-se a amostras independentes, vejamos um teste para proporções pareadas. Temos o seguinte experimento: Foi aplicada uma escala de depressão em um grupo de mães antes do parto (categorizada em 1= Dep. e 2 = Não d.) e após o parto. Observe a planilha de dados como fica. A estatística tem distribuição χ² com (l-1)(c-1) g.l. O Minitab não realiza o teste conhecido por Teste de McNemar para dados pareados. Porém como a fórmula é simples, calculamos a tabela do Minitab e a partir dela efetuamos o cálculo: Então (21-7)² / 21 = 7; 196/28 = 7 O valor 7 numa distr. χ² com 1 g.l. equivale a um p aproximado de 0.005 Rejeito HO, há diferença O teste de McNemar pode ser aplicado quando há mais de 2 categorias: o desempenho de um grupo de alunos foi classificado em bom, médio e fraco antes e depois da aplicação de uma intervenção. Porém a fórmula é bem mais complexa, não dá para calcular “na mão”, será necessário um programa que faça o cálculo Atenção, o teste de McNemar só é calculado em tabelas simétricas ou quadradas,ou seja, quando o no. de linhas é igual ao no. de colunas. Situação na qual a tabela já esta pronta, calculada: Quando vc já tem a tabela, alguém calculou, extraiu de um livro, etc ..., basta inserir colocar a tabela no Minitab. Então vamos em ‘Tables’ e daí em Chi-Square Test’: Na nova tela selecionamos a colunas que contém a tabela e alocamos em/ ‘ Columns containing the tables’ e OK No output temos a tabela, abaixo da tabela as frequências observadas de casela, o cálculo do χ² para cada casela, a estatística calculada (7,6) e o p-value correspondente. Realiza o cálculo para qualquer tabela L x C, fique atento para o aviso de valores esperados menores que 5 Algumas estatísticas, medidas, bastante utilizadas em tabelas 2X2 PADRÃO OURO (Assumido como a verdade) + TESTE (O que está sendo verificado) - + - Sensibilidade: Proporção de positivos verdadeiros, detectou o valor quando ele realmente ocorreu = a/(a+c) Especificidade: Proporção de negativos verdadeiros, detectou a ausência do valor quando ele realmente estava ausente = d/(b+d) Valor preditivo positivo: Proporção de positivos verdadeiros em relação ao total de positivos indicados pelo teste = a/(a+b) Valor preditivo negativo: Proporção de negativos verdadeiros em relação ao total de negativos indicados pelo teste = d/(c+d) Uma nova escala está sendo testada para detectar estresse, já existe uma escala mundialmente consagrada, mas a nova é mais simples de ser apliada e leva menos tempo para ser aplicada. Temos então: Sensibilidade = 53/139 = 38,1% Especificidade = 48/94 = 51,1% Valor preditivo positivo = 53/99 = 53,5% Valor preditivo negativo = 48/134 = 35,8% VC, adotaria ou não o novo teste ?? Risco relativo (RR) = Probabilidade da ocorrência de um evento em um grupo dividido pela probabilidade de ocorrência do mesmo evento em outro grupo. a/a+b / c/c+d A fórmula do cálculo para RR = a*(c+d) , então para a tabela acima temos c*(a+b) 29(12+60) ÷ 12 (29+20) = 3,55 . INTERPRETAÇÃO: Quem consome mais de 2 doses diárias de álcool tem um risco três vezes e meio maior de ter um distúrbio psic. do que quem não consome mais de duas doses diárias. Como a fórmula é a uma divisão, se as probabilidades forem iguais o RR será 1; então se o RR for superior a 1 temos o chamado fator de risco, se for inferior a 1 temos o fator de prevenção. Por exemplo, numa tabela com as vars. Atividade Física (S/N) e Depressão (S/N) obteve-se RR = 0.80, então quem pratica atividade física tem 80% da chance de quem não pratica de ter depressão (chance x > 0.80*chance x) Entretanto o RR é calculado somente em estudos prospectivos (os pacientes são selecionados entre os que têm um fator de risco e os que não têm e observa-se o desenvolvimento dos mesmos ao longo do tempo. Quando temos um estudo retrospectivo (os pacientes já desenvolveram o sintoma e comparam-se os resultados com aqueles que não tiveram o sintoma) a medida semelhante é o ODDS RATIO, cuja fórmula é a*d b*c A tabela acima tem as vars. Escola ( 0 = Sem problema e 1 = Com problema) e Depen (0 = pai sem envolvimento com droga e 1 = pai com envolvimento com droga), o odds = (20*15) ÷ (5*14) = 4,3 , portanto os alunos cujos pais tem envolvimento com droga tem 4,3 vezes mais chance de apresentar problemas escolares do que aqueles cujos pais não tem envolvimento. Veremos um programa simples que calcula as estatísticas anteriormente vistas quando as tabela já estão prontas, o INSTAT. Na tela inicial do Instat marcamos as opções ´Analyze a contingency table´ e ´Two rows, Two columns´ e depois a seta ´Next step´. Na tela seguinte preenchemos a tabela com os valores e clicamos na seta. Na nova tela temos várias opções, χ² ou Fisher; mono ou bicaudal; RR ou ODDS ou Sensibilidade, especificidade e valores preditivos Faça suas opções e depois clice na seta Na tela final temos os outputs de cada uma das estatísticas solicitadas.