INVESTIGAÇÃO EM EDUCAÇÃO Bento Dezembro de 2011 DISTRIBUIÇÕES Para dar sentido ao aparente caos dos resultados brutos, os investigadores começam por dar uma ordem aos dados. O primeiro passo consiste em formar uma distribuição, isto é, a disposição de qualquer conjunto de resultados por ordem de magnitude. Resultados de QI não ordenados Distribuição de resultados de QI 75 100 105 95 120 130 95 90 115 85 115 100 110 100 110 130 120 115 115 110 110 105 100 100 100 95 95 90 85 75 A distribuição permite ao observador perceber as tendências gerais mais rapidamente do que seria capaz com um conjunto de resultados brutos desordenados. Para simplificar ainda mais a nossa inspecção dos dados, podemos apresentá-los como uma distribuição de frequências. Uma distribuição de frequências é uma listagem de cada resultado, alcançado, acompanhada pelo número de indivíduos que obtiveram esse resultado. X (Resultado bruto) 130 120 115 110 105 100 95 90 85 75 f (frequência de ocorrência) 1 1 2 2 1 3 2 1 1 1 EIXO DO X E EIXO DO Y Para além de apresentarem as distribuições de frequências sob a forma de tabelas, os estatísticos apresentam frequentemente os dados sob a forma gráfica. Um gráfico tem a vantagem de constituir uma espécie de “imagem” dos dados. É habitual indicar os resultados brutos, ou valores reais da variável, no eixo horizontal, eixo dos X, chamado abcissa. A frequência de ocorrência é apresentada na vertical, ou eixo dos Y, chamado ordenada. Histogramas e polígonos de frequências Para construir um histograma, é desenhado um rectângulo sobre cada resultado bruto. A altura do rectângulo indica a frequência de ocorrência de cada resultado. Histogramas e polígonos de frequências Para construir um polígono de frequências, em vez dos rectângulos, utiliza-se um único ponto para designar a frequência de cada resultado. Estes pontos são depois unidos por uma série de linhas rectas. Medidas de tendência central Para nos ajudar a compreender as semelhanças e as diferenças entre os indivíduos, possuímos algumas técnicas úteis para descobrir a média, ou valor típico, de uma distribuição. Conhecer a média do QI para uma determinada turma pode ajudar-nos a planear o currículo, a decidir o nível a que devem ser ensinados alguns dos temas, ou a escolher livros na biblioteca. A informação acerca do valor típico de uma distribuição permite-nos interpretar de forma mais significativa todos os resultados da distribuição. Os estatísticos têm três métodos para obter o valor típico de uma distribuição, e cada um deles permite, quando utilizado de forma adequada, obter uma imagem tão correcta quanto possível da distribuição. Estes métodos fornecem as chamadas medidas de tendência central, assim designadas porque descrevem o resultado típico, médio ou central de uma distribuição; informam-nos acerca do resultado de um indivíduo médio ou típico. A escolha do método mais adequado pode ser difícil, pois a interpretação dos dados pode variar acentuadamente em função do método utilizado MÉDIA ARITMÉTICA Se lhe for dado um conjunto de resultados de QI, e lhe pedirem para descobrir o valor médio, o mais provável é que calcule a média aritmética. Isto é, que some todos os resultados de QI e divida depois a soma pelo número total de resultados. A média aritmética, geralmente designada apenas por média é certamente a medida de tendência central mais frequentemente utilizada. X = ∑X/N 130 120 115 115 110 110 105 100 100 100 95 95 90 85 75 ______ X = ∑X/N = X= PROPRIEDADES DA MÉDIA ARITMÉTICA A média é uma medida de tendência central adequada no exemplo precedente porque a distribuição é aproximadamente equilibrada, ou seja, não existem resultados extremos em qualquer direcção. Dado que a média é calculada somando todos os resultados de uma distribuição, não é facilmente influenciada por resultados extremos, a não ser que os resultados extremos se situem todos na mesma direcção. A média é normalmente uma medida estável de tendência central. A interpretação da média pode, por vezes, ser enganadora, especialmente em grupos em que a própria população, ou dimensão da população, se modifiquem. Por exemplo, a média de QI numa turma típica de “caloiros” universitários é habitualmente cerca de cinco pontos mais baixa do que a média da mesma turma quando os alunos mais tarde chegam a finalistas. Será que isto indica que os alunos aumentam os seus QI á medida que frequentam a faculdade? Não, porque dado que a dimensão da turma de finalistas é quase sempre menor do que a dos “caloiros”, as duas já não constituem uma única população. Os que têm o QI mais baixo da turma de “caloiros” têm tendência a abandonar a faculdade, e a nunca chegar a finalistas. A MEDIANA Em algumas situações, no entanto, a utilização da média pode conduzir a uma imagem extremamente distorcida do valor típico de uma distribuição. Observemos a distribuição seguinte de vencimentos mensais (em escudos) 50 000 000$00 150 000$00 150 000$00 98 000$00 97 500$00 97 500$00 97 000$00 96 500$00 95 000$00 92 500$00 90 000$00 90 000$00 88 000$00 _________ 51 242 000$00 Mediana X = 3 941 692$30 Um dos valores de rendimento (50 000000$00) situa-se tão acima de todos os outros, que a utilização da média dos rendimentos dá uma imagem ilusória de grande riqueza a esta distribuição. Uma distribuição que é desequilibrada devido a uns poucos resultados extremos numa direcção diz-se assimétrica. Uma representação muito mais exacta da tendência central de uma distribuição assimétrica é a mediana ou ponto central da distribuição. Embora a média seja de 3 941 692$30, a mediana é 97 000$00, o que constitui um reflexo mais correcto do rendimento típico da distribuição. Dado que as distribuições de rendimentos são habitualmente assimétricas, deve estar-se atento face à possibilidade de sobrestimação dos valores, quando é apresentada a média dos rendimentos. A mediana é geralmente um valor mais adequado quando se trata de descrever rendimentos. Para calcular a mediana, verifique que os valores estão sob a forma de uma distribuição, isto é, por ordem de magnitude. Depois, conte até metade dos resultados. No exemplo anterior, há treze resultados na distribuição. Por conseguinte, contamos para baixo seis resultados e o sétimo coincide com a mediana. Se houver um número par de resultados numa distribuição, a mediana é calculada determinando o ponto que se situa exactamente a meio do caminho entre os dois valores centrais, ou seja, 114,5. 120 118 115 114 114 112 ____ 693 114,5 Mediana X = 115,50 Média 120 118 115 114 114 6 ____ 587 114,5 Mediana X = 97,83 Média Ao contrário da média, a mediana não é afectada pela presença de um resultado extremo em qualquer direcção, como se pode ver no exemplo da direita. Representação gráfica de distribuições assimétricas: (a) negativamente assimétrica; (b) positivamente assimétrica. ________________ (a) _________________ (b) As distribuições são classificadas de acordo com a direcção da sua “cauda”. Quando a cauda está do lado direito, diz-se que a curva tem uma assimetria positiva.; quando a “cauda” é para a esquerda, tem uma assimetria negativa. QUARTIS De forma análoga à mediana, definem-se duas outras medidas estatísticas que têm, por vezes, bastante interesse para o conhecimento de uma distribuição estatística – os quartis. A separação da distribuição (ordenada) é feita em três valores: Q1, Q2 e Q3, em que o Q2 é, naturalmente, a mediana. O valor Q1, que separa os primeiros 25% dos dados ordenados por ordem crescente dos restantes 75%, chama-se 1º Quartil. O 3º Quartil é o valor Q3 que divide a distribuição em duas partes, sendo 75% dos dados menores ou iguais a Q3 e os restantes 25% maiores ou iguais. QUARTIS O cálculo do 1º e do 3º quartil faz-se de modo análogo ao do cálculo da mediana. Com efeito, uma vez ordenados os dados, o 1º quartil é o valor correspondente à mediana da primeira metade da distribuição e o 3º quartil é o valor mediano da segunda metade. 3 7 8 8 8 9 10 10 10 11 11 11 11 11 12 13 14 Q1 Q1= 8+8/2 = 8 Q2= Md = 10 Q3= 11+11/ 2 = 11 Md Q3 A MODA A terceira medida de tendência central é denominada moda. A moda é o resultado que ocorre com maior frequência numa distribuição. Num polígono de frequências, a moda é o ponto em que a curva atinge o seu nível mais elevado; num histograma localiza-se na barra mais alta. Algumas distribuições, designadas bimodais, têm duas modas. Distribuições deste tipo ocorrem quando os resultados se agrupam em dois locais separados, ou quando o grupo que está a ser medido se compõe possivelmente de dois subgrupos. Exercício As classificações obtidas por um aluno ao longo do ano lectivo foram as seguintes: 8 11 15 16 7 12 5 6 9 5 1. Determine a classificação mediana, modal e os quartis 2. Determine a amplitude. 3. Supondo que a média mínima exigida para aprovação nesta disciplina é de 10 valores, qual a situação final deste aluno? Justifique. VARIABILIDADE Do mesmo modo que as medidas de tendência central nos dão informações acerca da semelhança existente entre as medições, as medidas de variabilidade informam-nos acerca de como os resultados diferem ou variam. As medidas de variabilidade são cruciais em educação, uma vez que nos dão informação vital acerca de um dos temas fundamentais da Psico-pedagogia – as diferenças individuais. A AMPLITUDE Uma forma de descrever a variabilidade em qualquer distribuição de resultados é calcular a amplitude (A). A amplitude é a diferença entre o resultado mais elevado e o resultado mais baixo, e constitui uma medida da extensão total da distribuição. A amplitude é representada por um único valor. Por exemplo, se o resultado mais alto numa distribuição de QI for 140 e o resultado mais baixo for 60, então A é igual a 80. DESVIO-PADRÃO O DESVIO-PADRÃO (DP): Representa a essência do conceito de variabilidade. Embora a amplitude seja importante, ao dar algum significado a um conjunto de resultados, tem uma limitação bastante significativa: baseia-se em apenas dois resultados, o mais elevado e o mais baixo. O desvio-padrão, pelo contrário, toma em consideração todos os resultados existentes na distribuição. Por conseguinte, o desvio-padrão é uma medida de variabilidade que indica o grau em que todos os valores de uma distribuição se desviam da média. DESVIO PADRÃO Quanto maior for o valor numérico do DP, mais os valores se distanciam da média. Quanto mais pequeno o valor do DP, menos os resultados se distanciam da média, agrupando-se mais estreitamente à sua volta. Uma distribuição com um desvio-padrão baixo diznos que o grupo que está a ser medido é homogéneo enquanto uma distribuição com um desvio-padrão elevado descreve um grupo heterogéneo de resultados. O desvio-padrão, ou desvio típico, é sempre expresso por um único valor. Para se calcular o DP, seguem-se os seguintes passos: X 15 12 10 9 9 8 7 2 __ 72 X² 225 144 100 81 81 64 49 4 ___ 748 X = ∑X/N = 72/8 = 9,00 DP = √ ∑X²/N - X² = √ 748/8 – 9,00² = √ 93,50 – 81,00 = √ 12,50 DP = 3,535 = 3,54 1. 2. 3. 4. 5. 6. Some os X´s para obter ∑X Divida por N para obter X Eleve ao quadrado cada X para obter X² Some esses quadrados para obter ∑X² Divida o valor de ∑X² por N e subtraia o quadrado da média, X². Extraia a raiz quadrada para obter o DP PERCENTIS Um percentil é o ponto da distribuição no qual ou abaixo do qual se situa uma determinada percentagem de casos. Por exemplo, um resultado no percentil 95 significa que 95% dos resultados se situam nesse ponto ou abaixo dele, enquanto um resultado no percentil 5 significa que apenas 5% dos resultados se situam nesse ponto ou abaixo dele. PROPRIEDADES DA MÉDIA, MEDIANA, MODA, VARIÂNCIA E DP MÉDIA: • BEM DFINIDA, FÁCILMENTE INTERPRETÁVEL E FÁCIL DE CALCULAR • PRESTA-SE BEM A TRATAMENTOS ALGÉBRICOS • PÕES EM JOGO OS VALORES DE TODOS OS DADOS • MUITO INFLUENCIADA PELOS DADOS EXTREMOS MEDIANA: • BEM DEFINIDA, FÁCIL DE INTERPRETAR E DE DETERMINAR • NÃO É INFLUENCIADA PELOS CASOS EXTREMOS OU ABERRANTES • NÃO SE CALCULA TENDO EM CONTA TODOS OS DADOS • NÃO SE PRESTA AO TRATAMENTO ALGÉBRICO Propriedades (Cont.) MODA: • FÁCIL DE INTERPRETAR E FÁCIL DE DETERMINAR • NÃO É INFLUENCIADA PELOS EXTREMOS • PODE PÔR EM EVIDÊNCIA A HETEROGENEIDADE DUM GRUPO • NÃO TEM EM CONTA TODOS OS DADOS • NÃO SE PRESTA A TRATAMENTO ALGÉBRICO VARIÂNCIA (Média dos quadrados dos desvios) • É UMA BOA MEDIDA DE DISPERSÃO • É SEMPRE POSITIVA • NÃO TEM A MESMA UNIDADE QUE OS DADOS DESVIO PADRÃO • UMA DAS MAIS USADAS MEDIADS DE DISPERSÃO • É SEMPRE POSITIVA • TEM A MESMA UNIDADE QUE OS DADOS FIM