Estatística para as ciências sociais População – é um conjunto de unidades individuais, que podem ser pessoas, animais, resultados experimentais, com uma ou mais características em comum que se pretende analisar. Ex: Todos os funcionários de uma empresa, conjunto de todos os agregados familiares portugueses, conjunto de lares que dispõem de televisão e em que as mulheres não trabalhem fora de casa. Amostra – É o subconjunto da população, que se estuda com o objectivo de tirar conclusões sobre a população de onde foi recolhida. Ex: 6 a 8 funcionários de uma empresa, conjunto de lares, conjunto de 1800 donas de casa. Tipo de amostra – amostra aleatória simples Classificação das variáveis Variável quantitativa – é susceptível de medição. Ex: sexo, estado civil, cor do cabelo, sim/não (dicotómicas). Estas variáveis podem ainda ser discretas ou contínuas. Variável quantitativa discreta – são aquelas em que entre dois valores a variável não pode tomar todos os valores intermédios, só números inteiros. Ex: nº de irmãos, número de assoalhadas, número de automóveis. Variável quantitativa contínua – são aquelas em que entre dois valores a variável pode tomar valores intermédios, números decimais. Variável qualitativa – assume diversas modalidades, categorias ou outras características, não susceptíveis de medição, mas sim de classificação. Variáveis qualitativas ordinais – são aquelas que podem ser colocadas por ordem. Ex: classe social, peso medido em 3 níveis (pouco pesado, muito pesado e pesado). Variáveis qualitativas nominais – são aquelas que não podem ser hierarquizadas. Ex: cor dos olhos, local de nascimento. Tabelas de frequências para dados quantitativos discretos ou qualitativos xi – são os dados da observação n – dimensão da amostra ni – frequência absoluta Ni – frequência absoluta acumulada fi – frequência relativa (ni/n), ou seja, e a frequência absoluta a dividir pela amostra. Fi – frequência relativa acumulada Tabelas de frequência para dados quantitativos contínuos, agrupados em classes Ex: Numa amostra de 20 alunos do 7º ano medimos, em centímetros a sua altura. Cálculo auxiliar para determinar a amplitude das classes: Amplitude da amostra = 174(valor máximo)-156(valor mínimo) = 18 Regra de sturges – para organizar uma amostra de dados contínuos de dimensão (n) pode considerar-se para o número de classes o valor k, onde k é o menor inteiro tal que 2k > n. 25=32 sendo 32 maior que 20 (valor de n), serão 5 as classes. Amplitude de cada classe = 18:5(nº de classes)=3,6 inteiro mais próximo ------ 4 é o número Medidas de localização Média – é um conjunto de dados numéricos que se obtém dividindo a soma do valor de todos os dados pelo número total de dados. Média em dados agrupados – quando os dados são agrupados temos que verificar o ponto médio da classe e depois multiplicar pelos dados, só depois se divide pelo número total de dados. Ex: [4,6[ 2 [6,8[ 3 Assim ficaria= 2*5+3*7/5=6,2 seria a média 5 – o ponto médio da classe. 2 – o valor de ni NOTA: A média só se pode calcular para dados quantitativos. Mediana – é o valor que divide o conjunto de dados em dois conjuntos de elementos. Se por um número par soma-se os dois números do meio e divide- se por 2, se forem números impares a mediana é o número que estiver no meio. NOTA: A mediana pode calcular-se para dados quantitativos e qualitativos desde que haja uma hierarquia nas diferentes classes Moda – é o dado que ocorre com maior frequência. O seu cálculo requer organização prévia do conjunto de dados. NOTA: A moda pode ser utilizada para os dados quantitativos e qualitativos mesmo quando estes não são hierarquizáveis. Classificar as simetrias da distribuição – Quando a média é igual à mediana diz-se que são simétricas; quando a média é maior do que a mediana diz-se que há um enviesamento para a direita; quando a mediana é maior do que a média há um enviesamento para a esquerda. NOTA: A mediana não é tão sensível, como a média às observações que são muito maiores ou menores do que as restantes (outliers). Mesmo quando a média é igual não podermos dizer que os valores são semelhantes, isso só se consegue ver com as medidas de dispersão como é o caso do desvio padrão Diagrama de caule e folhas – No caule coloca-se o número(s) da classe dominante, dezena, centena, etc. e nas folhas colocam-se os outros números. Ex: 70 76 89 86 99 94 65 63 45 43 32 56 53 34 3 24 4 35 5 6 6 35 7 06 8 69 9 49 Quartis – são valores que dividem a distribuição de dados em quatro parte de igual percentagem, transmitindo, desta forma, uma ideia mais clara da localização dos elementos do conjunto. 1º quartil fica à esquerda da mediana 2º quartil é a mediana 3º quartil fica a direita da mediana Ex: 680 680 700 720 770 800 3000 720 – mediana 680 – 1º quartil 800 – 3º quartil Diagrama de extremos e quartis – para a sua construção é necessário calcular o chamado resumo de 5 números, ou seja, mínimo de observações, 1º quartil, mediana, 3º quartil, máximo das observações. Amplitude interquartis = Q3-Q1 No 1º quartil o valor é tal que 25% das observações são menores ou iguais a ele, a mediana (2º quartil) é o valor tal que 50% das observações são menores ou iguais a ela e finalmente o 3º quartil é o valor tal que 75% das observações são menores ou iguais a ele. Medidas de dispersão Amplitude total – é a diferença entre o maior valor e o menor valor do conjunto de dados (os extremos). Quanto maior for amplitude, maior será a dispersão dos valores da variável em torno da média. Variância – esta é uma importante medida de variabilidade que permite medir o grau de dispersão dos dados em relação à média. Medida que baseia os desvios de uma amostra em relação a média aritmética dos quadrados dos desvios. Assim: A variância é a soma dos quadrados dividida pelo número de observações do conjunto menos uma. A variância é representada por s2, sendo calculada pela fórmula: ∑ (xi – Média)2 / (n-1), ou seja, s2 = SQ / n-1 Atenção: primeiro calcular a média, segundo fazer sempre uma tabela, ex: Média = 5,4+6,9+6,6+7,2+5,7+6,1+7,1+5,8+6,8+6,4=6,4 10 xi 5,4 6,9 6,6 7,2 5,7 6,1 7,1 5,8 6,8 6,4 xi-média -1 0,5 0,2 0,8 0,7 0,3 0,7 0,6 0,4 0 (xi-média)2 1 0,25 0,04 0,64 0,49 0,09 0,49 0,36 0,16 0 ∑ 3,52 terceiro tem de se somar todos os valores de (xi-média)2 = 3,52 quarto divide-se este valor (3,52) por N-1 (total da amostra-1). Assim 3,52/101=0,391 s2 = 0,391, ou seja, a variância é 0,391. Desvio padrão – é dado pela raiz quadrada da variância s=√s2 que neste caso será de 0,625. Desvio padrão de dados agrupados – faz-se a √ (5-11,2)2x2+(7-11,2)2x3/n-1, neste caso seria por 1. 5 – o ponto médio da classe 11,2 – a média 2 – o valor de ni NOTA: O desvio padrão é sempre positivo e será tanto maior quanto mais variabilidade houver entre os dados. Se não houver variabilidade, isto é, se as observações forem todas iguais, então o desvio padrão vem igual a zero. Dados bivariados. Correlação e regressão Diagrama de dispersão e tabela de contingência Diagrama de dispersão – É uma representação gráfico para os dados bivariados, em que cada par de dados (xi,yi) é representado por um ponto de coordenadas (xi,yi), num sistema de eixos coordenados. Interpretação do diagrama de dispersão – A maior ou menor força de uma associação é visível pela forma como os pontos se apresentam, uns relativamente aos outros, fazendo sobressair um determinado padrão. Tipo de associação linear entre duas variáveis: associação positiva – duas variáveis dizem-se associadas positivamente se aos maiores valores de uma correspondem os maiores valores de outra, ou seja, quando uma variável aumenta a outra também aumenta (sentido ascendente); associação negativa – duas variáveis dizem-se negativas quando aos maiores valores de uma correspondem, os menos valores de outra, ou seja, quando uma variável aumenta a outra diminui (sentido descendente). Como medir esta associação linear? A associação linear calcula-se através de uma medida – o coeficiente de correlação, que indica a maior ou menor associação com que duas variáveis se relacionam. Que mede a maior ou menor força com que as variáveis se associam quer positivamente, quer negativamente. Coeficiente de correlação – este coeficiente que se representa por r e se calcula do seguinte modo para os pares de valores (x1,y1), (x2,y2),…(xn,yn): idades notas xi-média yi-média xi-media*yimedia 32,00 13,00 - 0,13 - 0,63 0,08 30,00 14,00 - 2,13 0,38 -0,80 28,00 16,00 - 4,13 2,38 - 9,80 38,00 11,00 5,88 - 2,63 -15,42 34,00 13,00 1,88 - 0,63 -1,17 3,88 - 1,63 -6,30 média 36,00 12,00 33,00 12,00 26,00 18,00 32,13 13,63 0,88 - 6,13 - 1,63 - 1,42 4,38 - 26,80 - 61,63 r = ∑ (xi-média) (yi-média) / n-1 x sx x sy ATENÇÃO: O valor de r estar sempre entre 1 e -1, ou seja −1 ≤ r ≤ 1; Se r está próximo de 1, há uma forte correlação positiva; Se r está próximo a –1, há uma forte correlação negativa; Se r está próximo de 0, não há correlação linear. Quanto maior for o valor absoluto de r, mais forte será a relação linear existente entre os xi e os yi. Do 0 ao 0,3 diz-se que é nula ou muito baixa; do 0,3 -0,8 moderado e do 0,8 a 1 diz-se que é elevada. Verificar a percentagem de variação – Primeiro temos que obter o valor da correlação e depois achar o seu 2 e multiplicar por 100 para achar a percentagem da variação. Classificar a reta de regressão linear – Probabilidades – Diagrama de Venn – Acontecimentos independentes – Probabilidades condicionada -