Estatística para as ciências sociais População – é um conjunto de

Propaganda
Estatística para as ciências sociais
População – é um conjunto de unidades individuais, que podem ser pessoas,
animais, resultados experimentais, com uma ou mais características em
comum que se pretende analisar. Ex: Todos os funcionários de uma
empresa, conjunto de todos os agregados familiares portugueses,
conjunto de lares que dispõem de televisão e em que as mulheres não
trabalhem fora de casa.
Amostra – É o subconjunto da população, que se estuda com o objectivo de
tirar conclusões sobre a população de onde foi recolhida. Ex: 6 a 8
funcionários de uma empresa, conjunto de lares, conjunto de 1800 donas
de casa.
Tipo de amostra – amostra aleatória simples
Classificação das variáveis
Variável quantitativa – é susceptível de medição. Ex: sexo, estado civil, cor
do cabelo, sim/não (dicotómicas). Estas variáveis podem ainda ser discretas
ou contínuas.
Variável quantitativa discreta – são aquelas em que entre dois valores a
variável não pode tomar todos os valores intermédios, só números inteiros.
Ex: nº de irmãos, número de assoalhadas, número de automóveis.
Variável quantitativa contínua – são aquelas em que entre dois valores a
variável pode tomar valores intermédios, números decimais.
Variável qualitativa – assume diversas modalidades, categorias ou outras
características, não susceptíveis de medição, mas sim de classificação.
Variáveis qualitativas ordinais – são aquelas que podem ser colocadas
por ordem. Ex: classe social, peso medido em 3 níveis (pouco pesado,
muito pesado e pesado).
Variáveis qualitativas nominais – são aquelas que não podem ser
hierarquizadas. Ex: cor dos olhos, local de nascimento.
Tabelas de frequências para dados quantitativos discretos ou qualitativos
xi – são os dados da observação
n – dimensão da amostra
ni – frequência absoluta
Ni – frequência absoluta acumulada
fi – frequência relativa (ni/n), ou seja, e a frequência absoluta a dividir pela
amostra.
Fi – frequência relativa acumulada
Tabelas de frequência para dados quantitativos contínuos, agrupados em
classes
Ex: Numa amostra de 20 alunos do 7º ano medimos, em centímetros a sua
altura.
Cálculo auxiliar para determinar a amplitude das classes:
Amplitude da amostra = 174(valor máximo)-156(valor mínimo) = 18
Regra de sturges – para organizar uma amostra de dados contínuos de
dimensão (n) pode considerar-se para o número de classes o valor k, onde k é
o menor inteiro tal que 2k > n.
25=32 sendo 32 maior que 20 (valor de n), serão 5 as classes.
Amplitude de cada classe = 18:5(nº de classes)=3,6
inteiro mais próximo
------
4 é o número
Medidas de localização
Média – é um conjunto de dados numéricos que se obtém dividindo a soma do
valor de todos os dados pelo número total de dados.
Média em dados agrupados – quando os dados são agrupados temos que
verificar o ponto médio da classe e depois multiplicar pelos dados, só depois se
divide pelo número total de dados. Ex:
[4,6[ 2
[6,8[ 3
Assim ficaria= 2*5+3*7/5=6,2 seria a média
5 – o ponto médio da classe.
2 – o valor de ni
NOTA: A média só se pode calcular para dados quantitativos.
Mediana – é o valor que divide o conjunto de dados em dois conjuntos de
elementos. Se por um número par soma-se os dois números do meio e divide-
se por 2, se forem números impares a mediana é o número que estiver no
meio.
NOTA: A mediana pode calcular-se para dados quantitativos e qualitativos
desde que haja uma hierarquia nas diferentes classes
Moda – é o dado que ocorre com maior frequência. O seu cálculo requer
organização prévia do conjunto de dados.
NOTA: A moda pode ser utilizada para os dados quantitativos e qualitativos
mesmo quando estes não são hierarquizáveis.
Classificar as simetrias da distribuição – Quando a média é igual à mediana
diz-se que são simétricas; quando a média é maior do que a mediana diz-se
que há um enviesamento para a direita; quando a mediana é maior do que a
média há um enviesamento para a esquerda.
NOTA: A mediana não é tão sensível, como a média às observações que
são muito maiores ou menores do que as restantes (outliers).
Mesmo quando a média é igual não podermos dizer que os valores são
semelhantes, isso só se consegue ver com as medidas de dispersão
como é o caso do desvio padrão
Diagrama de caule e folhas – No caule coloca-se o número(s) da classe
dominante, dezena, centena, etc. e nas folhas colocam-se os outros números.
Ex: 70 76 89 86 99 94 65 63 45 43 32 56 53 34
3
24
4
35
5
6
6
35
7
06
8
69
9
49
Quartis – são valores que dividem a distribuição de dados em quatro parte de
igual percentagem, transmitindo, desta forma, uma ideia mais clara da
localização dos elementos do conjunto.
1º quartil fica à esquerda da mediana
2º quartil é a mediana
3º quartil fica a direita da mediana
Ex: 680 680 700 720 770 800 3000
720 – mediana
680 – 1º quartil
800 – 3º quartil
Diagrama de extremos e quartis – para a sua construção é necessário
calcular o chamado resumo de 5 números, ou seja, mínimo de observações,
1º quartil, mediana, 3º quartil, máximo das observações.
Amplitude interquartis = Q3-Q1
No 1º quartil o valor é tal que 25% das observações são menores ou iguais a
ele, a mediana (2º quartil) é o valor tal que 50% das observações são
menores ou iguais a ela e finalmente o 3º quartil é o valor tal que 75% das
observações são menores ou iguais a ele.
Medidas de dispersão
Amplitude total – é a diferença entre o maior valor e o menor valor do
conjunto de dados (os extremos). Quanto maior for amplitude, maior será a
dispersão dos valores da variável em torno da média.
Variância – esta é uma importante medida de variabilidade que permite medir
o grau de dispersão dos dados em relação à média. Medida que baseia os
desvios de uma amostra em relação a média aritmética dos quadrados dos
desvios.
Assim: A variância é a soma dos quadrados dividida pelo número de
observações do conjunto menos uma. A variância é representada por s2,
sendo calculada pela fórmula:
∑ (xi – Média)2 / (n-1), ou seja, s2 = SQ / n-1
Atenção: primeiro calcular a média, segundo fazer sempre uma tabela, ex:
Média = 5,4+6,9+6,6+7,2+5,7+6,1+7,1+5,8+6,8+6,4=6,4
10
xi
5,4
6,9
6,6
7,2
5,7
6,1
7,1
5,8
6,8
6,4
xi-média
-1
0,5
0,2
0,8
0,7
0,3
0,7
0,6
0,4
0
(xi-média)2
1
0,25
0,04
0,64
0,49
0,09
0,49
0,36
0,16
0
∑ 3,52
terceiro tem de se somar todos os valores de (xi-média)2 = 3,52
quarto divide-se este valor (3,52) por N-1 (total da amostra-1). Assim 3,52/101=0,391
s2 = 0,391, ou seja, a variância é 0,391.
Desvio padrão – é dado pela raiz quadrada da variância
s=√s2 que neste caso será de 0,625.
Desvio padrão de dados agrupados – faz-se a √ (5-11,2)2x2+(7-11,2)2x3/n-1,
neste caso seria por 1.
5 – o ponto médio da classe
11,2 – a média
2 – o valor de ni
NOTA: O desvio padrão é sempre positivo e será tanto maior quanto mais
variabilidade houver entre os dados. Se não houver variabilidade, isto é, se as
observações forem todas iguais, então o desvio padrão vem igual a zero.
Dados bivariados. Correlação e regressão
Diagrama de dispersão e tabela de contingência
Diagrama de dispersão – É uma representação gráfico para os dados
bivariados, em que cada par de dados (xi,yi) é representado por um ponto de
coordenadas (xi,yi), num sistema de eixos coordenados.
Interpretação do diagrama de dispersão – A maior ou menor força de uma
associação é visível pela forma como os pontos se apresentam, uns
relativamente aos outros, fazendo sobressair um determinado padrão.
Tipo de associação linear entre duas variáveis: associação positiva – duas
variáveis dizem-se associadas positivamente se aos maiores valores de uma
correspondem os maiores valores de outra, ou seja, quando uma variável
aumenta a outra também aumenta (sentido ascendente); associação negativa
– duas variáveis dizem-se negativas quando aos maiores valores de uma
correspondem, os menos valores de outra, ou seja, quando uma variável
aumenta a outra diminui (sentido descendente).
Como medir esta associação linear? A associação linear calcula-se
através de uma medida – o coeficiente de correlação, que indica a maior ou
menor associação com que duas variáveis se relacionam. Que mede a maior
ou menor força com que as variáveis se associam quer positivamente, quer
negativamente.
Coeficiente de correlação – este coeficiente que se representa por r e se
calcula do seguinte modo para os pares de valores (x1,y1), (x2,y2),…(xn,yn):
idades
notas
xi-média
yi-média
xi-media*yimedia
32,00
13,00
-
0,13
-
0,63
0,08
30,00
14,00
-
2,13
0,38
-0,80
28,00
16,00
-
4,13
2,38
- 9,80
38,00
11,00
5,88
-
2,63
-15,42
34,00
13,00
1,88
-
0,63
-1,17
3,88
-
1,63
-6,30
média
36,00
12,00
33,00
12,00
26,00
18,00
32,13
13,63
0,88
-
6,13
-
1,63
- 1,42
4,38
- 26,80
- 61,63
r = ∑ (xi-média) (yi-média) / n-1 x sx x sy
ATENÇÃO: O valor de r estar sempre entre 1 e -1, ou seja −1 ≤ r ≤ 1; Se r está
próximo de 1, há uma forte correlação positiva; Se r está próximo a –1, há uma
forte correlação negativa; Se r está próximo de 0, não há correlação linear.
Quanto maior for o valor absoluto de r, mais forte será a relação linear existente
entre os xi e os yi.
Do 0 ao 0,3 diz-se que é nula ou muito baixa; do 0,3 -0,8 moderado e do
0,8 a 1 diz-se que é elevada.
Verificar a percentagem de variação – Primeiro temos que obter o valor da
correlação e depois achar o seu 2 e multiplicar por 100 para achar a
percentagem da variação.
Classificar a reta de regressão linear –
Probabilidades –
Diagrama de Venn –
Acontecimentos independentes –
Probabilidades condicionada -
Download