Estatística - 2º Período A estatística é uma ciência que estuda uma ou varias características ou propriedades de uma população tendo por base a recolha, classificação, apresentação e interpretação dos dados sobre o fenómeno em estudo. Noções básicas sobre estatística: - População: sobre quem é o estudo - Amostra: quem responde - Variável estatística: sobre o que é o estudo - Unidade estatística: cada elemento da população - Efectivo da população: número de elementos da população - Censo: estudo estatístico que incide sobre todos os elementos de uma população - Sondagem: estudo estatístico em que se utiliza apenas uma amostra da população Variáveis estatísticas: A variável estatística é aquilo que se está a estudar, e esta pode ser: - Variável estatística qualitativa: não podem ser expressas numericamente, pois relacionam situações como a cor da pele, cor dos olhos, marca de refrigerante, marca de automóvel, preferência musical entre outras. - Variável estatística quantitativa: são expressas numericamente, quer traves de uma contagem, quer através de uma medição; podem dividir-se em variável estatística quantitativa discreta que só toma valores isolados, como por exemplo o número de irmãos; e em variável estatística quantitativa continua que toma qualquer valor de um dado intervalo, como por exemplo a altura, a temperatura, o peso. Planeamento e aquisição de dados: Uma análise estatística envolve, geralmente, duas fases fundamentais e com objectivos distintos: - Estatística Descritiva, que visa descrever o real de forma a permitir entendê-lo melhor; trata da recolha, classificação e redução dos dados com vista a descrever e interpretar a realidade actual ou factos passados relativos ao conjunto observado. O seu objectivo é informar, prevenir, esclarecer. - Estatística Indutiva que, a partir de uma amostra da população, permite estender os resultados à população inteira; trata de estabelecer conclusões relativas a um conjunto mais vasto de indivíduos (população) a partir da observação de parte dela (amostra). Ao seleccionar uma amostra: - deve ser aleatório - deve ter elementos suficientes A amostra pode ser: - Amostra representativa da população: estamos perante uma amostra bem recolhida, ou seja, significa que representa bem a população - Amostra enviesada: estamos perante uma amostra mal recolhida, ou seja, não representa bem a população. Aplicação e concretização dos processos referidos: 1.º Fase - identificação do objecto do estudo estatístico: decide-se o objecto do estudo e a variável a estudar 2.º Fase - recolha de dados: através de inquéritos, observações... 3.º Fase - organização e apresentação de dados: reduzir os dados obtidos e organiza-los em tabelas ou gráficos 4.º Fase - análise e interpretação de resultados: fase em que se obtém as conclusões 1 Construção de tabelas de frequência: L1 número de dias (xi) 10 12 13 15 17 21 22 30 Total L2 L3 L4 número de pessoas (fi) 5 3 8 9 6 10 8 1 50 L5 L6 Fi fri fri (%) Fri (%) 5 8 16 25 31 41 49 50 0,1 0,06 0,16 0,18 0,12 0,20 0,16 0,02 1 10 6 16 18 12 20 16 2 100 10 16 32 50 62 82 98 100 xi - todas as opções referentes á variável estatística em estudo fi - frequência absoluta, numero de efectivos de xi Fi - frequência absoluta acumulada - soma-se sempre o que está para trás em fi fri - frequência relativa - fi/total fri (%) - frequência relativa em % Fri - frequência relativa acumulada - soma-se o que está para trás em fri (%) Na máquina: ir á tabela: STAT + EDIT xi - L1 fi - L2 Fi - L3 - cumsum (2ND + LIST + OPS) (L2) fri - L4 - L2/TOTAL fri (%) - L5 - L4 x 100 Fri - L6 - cumsum (2ND + LIST + OPS) (L5) Importante: 1. Quando o estudo estatístico é sobre uma variável estatística qualitativa (no xi tem letras) a tabela de frequência não tem as colunas de frequências acumuladas Fi e Fri. 2. Quando o total não dá 100 na frequência relativa: retira-se um ao mais pequeno, por exemplo: 0,30769 = 0,31 0,07692 = 0,08 <- retira-se aqui, faz-se batota. 2 Dados agrupados em classe: Para descobri-mos o número de classes: - n = 24 (efectivo da população/total) - 2k ≥ n (sendo K o numero de classes): 21 = 2; 22 = 4; 23 = 8; 24 = 16; 25 = 32 - K = 5 classes - xmax - xmin = 102 - 60 = 42 - = = 8,4 <- amplitude da classe 8,5 <- amplitude da classe definitiva classes marca de classes (xi) fi Fi fri fri (%) Fri [60; 60,8[ 6 6 0,25 25 25 [68,5; 77[ 5 11 0,21 21 46 [77; 85,5[ 4 15 0,17 17 63 [85,5; 94[ 5 20 0,21 21 84 [94; 102,5[ 4 24 0,16 16 100 Total 24 1 100 contagem llllll lllll llll lllll llll 24 classes xi - todas as opções referentes á variável estatística em estudo fi - frequência absoluta, numero de efectivos de xi Fi - frequência absoluta acumulada - soma-se sempre o que está para trás em fi fri - frequência relativa - fi/total fri (%) - frequência relativa em % Fri - frequência relativa acumulada - soma-se o que está para trás em fri (%) contagem - 3 Representações gráficas: - Diagrama de caule - e - folhas: Idade dos pais dos alunos e da professora de MACS: Pai -> 49 46 31 48 45 46 40 50 46 39 61 39 39 59 8 7543110000 60 Mãe -> 50 40 41 44 45 40 47 3 0 5 6 43 38 41 40 40 56 999 01566689 09 1 - Gráfico Circular: Deve ter atenção que este tipo de gráficos, construídos, de um modo geral, para dados qualitativos: - tem de ter legenda e a percentagem de cada sector; - tem a área de cada sector igual à frequência; - deve ter um titulo. Este é um tipo de gráfico bastante atractivo e muito útil para estabelecer comparações entre as frequências das diferentes categorias. No entanto não deve ser usado quando a variável pode assumir muitas modalidades diferentes. Para calcular a amplitude dos ângulos: fri × 360⁰ 4 - Pictograma: São gráficos onde se utilizam figuras ou símbolos alusivos á variável em estudo. Deve ter em conta que no gráfico: - tem de existir a legenda do símbolo; - o símbolo deve de estar relacionado com a característica em estudo; - o número de símbolos é proporcional á frequência; - os símbolos podem ser desenhados em linhas ou em colunas; - os símbolos devem poder dividir-se segundo eixos de simetria. Os pictogramas são gráficos muito sugestivos e de fácil leitura. No entanto são pouco precisos. - Gráficos de Barras: São gráficos formados por um conjunto de barras em que a altura é proporcional às frequências. Num dos eixos marcam-se as frequências (absolutas ou relativas) e no outro os valores da variável. As barras devem ficar igualmente distanciadas umas das outras. Uma das vantagens é a sua fácil construção. 5 - Gráficos de linhas: Este tipo de gráfico é utilizado para representar informação que varia ao longo do tempo. Nota: só para variáveis estatísticas contínuas - Histogramas: Estes gráficos utilizam-se sempre que os dados estão agrupados em classes, na forma de intervalos, devendo ter-se em conta que: - no eixo horizontal representa-se os intervalos das classes; - no eixo vertical representa-se as frequências; - no histograma as barras são juntas. Nota: só para variáveis estatísticas contínuas Nota: Quando as amplitudes não são iguais, tem de se calcular a altura das barras = fi/amplitude 6 - Polígonos de frequências: Nota: para frequências absolutas e relativas O polígono parte do ponto médio de uma classe fictícia com frequência zero, passa pelos pontos médios de cada uma das classes e termina no ponto médio de outra classe fictícia de frequência zero. Nota: para frequências absolutas acumuladas e relativas acumuladas No polígono de frequências acumuladas não se recorre à marca da classe. À esquerda do limite inferior da primeira classe, a frequência acumulada é zero a á direita da última classe é 1 (ou o efectivo se for frequência absoluta) 7 Medidas de localização/medidas de tendência central: - Média: ( ) é o quociente da soma de todos os lados pelo numero dos lados, ou seja: No caso em que os dados são discretos e estão organizados em tabelas, podemos calcular a média do seguinte modo: A marca da classe obtém-se fazendo a média: - Moda: (Mo) é o valor da variável ao qual corresponde uma maior frequência (absoluta ou relativa) Quando existem dois valores com a mesma frequência diz-se que a amostra é bimodal. Quando os valores têm todos a mesma frequência diz-se que a amostra é amodal. Quando existem vários valores com a frequência mais alta diz-se que a amostra é plurimodal. A moda pode ser calculada nos dois tipos de variáveis (qualitativas e quantitativas) e é a única que se pode calcular para dados qualitativos. Caso os dados estejam agrupados em classes, indicaremos a classe modal, e determinamos graficamente um valor aproximado para esta medida através de um histograma. 8 - Mediana: ) é o valor que divide o conjunto de dados (ordenados por ordem crescente ou decrescente) em duas partes com o mesmo numero de observações. Se o número de dados é impar, a mediana é o valor central. Se o número de dados é par, a mediana é a media aritmética dos valores centrais. 14 15 15 15 17 17 18 14 15 15 15 17 17 18 19 então: = = 16 Se o numero de dados for muito grande: - se o número de dados n é impar, a ordem k da mediana é dada por - se o número de dados n é par, a mediana é a media dos valores de ordens Caso os dados estejam agrupados em classes, indicaremos a classe mediana e determinaremos geometricamente um valor aproximado da mediana: Podemos dizer que mediana é o valor que divide a amostra (organizada por ordem crescente) ao meio, isto é, metade dos elementos do conjunto de dados são menores ou iguais á mediana, enquanto que os restantes são superiores ou iguais. 9 Medidas de localização: - Quartis: 10 11 - Diagrama de extremos e quartis: Exemplo 14: As notas do Francisco nos primeiros testes do 2º período nas diferentes disciplinas foram as seguintes: 8 12 14 15 15 17 17 19 20 Por observação dos dados, concluímos que Q1 = 13, mínimo é 8. Q1 = 15 e Q3 = 18, o valor máximo é 20 e o valor Q2/ Q3 Analise do diagrama: Existe uma maior concentração dos dados entre o 1ºQ e o 2ºQ e também entre o 3ºQ e o valor máximo (xmax.) Como os dados estão mais concentrados à esquerda do 2ºQ então, existe enviesamento para a direito. Este diagrama pode informar quanto ao enviesamento de uma distribuição: - Dados simétricos: os dados estão distribuídos de forma simétrica - Enviesamento para a esquerda: os dados estão mais concentrados à direita de Q2 - Enviesamento para a direita: os dados estão mais concentrados à esquerda de Q2 12 - Percentis: dividem uma amostra ordenada em cem partes iguais. Quando os dados estão agrupados em classes, os percentis podem ser calculados de forma idêntica à dos quartis, ou seja, não se determina o valor exacto dos percentis mas, apenas, a classe a que pertencem. 13 Vantagens, desvantagens e limitações das medidas de tendência central: 14 Medidas de dispersão: - Amplitude: é a diferença entre o valor máximo e o valor mínimo da variável: a = xmáx. - xmín. - Amplitude Interquartil: é a diferença entre o 3º quartil e o 1º quartil: Aq = Q3 - Q1 # se o valor de Aq for grande, a dispersão entre os valores centrais é grande. # se o valor de Aq for pequeno, a dispersão é pequena. - Desvio Padrão: = 2,68 idas à biblioteca = L1 idas à biblioteca 0 1 2 3 4 5 Total L2 L3 nº de alunos 1 3 7 8 4 2 25 = L4 2 (xi - ) 7,1824 2,8224 0,4624 0.1024 1,7424 5,3824 (xi - )2 x fi 7,1824 8,4672 3,2368 0,8192 6,9696 10,765 37,44 1,2238 soma L4 (2ND + LIST + MAT) L1 = xi L2 = fi L3 = (L1 - )2 L4 = (L1 - )2 x fi 15 Introdução gráfica à análise de dados bivariados: - Gráfico de correlação ou Diagrama de dispersão: é um gráfico de pontos em que as coordenadas de cada ponto são os valores das duas variáveis em estudo. O conjunto dos pontos num gráfico de correlação designa-se por nuvem de pontos. X Y A correlação diz-se linear se a nuvem de pontos se distribuir ao longo de uma linha recta, a recta de regressão. Esta representação permite analisar de que forma se relacionam as duas variáveis: Correlação positiva 16 Correlação negativa A correlação é linear positiva, porque à medida que uma variável aumenta os valores correspondentes à outra variável também aumentam. Correlação nula A correlação é linear negativa, porque à medida que uma variável aumenta os valores correspondentes à outra variável diminuem. 17 MÁQUINA GRÁFICA: - Calcular média, moda, mediana, desvio padrão e quartis: STAT + calc + 1-Var Stats 1-Var Stats L1, L2 - Fazer os gráficos: 1. 2. 3. 4. 5. STAT, EDIT, colocar os dados na tabela L1 e L2 2ND + Y = + ENTER, colocar ACT e escolher o tipo Em Xlist colocar L1 e em Ylist colocar L2 (escolher a marca, facultativo) WINDOW escolher o xmin, o xmax, a escala em EscX; o ymin, o ymax e a escala em EscY GRAPH 18