Módulo 1 Estatística Básica Pesquisa Científica Busca entender o mundo. Desenvolve ideias e percepções. Move-se através de hipóteses. Descreve a frequência de ocorrência de um evento. Avalia a relação entre 2 variáveis Procura esclarecer relações do tipo causa- efeito entre duas variáveis Conceito de Estatística • Estatística – Conjunto de técnicas destinadas ao estudo quantitativo de fenômenos coletivos e empiricamente observáveis. • Dado Estatístico Número que mede a intensidade ou a característica do fenômeno coletivo que está sendo estudado. • Finalidade da Estatística ▪ Desenvolver métodos e técnicas p/ coleta, organização, análise e interpretação de dados; ▪ Fornecer métodos para inferir conclusões sobre um universo maior a partir das observações de um fenômeno particular. Conceito de Estatística • Inferência Método para tirar conclusão sobre um fenômeno através de repetidas observações, mantendo sempre as mesmas condições. Processo mental para chegar a uma conclusão a partir de premissas(suposições). • Incerteza Como não é possível controlar todos os fatores que influem na observação de um fenômeno estatístico há sempre um grau de incerteza sobre a veracidade dos resultados. Conceito de Estatística Teoria da Probabilidade A estatística é uma ciência sobre a incerteza. Se baseia inteiramente na Teoria da Probabilidade (de ocorrência de um fenômeno). Probabilidade Estatística É a afir mação sobre a possib ilid ade ou probabilidade de um fenômeno ocorrer, desde que satisfeitas um conjunto de condições teóricas. Fenômenos aleatórios São o objeto de estudo da estatística, e se referem a todos fenômenos observáveis na natureza. Probabilidade Baralho 56 Cartas Qual a probabilidade de tirar 1 Az? Fenômenos Aleatórios Características Básicas ▪ Se repetem. ▪ Variabilidade. ▪ Não há previsibilidade sobre a variação futura. Frequência de um Fenômeno Aleatório Quando um determinado fenômeno ocorre repetidas vezes, diz-se que existe uma regularidade ocorrências ou frequência. Fenômenos Aleatórios População e Amostra População e Amostra Estatística População de uma Variável É o universo de todas as ocorrências possíveis de um fenômeno aleatório. A população é o conjunto total de dados de uma realidade. Amostra É um subconjunto da população. Representa uma parte dos dados da população. População e Amostra Estatística População e Amostra Estatística População e Amostra Estatística Levantamento de dados São as observações de uma amostra da população. Como é impossível levantar todos os dados de uma população, coletamos parte desta informação: amostra. Objetivo da Estatística Levantar dados amostrais para concluir (inferir ou generalizar) sobre as características da realidade mais ampla: população. Indução Estatística Processo pelo qual assumimos que os dados da amostra são iguais ao de toda população. Essa generalização é feita através do cálculo das probabilidades. Amostra Amostragem Amostragem Seleção da Amostra As amostras devem se escolhidas de modo a permitir calcular a probabilidade de ocorrência de um evento. Amostra Representativa É aquela que tem as mesmas características da população de onde foi retirada Amostra Probabilística É aquela cujo processo de amostragem permite atribuir a cada elemento da amostra uma probabilidade semelhante à da população. Amostragem Aleatória É aquela em que cada um dos elementos da população tem a mesma chance de ser selecionado no levantamento dos dados. Amostragem Tipos de Amostragem probabilística: Amostragem casual simples com reposição Os elementos da população entram mais de uma vez na amostra. Amostragem casual simples sem reposição Os elementos da população só podem entrar uma vez na amostra Amostragem sistemática: Seleção da amostra com base num critério: Um em cada dez. Amostragem por conglomerados: A amostra é selecionada por sorteio da área a ser pesquisada Amostra estratificada ou em estágios múltiplos: A amostra é dividida em grupos e selecionada por etapas dentro de cada grupo: cidade/bairro/quadra Amostragem Amostragem Experimentação Experimento e Variável • Experimento – É a observação sistemática de um fenômeno (evento aleatório) qualquer da população. • Variável – É o valor que o fenômeno assume, em um experimento qualquer. • Domínio da Variável – São todos os valores possíveis que um fenômeno pode assumir em um experimento. Experimento e Variável Experimento Variável Lançar 1 dado 1,2,3,4,5,6 Lançar 1 moeda Cara Coroa Domínio da Variável Experimento e Variável Experimento e Variável • Variável Qualitativa (Atributo) – a qualidade assumida pelo evento (fenômeno). • Ex: O que Vc acha do transporte público em SP bom, ruim, regular • Variável Quantitativa – a medida da variação de um evento (fenômeno) •Ex: Qual é a idade média dos alunos da FAU 23, 24, 25 Experimento e Variável • Variável Contínua – aquela que pode assumir qualquer valor numa escala de valores (teoricamente infinitos valores): Altura da pessoas. • Variável Discreta – aquela cujos valores possíveis são números inteiros (contagem): No. de alunos numa sala. • Variável Dependente – aquela cujos valores depende dos valores de outra variável: em matemática se expressa por uma relação funcional (função) y = f (x) • y = variável dependente • x = variável independente Variáveis contínuas e discretas ESTATÍSTICA DESCRITIVA Amostra : Classificação e Caracterização • Distribuição das Freqüências • Medidas de Tendência Central • Medidas de Variabilidade • Medidas de Proporcionalidade ou Relativas Distribuição de Frequência • Frequência de uma variável – é a quantidade de vezes que a variável ocorre (evento). Em outras palavras, é a frequência em que a variável assume um certo valor. • Frequência de variáveis contínuas: É obtida dividindo o conjunto de valores em intervalos de classe e indicando a frequência dos valores observados para cada intervalo. • Intervalo de Classe – É o intervalo entre o valor máximo e mínimo de uma variável. A cada intervalo de classe estão associados os limites de classe (valores extremos) e o ponto médio. Frequência de uma Variável Pesquisa realizada com os 200 alunos de uma universidade buscava identificar as preferências por esportes. Foram fornecidas as seguintes de opções esportivas: futebol, vôlei, basquete, natação, tênis e ciclismo. Observe os resultados: Distribuição de Frequência • Amplitude Total de uma série – É a extensão de variação total da variável: A diferença entre valor maior da última classe e o menor valor da primeira classe. • Amplitude de Classe – É a diferença entre o valor máximo e mínimo da variável dentro da classe. • Ponto Médio de Intervalo de Classe = valor médio limite inferior + limite superior 2 Distribuição de Frequência Variável Frequência 10 2 Variável: Quantidade de $ no bolso Intervalo A 20 4 30 7 50 8 9 C 60 Variáveis Inferior 10 Superior 20 Inferior 30 Superior 40 Inferior 50 Freqüência 6 Intervalos de Classe B 40 Limites 16 Superior 15 30 25 25 25 16 20 60 15 70 16 D 80 10 Inferior 70 Superior 80 26 15 26 10 7 6 90 9 E Inferior 90 100 7 Superior 100 200 4 Inferior 200 Superior 500 16 5 0 D 500 3 1 7 A B C D E D Distribuição de Frequência • Frequência Absoluta – Valor total das observações • Frequência Relativa – Valor porcentual das observações • Frequência Acumulada – Somatória das frequências de todos intervalos Modalidade Esportiva Futebol Vôlei Basquete Natação Tênis Ciclismo Frequencia Frequência Frequência Frequência Relativa Absoluta Acumulada Acumulada 35% 70 70 35% 25% 50 120 60% 20% 40 160 80% 10% 20 180 90% 8% 15 195 98% 2% 5 200 100% 100% 200 200 100% Histograma • Histograma: Gráfico das distribuições das frequências de uma variável. • Gráfico de Barras (Histograma) – Gráfico de retângulos, diagrama de colunas; gráfico de áreas. • Histograma – As frequências dos fenômenos são proporcionais à superfície de cada retângulo que as representam. Para intervalos de mesma amplitude as frequências serão proporcionais às alturas Distribuição de Frequência Histograma Processo de Elaboração do Histograma • Organizar os dados em ordem crescente; • Determinar a amplitude total; • Dividir a amplitude total em um nº adequado de intervalos de preferência com a mesma amplitude; • O número mínimo de intervalos é 5, número máximo 20; • Quando possível os pontos médios dos intervalos devem coincidir com os valores realmente observados Distribuição de Frequência Histograma • Distribuições Simétricas e Assimétricas - Os histogramas podem apresentar distribuição simétricas ou assimétricas. Indicadas nos slides a seguir, • Polígono de Frequências – Unindo-se os valores médios dos intervalos de classe, o histograma se transforma num polígono de frequências. Pode-se então comparar este polígono com uma curva teórica (Normal). GRÁFICO DE FREQUÊNCIAS: Histograma 18 16 Frequências 14 Variaveis Frequência 12 1 2 3 4 5 6 10 8 6 4 2 0 1 2 3 4 Categorias 5 6 4 6 16 8 7 2 HISTOGRAMA E POLÍGONO DE FREQUÊNCIA 45 Pesos ( x 1) Nº alunos (f1) 40-45 45-50 50-55 55-60 60-65 65-70 70-75 75-80 89-85 85-90 Total 10 15 18 22 35 42 32 18 10 6 208 42 40 35 35 32 30 25 22 18 20 18 15 15 10 10 10 6 5 0 40-45 45-50 50-55 55-60 60-65 65-70 70-75 75-80 89-85 85-90 simétrico HISTOGRAMA E POLÍGONO DE FREQUÊNCIA Assimétrico à esquerda Pesos ( x 1) Nº alunos (f1) 40-45 45-50 50-55 55-60 60-65 65-70 70-75 75-80 89-85 85-90 Total 35 42 32 24 20 17 15 10 10 6 208 45 40 35 30 25 20 15 10 5 0 40-45 45-50 50-55 55-60 60-65 65-70 70-75 75-80 89-85 85-90 assimétrico HISTOGRAMA E POLÍGONO DE FREQUÊNCIA Assimétrico à direita 45 Pesos ( x 1) Nº alunos ( f1) 40-45 45-50 50-55 55-60 60-65 65-70 70-75 75-80 89-85 85-90 Total 5 8 12 15 17 21 24 29 42 35 173 40 35 30 25 20 15 10 5 0 40-45 45-50 50-55 55-60 60-65 65-70 70-75 75-80 89-85 85-90 assimétrico Medidas de Ordenamento ou Posição Medidas de Tendência Central • Valores Centrais ou Médias de uma Amostra – Valores que indicam posição de centralidade, ou o ponto central da distribuição. • Média Aritmética Simples – Quociente da soma dos valores observados, pelo número total de valores. α = Σ xi n i = 1.....n Medida de Tendência Central Observações 48 55 51 58 55 48 51 55 58 51 55 58 60 55 58 Evento 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Observações Frequência 48 51 55 58 60 2 3 5 4 1 Média 54,4 Levantamento do peso dos alunos da classe Medidas de Tendência Central • Média Aritmética Ponderada - Quando há valores que se repetem mais que outros. • α = Σ xi . fi Σ fi • Ex: α = 48.2 + 51.3 + 55.5 + 58.4 + 60.1 = 54,4 15 • Utilização: média de cálculo mais fácil. Valor médio significativo por incluir todos os valores observados. Usada em estatística para o cálculo do desvio padrão. Em probabilidade esta média é chamada Esperança Matemática. Medidas de Tendência Central • Mediana – Medida de posição central. A mediana é o valor que ocupa a posição central (meio) da distribuição. • Série de valores com nº impar de termos – Mediana = n + 1 /2 – Nº de termos 7 – Md = 7+1 = 8 / 2 = 4 (mediana é o 4º termo) – Ex: 5, 7, 8, 11, 12, 13, 14 (7 termos) → Md = 11 • Série de valores com nº par de termos – Mediana = n /2 + 1 e – Mediana = n /2 – Nº de termos 8 – – Md = 8/2 = 4 Md = 8/2+1 = 5 (mediana entre o 4º e 5 º termo) – Ex: 5, 7, 8, 11, 12; 13, 14, 15; (8 termos) → Md = 11+12 / 2 = 11,5 • Utilização: |A mediana é usada quando a distribuição apresenta resultados extremos muito discrepantes. A mediana não sofre a influência de valores extremos Medidas de Tendência Central • Moda – Valor dominante de uma distribuição. Aquele que numa série de valores se apresenta com a maior freqüência. Um conjunto de valores pode apresentar mais de uma moda: plurimodal. Ex: 48, 49, 50, 50 50, 55, 58, 59, 60 → M = 50 Ex: 4, 5, 6, 4, 5, 7, 4, 8, 5, 10 → M = 4 e 5 (plurimodal) Medidas de Dispersão Mediadas de Variabilidade • Índices que indicam o grau de concentração ou dispersão de uma distribuição em torno da média. • Principais índices de variabilidade: – – – – Amplitude total Desvio médio Variância Desvio padrão • Amplitude Total (Intervalo Total) - É a diferença entre o maior e o menor valor de uma série. • Ex: 48, 48 49,49,49,55,55,55,55,55,58,58,58,58,59,60 • → A = 60 - 48 = 12 Medidas de Variabilidade • Desvio Médio – Média aritmética dos afastamentos (ou desvios), tomados em valor absoluto, entre cada valor e a média aritmética. • sendo di = │xi - α │ sendo α = média aritmética DM = Σ │di . fi │ Σ fi Ex: dm = (48 – 54,4).2 + (51-54,4).3 + (55-54,4).5 + (58-54,4).4 + (60-54,4).1 15 dm = 12,8 + 10,2 + 3,0 + 14,4 + 5,6 15 dm = 3,07 Utilização: Indica o quanto, em média, os valores se afastam do ponto central (média) numa distribuição do tipo Curva de Gaus Medidas de Variabilidade • Variância – Considerando-se uma amostra de dados, cada dado isolado pode ter um desvio (dispersão) em relação à média da amostra. Essa dispersão é a diferença entre o valor individual e a média da amostra de dados. Para se avaliar o grau de dispersão de toda a amostra de dados utiliza-se a variância que é a somatória dos desvios elevada ao quadrado dividida pelo tamanho da amostra, menos 1. • s2 = Σ (xi – α)2 • fi Σ fi – 1 • Exemplo: s2 = 81,92 + 34,68 + 1,80 + 51,84 + 31,36 14 S2 = 14,4 Medidas de Variabilidade • Desvio padrão – afastamento quadrático médio ou afastamento padrão. É a raiz quadrada da variância. • Desvio padrão dos dados isolados ponderados com freqüências distintas: • s2 = √ Σ (xi – α)2 • fi Σ fi – 1 • Exemplo: s2 = 81,92 + 34,68 + 1,80 + 51,84 + 31,36 14 s = √ 14,4 = 3,79 • Utilização: é a medida mais usada com medida de variabilidade, principalmente quando a distribuição for normal Ohistograma de Densidades 0 .04 0 .03 0 .02 0 .01 0 .00 30 40 50 60 70 80 90 1 00 P es o Peso, emkg, de 1000 pessoas adultas selecionadas ao acaso emuma população Distribuição dos valores da variável aleatória X. Distribuição de probabilidades de X A curva contínua da figura denomina-se Curva Normal 0 .03 0 0.01 5 0.00 0 30 40 50 60 70 80 90 P es o X: peso, em kg, de uma pessoa adulta escolhida ao acaso da população. 10 0 Curva de Gauss Distribuição Normal • Curva de Gauss Distribuição Normal -1s → 1s 68, 27 % dos casos estão incluídos entre M–1s e M+1s -2s → 2s 95,45 % dos casos estão incluídos entre M–2s e M+2s -3s → 3s 99,73 % dos casos estão incluídos entre M–3s e M+3s Curva de Gauss Distribuição Normal