CURSO DE ESTATÍSTICA BÁSICA E PROBABILIDADE Prof. Cezar Augusto Cerqueira 2014 1 1 - ESTATÍSTICA: NOÇÕES GERAIS A ESTATÍSTICA é a ciência que trata da coleta, processamento e análise de dados, sendo uma ferramenta fundamental no processo de resolução de problemas e tomada de decisões. O uso da estatística é de fundamental importância na identificação de problemas, na determinação do tipo de dados pertinentes à análise destes, sua coleta, tratamento e posterior tomada de decisões, a partir das conclusões estabelecidas, contribuindo na elaboração de um plano de ação para a resolução do problema em questão. Informações numéricas analisadas servem de base para tomada de decisões. As estatísticas nos auxiliam a entender melhor os fenômenos em geral. EM GERAL, CONHECEMOS ESTATÍSTICAS: Demográficas Econômicas De saúde Educacionais Empresariais, etc. A obtenção das estatísticas é apenas uma das faces do problema; É preciso aprofundar a análise Números não foram feitos apenas para serem exibidos ou armazenados IMPORTÂNCIA E ALGUMAS RAZÕES PARA SE CONHECER ESTATÍSTICA: Para saber como apresentar e descrever informações de forma apropriada Para saber como tirar conclusões a partir de grandes populações, com base somente na informação obtida em amostras. Para saber como melhorar processos Para saber como obter previsões confiáveis. Ferramenta fundamental no processo de solução de problemas Gestores modernos lidam com grande quantidade de informação. Auxílio na determinação de planos de ação para resolução de problemas Tomada de decisões “bem informadas“ 2 ESTATÍSTICA: IMPORTANCIA PARA A EMPRESA: Aumento na competitividade Eliminação de desperdícios Redução na necessidade de inspeção Aumento no grau de satisfação dos clientes UMA PALAVRA SOBRE FONTES DE DADOS LEVINE ET AL (2005) destacam quatro fontes-chave no processo de coleta de dados: 1. 2. 3. 4. Obter dados já publicados por fontes governamentais, industriais ou individuais. Planejar e executar um experimento para obter os dados necessários. Planejar e executar uma pesquisa ou levantamento de campo. Realizar uma análise através de um estudo observacional. No Brasil o governo é o principal produtor de dados sócio-econômicos e demográficos e o IBGE seu órgão oficial de estatística, que planeja e executa uma ampla gama de pesquisas, tendo como carro-chefe o Censo Demográfico, realizado a cada dez anos e que produz informações populacionais, que possibilitam uma investigação sobre os componentes da dinâmica demográfica brasileira, com destaque para dados sobre a composição da população por estrutura etária, sexo, educação, trabalho e rendimento, além de aspectos ligados à mortalidade, fecundidade e migração, entre outros. O IBGE produz ainda, em suas diversas pesquisas, dados sobre a evolução da produção industrial, comercial do setor de serviços; sobre emprego e desemprego, registro civil, taxas de inflação; além de dados sobre a realidade dos municípios do país, sobre o setor de saúde, entre outros. Os governos estaduais e municipais também produzem uma ampla série de informações de nível de agregação mais localizado, complementando o chamado sistema estatístico nacional. A segunda fonte de dados mencionada é a experimentação, técnica na qual um controle rigoroso é exercido no tratamento dado aos participantes. Nesse tipo de levantamento geralmente são utilizados procedimentos estatísticos mais sofisticados, como testes de hipóteses e análise de variância, entre outros. A terceira fonte de obtenção de dados é a realização de pesquisas, procedimento no qual nenhum controle é exercido sobre os participantes, no que tange ao seu comportamento. A população é indagada sobre questões relativas a crenças, valores, atitudes, características pessoais, entre outras. As respostas obtidas são devidamente tratadas para posterior análise. Na análise observacional o pesquisador observa diretamente o comportamento de seu objeto de estudo, geralmente em seu ambiente natural. Este tipo de levantamento, em geral, se aplica a situações onde pesquisas são impraticáveis ou de difícil execução. Tais estudos coletam informações, na forma de grupo, para auxiliar em processos de tomadas de decisão. Uma técnica bastante utilizada é o grupo focal, empregada para estruturar questões em aberto. Outros tipos de levantamentos observacionais são ainda utilizados, em diversas situações, entre os quais destacamos dinâmicas de grupo, “brainstorming”, etc. 3 GRANDES ÁREAS EM ESTATÍSTICA: A trabalho com dados estatísticos pode ser visualizada em três grandes áreas: Estatística Descritiva Probabilidades Inferência estatística ESTATÍSTICA DESCRITIVA Utilizada na etapa inicial de análise Conjunto de técnicas destinadas a descrever e resumir os dados. Tabelas Descrição Gráficos Organização Medidas Resumo Técnicas Visuais Algumas estatísticas descritivas: - Taxas de inflação Taxas de desemprego Taxas de mortalidade infantil Renda per capta Taxa de alfabetização Índice de leitos por habitantes, etc. 4 PROBABILIDADE Teoria matemática utilizada para se estudar a incerteza, oriunda de fenômenos de caráter aleatório. INFERÊNCIA ESTATÍSTICA: Trata da análise e interpretação de dados amostrais O principio básico é tirar conclusões sobre a população a partir de uma amostra de dados obtida da mesma. APLICAÇÃO a) Uma montadora de automóveis compra amortecedores de outra indústria, em lotes de 100 peças. De cada lote é retirada uma amostra, com base na proporção de defeituosos contidos nessa amostra é tomada uma decisão quanto à aceitação ou não do lote. b) Um jornal investigou 900 pessoas residentes na capital sobre qual o fato de terem ou não um plano de saúde; cerca de 400 disseram que o possuem. O processo de coleta/ interpretação dos dados pode ser resumido no esquema abaixo: População Amostra Descrição Análise/da amostra inferência Decisão 5 NOÇÕES DE AMOSTRAGEM Os dados representam a base para a tomada de decisões confiáveis. Na área de qualidade, por exemplo, quando coletamos dados, nosso propósito primordial é obter informações sobre lotes de produtos, sobre a estabilidade de processos, sobre a capacidade de um processo atender às especificações e sobre resultados obtidos sob alterações que visem melhorar a qualidade do processo. Nesse sentido cabe destacar os conceitos de: POPULAÇÃO – Conjunto de elementos de um universo, com pelo menos uma característica em comum, sobre o qual desejamos estabelecer conclusões ou implementar ações. AMOSTRA – Parte ou subconjunto da população a ser estudada. POR QUE USAR AMOSTRAGEM? Estudo de grandes populações. Redução de custos. Resultados mais precisos em menor espaço de tempo. Aleatória simples Estratificada PROBABILÍSTICA Sistemática Grupos (cluster) Multifásica AMOSTRAGEM (Tipos) NÃO PROBABILÍSTICA 6 Amostra Aleatória Simples – cada sujeito ou item tem a mesma chance de seleção. Denota-se por “n” o tamanho da amostra e “N” o tamanho da população. Cada item da população é numerado de 1 a N. A chance de seleção de cada elemento é dada por 1/N. As amostras podem ser escolhidas com ou sem reposição. O sorteio geralmente é feito com o auxílio de tabelas de números aleatórios. Amostra Sistemática – Os N elementos da população são divididos em “k” grupos, onde k=N/n. O primeiro elemento é sorteado por um número aleatório entre 1 e k, sendo o restante da amostra obtido pela seleção de cada k-ésimo elemento respectivo na população. Amostra Estratificada – a estratificação consiste na divisão de um grupo original em diversos subgrupos, com base em determinados fatores. Na área de qualidade os fatores geralmente são equipamentos, fabricante, operadores, métodos de produção, determinadas condições ambientais de produção, entre outros. Amostras de grupos ou clusters – nesse caso, os N elementos são divididos em grupos ou clusters. Uma amostra aleatória de grupos é obtida e todos os elementos do grupo são investigados. Em algumas situações uma sub-amostra dentre de cada gruo inicialmente sorteado pode também ser adotada. Os grupos podem ser tomados como municípios, bairros, quarteirões, setores censitários, condomínios, etc. 7 2 – APRESENTAÇÃO DE DADOS No processo de análise de dados, o pesquisador tem à sua mão uma série de informações relativas a uma população ou uma amostra, e necessita resumir tais dados para torna-los informativos, para compará-los com outros resultados ou verificar sua adequação a um modelo teórico. Portanto, antes de passar a análise descritiva propriamente dita, que antecede a etapa de inferência, é conveniente observar alguns procedimentos de resumo de dados e sua apresentação na forma tabular ou gráfica. Dados brutos desorganizados, não trazem informação! Ë importante organizar e resumir os dados Obter dos dados a maior quantidade de informação TIPOS DE VARIÁVEIS Os dados coletados no trabalho de pesquisa, gerenciamento de processos, controle de qualidade de produtos e serviços, em geral podem ser de natureza qualitativa ou quantitativa. Variáveis como sexo, educação, estado civil, nível de qualidade de uma peça (perfeita ou defeituosa), são de natureza qualitativa. Tais variáveis ainda podem ser classificadas como nominais, quando não existe nenhuma ordenação nas categorias (p/ex: sexo, estado civil), ou ordinais, quando apresentam alguma ordenação (p/ex: grau de instrução). As variáveis quantitativas podem ser classificadas como discretas ou contínuas. As discretas resultam geralmente de contagens do número de ocorrências de determinada característica de interesse. As variáveis contínuas são aquelas cujos valores possíveis formam um intervalo de números reais e resultam normalmente de mensurações. São apresentados a seguir alguns exemplos de variáveis discretas e contínuas: Discretas -número de filhos de um casal -número de defeitos em uma chapa de aço -número de acidentes de trabalho em uma semana em certa fábrica. Contínuas -Peso ou altura de um indivíduo -Espessura de uma peça -Tempo de vida de uma lâmpada, etc IMPORTANTE!: A técnica estatística a ser utilizada na análise dos dados depende do tipo de variável com que se trabalha. 8 2.1 DISTRIBUIÇÃO DE FREQUÊNCIAS Após coletar, deve-se organizar os dados. Para conhecer melhor a distribuição das variáveis de interesse procura-se dispor os dados em tabelas e gráficos. Objetiva-se obter uma melhor visualização do fenômeno. CASO DE VARIÁVEIS NOMINAIS OU ORDINAIS Exemplo: A Tabela 2.1 apresenta a distribuição dos empregados do setor de produção de certa empresa segundo o seu grau de instrução. Tabela 2.1 Empregados do setor de produção, segundo o grau de instrução, 2005. GRAU DE INSTRUÇÃO Freqüência (fi) Primeiro Grau 15 Segundo Grau 25 Superior 10 TOTAL 50 FONTE: Pesquisa direta 9 REPRESENTAÇAO GRÁFICA: GRÁFICO DE SETORES: Útil na representação de variáveis de natureza qualitativa. Empregados do Setor de Produção, segundo grau de instrução - 2000 20% 30% Primeiro Grau Segundo Grau Superior 50% CASO DE VARIÁVEIS DISCRETAS Para ilustrar, considere os dados abaixo representando a distribuição da variável número de filhos dos empregados do setor de produção. Tabela 2.2 Distribuição do número de filhos dos empregados do setor de produção NÚMERO DE FILHOS Freqüência ( fi) 0 5 1 10 2 20 3 9 4 6 10 REPRESENTAÇÃO GRÁFICA: Gráfico de Colunas Número de filhos 20 18 16 14 12 freq. 10 8 6 4 2 0 0 1 2 3 4 filhos CASO DE VARIÁVEIS CONTÍNUAS Foram obtidas as rendas mensais, em salários mínimos, dos empregados do setor de produção. Tabela 2.3 Distribuição de freqüências das rendas dos empregados do setor de produção CLASSE DE RENDA(sal.min.) 4 |----- 8 8 |----- 12 12 |----- 16 16 |----- 20 20 |----- 24 TOTAL Freq. simples(fi) Freq. Relativa Freq. Acumulada (Fi) 7 14,0 7 8 16,0 15 20 40,0 35 10 20,0 45 5 10,0 50 50 100,0 - 11 O HISTOGRAMA É considerado como uma das sete Ferramentas da Qualidade. Representa um modelo estatístico para o padrão de ocorrencia dos valores de determinada população O histograma é um gráfico de barras no qual o eixo horizontal é subdividido em vários pequenos intervalos, sendo construída uma barra vertical, de área proporcional ao número de observações na amostra cujos valores pertencem ao intervalo correspondente. As informações são dispostas de modo a permitir a possível visualização da forma da distribuição dos dados e a percepção do valor central e da dispersão em torno desta valor central. Exemplo de Histograma: Distribuição dos salários dos empregados do setor de produção 25 freq. simples 20 15 10 5 0 6 10 14 18 22 sal.min. O Histograma pode ser construído de acordo com a experiência do profissional com a variável a ser representada, que pode estabelecer a melhor distribuição desta em classes ou intervalos. Em seguida é apresentado um roteiro para o caso geral de elaboração de um histograma. 12 Roteiro para elaboração de um Histograma: Coletar “n” observações Escolher o número de intervalos (k) Calcular a amplitude total dos dados (R): R = Max - Min Calcular o comprimento de cada intervalo (amplitude de classe, h): h=R/k Arredondar convenientemente h Calcular os limites de cada intervalo Construir a tabela de frequencias, que deve conter: Limites de cada intervalo; ponto médio; frequencia simples (fi); frequencia relativa; frequencia acumulada (simples e relativa) 9. Desenhar o Histograma. 1. 2. 3. 4. 5. 6. 7. 8. Tipos de Histograma: Simétrico: Valor médio no centro Frequencia mais alta no centro diminuindo gradualmente de forma simétrica em direção aos extremos 100 80 60 40 20 0 13 Assimetria Positiva e Negativa Distribuição dos salários dos empregados do setor de produção da Companhia B 16 14 freq. simples 12 10 8 6 4 2 0 6 10 14 18 22 sal.min. A Companhia B apresenta uma distribuição com uma ASSIMETRIA POSITIVA, ou seja, uma cauda mais acentuada no lado direito da distribuição e uma maior concentração em valores mais baixos. Nesse caso, a média é aumentada em função de alguns valores elevados incomuns, sendo maior que a mediana. Distribuição dos salários dos empregados do setor de produção da Companhia C 16 14 freq. simples 12 10 8 6 4 2 0 6 10 14 18 22 sal.min. A distribuição dos salários da Companhia C apresente uma ASSIMETRIA NEGATIVA, ou seja, uma concentração mais acentuada nos valores mais elevados da 14 distribuição. No caso a média é reduzida em função de alguns valores mais baixos, sendo inferior à mediana. Estratificação de Histogramas O histograma pode, em alguns casos, esconder determinados padrões que só vem a ser identificados quando construímos histogramas estratificados por alguma variável de interesse. Quando estratificado o Histograma pode exibir diferentes distribuições para distintos fatores. A existencia de diferentes distribuições podem estar contribuindo para aumentar a variabilidade do processo. 15 Histograma e os limites de especificação O histograma é uma ferramenta fundamental no sentido de se obter uma visão da capacidade de um processo em estar atendendo determinados limites de especificação. Alguns caos estão ilustrados na Figura a seguir: A DISPOSIÇÃO RAMO-E-FOLHA Consiste de uma outra ferramenta valiosa para organizar um conjunto de dados e ao mesmo tempo, compreender a maneira com os valores se distribuem e se agrupam ao longo da amplitude de observação no conjunto de dados. Cada observação é dividida em: ramo (dígitos iniciais) e folha (dígitos restantes). Devemos escolher poucos ramos em relação ao total de observações (entre 5 e 20). Exemplo: Considere os dados abaixo representando a resistência à compressão de uma amostra de 80 corpos de prova de liga de alumínio: 105 97 245 163 207 134 218 199 160 196 221 154 228 131 180 178 157 151 175 201 183 153 174 154 190 76 101 142 149 200 186 174 199 115 193 167 171 163 87 176 121 120 181 160 194 184 165 145 160 150 181 168 158 208 133 135 172 171 237 170 180 167 176 158 156 229 158 148 150 118 143 141 110 133 123 146 169 158 135 149 Como ramos consideraremos os valores 7,8,9,...24, o gráfico encontra-se a seguir: 16 Gráfico Ramo-e-Folha – Resistência à compressão de 80 corpos de prova. Ramo Folha 76 87 97 10 51 11 580 12 103 13 413535 14 29583169 15 471340886808 16 3073050879 17 8544162106 18 361410 19 960934 20 7108 21 8 22 189 23 7 24 5 Frequencia 1 1 1 2 3 3 6 8 12 10 10 7 6 4 1 3 1 1 O GRÁFICO DE PARETO Consiste de um gráfico de barras verticais que dispõem a informação, de forma a tornar evidente e visual a priorização de temas. O gráfico de Pareto é considerado uma das sete Ferramentas da Qualidade. O princípio de Pareto estabelece que os problemas relacionados à qualidade se traduzem na forma de perdas e podem ser classificados em duas categorias: “ os poucos vitais” e os “muitos triviais”. Em torno de 80% dos problemas vem de 20% das causas, desse modo, atacar 1/5 das causas solucionaria 4/5 dos problemas Exemplo: Uma indústria fabricante de lentes iniciou o ciclo de melhoria da qualidade, com o objetivo de resolver o seguinte problema: aumento no número de lentes defeituosas produzidas pela empresa, a partir de fevereiro de 2004. Em uma etapa de observação, a empresa classificou uma amostra de lentes produzidas, de acordo com os tipos de defeitos encontrados, tendo obtido os resultados da Tabela 2.4, a seguir. 17 Tabela 2.4 – Defeitos encontrados em uma amostra de lentes fabricadas pela indústria Tipo de Defeito Freqüência de Total Freqüência Percentual defeitos relativa (%) Acumulado Acumulado Revest. Inadequado 55 55 43,3 43,3 Trinca Arranhão 41 96 32,3 75,6 12 108 9,4 85,0 Espessura inadequada 11 119 8,7 93,7 Mal-acabada 5 124 3,9 97,6 outros 3 127 2,4 100,0 127 - 100,0 - Total FONTE: Indústria de lentes Gráfico de Pareto para os defeitos das lentes O Gráfico de Pareto pode ter ainda grandes aplicações na área de qualidade, destacando-se: 18 Gráfico de Pareto para causas, envolvendo, geralmente, as seguintes categorias: equipamentos, insumos, informação do processo ou medidas, condições ambientais, pessoas, métodos ou procedimentos. Gráfico de Pareto para efeitos, envolvendo, geralmente, as categorias: qualidade, custo, entrega, segurança, etc. Gráfico de Pareto expresso em unidades monetárias Gráfico de Pareto estratificado (por operador, etc) Comparações tipo antes e depois Desdobramento de gráficos de Pareto (causas e sub-causas) 19 3–MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS O resumo dos dados na forma de tabelas, bem como a visualização da sua distribuição, na forma de gráficos, são importantes elementos na análise dos mesmos. Entretanto, é fundamental que se disponha de um sumário dos dados na forma numérica. São apresentadas a seguir as principais medidas utilizadas para se quantificar os valores centrais da distribuição dos dados (locação), bem como o grau de dispersão dos dados em torno dos valores centrais (variabilidade). 3.1 MEDIDAS DE TENDÊNCIA CENTRAL (locação): média aritmética, mediana CÁLCULO DE MEDIDAS DE LOCAÇÃO A média aritmética é a medida mais comumente utilizada para representar um conjunto de dados. No caso de dados brutos, seu cálculo pode ser feito através da fórmula: n X Xi i 1 n A mediana corresponde ao valor central de uma distribuição. No caso de dados brutos, sendo o tamanho da amostra (n) ímpar, basta tomar, a partir dos dados dispostos em ordem crescente, o elemento de ordem X([n+1/2]) . No caso de n ser par, a mediana é obtida como a média aritmética dos dois valores centrais da distribuição dos dados em ordem crescente, ou seja: Me X ( n / 2) X ([ n / 2]1) 2 Caso os dados estejam dispostos em uma tabela de freqüências os cálculos são efetuados através das expressões a seguir. No caso da média aritmética: k X X i 1 i fi n 20 No caso da mediana, tem-se: Me Li [(0,5)n Fant ] .c f Me Onde: Li = limite inferior da classe mediana; Fant = freqüência acumulada até a classe anterior fMe = freqüência simples na classe mediana c = amplitude da classe mediana. OUTRAS MEDIDAS DE LOCAÇÃO A distribuição dos dados pode ser divida em mais de duas partes. No caso de dividila em quatro partes iguais, os pontos de corte correspondentes são chamados de Quartis e representam medidas estratégicas na distribuição. O primeiro quartil (Q1) é um valor que tem aproximadamente um quarto (25%) das observações abaixo de si. O segundo quartil tem aproximadamente 50% das observações abaixo de seu valor e corresponde à mediana, medida anteriormente estudada. Já o terceiro quartil (Q3) reúne abaixo de si cerca de 75% das observações. Para dados não agrupados o primeiro quartil é calculado como a [(n+1)/4]ª observação ordenada e o terceiro como a [3(n+1)/4]ª observação ordenada. As regras a seguir são úteis para o cálculo dos quartis (LEVINE ET AL., 2005): 1) Se o ponto de posicionamento resultante for um numero inteiro, a observação numérica correspondente àquele ordinal será o valor do quartil. 2) Se o ponto de posicionamento estiver entre dois números inteiros, a média de seus respectivos valores será tomada como o quartil. 3) Se o ponto de posicionamento resultante não se tratar de um número inteiro, nem correspondente á metade do intervalo entre dois inteiros, uma regra a ser aplicada pode ser a de arredondar para o inteiro mais próximo e selecionar o valor numérico relativo à observação correspondente. 4) Uma outra regra a ser adotada na situação 3 pode ser interpolar entre os valores correspondentes. Como exemplo, vamos calcular os quartis para a série de dados abaixo: 9,8 21,5 11,3 25 12,5 38,9 13,5 16,5 17,5 18 18,1 18,7 19 20 Q1 = (n+1)/4 = (14+1)/4 = 3,75 Assim, pela regra 3 o primeiro quartil corresponde à quarta observação ordenada, ou seja, Q1 = 13,5. Por outro lado, 21 Q3 = 3(n+1)/4 = 11,25, logo o valor de Q3 é aproximado pela décima primeira observação ordenada, ou seja, Q3 = 20. 3.2 MEDIDAS DE VARIABILIDADE A variabilidade está presente em todo e qualquer processo produtivo de bens ou serviços. De modo geral, pode-se dizer que a variabilidade é resultado de uma série de alterações nas condições sob as quais as observações são tomadas. Segundo WERKEMA (1995), tais alterações podem refletir diferenças entre matérias-primas, condições de equipamentos, métodos de trabalho, condições ambientais e operadores envolvidos no processo. A redução da variabilidade de processos permite que a produção de itens cuja característica de interesse esteja próxima de um valor alvo desejado e dentro de limites especificados. CÁLCULO DE MEDIDAS DE VARIABILIDADE A discrição dos dados através de medidas de locação pode esconder importantes informações com respeito variabilidade dos dados. Como exemplo ilustrativo, suponha que 3 grupos de alunos submeteram-se a um teste, obtendo-se os valores abaixo: GRUPO A GRUPO B GRUPO C 3 1 5 4 3 5 5 5 5 6 7 5 7 9 5 Observa-se que a média dos 3 grupos é igual a 5, portanto, estes não apresentam diferenças quanto ao aspecto de locação; entretanto a variabilidade dos resultados difere bastante entre os 3 grupos, sendo necessária uma medida que sumarize esse aspecto. Uma medida, de caráter preliminar, de abordagem da dispersão é a chamada amplitude do conjunto de dados, correspondente à diferença entre o valor máximo e o valor mínimo. No caso dos dados acima, a amplitude do grupo A seria: Xmax-Xmin= 7-3 = 4. Para o grupo B seria de 8 (9-1) e para o gruo C seria igual a 0 (zero). Embora a amplitude seja uma medida simples da variação total nos dados, ela não leva em consideração o modo como os dados estão distribuídos entre os valores extremos. O grau de dispersão ou variabilidade dos dados em torno da média pode ser avaliado através de medidas como a variância, o desvio padrão e o coeficiente de variação. O princípio básico é medir o desvio das observações (di), em relação à média do grupo. No caso dos dados do grupo A acima, teríamos os seguintes valores para os di: -2, -1, 0, 2, 2. A variabilidade poderia ser pensada como a soma desses desvios, porém essa não é uma boa alternativa porque tal soma é igual a zero para qualquer conjunto de dados. Uma alternativa, portanto é trabalhar com a soma dos quadrados desses desvios e em seguida 22 obter um desvio médio. Desse modo a fórmula para o cálculo da variância populacional de um conjunto de dados pode ser expressa como: n 2 (X i 1 i X )2 n Alternativamente, pode-se mostrar que tal expressão pode ser escrita como: ( X i ) 1 [ X i2 ] n n 2 2 Ao se trabalhar com amostras, pode-se utilizar a fórmula abaixo, que apresenta algumas propriedades interessantes, como representante da variância de uma população, lembrando que a diferença entre as duas fórmulas diminui à medida que o tamanho da amostra aumenta. ( X i ) 1 s [ X i2 ] n 1 n 2 2 Considerando os dados relativos às notas dos alunos do grupo A, temos que: X 2 i X i 135 25 Desse modo, aplicando-se a expressão acima, pode-se ver que a variância das notas será dada por: S2 = ¼(135 – 125) = 2,5. No caso de tabelas de freqüência, o cálculo da variância pode ser feito através da expressão: ( X i f i ) 1 s [ X i2 f i ] n 1 n 2 2 23 Para ilustrar considere o cálculo da variância dos salários dos empregados, a partir da Tabela 4: Cálculo da variância dos dados da Tabela 4 (salários dos empregados) CLASSE DE Freq. Freq. Freq. Ponto RENDA(sal.min.) simples(fi) Relativa Acumulada (Fi) médio(Xi) 4 |----- 8 7 14,0 7 6 8 |----- 12 8 16,0 15 10 12 |----- 16 20 40,0 35 14 16 |----- 20 10 20,0 45 18 20 |----- 24 5 10,0 50 22 TOTAL 50 100,0 - Xifi 42 80 280 180 110 692 Xi2fi 252 800 3920 3240 2420 10632 Desse modo, tem-se que: s2 1 692 2 [10.632 ] 21,525 49 50 Imagine agora que nosso objetivo fosse avaliar, dentro de um mesmo grupo, por exemplo, se há maior grau de dispersão com relação ao peso dos indivíduos ou com relação à sua altura, ou, em outro caso, se desejássemos comparar o grau de dispersão de grupos com médias bastante distintas. Em tais casos não seria aconselhável utilizar o desvio padrão, sendo necessário o uso de uma medida de dispersão relativa, adimensional, que é o caso do COEFICIENTE DE VARIAÇÃO, cuja expressão corresponde à relação entre o desvio padrão e a média aritmética dos dados, sendo portanto escrito como: s X Uma outra medida de dispersão que pode ser empregada é a chamada amplitude interqualtil, representada pela diferença entre o terceiro e o primeiro quartis, ou seja: J = Amplitude Interquartil = Q3-Q1. Esta medida considera a dispersão nos dados que estão entre os 50% de observações centrais, não sendo, portanto, influenciada pelas observações extremas. 24 3.3 O ESQUEMA DOS CINCO NÚMEROS E O GRÁFICO BOX PLOT Tanto a média como o desvio-padrão podem ser bastante afetados por observações extremas e não fornecem informação sobre o grau de assimetria da distribuição. Para tentar contornar tais dificuldades, TUCKEY (1977) propôs o uso de cinco medidas, conhecido como o esquema dos cinco números, que são: a Mediana, o primeiro e terceiro Quartis e os valores Extremos do conjunto de dados. O esquema pode ser visualizado na figura abaixo: Me Q1 Min Q3 Max O Box Plot é uma representação gráfica que procura descrever, de forma simultânea, diversas características importantes de um conjunto de dados, tais como tendência central, variabilidade, assimetria e valores extremos ou “outliers”. Seu desenho tem como base o esquema dos 5 números, tomando os valores extremos como um múltiplo da amplitude interquartil, geralmente considera-se o valor de 1,5 vezes a amplitude interquartil. Uma observação a mais de 3 amplitudes interquartis é considerada um “outlier" “extremo”. O Box Plot é representado pela figura abaixo, onde a linha central da caixa corresponde à mediana dos dados, com o canto esquerdo (ou inferior) no primeiro quartil e o canto direito (ou superior) no terceiro quartil. Os valores de E1 e E2 podem ser os valores mínimo e máximo do conjunto de dados ou, alternativamente, obtidos como: E1 = Q1 – 1,5 J e E2 = Q3 +1,5 J. E1 Q1 Me Q3 E2 25 EXEMPLO: Os dados a seguir representam os retornos anuais para três anos de uma amostra de 14 fundos de baixo risco. Tabela 3.1 – Retorno em 3 anos de fundos mútuos de baixo risco Fundo BRINSON Global equity Phoenix-Zweig Managed asset C AIM Global Gr In A MFS Global Tot Ret A Fremont Global Scudder Global Van Kampen Global eq All B Fidelity Global balanced Tweedy Browne Global Value MERRILL LYNCH Gbl Value D MORG STAN DW European Growth DREYFUS PREMIER Worldwide Gr A ACORN Int JANUS Worldwide Retorno 3Anos 9,77 11,35 12,46 13,8 15,47 17,48 18,37 18,47 18,61 20,72 21,49 22,47 31,5 38,16 FONTE: LEVINE ET AL. 2005 A mediana dos dados corresponde à média aritmética entre a 7ª e a 8ª observações, ou seja, 18,37 e 18,47, logo, Me = (18,37+18,47)/2 = 18,42. O primeiro quartil corresponde à observação (n+1)/4 = 3,75, aproximada pela 4ª observação, logo Q1 = 13,8. O terceiro quartil é aproximado pela observação (3n+1)/4 = 3(14+1)/4 = 11,25, ou 11ª observação, ou seja, Q3 = 21,49. A amplitude interquartil é dada por: J=Q3-Q1=21,49-13,8=7,69. Desse modo, os valores extremos podem ser obtidos como: E1= 13,8 - 1,5(7,69) = 2,26 e E3 = 21,49 + 1,5(7,69) = 33,02. 26 4 NOÇÕES DE PROBABILIDADE O primeiros estudos começaram com problemas formulados pelo Barão de Méré e discutidos por matemáticos como Pascal e Fermat (1654), geralmente envolvendo jogos de azar. A teoria de probabilidades se aplica a experimentos aleatórios, que são aqueles cujo resultado não podem ser previstos com certeza. A despeito do caráter casual que envolve o resultado de um experimento aleatório, é possível construir um modelo que o reproduza, sem que seja necessária a sua observação. Como exemplo ilustrativo, poderíamos considerar um experimento simples como o lançamento sucessivo de um dado. Os resultados possíveis e respectivas probabilidades podem ser escritos como: Resultado Probabilidade 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6 Ainda como ilustração, considere um lote contendo 50 peças, das quais 10 são defeituosas e que seja retirada ao acaso uma peça deste lote. Os resultados possíveis e respectivas probabilidades podem ser escritos como: Resultado Perfeita(P) Probabilidade 4/5 Defeituosa(D) 1/5 Um modelo probabilístico associado a um experimento aleatório, conforme observado acima, pode ser especificado por um espaço amostral (S), que consiste no conjunto dos resultados possíveis e por uma probabilidade. Os subconjuntos do espaço amostral são denominados de eventos, geralmente denotados por letras latinas maiúsculas A,B,C, ou A1, A2, etc. DEFINIÇÕES DE PROBABILIDADE Uma probabilidade pode ser atribuída com base nas características teóricas da realização do experimento, como é o caso do exemplo do lançamento do dado, visto anteriormente. No caso, a probabilidade clássica a priori é baseada no conhecimento prévio sobre o experimento. No caso mais simples, em que cada resultado é igualmente provável (equiprovável), a probabilidade de ocorrência do evento é dada pela expressão: P casos favoráveis casospossí veis Uma probabilidade também pode ser obtida de forma empírica, através da freqüência relativa. Pode-se verificar que à medida que o número de realizações do experimento aumenta, a freqüência relativa de um evento de interesse tende a se estabilizar em um valor que representa a sua verdadeira probabilidade. Os resultados são baseados em dados observados e não no conhecimento prévio sobre o fenômeno investigado. Tal 27 definição de probabilidade pode ser aplicada para calcular, por exemplo, a percentagem de indivíduos fumantes em uma escola, a proporção de votos de um candidato político ou ainda o percentual de analfabetos em uma comunidade. Uma probabilidade pode ser definida como uma função que satisfaz os seguintes axiomas: 1) P(A) 0 2) P(S) = 1 n n j 1 j 1 3) P( Aj ) P( Aj ) Onde os Aj , j= 1,2,...n são disjuntos ou excludentes, ou seja, ( Ai Aj) = ALGUMAS PROPRIEDADES 1) Seja A um evento qualquer, então 0 P(A) 1. 2) Seja Ac o chamado evento complementar de A, então P(Ac) = 1 – P(A). 3) P(A B) = P(A) + P(B) – P(A B), sendo A e B eventos quaisquer. PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA Em muitas situações, o cálculo da probabilidade de um evento pode ser feito com base em alguma informação adicional fornecida, sendo o espaço amostral atualizado. Essa nova probabilidade recalculada pode ser chamada probabilidade condicional. Definição: dados dois eventos A e B, diz-se que a probabilidade condicional de B ocorrer, dado que o evento A ocorreu é dada por: P( B | A) P( A B) P( A) onde P(A) 0. Definição: dois eventos A e B são independentes se a informação da ocorrência de A não altera a chance da ocorrência de B, ou seja: P(B|A) = P(B) Ou seja, P(A B) = P(A).P(B) 28 APLICAÇÃO A tabela abaixo apresenta o número de alunos matriculados no Departamento de Matemática de certa universidade: CURSO Matemática (A) Física (F) Informática (C) Estatística (D) MASC. (M) FEM (F) 60 15 10 15 30 10 15 5 Uma pessoa é escolhida ao acaso, calcule as probabilidades seguintes: a) b) c) d) e) f) P(A) P(D) P(H) P(A M) P(B F) P(M | C). 29 5. VARIÁVEIS ALEATÓRIAS Variáveis aleatórias são variáveis numéricas cujos resultados podem variar de uma realização para outra do experimento. Podem ser classificadas de acordo com o esquema abaixo: DISCRETA Surgem através de um processo de contagem Ex: Número de filhos de um casal, Número de defeitos em uma chapa metálica, etc VARIÁVEL ALEATÓRIA CONTÍNUA Resulta de um processo de medição, assumindo valores num conjunto infinito não enumerável Ex: Peso, Altura, Renda, etc. 5.1. CASO DISCRETO: A variável aleatória assume valores X1, X2, ...... Xn A cada valor se associa uma probabilidade respectiva: p1, p2, ...... pn Pode–se definir uma função de probabilidades, f (x), tal que: f ( x) 0 e f ( x) P( X x) 1 30 Em resumo tem-se: X X1 X2 X3 ...... XN Distribuição de Probabilidades P(X=x) P1 P2 P3 ...... PN MÉDIA E VARIÂNCIA DE UMA VARIÁVEL DISCRETA: Xi . P ( X = xi ) Média: E(X)= Variância: V ( X ) = E (X2 ) – E2 ( X ) Onde: E ( X2 ) = X 2 .P(X=x ) 5.2. CASO CONTÍNUO: A Variável assume valores em intervalos Pode–se definir a função de densidade de Probabilidades, f (x) , tal que: 1. f ( x) 0 2. f ( x)dx 1 b 3. P(a X b) f ( x)dx a 31 APLICAÇÃO: 1) Um lote contém 10 peças, sendo 3 defeituosas. Duas peças são retiradas ao acaso, sem reposição. Seja X V.A representando o número de defeituosas. a) Determinar o espaço amostral do experimento e suas respectivas probabilidades. b) Obtenha a distribuição de probabilidades da variável X. c) Calcule E ( X ) e V ( X ). 2) Repetir o exercício acima usando amostragem com reposição. 32 6. MODELOS DISCRETOS: 6.1. DISTRIBUIÇÃO DE BERNOULLI Seja um experimento com apenas dois resultados possíveis: Sucesso e Fracasso. Define-se a Variável: X = 1 se ocorre sucesso, com probabilidade p e X = 0, caso contrário. Tem-se então a seguinte distribuição de probabilidades para tal variável: X P(X=x) 0 1 (1–P) P É fácil ver que E( X ) = p e V ( X ) = p (1 – p) = pq 6.2. DISTRIBUIÇÃO BINOMIAL Tem-se n realizações independentes de um experimento tipo Bernoulli. A Probabilidade de sucesso “p” é constante. Deseja-se obter a chance de ocorrerem k sucessos nas n realizações. Seja X Variável aleatória definida como o número de sucessos nas n realizações. Então: Função de Probabilidades Binomial P (X = K ) = ( KN ) . pk. ( 1- p)n-k Verifica-se que, no caso da Distribuição Binomial, temos: Média = np e VARIÂNCIA = npq PARÂMETROS 33 6.3. MODELO DE POISSON: Distribuição de probabilidades discreta com importantes aplicações, em casos que envolvem contagem de eventos que ocorrem em intervalos de tempo, volume, superfície. APLICAÇÕES: Chegada de clientes numa fila Ocorrência de falhas por metro quadrado de tecido produzido Número de chamadas telefônicas que chegam numa central Limite da Distribuição Binomial Formula: Onde: P (X k) = e t (t ) K k! = taxa de ocorrências. t = n.º de unidades de tempo ou espaço. 6.4. MODELO HIPERGEOMÉTRICO Considere uma população de N elementos, dos quais r têm uma certa característica. Retira-se dessa população uma amostra de n elementos. Define-se X como o nº de sucessos ( nº de elementos com a característica citada ) na amostra. Deseja-se calcular P(X=k), que é dado por: ( rk )( nNkr ) P( X k ) ( nN ) 34 APLICAÇÃO: 1. Cerca de 10% das peças produzidas por certa indústria, são defeituosas. Numa amostra de 10 peças obtidas ao acaso, determinar a probabilidade de se ter: a) Exatamente 2 defeituosas b) No máximo, uma perfeita 2. Na fila de certa Agência Bancária, chegam, em média, 5 clientes por minuto. a) Nenhum cliente em intervalo de 01 minuto. b) Exatamente 06 clientes em 02 minutos. 3. Pequenos motores são guardados em caixas com 50 unidades. Um inspetor de qualidade examina cada caixa testando 5 motores. Se nenhum deles for defeituoso a caixa é aceita. Se houver ao menos um defeituoso toda a caixa é testada. Sabendo que há 6 motores com defeito numa caixa, calcule a probabilidade desta ser examinada por completo. 35 7. MODELOS CONTÍNUOS 7.1. DISTRIBUIÇÃO NORMAL O exame dos gráficos de freqüência sugere a curva representativa da distribuição da variável. As curvas de distribuição permitem o cálculo de probabilidades sobre a Variável estudada. A curva normal é uma das mais importantes e utilizadas na Estatística. Muitas variáveis, na prática, seguem o modelo normal. O Modelo Normal possui dois parâmetros: a média () e o desvio padrão (). Notação X~N( , ) GRÁFICO DA CURVA NORMAL: 68% - + Do gráfico acima, observa-se algumas importantes propriedades da curva normal: 1) 2) 3) 4) A área sob a curva é igual a 1. A curva é simétrica em relação à sua média. A curva possui dois pontos de inflexão em ( + ) e ( - ). A curva possui um ponto máximo em x = . 36 USO DA TABELA NORMAL Para se calcular probabilidades associadas à curva normal, deve ser utilizar p X chamado escore padrão, definido como: Z = . A tabela normal aqui utilizada apresenta a área entre 0 (zero) e o escorre de interesse: 0 z Como exemplo, vamos obter as seguintes áreas: 1) P ( 0 < Z < 1 ) = 0,3413 0 1 2) P ( Z > 1 ) = 0,50 – 0,3413 1 37 3) P ( Z > -1 ) = 0,50 + 0,3413 = 0,8413 -1 0 A Tabela Normal também pode ser usada no sentido inverso, ou seja: Dada uma determinada área, qual o escorre corresponde? Considere a situação abaixo: 5% z=1,64 0 z 2,5% z = 1,96, -z 0 =5% z 38 APLICAÇÃO: Diâmetro de parafusos produzidos por certa indústria, segue o modelo normal, com média de 172mm e desvio padrão de 5mm. a) Qual a proporção de parafusos com diâmetro inferior a 177mm? b) Qual a proporção de parafusos com diâmetro entre 167 e 177mm? c) Qual o valor acima do qual estão 2,5% dos diâmetros? 39 8. DISTRIBUIÇÕES AMOSTRAIS As características de uma população podem ser descritas através de estatísticas populacionais, conhecidas como parâmetros, que podem então ser definidos como medidas numéricas que descrevem características de uma população. Os parâmetros são quantidades desconhecidas que precisam ser estimadas com o uso de uma amostra extraída da população. Uma importante etapa no trabalho de análise de dados é a inferência estatística, onde estatísticas amostrais tais como a média aritmética, o desvio padrão ou a proporção, são utilizadas para estimar os parâmetros populacionais correspondentes. As distribuições amostrais podem ser vistas como: Distribuição de probabilidades de uma estatística amostral Indicam como variam as estatísticas devido a variações no processo de amostragem. Onde está a Variabilidade? Na própria estatística Na distribuição da população em estudo Tem relação inversa com o tamanho da amostra 8.1 DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS Para introduzir a idéias da distribuição amostral de médias, considere o exemplo a seguir. EXEMPLO 8.1: Suponha que nossa população de estudo é formada pelo número de defeitos encontrados em quatro chapas metálicas produzidas por certa indústria, cujos valores são: 3, 4 e 5. A média populacional é dada por: = (3+4+5)/4 = 4 defeitos por chapa. A variância populacional do número de defeitos é dado por: 2 (3 4) 2 (4 4) 2 (5 4) 2 0,6666 3 Vamos agora selecionas amostras de tamanho 2 dessa população que, no total são 3 = 9 amostras possíveis, cujos resultados encontram-se na tabela abaixo: 2 40 Tabela 8.1 - Possíveis amostras de tamanho 2 que podem ser extraídas da população do exemplo 8.1 Amostra Média Amostral (3,3) 3 (3,4) 3,5 (3,5) 4 (4,3) 3,5 (4,4) 4 (4,5) 4,5 (5,3) 4 (5,4) 4,5 (5,5) 5 Como cada uma das 9 amostras tem a mesma chance de ocorrência, a distribuição de probabilidades da média amostral é dada por: Tabela 8.2 – Distribuição da média amostral para o exemplo 8.1 Valor da média Probabilidade 3 1/9 3,5 2/9 4 3/9 4,5 2/9 5 1/9 A média da distribuição amostral de médias pode ser obtida como: 1 9 2 9 3 9 2 9 1 9 x 3. 3,5. 4. 4,5. 5. 4 Portanto a média da distribuição amostral de médias é igual à média populacional, anteriormente calculada. Por outro lado, a variância da distribuição amostral de médias pode ser calculada por: x2 E( X 2 ) E 2 ( X ) , onde 1 2 3 2 1 E ( X 2 ) 3 2. 3,5 2. 4 2. 4,5 2. 5 2 16,333 , portanto: 9 9 9 9 9 2 2 2 2 x E( X ) E ( X ) 16,333 4 0,333 41 Portanto, a variância da distribuição amostral de médias poderia ser obtida como: x2 2 n 0,6666 0,3333 . 2 Em resumo, a média da distribuição amostral de médias coincide com a média populacional, x , enquanto a variância da distribuição amostral de médias equivale a 2 x 2 n , cujo desvio-padrão é dado por x n . AMOSTRAGEM A PARTIR DE POPULAÇÕES COM DISTRIBUIÇÃO NORMAL No caso de populações normalmente distribuídas, com média aritmética e desvio padrão , pode-se mostrar que a distribuição amostral de médias também será normalmente distribuída com média e desvio padrão z (x ) n . A estatística: (x ) n , x tem distribuição Normal com media 0 (zero) e desvio padrão 1 (hum). Em resumo, podemos afirmar sobre a distribuição amostral de médias que: É obtida a partir da média aritmética de uma série de amostras de tamanho n, extraída de uma população que tem média e desvio padrão . A média da distribuição amostral de médias é igual à média populacional A variância da distribuição amostral de médias é dada por: 2 n O desvio padrão da distribuição amostral de médias (erro-padrão da média) é dado por: n Para um tamanho de amostra suficientemente grande, a distribuição amostral de médias é aproximadamente normal. 42 A estatística correspondente à equação abaixo é aproximadamente N(0,1). z (Z n Z (x ) n APLICAÇÃO: 1. Uma indústria de lâmpadas afirma que o tempo de vida de seu produto é de 100 dias com desvio padrão de 8 dias. Tomando-se uma amostra de 36 lâmpadas ao acaso, pergunta-se; a) Qual média e desvio padrão da distribuição amostral de médias? b) Que percentual de lâmpadas terá vida média superior a 99 dias? c) Que percentual de lâmpadas terá vida média entre 99 e 101 dias? 43 8.3. DISTRIBUIÇÕES AMOSTRAL DE PROPORÇÕES Em muitas situações trabalhamos com variáveis de natureza categórica, onde cada elemento é classificado como possuidor ou não de certa característica, ou variáveis tipo zero-um. Uma determinada peça pode ser classificada como defeituosa ou perfeita; um indivíduo pode ser classificado como a favor ou contra a pena de morte, etc. Nesses casos é importante estimar a proporção de sucessos em uma amostra, obtida como: P= X/n, onde X é o número de ocorrências (sucessos) na amostra e n é o tamanho da amostra. De forma semelhante ao que foi tratado na distribuição amostral de médias podemos resumir, no caso de proporções, que: A média da distribuição amostral de proporções é igual à proporção populacional O desvio padrão da distribuição amostral de proporções é dado por: p p(1 p) N Para amostras suficientemente grandes a distribuição amostral de proporções segue o modelo normal. A estatística da equação abaixo é aproximadamente N(0,1). z pP p APLICAÇÃO: 1. Cerca de 5% das peças produzidas por certa indústria apresentam defeito de fabricação. Num lote de 100 peças, qual a probabilidade de se ter 10% ou mais de defeituosas? 44 9. ESTIMAÇÃO: NOÇÕES GERAIS Vimos que a inferência estatística é o campo da estatística no qual são tomadas decisões sobre populações, com base na informação extraída de uma amostra. Nesse processo são produzidas estimativas sobre os parâmetros populacionais de interesse ou formuladas testes de hipóteses sobre os mesmos. Tais estimativas podem ser obtidas de forma pontual ou por intervalos. Um gerente de uma empresa de produtos automotivos pode, por exemplo, estar interessado em verificar como se comporta a resistência à tração de determinado componente, produzido sob diferentes variações na tensão elétrica. Inicialmente ele pode estar interessado em estimar a resistência média à tração, sob determinada tensão. Nesse caso ele poderá obter uma estimativa pontual ou um intervalo de confiança para a resistência média populacional, com base em uma amostra obtida. Em uma outra situação ele poderia estar interessado em verificar como se comporta a resistência média à tração, sob duas diferentes tensões elétricas no momento da produção, para testar se há diferenças estatisticamente significativas nesse parâmetro, sob as diferentes condições de produção. Nesse caso, ele estaria diante de um problema de decisão, que pode ser resolvido via testes de hipóteses estatísticas. A hipótese seria de que a resistência média à tração sobre a tensão t1 seria, por exemplo, superior à resistência média à tração em peças produzidas sob a tensão t2. Em resumo, podemos afirmar que: Resultados extraídos de uma amostra podem ser usados para produzir inferências sobre a população. Parâmetro: medida numérica que descreve alguma característica da população. Estatísticas: funções de valores amostrais. A estimação pode ser pontual ou por intervalos Tomadas de decisões sobre parâmetros podem, ser obtidas através do uso de testes de hipóteses estatísticas. O processo de inferência sobre dados estatísticos pode ser sumarizado no esquema a seguir: 45 Pontual – observações a partir calcula-se de uma estimativa. ESTIMAÇÃO Por intervalo - fixação de dois valores com probabilidade (1-) de conter o verdadeiro valor do parâmetro. AMOSTRAGEM TESTES DE HIPÓTESES – permite decidir por um valor do parâmetro ou por sua modificação, com um risco conhecido. A média amostral é um estimador pontual natural da média populacional. Com o uso de resultados do chamado Teorema do Limite Central, podemos encontrar e expressão para a construção de um intervalo de confiança para a verdadeira média populacional. Tal intervalo pode ser obtido pela expressão: x Z n 2 , onde: x Corresponde à média amostral, Z/2 corresponde ao valor tabelado, obtido na tabela da distribuição normal, Corresponde ao nível de significância adotado e n Corresponde ao desvio-padrão da distribuição amostral da média. 46 Para uma probabilidade de 95% de confiança, tal intervalo fica: x 1,96 n O que significa que, construídos dessa forma, cerca de 95% dos intervalos conterão o verdadeiro valor do parâmetro (média populacional). Quando o desvio padrão populacional é desconhecido, o mesmo deve ser substituído pela sua estimativa amostral, utilizando-se nesse caso a distribuição t de Student em lugar da distribuição Normal. No caso de uma amostra como temos que estimar o desvio padrão e o mesmo necessita da estimação prévia da média, perde-se um grau de liberdade. Portanto a valor t corresponde a (n-1) graus de liberdade. No caso de duas amostras (diferença de médias) tal valor corresponde a (n1+n2-2) graus de liberdade. Estimadores pontuais e por intervalos de alguns parâmetros populacionais mais freqüentemente usados, tais como médias, proporções e diferenças de médias são resumidos no quadro abaixo: Quadro 9.1 – Estimador pontual e por intervalo para alguns parâmetros populacionais PARÂMETRO ESTIMADOR PONTUAL ESTIMADOR POR INTERVALO ___ ___ X / Z / 2 X Média (com variância conhecida) ___ Média (com variância desconhecida) X Proporção P ___ X / t / 2 ^ ^ P / Z / 2 __ Diferenças de Médias (variâncias conhecidas) __ Diferenças de Médias (variâncias desconhecidas) __ X 1 X 2 __ X 1 X 2 __ N S n P(1 P) n __ ( X 1 X 2 ) / Z / 2 __ __ ( X 1 X 2 ) / t / 2 Sc 12 n1 22 n2 1 1 n1 n2 47 APLICAÇÃO: Uma empresa, que enche latas de tinta, tenta manter o peso especificado para o produto. Foi selecionada uma amostra de 25 latas que produziu um peso médio de 5,0Kg e desvio padrão de 1,5Kg, construir um intervalo de confiança para média populacional. Uma amostra de 50 componentes eletrônicos, extraída de um grande lote, apresenta 5 componentes defeituosos. Construir um intervalo de confiança para a proporção de defeituosos no lote. 48 11. CORRELAÇÃO Coeficientes de correlação têm como objetivo principal avaliar o tipo de intensidade da relação entre duas variáveis. 11.1. DIAGRAMA DE DISPERSÃO Gráfico que representa no plano cartesiano duas variáveis quantitativas Ferramenta simples que permite aprofundar o estudo da associação entre 2 variáveis. Passos para construção de um diagrama de dispersão: 1. Coletar ao menos 30 pares de observações (x,y) das variáveis a serem estudadas; 2. Registrar os dados em uma tabela; 3. Escolher uma variável a ser representada no eixo ‘x’ (preditora) e outra variável em ‘y’ (dependente); 4. Determinar os valores máximo e mínimo para cada variável; 5. Escolher as escalas para ‘x’ e ‘y’ 6. Representar no gráfico os pares de observações (x,y). 7. Registrar informações importantes que devem constar no gráfico: título, legendas, unidades de medidas, etc Exemplo: Na tabela abaixo, estão representadas o tempo de serviço e o volume de vendas semanais de uma amostra de 5 vendedores de determinado produto: VENDEDOR A B C D E TEMPO DE SERVIÇO (Anos) 1 3 4 6 8 VENDAS ( Unidades) 35 40 42 50 55 Diagrama de dispersão correspondente: 49 55 Y vendas 50 45 40 35 0 1 2 3 4 5 6 7 8 9 X tempo INTERPRETAÇÃO DO DIAGRAMA DE DISPERSÃO: De acordo com o exame do diagrama de dispersão, podemos ter as seguintes situações: Correlação Forte Positiva rxy 1 50 Correlação Perfeita Negativa rxy= - 1 Correlação Perfeita Positiva rxy= 1 y y x x Correlação Moderada Ausencia de correlação 51 Quando as variáveis crescem no mesmo sentido temos o caso de correlação positiva. Quando as variáveis crescem em sentidos opostos temos uma correlação negativa. Se os dados estão perfeitamente alinhados sobre uma reta temos uma correlação perfeita. Quando o crescimento de uma variável é acompanhado de variações casuais da outra variável a correlação é nula. Estratificação de Diagrama de Dispersão Em muitos casos a estratificação de um diagrama de dispersão permite a descoberta da causa de um problema. Exemplo: Os dados a seguir representam a variação da temperatura de peças de metal produzidas em função da velocidade do torno. No gráfico a, estão representados os dados gerais e não é possível identificar um padrão. No gráfico b os dados foram estratificados pelo fabricante (A e B) e é possível identificar que, em ambos os casos, há uma associação positiva entre as duas variáveis, observando-se ainda que os dados do fabricante a indicam temperaturas mais elevadas que os do fabricante b, para níveis semelhantes de velocidade do torno. 11.2. COEFICIENTE DE CORRELAÇÃO LINEAR Para medir o grau da associação linear entre duas variáveis quantitativas usamos o coeficiente de correlação linear cuja fórmula é: r XY S XY S XX S YY , onde 52 S XY XY S XX X 2 SYY Y 2 X Y n ( X ) 2 n ( Y ) 2 n CUIDADO! Correlação não implica em relação de causa efeito. Podemos, por exemplo, encontrar uma alta correlação entre o n. º de internações por desidratação e a venda de sorvetes, e a verdadeira causa pode ser o aumento da temperatura. O coeficiente de correlação linear rxy varia entre -1 e 1. Quanto mais próximo de 1 maior o grau de associação linear positiva entre as variáveis e quanto mais próximo de –1 maior o grau de associação negativa. ASSOCIAÇÃO ENTRE VARIÁVEIS QUANTITATIVAS x QUALITATIVAS No caso o objetivo principal é fazer uma comparação do comportamento de uma Variável contínua por grupos, visando captar diferenças: i)nos níveis médios, ii)em variabilidade, iii)na forma da distribuição, iv)detalhes individuais. As ferramentas mais utilizadas nesses casos são: Diagrama de Pontos, Gráficos tipo Box-Plot, Gráfico Ramo-eFolhas. ASSOCIAÇÕES ENTRE VARIÁVEIS: AMBAS QUALITATIVAS Nesse caso as ferramentas mais utilizadas tratam da construção de tabelas de contingencia, considerando uma variável como dependente e outra explicativa. O objetivo principal é verificar e medir associações entre as variáveis, além de encontrar distribuições percentuais, distribuições marginais e distribuições condicionais. Um exemplo: a tabela a seguir apresenta a distribuição, em certa Faculdade, dos alunos dos diversos cursos, por sexo. 53 Escolha de áreas de estudo por sexo Sexo Área Mulheres Homens Contábeis 68 56 Administração 91 40 Economia 5 6 Finanças 63 59 A partir dos dados pode ser obtida uma distribuição percentual dos dados dos cursos, considerando o sexo do aluno: Mulheres Homens Contábeis 54.8 45.2 Administração 69.5 30.5 Economia 45.5 54.5 Finanças 51.6 48.4 Total 58.5 41.5 Total 100.0 100.0 100.0 100.0 100.0 11.3- REGRESSÃO LINEAR SIMPLES O diagrama de dispersão pode revelar importantes informações acerca da relação entre duas variáveis X e Y, que pode assumir a forma de funções matemáticas simples ou mais complicadas. Quando os pontos traçados no diagrama de dispersão se agrupam em torno de uma reta, podemos obter a equação dessa reta e assim determinar um modelo matemático para a relação entre as variáveis. Tal modelo tem a seguinte forma: Yi = A + BXi + ei, onde: Yi = variável dependente ou variável resposta. Xi = variável explicativa A = coeficiente linear da reta ou ponto de interseção de Y B = coeficiente angular da reta ou inclinação. O coeficiente linear da reta corresponde ao ponto onde a mesma corta o eixo-Y, ou seja, o ponto onde o valor da variável explicativa X é zero. A inclinação indica o quanto varia a média da variável Y para o aumento de uma unidade na variável X. Este modelo tem uma série de hipóteses que permitem estimar seus parâmetros e proceder a inferências sobre os mesmos (BUSSAB, 1986). A reta que melhor se aproxima dos dados, chamada reta de mínimos quadrados, representada pela expressão: 54 Yi a bX i , que pode ser obtida a partir da minimização da soma dos quadrados dos desvios, que representam as diferenças entre valores observados e estimados para a variável dependente Y, ou seja, minimizando a expressão: F (Yi Yi ) 2 [Yi (a bX i )]2 Os valores dos coeficientes linear e angular resultantes desse processo de minimização podem ser escritos como: b S XY e a y bx S XX Quando os desvios ou resíduos são valores pequenos é sinal de que o modelo está produzindo resultados compensadores. Para uma avaliação da capacidade preditiva da variável explicativa no contexto do modelo linear ajustado, diversas alternativas podem ser utilizadas. Inicialmente podemos obter uma medida, chamada soma de quadrados total, que corresponde à variação quadrática os valores de Y em torno de sua média aritmética, ou seja: SQTOTAL (Yi Y ) 2 Tal soma de quadrados pode ser desmembrada um duas outras somas: uma que corresponde à soma dos quadrados dos desvios da regressão e a outra que corresponde à variação explicada pelo modelo ou soma dos quadrados da regressão, ou seja: SQTOTAL (Yi Yˆi ) 2 (Yˆi Y ) 2 , ou seja, SQTOTAL = SQRESIDUAL + SQREGRESSÃO. A relação entre a variação explicada pelo modelo ajustado (SQREGRESSÂO) e a variação total (SQTOTAL) mede o potencial explicativo do modelo ajustado, ou o percentual de variação explicada. Tal relação é conhecida como coeficiente de variação R2, ou seja: R2 SQREGRESSA O SQTOTAL O valor de R2 varia no intervalo de zero a 1, ou de zero a 100% e naturalmente quanto mais próximo de 100% maior o poder explicativo do modelo ajustado. Pode-se mostrar que o cálculo da SQREGRESSAO pode ser feito com o uso de: SQREGRESSAO = bSxy. 55 APLICAÇÃO: Com os dados da tabela, sobre o tempo de serviço e vendas, obtenha: a) Coeficiente de correlação entre as variáveis b) A reta de regressão c) Qual o valor das vendas semanais para um empregado com 7 anos de experiência? 56 REFERENCIAS BIBLIOGRÁFICAS: BERQUÓ, ELZA et al. Bioestatística, São Paulo, EPU, 1986. BUSSAB, W. O e MORETTIN, P. A . Estatística básica, Atual Editora, São Paulo, 1986. BUSSAB, W. O. Análise de Variância e de Regressão, São Paulo, Atual, 1986. CALEGARE, ALVARO J. A. Técnicas de Garantia da Qualidade, Rio de Janeiro, Ao Livro Técnico, 1985. DRAPER, N. e H. SMITH. Applied Regression Analysis, New York, John Willey, 1966. FONSECA, JAIRO S. e MARTINS, G. A ., Curso de Estatística, São Paulo, Atlas, 1987. GATTAS, R. R. Elementos de Probabilidade e Inferência, São Paulo, Atlas, 1978. GUEDES, M. e GUEDES, J. S., Bioestatística para profissionais de Saúde, Brasília, Ao livro Técnico, 1988. HOFFMAN, RODOLFO e VIEIRA, S., Análise de Regressão, São Paulo, Hucitec, 1982 HUFF, D. Como Mentir com Estatística, São Paulo, Ediouro, 1992. JURAN, J. M. Planejamento para a Qualidade, São Paulo, Pioneira, 1986. JURAN, J. M. e GRYNA F. M., Controle para a Qualidade, VOL. 6, São Paulo, Makron Books, 1993. LEVINE D. N. ET AL, Estatística – Teoria e Aplicações, Rio de Janeiro, LTC Editora, 2005. MAGALHÂES, M. N. e PEDROSO DE LIMA, A. C. Noções de Probabilidade e Estatística, IME-USP, São Paulo, 2000. MONTGOMERY, D. C., RUNGER, G.C. e HUBELE, N. F., Estatística Aplicada à Engenharia, 2ª Edição, Rio de Janeiro, LTC, 2005. MORETTIN, L.G., Estatística Básica – Inferência, São Paulo, Makron Books, 2000. MORETTIN, L. G. Estatística Básica – Probabilidade, São Paulo, Makron Books, 1998. MORETTIN, P. A . Introdução à Estatística para Ciências Exatas, São Paulo, 1991. PARATHAMAN, D. Controle da Qualidade, São Paulo, Mc. Graw Hill, 1990. 57 STEVESON, W. J. Estatística Aplicada à Administração, São Paulo, Harbra, 1986. SHAMBLIN, J. E. Pesquisa Operacional, São Paulo, Atlas, 1979. VIEIRA, S. e WADA, R., Estatística – Uma Introdução Ilustrada, São Paulo, Atlas, 1986. VIEIRA, S. , O que é Estatística, São Paulo, Brasiliense, 1987. WEBSTER, A . L. Estatística aplicada à Administração e Economia, São Paulo, 2006. WERKEMA, M. C. Ferramentas Estatísticas Básicas para o Gerenciamento de Processos, FCO, UFMG, Belo Horizonte, 1996. 58 59