Notas de aula da disciplina Probabilidade e Estatística Professor M. Sc. André Luiz DAMAT - UTFPR Esta apostila apresenta os tópicos principais abordados em sala de aula, contendo definições, teoremas, exemplos. Sua leitura não é obrigatória, porem auxilia no entendimento do conteúdo estudado. Referencias são feitas ao final do material, não aparecendo às citações no texto afim de não sobrecarregar a leitura. Curitiba 2012 1 . Conceitos e definições 1.1 O que é Estatística? Podemos entender o termo Estatística como sendo um conjunto de técnicas que permitem, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento. A grosso modo podemos dividir a Estatística em três áreas: Estatística Descritiva Probabilidade Inferência Estatística 1.1.1 Estatística Descritiva É, em geral, utilizada na etapa inicial da análise, quando tomamos contato com os dados pela primeira vez. Objetivando tirar conclusões de modo informal e direto, a maneira mais simples seria a observação dos valores colhidos. Assim, a estatística descritiva pode ser definida como um conjunto de técnicas destinadas a descrever e resumir os dados, a fim de que possamos tirar conclusões a respeito de características de interesse. 1.1.2 Probabilidade Probabilidade pode ser pensada como a teoria matemática utilizada para estudar a incerteza oriunda de fenômenos de caráter aleatório. Observação. Alguns autores consideram a Probabilidade como uma das divisões da Estatística. 1.1.3 Inferência Estatística É o estudo de técnicas que possibilitam a extrapolação, a um grande conjunto de dados, das informações e conclusões obtidas a partir de subconjuntos de valores, usualmente de dimensão muito menor. Deve ser notado que, se tivermos acesso a todos os elementos que desejamos estudar, não é necessário o uso das técnicas de inferência estatística. Entretanto, elas são indispensáveis quando existe a impossibilidade de acesso a todo o conjunto de dados, por razões de natureza econômica, ética ou física. Estudos complexos que envolver tratamento estatístico dos dados, usualmente, incluem as três áreas mencionadas anteriormente. 1.2 Fases do Método Estatístico 1.2.1 Definição do Problema e planejamento Descrição dos objetivos da pesquisa e identificação da população/amostra. Identificação das variáveis, método de investigação, técnicas de amostragem, apuração dos dados, pesquisa piloto e cronograma físico-financeiro. 1.2.2 Coleta de Dados A coleta pode ser direta e indireta. É direta quando feita sobre elementos informativos de registros obrigatórios (nascimentos, casamentos, importação e exportação de mercadorias), elementos pertinentes aos prontuários dos alunos de uma escola, ou ainda, quando os dados são coletados pelo próprio pesquisador através de inquéritos e questionários, como é o caso das notas de verificação e de exames do censo demográfico, etc. A coleta direta de dados pode ser classificada relativamente ao fator tempo em: a) contínua – também denominada registro, é feita continuamente, tal como a de nascimentos, casamentos e óbitos ou como no de vendas a vista de uma empresa comercial; b) periódica – quando feita em intervalos constantes de tempo, como os censos em geral (de 10 em 10 anos) e os balanços de uma empresa comercial; c) ocasional – quando feita de tal modo que não se considera o tempo em continuidade e nem periódico, a saber, independente do tempo e é feita quando a requer o estudo de um fenômeno. São realizadas a fim de atender a uma conjuntura ou a uma emergência, como no caso de epidemias que assolam ou dizimam rebanhos inteiros. A coleta se diz indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do conhecimento de outros fenômenos relacionados com o fenômeno estudado. Como por exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que é feita através de dados colhidos por uma coleta direta. É coleta indireta também, a pesquisa sobre a duração de vida do ser humano que pode ser feita com os dados colhidos através da coleta direta, obtidos pelos cartórios ou os valores representativos das vendas de uma empresa que são extraídos das notas fiscais e do caixa. 1.2.3 Crítica dos dados Com o propósito de identificar possíveis falhas e imperfeições que possam ocasionar erros grosseiros ou de certo vulto e assim, influenciar os resultados, os dados devem se cuidadosamente criticados. A crítica pode ser externa ou interna. a) Externa: quando visa às causas dos erros por parte do informante, por distração ou má interpretação das perguntas que lhe foram feitas; b) Interna: quando visa observar os elementos originais dos dados da coleta. 1.2.4 Apuração dos dados É o processamento dos dados obtidos e a disposição mediante critérios de classificação. Pode ser manual, eletromecânica ou eletrônica. 1.2.5 Exposição ou apresentação dos dados Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados sob forma adequada (tabelas ou gráficos), tornando mais fácil o exame daquilo que está sendo objeto de tratamento estatístico e posterior obtenção de médias, modas, medianas, etc. 1.2.6 Análise dos resultados Como já dissemos, o objetivo último da Estatística é tirar conclusões sobre o todo (população) a partir de informações fornecidas por parte representativa do todo (amostra). Assim, realizadas as fases anteriores (Estatística Descritiva), fazemos uma análise dos resultados obtidos através dos métodos da Estatística Indutiva ou Inferencial, que tem por base a indução ou inferência, e tiramos desses resultados conclusões e previsões. 1.3 Variável Seja o exemplo a seguir: Três pessoas estão em uma sala à espera para uma entrevista. Um questionário é entregue a cada uma dessas pessoas e deve ser entregue. No questionário existem 4 perguntas pessoais, sendo elas: 1. Gênero (Sexo); 2. Idade (em anos); 3. Altura (em cm) e 4. Fumante. As respostas foram colocadas em na tabela a seguir: Gênero Idade Altura Fumante Pessoa 1 Masculino 19 1.79 Não Pessoa 2 Feminino 22 1.69 Sim Pessoa 3 Feminino 21 1.64 Não Cada uma das características perguntadas as pessoas, gênero, idade, altura e fumante, é denominada de variável. Assim a variável Gênero assume o valore masculino ou feminino, a variável idade os valores 19 anos, 22 anos e assim por diante. É fácil de verificar que as variáveis possuem naturezas diferentes em relação aos valores que podem assumir. Tal fato deve ser levado em consideração nas analises. Podemos dividir as variáveis em dois grupos qualitativas ou quantitativas: 1.3.1 Variável qualitativa – quando seus valores são expressos por atributos: sexo (masculino – feminino), cor da pele (branca, preta, amarela, vermelha, parda), tamanho (pequeno, médio ou grande) etc. 1.3.1.1 Qualitativa ordinal – tem uma ordenação natural, indicando intensidades crescentes de realização. Exemplo. Classe Social (baixa, média ou alta). 1.3.1.2 Qualitativa nominal – quando não é possível estabelecer uma ordem natural. Exemplo. Fuma (sim, não). 1.3.2 Variável quantitativa – quando seus valores são expressos em números (salários dos operários, idade dos alunos de uma escola etc.). 1.3.2.1 Variável discreta Uma variável quantitativa que só pode assumir valores pertencentes a um conjunto enumerável recebe o nome de variável discreta. Por exemplo, na determinação do número de alunos de certa turma, a variável, “número de alunos” é discreta. 1.3.2.2 Variável contínua – uma variável quantitativa que pode assumir, teoricamente, qualquer valor entre dois limites, chama-se variável contínua. Por exemplo, na determinação das alturas dos adolescentes de uma escola, a variável “altura” é continua. Seja uma classe onde o menor aluno possui 155 cm e o mais alto 190 cm, os demais alunos podem assumir qualquer altura nesse intervalo, digamos 168,5 cm. De um modo geral, as medições dão origem a variáveis contínuas e as contagens ou enumerações, a variáveis discretas. 1.4 População e Amostra 1.4.1 População Estatística ou Universo Estatístico É o conjunto de entes portadores de pelo menos uma característica comum. Por exemplo, os estudantes constituem uma população, apresentam pelo menos uma característica comum: são os que estudam. As populações podem ser finitas, como, por exemplo, os alunos matriculados em determinada matéria, ou infinitas, como por exemplo, os resultados obtidos quando se joga um dado sucessivamente. Existem populações que embora finita, são consideradas infinitas para qualquer finalidade prática. Como exemplo, imagine o número de grãos de areia de uma praia. Como em qualquer estudo estatístico temos em mente pesquisar uma ou mais características dos elementos de alguma população, esta característica deve estar perfeitamente definida. 1.4.2 Amostra Por impossibilidade ou inviabilidade econômica ou temporal, muitas vezes, limitamos as observações referentes a uma determinada pesquisa a apenas uma parte da população. A essa parte proveniente da população em estudo denominamos amostra. “Uma amostra é um subconjunto finito de uma população” Exemplo: Se quisermos estudar as idades dos alunos matriculados em uma disciplina, então todos os alunos formão a população e se apenas tomarmos as idades dos alunos, estaríamos retirando uma amostra da população total. 1.4.3 Amostragem É uma técnica especial para recolher amostras, de uma mesma população, que garanta, tanto quanto possível, o acaso na escolha. Dessa forma, cada elemento da população passa a ter a mesma chance de ser escolhido, o que garante à amostra o caráter de representatividade, da população da qual foi extraída. Uma amostra é representativa de uma população quando é composta por elementos escolhidos de forma não tendenciosa, geralmente, por um procedimento que garanta a casualidade, procedimento importante para a confiabilidade dos resultados e necessário à inferência. Como é difícil conhecer a população dos indivíduos pesquisados, utilizamos a amostragem para tentar obter as características da população utilizando alguns indivíduos apenas. A amostragem deve ser usada quando: a) a população é particularmente grande ou infinita; b) as observações ou mensurações têm alto custo; c) as medidas exigem testes destrutivos; d) há necessidade de rapidez etc. 1.4.4 Técnicas de Amostragem a) Amostragem casual ou aleatória simples Este tipo de amostragem é equivalente a um sorteio lotérico. Na pratica, a amostragem casual ou aleatória simples pode ser realizada numerando-se a população de 1 a n e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, k números dessa seqüência, os quais corresponderão aos elementos pertencentes à amostra. b) Amostragem proporcional estratificada Muitas vezes a população se divide em subpopulações (estratos). Como é provável que a variável em estudo apresente, de estrato, um comportamento heterogêneo e, dentro de cada estrato, um comportamento homogêneo, convém que o sorteio dos elementos da amostra leve em consideração tais estratos. É exatamente isso que fazemos quando empregamos a amostragem proporcional estratificada, que, além de considerar a existência dos estratos, obtém os elementos da amostra proporcional ao número de elementos dos mesmos. A amostragem por estratificação tem as seguintes características: 1) dentro de cada estrato há uma grande homogeneidade, ou então uma pequena variabilidade: 2) entre os estratos há uma grande heterogeneidade, ou então uma grande variabilidade. c) Amostragem por Conglomerados A população é dividida em diferentes conglomerados (grupos). Seleciona-se um conglomerado e dentro dele são realizados os estudos. Há uma mudança fundamental na unidade de sorteio. Passamos de elemento para grupo. Consideramos conglomerados os grupos de elementos com as seguintes características: 1) dentro de cada conglomerado há uma grande heterogeneidade, ou então uma grande variabilidade; 2) entre os conglomerados há uma grande homogeneidade, ou então uma pequena variabilidade. d) Amostragem Sistemática Quando os elementos da população já se acham ordenados, não há necessidade de construir o sistema de referências. São exemplos os prontuários médicos de um hospital, os prédios de uma rua, as linhas de produção, etc. Nestes casos, a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. A esse tipo de amostragem denominamos sistemática. Assim, no caso de uma linha de produção, podemos, a cada dez itens produzidos, retirar um para pertencer a uma amostra da produção diária. Neste caso, estaríamos fixando o tamanho da amostra em 10% da população. Exemplo Suponhamos uma rua contendo novecentos prédios, dos quais desejamos obter uma amostra formada por cinqüenta prédios. Podemos, neste caso, usar o seguinte procedimento: como 900/50 = 18, escolheremos por sorteio casual um número de 1 a 18 (inclusive), o qual indicaria o primeiro elemento sorteado para a amostra; os demais elementos seriam periodicamente considerados de 18 em 18. Assim, se o número sorteado fosse o 4, tomaríamos, pelo lado direito da rua, o 4º prédio, o 22º, o 40º etc, até voltarmos ao início da rua, pelo lado esquerdo. 1.4.5 Tendenciosidade da Amostra Sempre é possível que a amostra obtida seja tendenciosa ou viciada, isto é, não representativa da população. 2. Apresentação de Dados Basicamente a apresentação de dados é feita através de tabelas, quadros e gráficos. Tabela é um arranjo de dados na forma de grade com laterais abertas enquanto o quadro possui as laterais fechadas. As tabelas são mais utilizadas para informações numéricas e os quadros para informações não numéricas. 2.1 Componentes de uma tabela ou quadro a) Cabeçalho – informações sobre os dados da tabela/quadro. O que? Quando? Onde? b) Corpo – espaço interno à tabela/quadro destinado à apresentação dos dados. c) Rodapé – contém a fonte dos dados e demais informações necessárias ao entendimento, tais como, como notas ou chamadas. 3. Distribuições de Frequências Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem assumir, para que tenhamos uma visão ampla da variação dessa ou dessas variáveis. E isso ela consegue, inicialmente, apresentando esses valores em tabelas e gráficos. 3.1 Dados Brutos São aqueles que ainda não foram organizados. Um exemplo é o conjunto das alturas de 100 estudantes tirado de uma lista alfabética do registro da universidade. 3.2 Rol. É um arranjo de dados brutos em ordem crescente ou decrescente. Pode-se realizar a ordenação com o auxílio softwares, caso possua muitos dados, ou manualmente, quando o número de dados é reduzido. 3.3 Frequência simples ou absoluta Frequência simples ou absoluta (fi) do valor xi é o número de vezes que a variável estatística assume o valor xi. Mas o processo dado pode ser inconveniente, já que exige muito espaço, mesmo quando o número de valores da variável é de tamanho razoável. Sendo possível, a solução mais aceitável, pela própria natureza da variável contínua, é o agrupamento de valores em vários intervalos. Deste modo, estaremos agrupando os valores da variável em intervalos, sendo que, em Estatística, preferimos chamar de classes. Chamando de frequência de uma classe o número de valores da variável pertencentes à classe. 3.4 Classes de Frequência Classes de frequência ou, simplesmente, classes são intervalos de variação da variável. As classes são representadas simbolicamente por i, sendo i = 1, 2, 3,....,k (onde k é o número total de classes da distribuição). 3.5 Limite de Classe Denominamos de limite de classe os extremos de cada classe. O menor número é o limite inferior da classe ( ℓi ) e o maior número, o limite superior da classe(Li). Obs. Segundo Resolução 886/66 do IBGE o intervalo de classe deve ser fechado à esquerda e aberto à direita, e utiliza-se o símbolo |. 3.6 Amplitude de um Intervalo de Classe Amplitude de um intervalo de classe ou, simplesmente, intervalo de classe é a medida do intervalo que define a classe. Ela é obtida pela diferença entre os limites superior e inferior dessa classe e indicada por hi Assim: hi = Li – ℓi 3.7 Ponto Médio de uma Classe É o ponto intermediário do intervalo de classe e é obtido somando-se o limite inferior ao limite superior e dividindo-se a soma por 2. 3.8 Amplitude Total (R) É a diferença entre o valor máximo e o valor mínimo observados no conjunto de dados. Assim, no exemplo da seção 1.3 temos que a amplitude das idades dos entrevistados é: R = 22 – 19 = 3 3.9 Somatório (∑) O símbolo ∑ é usado para escrever abreviadamente expressões que envolvem sucessivas adições. Assim, indicamos a adição dos termos fi, com i variando de 1 até k (k N*), como: k f i 1 i ou f i 3.9.1 Propriedades do somatório P1) Seja X = {xi}i = 1, ..., k uma variável e α uma constante, então, .x i xi . k P2) Seja α uma constante, então k. . 1 P3) O somatório de uma soma de variáveis é igual à soma dos somatórios de cada uma das variáveis: x i yi xi yi P4) O somatório de uma diferença de variáveis é igual à diferença dos somatórios de cada uma das variáveis: x i y i xi y i 3.10 Frequência Absoluta Acumulada Podemos completar a tabela de freqüências absolutas com uma coluna de freqüências absolutas acumuladas (fia) ou somente freqüência acumulada, cujos valores são obtidos adicionando a cada freqüência absoluta os valores das freqüências anteriores. 3.11 Frequência Relativa Chama-se frequência relativa (fr) do valor de xi da variável o quociente entre a freqüência absoluta (fi) e o número de elementos N da amostra e é, geralmente, expressa em porcentagem, ou seja: fr fi N 4. Representação Gráfica Após a coleta de dados em uma pesquisa, vimos que uma maneira de organizar dados de forma concisa é construir tabelas de frequências. Uma vez obtida a tabela de frequências podemos visualizar melhor os dados destas, construindo-se gráficos. A apresentação em gráficos, das distribuições de freqüências de uma variável em estudo, permite ao leitor uma visualização acurada dos resultados inseridos nas tabelas. Existem diversos tipos de gráficos e a escolha adequada depende basicamente do tipo de dado e da finalidade da apresentação. Os gráficos podem ser facilmente elaborados com uso de softwares específicos, tal como o software Excel. 4.1 Gráfico de Linha Estudamos gráficos de linha desde o ensino fundamental, onde construímos os gráficos de funções de uma variável. Tais gráficos são feitos no chamado plano cartesiano (xy), onde confrontamos para cada valor de x, variável, com seu respectivo par y = f(x). Nos gráficos de linha de variáveis estatísticas são construídos da mesma maneira, ou seja, para cada variável xi temos um correspondente yi = f(xi). Os gráficos de linhas são muito utilizados para mostrar a evolução durante certo período (séries temporais). O gráfico permite visualizar muito bem o crescimento, o decréscimo ou a estabilidade do objeto a ser analisado. 4.2 Gráfico de Barras. É um tipo de gráfico em que barras horizontais com larguras iguais e comprimentos proporcionais à frequência de cada dado. O gráfico de barras é apropriado para representar graficamente os dados qualitativos, porém pode, também, ser utilizado para representar dados quantitativos discretos. 4.3 Gráfico de Colunas. É um tipo de gráfico em que barras verticais com larguras iguais e comprimentos proporcionais à frequência de cada dado. Os valores da variável são colocados no eixo horizontal, e as frequências no eixo vertical. Indicado para séries temporais, séries conjugadas, variáveis qualitativas e quantitativas discretas. 4.5 Histograma. Para dados agrupados em classes, a representação gráfica da distribuição de frequências é feita por meio de um histograma, que é um gráfico formado por um conjunto de colunas retangulares. No eixo das abscissas marcamos as classes, cujas amplitudes correspondem às bases dos retângulos. No eixo das ordenadas marcamos as frequências absolutas ou relativas, que correspondem às alturas dos retângulos. Os pontos médios das bases dos retângulos coincidem com os pontos médios dos intervalos de classes. 4.5.1 Roteiro para construção do histograma. a) Obtenha a tabela de frequência a partir dos dados, agrupando-os em classes; b) desenhe dois eixos ortogonais de bom tamanho; c) divida o eixo horizontal em tantas partes quanto for o número de classes mais dois (considere uma classe à esquerda da primeira classe e outra à direita da última classe, para deixar espaço suficiente para traçar o polígono de frequência, que veremos mais adiante), e marque os números correspondentes aos limites inferior e superior de cada classe; d) identifique a maior frequência da classe na tabela de frequência; escolha um número adequado, maior ou igual àquela frequência; marque esse número na extremidade do eixo vertical; divida o eixo vertical em algumas partes e marque os números correspondentes; e) para cada classe, desenhe um retângulo com largura igual a amplitude da classe com altura igual à frequência da classe. 4.6 Gráfico Polígono de Frequência. O polígono de frequência também é estruturado a partir da tabela de frequência, tal qual o histograma. Define-se o gráfico polígono de frequência como um gráfico de linha, onde os pontos a serem conectados pela linha são os pontos médios dos intervalos de classe para as abscissas com as correspondentes frequências para as ordenadas. 4.7 Gráfico Polígono de Frequências Acumuladas (Ogiva) A representação gráfica da frequência acumulada é denominada ogiva e é construída por segmentos de reta interligando os pontos definidos pela frequência acumulada e pelo limite superior de cada classe. 5. Medidas de posição ou de tendência central A pretensão é de determinar as medidas que oferecem o posicionamento da distribuição dos valores de uma variável que desejamos analisar. Ou seja, são medidas utilizadas para representar fenômenos coletivos através de um único valor, fornecendo uma idéia geral a respeito do fato ou fenômeno analisado. Dividem-se em: Matemáticas: Média aritmética; Média geométrica; Média harmônica. Não matemáticas: Moda; Mediana. 5.1 Média aritmética i) É a mais comum e mais intuitiva das medidas de posição; ii) Tem uso generalizado, ou seja, aplica-se a um grande número de situações práticas; iii) Deve ser empregada com cautela, pois sofre influência de todos os valores presentes na amostra (série); iv) É representada por: x média da amostra; média populacional. Calculo da média aritmética a) Série simples, lista de dados ou dados brutos (Amostra) Seja x x1 , x2 , ..., xn uma amostra com n observações, a média aritmética é: n x x2 xn x 1 n x i 1 i . n Média aritmética de uma população de tamanho N n : N xi x1 x 2 x n x N i 1 . N N b) Séries agrupadas ( f i ) n x f x2 f 2 xn f n x 1 1 f1 f 2 f n x i 1 n f i 1 fi i . i Média aritmética de uma população de tamanho N n : N x f x2 f 2 xn f n x N f N x 1 1 f1 f 2 f n f N x i 1 N i f i 1 fi . i 5.2 Média geométrica Deve ser utilizada sempre que a série (amostra): Aproximar-se de uma Progressão Geométrica (PG); Representa percentagens sucessivas (quando diferentes porcentagens incidem uma sobre as outras). Cálculo da média geométrica a) Série simples (amostra) Seja x x1 , x2 , ..., xn uma amostra com n observações no formato de uma PG, a média geométrica simples desse conjunto de dados é obtida por: G n x1 .x2 ..x n n n x . i i 1 b) Séries agrupadas ( f i ) Seja x x1 , x2 , ..., xn uma amostra com n observações no formato de uma PG, onde podem ocorrer repetições nos valores observados. Temos que a média geométrica desse conjunto de dados é obtida por: n G i x1f1 .x1f 21 ..x1f n fi xifi . f i 1 Podemos ver que quando trabalhamos com a média geométrica para séries agrupadas, temos a multiplicação de valores com uma potência relacionada, assim podendo conduzir a valores elevados. Uma solução alternativa que se apresenta nesses casos consiste em utilizar logaritmos e transformar as expressões para as que seguem: Série simples (amostra) log G ln G log x i n ln x Série agrupada ( f i ) log x f f ln x f ln G f log G i i i i i n anti log log G 10 G x i i anti log ln G e x G 5.3 Média harmônica (H) É um tipo especial de média, deve ser usada quando a série apresentar uma relação inversa entre os dados, por exemplo, nos casos de cálculo de velocidade média ou consumo médio, pois, à medida que a velocidade ou consumo aumentam, o tempo envolvido diminui. ”A média harmônica corresponde ao inverso da média aritmética com os dados invertidos.” Cálculo da média harmônica a) Série simples (amostra) Seja x x1 , x2 , ..., xn uma amostra com n observações, a média harmônica desse conjunto de dados é: H n 1 x i . b) Séries agrupadas ( f i ) Se x x1 , x2 , ..., xn e f f1 , f 2 ,, f n , então a média harmônica de x é: H f i f xi i . 5.4 Mediana É utilizada para destacar o elemento central em um conjunto de dados, ou seja, a mediana é o elemento que divide uma série (amostra) em duas partes iguais. 0% Me 100% Por estar no centro da série em termos da quantidade de elementos, a mediana não sofre interferência dos valores extremos. Por isso acaba sendo uma medida mais útil e mais interessante do que a própria média, principalmente para a análise e interpretação de fatos socioeconômicos, onde é frequente a presença de valores extremos fortemente diferenciados. Cálculo da mediana a) Série simples ( n ímpar) A mediana corresponde ao termo central. b) Série simples ( n par) A mediana corresponde a média aritmética simples dos valores dos dois termos centrais. c) Série Agrupada n 1 n ímpar, a mediana será o elemento central ; 2 n n n par, a mediana será a média entre os elementos centrais e 1 . 2 2 5.5 Moda (Mo) É utilizada para destacar o elemento que mais se repete num conjunto de dados, ou seja, moda é o elemento que tiver a maior frequência. Cálculo da moda a) Séries simples (amostra) A moda não é calculada, apenas indicada. b) Série agrupada ( f i ) Basta identificar qual é o elemento que apresenta a maior frequência. 6. Medidas de ordenação ou separatrizes São medidas utilizadas para fazer cortes ordenados em uma série (amostra), visando identificar características relevantes. Dividem-se em: Mediana; Quartis; Decis; Percentis. 6.1 Mediana É o elemento que divide a série em partes iguais (50% abaixo e 50% acima do seu valor). 6.2 Quartis São elementos que dividem a amostra (série) em quatro partes iguais, ou seja, de 25% em 25%. 6.3 Decis São elementos que dividem a série em dez partes iguais, ou seja, de 10% em 10%. 6.4 Percentis São elementos que dividem a série em cem partes iguais, ou seja, de 1% em 1%. Podemos notar que a mediana, quartis e os decis são conjuntos de percentis, assim podemos substituir todas as separatrizes apenas pelos percentis. Decis D1 D2 Percentis P10 P20 D9 P90 Quartis Q1 Q2 Q3 Mediana Me Percentis P25 P50 P75 Percentis P50 Tais medidas de ordenação são geralmente utilizadas nas distribuições de frequência de variáveis contínuas. Porém, é possível efetuar seu cálculo para séries simples e agrupadas de dados discretos. Cálculo de medidas de ordenação nas séries simples e agrupadas i) Ordena-se a série de forma crescente; ii) Atribui-se um número natural a cada posição do elemento, ou seja, 1ª posição recebe o número 1 e assim até a última posição n . Como podemos substituir qualquer uma das três medidas pelos percentis, apenas uma equação é necessária: n 1 x 1 100% 0% p 0% onde: n é o número de observações; x é a ordem de uma determinada observação; p é o percentil desejado expresso em %. Ainda, sendo conhecido o percentil p , temos que: p x (n 1) 1. 100 7. Medidas de dispersão São medidas utilizadas para avaliar o grau de dispersão, ou variabilidade, dos valores em torno da média. Servem para medir a representatividade da média. x ou 7.1 Amplitude total É a diferença entre os extremos, ou seja, a maior observação menos a menor: R xmax xmin . A amplitude é uma medida limitada, já que leva em consideração apenas os extremos, assim pode não indicar o tamanho da variabilidade das observações. 7.2 Variância Quando analisamos a dispersão dos dados em relação à média estudamos os desvios d i de cada valor x i em relação à média x ou . Assim, se os d i forem próximos à zero, teremos pouca dispersão. Caso contrário, a dispersão será alta. d Podemos verificar que a soma dos desvios i 0 , assim, para o cálculo da variância utilizaremos o quadrado dos desvios (d i ) 2 , sendo que: d i xi x d i xi ou d ( d i ) 2 ( xi x ) 2 0 i ou ( d i ) 2 ( xi ) 2 A variância é apresentada em dois conceitos: Populacional – 2 ; Amostral – S 2 . A variância, 2 , referente à população com N observações é igual a soma dos quadrados dos desvios dividido por N . Assim: d 2 N 2 i (x i )2 N x 2 i N xi N 2 . Para dados agrupados: d 2 2 fi i N (x i )2 fi N x 2 i N fi xi f i N 2 A variância, S 2 , de uma amostra com n observações é igual a soma dos quadrados dos desvios, dividido por (n 1) , assim: S 2 d 2 i n 1 (x i x)2 n 1 2 xi 1 2 x i . n 1 n Para dados agrupados: S 2 d 2 i fi n 1 (x i x)2 fi n 1 2 xi f i 1 2 x i f i . n 1 n 7.3 Desvio Padrão Quando calculamos a variância, estamos estudando a dispersão de uma amostra, porém, como utilizamos os quadrados dos desvios, a variância acaba nos informando o valor da dispersão com uma dimensão a mais que a amostra. Por exemplo, se a variável em análise dor medida em metro, a variância será expressa por m2 . Portanto, para deixar a na mesma dimensão da amostra, devemos extrair a raiz quadrada da variância, denominando de desvio padrão ou erro padrão: 2 – desvio padrão populacional; S S 2 – desvio padrão amostral. O desvio padrão reflete a variação média absoluta dos dados em torno da média aritmética. A teoria dos seis sigmas (seis desvios padrão) na área da qualidade, busca reduzir ainda mais a variabilidade dos processos produtivos, ou seja, busca reduzir a possibilidade do processo apresentar defeito. Interpretação do desvio padrão. 1º) Regra Empírica: Para qualquer distribuição amostral ou populacional com média x ou e desvio padrão S ou , há: O intervalo ( x S ) ou ( ) contém entre 60% e 80% de todas as observações. A porcentagem se aproxima de 70% para distribuições aproximadamente simétricas, chegando a 90% para distribuições fortemente assimétricas; O intervalo ( x 2S ) ou ( 2 ) contém aproximadamente 95% das observações para distribuições simétricas e aproximadamente 100% para distribuições com assimetria elevada; O intervalo ( x 3S ) ou ( 3 ) contém aproximadamente 100% das observações, para distribuições simétricas. 2º) Teorema de Tchebycheff Para qualquer distribuição com média e desvio padrão: O intervalo ( x 2S ) ou ( 2 ) contém, no mínimo, 75% de todas as observações; O intervalo ( x 3S ) ou ( 3 ) contém, no mínimo, 89% de todas as observações. 7.4 Coeficiente de variação de Pearson É uma medida relativa de dispersão. O coeficiente de variação (CV) mede a dispersão relativa. Assim: CV S .100 x ou CV .100 . onde: S é o desvio padrão amostral; é o desvio padrão populacional; x é a média amostral; é a média populacional. Interpretação do Coeficiente de Variação. CV 15% 15% CV 30% 30% CV Existe baixa dispersão – boa representatividade para a média aritmética como medida como medida de posição; Há média dispersão – a representatividade da média aritmética como medida de posição Há elevada dispersão – a representatividade da média aritmética como medida de posição é ruim. 7.5 Escore padronizado Também é uma medida de dispersão relativa. Zi ( xi x ) S ou Zi ( xi ) . O valor do escore padronizado reflete a dispersão da observação x i em relação à média. Um valor Z i 0 indica que a observação x i está à esquerda da média, enquanto um escore positivo indica que a observação está à direita da média. 7.6 Detectando Outliers Às vezes quando trabalhamos com amostras de observações reais podemos nos deparar valores extremos muito diferentes da media. Chamamos tais valores de outliers. Esses valores podem provocar distorções na análise dos resultados. Portanto, é interessante identificar-los, antes mesmo de iniciar as análises. 1º Método: Podemos calcular o escore padronizado ( Z i ) e considerar outliers as observações com Zi 3 . 2º Método: Podemos utilizar o conceito do gráfico boxplot presente em alguns softwares estatísticos. Analiticamente, primeiro precisamos calcular o primeiro e o terceiro quartil ( Q1 P25 e Q3 P75 ). A diferença entre Q3 e Q1 é chamado intervalo interquartílico. I Q3 Q1 . Os dados situados fora dos intervalos que serão anunciados a seguir, podem ser considerados dados extremos moderados. Outliers moderados: Linf ( Q1 3I ) (Q1 1,5I ) Lsup (Q3 3I ) (Q3 1,5I ) Outliers severos Linf Q1 3I Linf Q1 3I 7.7 Medidas de assimetria É o grau de afastamento, de uma distribuição, da unidade de simetria. Em uma distribuição simétrica, há igualdade entre os valores da média, mediana e moda. Distribuição Simétrica x Me Mo Distribuição Assimétrica Positiva Mo Me x Distribuição Assimétrica Negativa x Me Mo Cálculo do coeficiente de assimetria. 1º Coeficiente de Pearson: AS1 (x M 0 ) S ou AS1 ( M 0 ) 2º Coeficiente de Pearson: AS1 Q3 Q1 2M e Q3 Q1 Interpretação quanto ao sinal: Se: AS 0 , diz-se que a distribuição é simétrica; AS 0 , diz-se que a distribuição é assimétrica positiva; AS 0 , diz-se que a distribuição é assimétrica negativa. Interpretação quanto à intensidade (considerando os resultados em módulo): Se: 0 AS1 1 – Assimetria fraca; 1 AS1 – Assimetria forte. 0 AS 2 0.2 – Assimetria fraca; 0,2 AS1 1 – Assimetria forte. Ou 7.8 Medidas de Curtose É utilizado para calcular o achatamento de uma série estatística, podendo ocorrer três possibilidades: Para medir o grau de curtose, utilizamos o seguinte coeficiente de Kelley: K P75 P25 2( P90 P10 ) Interpretação: Se K 0,263 – Curva Mesocúrtica; Se K 0,263 – Curva Leptocúrtica; Se K 0,263 – Curva Platicúrtica. 8. Probabilidades 8.1 Experiência aleatória Considere uma experiência comportando resultados imprevisíveis e mutuamente exclusivos, ou seja, em cada repetição dessa experiência é impossível prever, com absoluta certeza, qual o resultado será obtido, além disso, a ocorrência de um deles exclui os demais. Por exemplo: O lançamento de um dado de seis faces, cujos possíveis resultados são: {1, 2, 3, 4, 5, 6} . Toda experiência aleatória, e seus possíveis resultados, mutuamente exclusivos, são chamados de eventos simples. 8.2 Espaço amostral É o conjunto de todos os eventos simples possíveis, ou seja, todos os valores que podem aparecer, no caso do dado, ou todos os fenômenos possíveis de acontecer. Exemplo: Na previsão do clima para uma cidade, temos três tipos de fenômenos possíveis: C {chuva, sol, nublado} , que é o espaço amostral para o clima. 8.3 Medidas de probabilidade – escola objetivista Da definição clássica de probabilidade temos: Dado um espaço amostral finito S {a1 , a2 , ..., an } com ai (i 1, ..., n) pontos amostrais que podem ter a mesma “chance” de acontecer, ou seja, são considerados equiprováveis. Então, todo subconjunto A do espaço amostral S é chamado de evento, com sua probabilidade calculada por: P( A) m número de casos favoráveis n número de casos possíveis Por exemplo: No caso dos dados, a probabilidade do número 3 sair é igual à: P(3) 1 6 que é a probabilidade para qualquer outro número sair. 8.4 Medidas de probabilidades – escola subjetivista Tal escola considera a probabilidade como a medida de uma crença pessoal de que determinado evento tenha ocorrido, ocorrerá ou esteja ocorrendo. Uma declaração do grau de crença em um acontecimento, com base em considerações pessoais, denomina-se probabilidade subjetiva. Quando um gerente declara que é de 80% a probabilidade de êxito do lançamento de um produto, ele está utilizando a probabilidade subjetiva em face do acontecimento de um evento, no caso, lançamento do produto. 8.5 Regras básicas da probabilidade 8.5.1 Campo de variação das possibilidades A probabilidade de um evento acontecer varia de 0 à 1. 0 P( A) 1 0% P( A) 100% 8.5.2 Probabilidade do espaço amostral É sempre igual a 1: P(S ) 1 P(S ) 100% 8.5.3 Regra da adição de probabilidades A probabilidade da ocorrência do evento A ou B (ou de ambos) é dada por: P( A B) P( A) P( B) P( A B) caso A e B sejam mutuamente exclusivos, isto é, A B temos: P( A B) P( A) P( B) . Podemos estender essa idéia para um conjunto A* ( A1 , A2 , ..., Ap ) formado por eventos mutuamente exclusivos: P( A1 A2 ... Ap ) P( A1 ) P( A2 ) ... P( Ap ) P( Ai ) . 8.5.4 Probabilidade de um evento complementar Se A c é o evento complementar de A temos então: P( Ac ) 1 P( A) . 8.6 Multiplicação de probabilidades e independência estatística Dois eventos são ditos estatisticamente independentes se a ocorrência de um deles não afetar a ocorrência do outro. Assim, num experimento de lançar uma moeda duas vezes, a probabilidade de sair cara, ou coroa, no segundo lançamento, não é afetada pelo resultado do primeiro. Assim temos que, dados dois eventos, A e B, a probabilidade da ocorrência conjunta é definida pela regra da multiplicação. P( A B) P( A).P( B) . Generalizando, temos que para vários eventos A* ( A1 , A2 , ..., Ap ) a probabilidade conjunta é definida por: P( A1 A2 ... Ap ) P( A1 ) P( A2 )...P( Ap ) P( Ai ) . 8.6.1 Probabilidade condicionada Caso, em um experimento, a condição de independência de dois eventos não estiver estabelecida, estaremos trabalhando com um problema de probabilidade condicional. Dados dois eventos, A e B, a probabilidade de que o evento B ocorra, dado que o evento A já ocorreu, é a probabilidade condicionada de B a A, escrita por P( B / A) . Similarmente, podemos escrever a probabilidade da ocorrência de A, condicionada à ocorrência de B, como P( A / B) (lê-se probabilidade de A dado que B aconteceu, ou probabilidade de A condicionada à ocorrência de B). Portanto, dados dois eventos, A e B, que não são independentes, a probabilidade condicionada de A, dado que B aconteceu, é definida por: P( A / B) P( A B) . P( B) 8.6.2 Regra geral da multiplicação de probabilidades A partir da definição de probabilidade condicional, é possível enunciar a regra geral de multiplicação de probabilidade: “A probabilidade da ocorrência simultânea de dois eventos, A e B, do mesmo espaço amostral, é igual ao produto da probabilidade de um deles pela probabilidade condicionada do outro, dado o primeiro”. P( A B) P( A) P( B / A) P( B) P( A / B) . 8.6.3 Independência de eventos Um evento B é dito independente do evento A se a probabilidade de B é igual a probabilidade condicional de B dado que A acontece, ou seja, se P( B) P( B / A) . Se: P( A B) P( A) P( B / A) com P( B) P( B / A) temos P( A B) P( A) P( B) . 8.7 Teorema de Bayes Sejam E1 , E2 , ..., Ek eventos mutuamente exclusivos, tais que P( E1 ) P( E2 ) ... P( Ek ) 1 . Seja A um evento qualquer, que se sabe ocorrerá em conjunto com, ou em conseqüência, um dos eventos E i . Então, a probabilidade de ocorrência de um evento E i , dada a ocorrência de A, é dada por: P( Ei / A) P( E i ) P( A / Ei ) . P( E 1) P( A / E1 ) P( E 2 ) P( A / E 2 ) ... P( E k ) P( A / Ek ) Este resultado relaciona a probabilidade a priori P( E i ) com a probabilidade a posteriori P( A / Ei ) , probabilidade da ocorrência de A. 9. Distribuições de probabilidades de variáveis aleatórias discretas 9.1 Variáveis aleatórias Seja um experimento aleatório e S o espaço amostral associado ao experimento. Uma função X que associe a cada elemento s S um número real X (s) é denominada variável aleatória (v.a.). 9.1.1 Variável aleatória discreta Seja X uma variável aleatória. Se o número de valores possíveis de X for finito ou infinito enumerável, denominaremos X de variável aleatória discreta. 9.1.2 Variável aleatória contínua Seja X uma variável aleatória. Se o contra domínio de X é um intervalo, ou uma coleção de intervalos, denominaremos X de variável aleatória continua. 9.2 Função de probabilidade Seja X uma variável aleatória discreta. Sejam x1 , x2 , ... seus possíveis valores. A cada resultado xi associaremos um número p( xi ) P( X xi ) , denominando probabilidade de xi , tal que: a) p( xi ) 1 ; x i ; b) p( x ) 1 . i Essa função é denominada função de probabilidade da variável aleatória X . A distribuição de probabilidade de X é dada pelos pares [ xi ; p( xi )], i 1, 2, ... e poderá ser expressa por uma tabela, gráfico ou fórmula. 9.3 Função de distribuição acumulada Dado X variável aleatória discreta, define-se função de distribuição acumulada em um ponto x , a soma das probabilidades dos valores x i menores ou iguais a x . F ( x ) p ( xi ) . xi x 9.4 Esperança ou média de uma variável aleatória Seja x uma v. a. discreta, com valores x1 , x2 , ..., xk , os valores esperados de x (ou esperança matemática de x ), ou média de x , é definida como: k ( x ) E[ x] xi p( xi ) . i 1 9.5 Variância e desvio-padrão de uma variável aleatória discreta A definição de variância de uma v. a. discreta x é dada por: (2x ) Var[ x] V [ x] E[( x ) 2 ] , desenvolvendo o quadrado temos: (2x ) E[ x 2 ] 2 onde E[ x 2 ] x 2 i p ( xi ) e x i p ( x i ) . O desvio padrão é igual à raiz quadrada positiva da variância ( x ) (2x ) . 9.6 Distribuição de Bernoulli É um modelo que da a probabilidade de sucesso quando se realiza um experimento que admite dois resultados – sucesso ou fracasso – com probabilidade de sucesso e (1 ) para fracasso. 9.6.1 Exemplo de experiência de Bernoulli Lançar uma moeda e verificar a face que cai voltada para cima. Se a moeda for não viciada, assumindo que a face voltada para cima seja cara como sucesso, temos que coroa é um fracasso. p 1 2 e q (1 p) 1 . 2 Uma variável aleatória Bernoulli com como probabilidade de “sucesso” tem função de probabilidade dada por: P x ( x) Px ( X x) x (1 )1 x ; E[x] x 0,1; 0 1 e V [ x] (1 ) . 9.7 Distribuição Binomial Uma v. a. Y tem distribuição binomial com parâmetros n e quando assume valores no conjunto {0,1, 2, ..., n} e sua f. p. é dada pela expressão: n P Y ( y) PY (Y y ) y (1 ) n y ; y E[ x] n y 0,1, 2, ... ; 0 1, e V [ x] n (1 ) . A v. a. binomial corresponde ao número de sucessos em n provas do tipo Bernoulli, independentes. Exemplos: 1) Y conta o número de meninos em uma família com n 5 crianças, com 1 . 2 2) Y conta o número de peças defeituosas em um lote com n 20 peças, com probabilidade de defeitos 0,001 . 9.8 Distribuição Hipergeométrica Uma v. a. X tem distribuição chamada Hipergeométrica se a sua função de probabilidade é dada por: K N K x n x Px ( X x) N n E[ x] n K N e V [ x] n K N K N n , . . N N N 1 x 0,1, 2, ..., n ; K 0,1, 2, ..., N ; n 1, 2, ..., N ; N 0,1, 2, ... . 9.9 Distribuição de Poisson Uma v. a. X tem distribuição de Poisson quando a sua f. p. é da forma: Px ( X x) x .e x! E[x] x 0,1, 2, ... ; e V [x] . 0