Estatística e Probabilidade Muitos anos antes de Cristo as necessidades que exigiam o conhecimento numérico começaram a surgir, pois contar e recensear sempre foi uma preocupação em todas as culturas. O primeiro dado estatístico disponível foi o de registos de egípcios presos de guerra na data de 5000 a.C. em 3000 a.C. existem também registos egípcios da falta de mão-deobra relacionada a construção de pirâmides. No ano de 2238 a.C. o Imperador da China Yao, ordenou que fosse feito o primeiro recenseamento com fins agrícolas e comerciais. Estatistica e Probabilidade Em 600 a.C. no Egipto todos os indivíduos tinham que declarar todos os anos ao governo de sua província a sua profissão e suas fontes de rendimento, caso não a fizessem seria declarada a pena de morte. Já na Era de Cristo o governador romano da Síria, Quirino, que incluía a Judeia e a Galileia, por ordem do Senado, teve que fazer um recenseamento no qual as pessoas tinham que ser entrevistadas no local de sua origem. Como está escrito na Bíblia, Lucas cap. 2:1-2 - O imperador César Augusto mandou uma ordem para todos os povos do Império. Todas as pessoas deviam se registar para que fosse feita uma contagem da população. Foi então que São José e a Virgem Maria saíram de Nazaré, na Galileia, para Belém, na Judeia, para responder ao censo ordenado pelo imperador César Augusto. Foi enquanto estavam na cidade que Jesus nasceu. Estatistica e Probabilidade A Estatística é uma parte da matemática aplicada que fornece métodos para colecta, organização, descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões. A importância da estatística pode ser vista através da sua utilização ao nível do Estado, de organizações sociais e profissionais, do cidadão comum e ao nível científico. O grau de importância atribuída à estatística é tão grande que praticamente todos os governos possuem organismos oficiais destinados à realização de estudos estatísticos. Em Moçambique esse organismo é designado por Instituto Nacional de Estatística ( I.N.E.) A Estatística possui dois grandes ramos: I – Estatística Descritiva: compreende a colecta, a organização, a descrição dos dados, o cálculo, de forma a apresentar coeficientes de forma conveniente e comunicativa. Estatistica e Probabilidade II – Estatística Indutiva ou Inferencial: compreende procedimentos empregados na análise e na interpretação dos dados para chegar a grandes conclusões ou inferências sobre populações com base em dados amostrais, associados a uma margem de incerteza. Fundamentam ainda as medidas de incerteza que resultam na teoria da probabilidade. População e Amostra População: Somatório dos indivíduos ou elementos, com qualquer característica comum e que estão sujeitos a uma análise estatística, por terem interesse para o estudo. Estatistica e Probabilidade Quanto à sua origem pode ser: um conjunto de pessoas; um conjunto de objectos ou; um conjunto de acontecimentos. Quanto à sua natureza pode ser: Existente ou real; Hipotética ou parcialmente existente; Pode ainda ser: um conjunto finito ou um conjunto infinito. Estatística e Probabilidade Amostra: é um subconjunto retirado da população, que se supõe ser representativo de todas as características da mesma, sobre o qual será feito o estudo, com o objectivo de serem tiradas conclusões válidas sobre a população. Por que realizar um estudo por amostragem · Natureza destrutiva de certos testes; · A impossibilidade física de verificar todos os elementos na população; O custo de estudar todos os elementos em uma população é frequentemente proibitivo; Muitas vezes as estimativas baseadas em uma amostra são mais precisas do que os resultados obtidos através de censos; Estatistica e Probabilidade Tempo muito elevado para apuramento de resultados em censos; Caso 01 O João é licenciado em Engenharia Civil pela Universidade Católica de Moçambique e está a trabalhar para a fábrica VisaTexteis. A fábrica recebeu recentemente uma encomenda de 500 rolos de linhas de várias cores. O João tem de verificar se os rolos recebidos estão de acordo com as especificações feitas. Entre as especificações de qualidade, exigia-se que cada rolo tivesse pelo menos 500 metros de comprimento. Como deve o João proceder? Estatistica e Probabilidade Caso 02 Para elaborar uma notícia, um determinado jornal semanal pretende saber qual a opinião dos moçambicanos relativamente a um dado projecto governamental. Como deve o Jornal proceder? Estatistica e Probabilidade Variável Em Estatística, uma variável é um atributo mensurável que tipicamente varia entre indivíduos. Variável quantitativa São aquelas que são numericamente mensuráveis, por exemplo, a idade, a altura, o peso. Estas ainda se subdividem em: Estatistica e Probabilidade Variável Quantitativa Continua: São aquelas que assumem valores dentro de um conjunto contínuo, tipicamente os números reais. São exemplos, o peso ou a altura de uma pessoa. Variável Quantitativa Discreta: São aquelas que assumem valores dentro de um tempo finito ou enumerável, tipicamente números inteiros. Um exemplo é o número de filhos de uma pessoa. Variável Qualitativa São aquelas que se baseiam em qualidades e não podem ser mensuradas numericamente. Estas ainda se subdividem em: Estatistica e Probabilidade Variável Qualitativa Ordinal: São aquelas que podem ser colocadas em ordem, por exemplo, a classe social (A,B,C,D, ou E)e a variável "Peso" medida em 3 níveis (pouco pesados, pesados, muito pesados). Variável Qualitativa Nominal: São aquelas que não podem ser hierarquizadas ou ordenadas, como a cor dos olhos, o local de nascimento. Estatística e Probabilidade Amostragem: é o procedimento pelo qual um grupo de pessoas ou um subconjunto de uma população é escolhido com vista a obter informações relacionadas com um fenómeno, e de tal forma que a população inteira nos interessa esteja representada. Tipos e Métodos de Amostragem Amostragens Probabilísticas e não Probabilísticas A Amostragem é probabilista, quando a seleção é aleatória de tal forma que cada elemento tem igual probabilidade de ser sorteado para a amostra. Assim se conhece a probabilidade de todas as combinações amostrais possíveis. Estatística e Probabilidade Exemplo Numa empresa deseja-se escolher 3 diretores entre seus chefes executivos. A escolha é aleatória e não depende do prestígio, da capacidade, dos anos de serviço, etc. Temos uma amostragem probabilística. Amostragem não probabilística Não se conhece a probabilidade de um elemento da população ser escolhido para participar da amostra. Amostragem em que há uma escolha deliberada dos elementos da amostra. Confia no julgamento pessoal do pesquisador. Estatística e Probabilidade Técnicas de Amostragens Probabilísticas As técnicas de amostragem probabilística servem para assegurar uma certa precisão na estimação dos parâmetros da população, reduzindo o erro amostral. O objectivo desta abordagem é obter a melhor representatividade possível. As técnicas de amostragem probabilísticas mais comuns são: A Amostragem Aleatória Simples; A Amostragem Sistemática; A Amostragem Aleatória Estratificada; A Amostragem em Cachos. Estatística e Probabilidade Amostragem Aleatória Simples é uma técnica segundo a qual cada um dos elementos (sujeitos) que compõe a população alvo tem igual probabilidade de ser escolhido para fazer parte de uma amostra. Exemplo: Pretende-se obter uma amostra representativa, de 10%, de uma população de 200 alunos de uma escola. Estatística e Probabilidade 1º) Numerar os alunos de 1 a 200; 2º) Escrever os números de 1 a 200 em pedaços de papel e colocá-los em uma urna; 3º) Retirar 20 pedaços de papel, um a um, da urna, formando a amostra da população. Uma amostra aleatória simples poder ser constituída segundo duas técnicas: amostra com reposição amostra sem reposição Estatística e Probabilidade Amostragem com reposição, a unidade seleccionada retorna para a população. Portanto, em cada nova selecção, a população mantém a mesma quantidade de unidades elementares. Amostragem sem reposição, a unidade seleccionada não retorna para a população. Portanto, em cada selecção a população é reduzida de uma unidade elementar. É importante observar que, em geral, as amostragens são realizadas sem reposição. Estatística e Probabilidade Amostragem Sistemática Na pratica o processo de seleccionar uma amostra aleatória simples de uma população com grande dimensão, não é tão simples como o descrito anteriormente. Se a dimensão da população for grande o processo torna-se muito trabalhoso. Então uma alternativa é considerar uma amostra aleatória sistemática. Por exemplo, se pretendermos seleccionar uma amostra de 150 alunos de uma Universidade com 6000 alunos. Estatística e Probabilidade Amostra Estratificada – Divide-se a população em várias subpopulações estratos, e de cada uma destes estratos extrai-se aleatoriamente uma amostra. O conjunto de todas estas amostras constitui a amostra pretendida. Amostragem por Cachos ou Conglomerados: A população é dividida em cachos, onde cada cacho é representativo da população. Selecciona-se aleatoriamente um conjunto de cachos e a amostra é constituída por todos os elementos dos cachos seleccionados. Estatística e Probabilidade Suponha que se deseja estimar a despesa média mensal que uma família tem com a saúde numa cidade grande, como deve ser escolhida a amostra? A amostragem aleatória simples é inviável, pois pressupõe uma listagem de todas as famílias da cidade, o que é praticamente impossível de se obter. A alternativa da amostragem estratificada é também inviável, já que aqui também é necessária uma listagem dos elementos por estrato. A melhor escolha é amostragem por cachos. O sistema de referência pode ser constituído por todas os bairros da cidade. Cada bairro é um cacho. Extrai-se uma amostra aleatória simples dos bairros e nelas pesquisa-se a despesa familiar em todas as casas. Estatística e Probabilidade Amostragens Não Probabilísticas É um procedimento de selecção segundo o qual cada elemento da população não tem a mesma probabilidade de ser escolhido para formar a amostra. Técnicas de Amostragens Não-Probabilísticas A Amostragem por Conveniência A Amostragem por Cotas A Amostragem Bola de Neve Estatística e Probabilidade Amostragem Acidental ou de Conveniência É formada por sujeitos facilmente acessíveis, que estão presentes num determinado local e momento preciso. Neste tipo de amostra tem a vantagem de ser simples de organizar e pouco onerosa, todavia este tipo de amostra provoca enviesamentos, pois nada indica que as primeiras 30 a 40 pessoas sejam representativas da população-alvo. São utilizadas em estudos que não têm como finalidade a generalização dos resultados. Estatística e Probabilidade Amostragem por Cotas Idêntica à amostragem aleatória estratificada, já que é constituída por um número pré-determinado de pessoas em cada uma das várias categorias da população. A amostragem por cotas difere da estratificada apenas pelo facto dos sujeitos não serem escolhidos aleatoriamente no interior de cada cota ou de cada grupo. Estatística e Probabilidade Amostragem Bola de Neve Consiste em escolher sujeitos que seriam difíceis de encontrar de outra forma. Toma-se por base, redes sociais amizades e conhecimentos. Por exemplo: quando o investigador encontra sujeitos que satisfazem os critérios escolhidos pede-lhes que indiquem outras pessoas de características similares Estatística e Probabilidade Dados brutos Quando colectamos os dados para uma pesquisa, estas observações são chamadas de dados brutos. Exemplo de dados brutos corresponde ao tempo em minutos que um pedreiro faz um tijolo de uma determinada empresa. Geralmente, este tipo de dados traz pouca ou nenhuma informação ao leitor, sendo necessário organizar os dados, com o intuito de aumentar sua capacidade de informação. Estatística e Probabilidade P T P T P T P T P T 1 104 9 122 17 129 25 144 33 183 2 108 10 142 18 138 26 151 34 138 3 138 11 106 19 122 27 146 35 115 4 101 12 201 20 161 28 82 36 179 5 163 13 169 21 167 29 137 37 142 6 141 14 120 22 189 30 132 38 111 7 90 15 210 23 132 31 172 39 140 8 154 16 98 24 127 32 87 40 136 Tabela 1: Tempo (t) em minutos para fazer um tijolo por um pedreiro (P) de uma determinada empresa. Estatística e Probabilidade Rol – é a mais simples organização numérica, e a ordenação dos dados em ordem crescente ou decrescente. Amplitude total – corresponde à diferença entre o maior e o menor valor abservado em um conjunto de dados. Como podemos observar na tabela a seguir nº 2 a simples organização dos dados em rol, aumenta muito a capacidade de informação destes, voce pode verificar que o menor tempo observado foi de 82 minutos, e o maior , 210 Minutos. Estatística e Probabilidade Tabela 1: Tempo (t) em minutos para fazer um tijolo por um pedreiro (P) de uma determinada empresa. Estatística e Probabilidade Outra informação que podemos obter nos dados por meio da tabela 2 (organização em rol crescente) é que alguns tempos, como 122 min, 132 min, 138 min e 142 min, foram os mais frequentes, ou seja, os mais citados na pesquisa. Então surge uma pergunta: Como podemos organizar os dados de uma forma mais eficiente, na qual se possa apresentar uma quantidade maior de informações? Estatística e Probabilidade Uma maneira de organizar um conjunto de dados para melhor representá-lo é por meio de uma tabela de distribuição de frequência (tabela onde são apresentadas as frequências de cada uma das classes). Classes: - Intervalos nos quais os valores da variável analisada são agrupados. Intervalos abertos: Os limites da classe (inferior e superior) não pertencem a ela. Intervalos fechados: Os limites de classe (superior e inferior) pertencem a classe em questão Estatística e Probabilidade Intervalos mistos: Um dos limites pertence a classe, e o outro, não. Então, vamos exercitar. Pretendemos agrupar os dados em classe ou intervalos de valores, o que devemos fazer? Devemos identificar o valor mínimo e o valor máximo de entre todas as observações, bem como o número total de observações. Estatística e Probabilidade Neste caso, temos Xmin=82 (valor mínimo) e Xmax=210 (valor máximo), sendo n=40 (número total de observações). Existem formas de determinar o melhor número de classes, tendo em conta o número de observações recolhidas. Uma das formas de determinar o número de classes (K) é através da fórmula: K = √n , para n ≤ 100 e K = 5log n, para n > 100 Sabemos o valor da letra n (nº de observações) e o objectivo é determinar o valor de K (nº de classes). Estatística e Probabilidade Usando a fórmula anterior já podemos descobrir o melhor número de classes pelas quais vamos distribuir os valores dos tempos dos 40 consumidores. Na pesquisa, como temos n=40 Pedreiros, teremos então, o número de classes definido por K = √n = √40 = 6.32, e como o número de classe é inteiro, usaremos 6 classes. O arredondamento utilizado neste material é o padrão de algarismo significativos (como foi aprendido no ensino médio) Estatística e Probabilidade Já sabemos, então, que temos de formar 6 classes para organizarmos os dados que foram recolhidos. Como vamos obter as Classes? Em primeiro lugar vamos efectuar a seguinte operação: Xmax - Xmin (Diferença entre o valor máximo e o valor mínimo das observações) Temos, então : 210 – 82 = 128 Vamos dividir o resultado encontrado amplitude (h) de cada uma das classes. pelo nº de classes, obtemos a Estatística e Probabilidade Neste caso: h=128/6=21.333 Conhecida a amplitude de classes, voce deve determinar os intervalos de classe. Depois calcula-se o ponto médio de cada classe, que o somatorio do limite inferior mais limite superior dividido por dois. Então, podemos obter uma tabela Estatística e Probabilidade Frequência absoluta (fa) corresponde ao número de observações que temos em uma determinada classe ou em um determinado atributo de uma variável qualitativa. Frequência relativa (fr) corresponde a proporção do número de observações em uma determinada classe em relação ao total de observações que temos. Estatística e Probabilidade Histogramas são gráficos utilizados para representar tabelas intervalares. Histogramas: São constituídos por um conjunto de retângulos, com bases assentadas sobre um eixo horizontal, tendo o centro da mesma no ponto médio da classe que representa, e cuja altura é proporcional à frequência da classe. Polígono de frequência – é um gráfico de análise no qual as frequências das classes são localizadas sobre perpendiculares levantadas nos pontos médios das classes Estatística e Probabilidade Medidas de Posição As medidas de posição ou tendência central constituem uma forma mais sentética de apresentar os resultados contidos nos dados observados, pois representam um valor central, em torno do qual os dados se concentram. As medidas de tendência central mais empregadas são a média, a mediana e a moda. Estatística e Probabilidade Média Aritmética: pela sua facilidade de cálculo e de compreensão aliadas às suas propriedades matemáticas, é a medida de localização mais conhecida e utilizada. Pode ser de dois tipos: Simples ou Ponderada. A média aritmética simples, representada por x, é calculada considerando que todas as observações participam com o mesmo peso. Assim, para um conjunto de n observações (x1, x2,....xn), a média aritmética simples ou simplesmente média é definida por Estatística e Probabilidade Estatística e Probabilidade Exemplo xi = 9,7,5,10,4 temos Estatística e Probabilidade Média Aritmética Ponderada, representada por xp, é calculada considerando que pelo menos um das observações deve participar com peso diferente das demais. Assim, se as observações x1, x2,..., xn) forem associadas aos pesos p1, p2, ... pn a média aritmética ponderada é dada. Estatística e Probabilidade Exemplo: Para xi 7, 8, 6,10 e Pi= 10,10,8,2 Estatística e Probabilidade Mediana A mediana, é representada por Md, é a medida que divide um conjunto de dados ordenados em duas partes iguais: 50% dos valores ficam abaixo e 50% ficam acima da mediana. Existem dois casos diferentes para o cálculo da mediana, mas em ambos o primeiro passo a ser tomado é a de ordenação dos dados. 1º Caso: quanto n é ímpar Determinamos, primeiramente, a posição mais central (p) do conjunto de dados ordenado Estatística e Probabilidade Estatística e Probabilidade Exemplo Xi= 4,5,7,9,10 Estatística e Probabilidade 2º Caso: quando n é par Neste caso, temos duas posições centrais no conjunto de dados ordenado, denotadas por p1 e p2. Ao utilizarmos a expressão P= n+1/2, obtemos um valor não inteiro. As posições p1 e p2 são os dois inteiros mais próximos do valor de p. A mediana será a média aritmética simples dos valores do conjunto de dados que ocupam as posições p1 e p2, ou seja , Estatística e Probabilidade Estatística e Probabilidade Exemplo Para xi = 4,5,7,9,10,12, Estatística e Probabilidade Com intervalos de classe Devemos seguir os seguintes passos: 1º) Determinamos as frequências acumuladas ; 2º) Calculamos ; ∑ fa/2 3º) Marcamos a classe correspondente à frequência acumulada imediatamente superior à ∑ fa/2 . Tal classe será classe mediana ; 4º) Calculamos a Mediana pela seguinte fórmula: Md= Li + [(∑fa/2 – faa)] x h /fa Li = é o limite inferior da classe mediana. Estatística e Probabilidade faa = é a frequência acumulada da classe anterior à classe mediana. fa = é a frequência simples da classe mediana. h = é a amplitude do intervalo da classe mediana Vamos usar a nossa tabela de dados agrupados Estatística e Probabilidade Estatística e Probabilidade ∑ fa/2 =40/2=20 Logo a classe mediana sera [126 - 147] Li = 126 faa = 8 fa = 15 h = 21 Substituito esses valores a fórmula, obtemos Md = 126 + [(20 – 8) x 21]/15 = Obs: Esta mediana é estimada, pois nao temos todas 40 valores da observacao Estatística e Probabilidade Moda, é representada por Mo, é o valor de maior ocorrência num conjunto de dados. É a única medida que pode não existir e, existindo, pode não ser única. Exemplos X=peso (Kg) Para xi = 2,3,7,5,7,5,8,7,9, temos Mo = 7 Kg Para xi = 1,3,4,5,4,8,6,8 temos Mo = 4Kg e 8 Kg (conjunto bimodal) Para xi = 5,7,8,3,9,1,4, não existe Mo (conjunto amodal) Para xi = 1,3,4,4,5,1,3,5 não existe Mo (conjunto amodal) Estatística e Probabilidade Com intervalos de classe: A classe que apresenta a maior frequência é denominada classe modal. Pela definição, podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os limites da classe modal. O método mais simples para o cálculo da moda consiste em tomar o ponto médio da classe modal. Damos a esse valor a denominação de moda bruta. Mo = Li + Ls/2 onde Li = limite inferior da classe modal e Ls = limite superior da classe modal. Estatística e Probabilidade Método mais elaborado pela fórmula de CZUBER: Mo = Li + (d1/(d1+d2)) x h Li= limite inferior da classe modal..... e..... L* = limite superior da classe modal d1 = frequência da classe modal - frequência da classe anterior à da classe modal d2 = frequência da classe modal - frequência da classe posterior à da classe modal h = amplitude da classe modal Estatística e Probabilidade Outras medidas de posição denominadas separatrizes serão definidas a seguir. A principal caracteristica das medidas separatrizes consiste na separacao da serie em partes iguais que apresentam o mesmo numero de valores As principais sao os quartis, decis e percentis. Quartis Os quartis, representados por Qi, onde i=1,2 e 3, são três medidas que dividem um conjunto de dados ordenados em quatro partes iguais. São elas: Primeiro quartil (Q1): 25% dos valores ficam abaixo e 75% ficam acima desta medida. Estatística e Probabilidade Segundo quartil (Q2): 50% dos valores ficam abaixo e 50% ficam acima desta medida. O segundo quartil de um conjunto de dados corresponde a mediana(Q2=Md). Terceiro quartil (Q3): 75% dos valores ficam abaixo e 25% ficam acima desta medida. Estatística e Probabilidade O processo para obtenção dos quartis, da mesma forma que o da mediana, consiste em, primeiramente, ordenar os dados e, em seguida, determinar a posição (p) do quartil no conjunto de dados ordenados. Existem dois casos diferentes para a determinação de p: Estatística e Probabilidade O quartil Q1 será o valor do conjunto de dados que ocupa a posição p, ou seja, Q1= xp no caso de p não ser um número inteiro, o quartil será a média aritmética dos dois valores que ocupam as posições correspondentes ao menor e ao maior inteiro mais próximo de p. Por exemplo, se p=7.5, o quartil será a média aritmética dos valores que ocupam as posições 7 e 8. Estatística e Probabilidade Estatística e Probabilidade