MBA EM GESTÃO FINANCEIRA E CONTROLADORIA DISCIPLINA: FUNDAMENTOS DA MAT. FINANCEIRA E ESTATÍSTICA APLICADA APRESENTAÇÃO DO PROFESSOR Acadêmico: • Graduado em Análise de Sistemas pelo Centro de Estudos Superiores de Maceió CESMAC (2001), possui especialização em Gestão Estratégica de Sistemas de Informação pela Faculdade de Alagoas - FAL (2006). Mestrando em Ciências da Computação – UFPE(2013...). Atualmente é Professor Especialista Tempo Integral da Faculdade Estácio de Alagoas - FAL. Profissional: • Administrador de Redes • Gerente de Projetos de TI • Consultor em TI Apresentação da disciplina (2ª parte) • Disciplina: Fundamento da Matemática Financeira e ESTATÍSTICA APLICADA Carga horária: 40h* • Datas das Aulas: 20/02 e 27/02. • EMENTA: Estatística descritiva; Probabilidade; Distribuições de Probabilidades; Estimação e Intervalos de Confiança; Testes de Hipóteses; Correlação e Regressão; Coleta de Dados e Métodos de Amostragem. • Objetivo Geral: – Apresentar conceitos fundamentais de Estatística Aplicada. Objetivos Específicos: – Apresentar os fundamentos de estatística descritiva. – Apresentar os conceitos de correlação e regressão e sua importância para estabelecer relações entre variáveis. – Apresentar os fundamentos da teoria de probabilidades. – Apresentar distribuições de probabilidade úteis na modelagem e solução de problemas. – Apresentar princípios e métodos para coleta e tratamento de dados. – Apresentar métodos de amostragem úteis na modelagem e solução de problemas. – Apresentar princípios e métodos para estimação de parâmetros e estabelecimento de intervalos de confiança. – Apresentar métodos para conduzir Testes de Hipóteses úteis na modelagem e solução de problemas. MAPA CONCEITUAL – ESTATÍSTICA Referências • BIBLIOGRAFIA BÁSICA – SPIEGEL, M. R. Estatística. São Paulo: Makron Books, 1993, 3ª Ed.; – MORETTIN, L. G. Estatística Básica. Probabilidade. Volume 1. São Paulo: Pearson Education do Brasil, 1999, 7ª Ed; – MORETTIN, L. G. Probabilidades. Probabilidade. Volume 2. São Paulo: Pearson Education do Brasil, 1999, 7ª Ed; • BIBLIOGRAFIA COMPLEMENTAR – MONTGOMERY, D. C.; RUNGER, G. C. Estatística Aplicada e Probabilidade.... Rio de Janeiro: LTC, 2009, 4ª Ed.; – DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. São Paulo: Pioneira Thomson Learning, 2006, 6ª Ed. – NAZARETH, Helenalda. Curso Básico de Estatística. São Paulo, Editora Ática, 1995. Sistema de Avaliação • Nota mínima para aprovação na disciplina: 7 • Distribuição dos pontos: – Será calculada a média de matemática financeira com estatística. • Proposta de Avaliação para a Estatística Aplicada – Participação nas aulas (2 pontos) – Pesquisa/Trabalho (5 pontos) – Exercício de Fixação (3 pontos) Agenda • Conceitos introdutórios • Coleta de Dados e Métodos de Amostragem • Estatística Descritiva e Correlação / Regressão • Probabilidade e Distribuições de Probabilidade • Estimação e Testes de Hipóteses Introdução à Estatística • É fundamental o emprego da Estatística em quase todas as áreas do conhecimento, todas as vezes que estiverem envolvidas informações na forma de dados coletados em pesquisas ou de forma experimental. • Com o objetivo de alcançar uma melhoria dos processos tanto nas áreas industriais como tecnológicas, as ferramentas estatísticas tem alcançado um papel importantíssimo nesse cenário. Conceito de Estatística Estatística é “um conjunto de técnicas e métodos de pesquisa que, entre outros tópicos, envolve o planejamento do experimento a ser realizado, a coleta qualificada dos dados, a inferência, o processamento, a análise e a disseminação das informações”. Todo profissional hoje em dia deve estar ciente da importância da Estatística e ter conhecimento de como utilizá-la, a fim de ter um lugar no mercado de trabalho com a capacidade de lhe dar com as realidades atuais extremamente competitivas. Dentre várias habilidades profissionais, vem crescendo em importância o desenvolvimento do pensamento estatístico, tendo em vista as necessidades de todas as áreas de conhecimentos de uma análise mais apurada durante os processos decisórios. Estatística na área de Gestão Observa-se que o controle de qualidade foi criado como uma necessidade de resolver problemas na redução de custos, no controle de perdas desnecessárias, na uniformização e normalização da produção, auxiliando as empresas a controlarem, melhor distribuírem e maximizarem os seus recursos, tornando-as assim mais competitivas. Aplicação da Estatística Recursos Humanos • Pessoal / Folha de Pagamento. • Avaliação de Desempenho • Treinamento • Recrutamento & Seleção Aplicação da Estatística Operações • Logística • Qualidade Total • Avaliação de Estoques • Cadeia de Suprimentos Aplicação da Estatística Marketing • Propaganda • Pesquisa de Mercado • Comportamento do Consumidor • Endomarketing Aplicação da Estatística TI • Monitoramento • Gestão de Recursos • Suporte • Banco de dados • Telecomunicações • Desenvolvimento de software... Aplicação da Estatística Finanças • Risco e Retorno de Investimentos • Financiamento de Recursos • Orçamento Empresarial • Projeção de Resultados Motivação Estatística • O objetivo fundamental da Estatística é extrair informações confiáveis a partir dos dados coletados para a tomada de decisão. Método Científico Há muito tempo que o homem faz descobertas importantes, que originaram muitos dos conhecimentos atuais. Entretanto muitas dessas descobertas foram ao acaso, ou em função de uma necessidade da época e muitas dessas descobertas não seguiram um caminho, roteiro ou um método específico. Método Científico Hoje em dia os métodos de observação, estudo e análise fazem parte da maioria dos aumentos de conhecimentos atuais. Até mesmo os conhecimentos obtidos por descobertas ao acaso são desenvolvidos com base em métodos específicos, que chamamos de métodos científicos. Os métodos são as trilhas que nos permite chegar a um objetivo, ou a um determinado resultado, sendo um conjunto de passos e procedimentos que repetidos fornecem um resultado específico. Dentre os métodos científicos destacamos o método estatístico e experimental. Método Experimental • Quando se realiza um experimento e se deseja analisar como se comportam seus resultados ao se alterar algum dos elementos componentes do experimento, é necessário manter constante os demais fatores (causas). • Quando se usa este tipo de pesquisa, faz-se uma análise do problema, montam-se as hipóteses necessárias. • As alterações nas variáveis tanto em quantidade, quanto em qualidade, permite o estudo das relações de causas e efeitos do referido fenômeno em análise. Todo esse procedimento experimental permite que se possa avaliar e controlar os resultados obtidos. Método Experimental Pontos importantes do método experimental: Indicar o objeto de estudo; Determinar as variáveis independentes capazes de influenciar o fenômeno em estudo; Identificar as ferramentas de análise, controle e observação dos efeitos, resultantes da manipulação das variáveis, sobre o objeto. Método Estatístico • No método estatístico, observando suas várias etapas, podemos considerar que a mais importante muitas vezes não é a análise de dados. • Podemos dizer que a etapa que necessita de maior atenção e cuidado é o planejamento de como o conjunto de dados será coletado. • Um mau planejamento, ou mesmo uma coleta feita de forma inapropriada pode acarretar em dados inúteis, de onde não se consegue tirar nenhuma informação ou qualquer conclusão coerente. Método Estatístico • O uso dos métodos estatísticos está praticamente em todos os setores e campos de estudo. • É possível utilizar o método na avaliação da produção, a fim de melhorar o controle de qualidade e permitir um produto melhor a custos menores; • utilizar no controle estatístico de doenças e epidemias, permitindo uma ação antecipada no controle de doenças; • ou até mesmo na criação de regulamentações e leis, com a finalidade de proteger espécies em extinção, verificadas através de levantamentos estatísticos da população.. Abusos da Estatística • Não é de hoje que ocorrem abusos com a Estatística. Assim é que, há cerca de um século, o estadista Benjamin Disraeli disse: • “Há três tipos de mentiras: as mentiras, as mentiras sérias e as estatísticas”. Já se disse também que “os números não mentem; mas os mentirosos forjam os números” e que “se torturarmos os dados por bastante tempo, eles acabam por admitir qualquer coisa”. •O historiador Andrew Lang disse que algumas pessoas usam a Estatística “como um bêbado utiliza um poste de iluminação – para servir de apoio, e não para iluminar”. • Todas essas afirmações se referem aos abusos da Estatística quando os dados são apresentados de forma enganosa. Fases da Pesquisa Pesquisa Estatística Planejamento O que? Onde? Como? Cronograma Orçamento... Coleta Aplicação Do Questionário Crítica Validação Dos dados Coletados/ Organização Dos Dados na planilha Análise Aplicação De técnicas estatísticas Resultados Apresentação Do relatório / Resultados Estudo da Estatística Estatística Descritiva, que se preocupa com a organização e descrição dos dados experimentais; Estatística Indutiva (Estatística Inferencial), que cuida da sua análise e interpretação, ou seja, tirar conclusões sobre populações com base nos resultados observados em amostras extraídas dessas populações. Estatística Probabilística – representa o estudo de planejar jogadas ou estratégias de jogos de azar , bem como o risco e o acaso em eventos futuros. População e Amostra • População - Conjunto de todos os elementos que possuem pelo menos uma característica em comum. • Amostra - Subconjunto representativo da população Variáveis • Qualitativa – quando seus valores são expressos por atributos. Exemplo : Sexo , Cor da Pele. • Quantitativa – quando seus valores são expressos por números. Exemplo : altura, numero de alunos de um colégio. Variáveis Quantitativas • Discretas – variáveis que só podem assumir valores pertencentes a um conjunto enumerável. Exemplo : numero de alunos de uma escola. • Contínuas – quando uma variável pode assumir qualquer valor entre dois limites. Exemplo : Peso de um adulto pode ser de 70 Kg ou 70,1 Kg ou 79,13 Kg ou 70,134 Kg. Organização dos dados. • Os dados estatísticos podem estar organizados ou desorganizados. • • Quando desorganizados recebem a denominação de “dados estatísticos brutos”. Por exemplo: Z = (5, 2, 4, 1, 3) Já quando organizados recebem a denominação de “dados organizados em Rol”. Por exemplo: Z = (1, 2, 3, 4, 5) • O Rol pode ser organizado em ordem numérica, alfabética ou alfanumérica, de forma crescente ou decrescente. Por exemplo: Z = (1, 2, 3, 4, 5) Z = (A, B, C, D, E) Z = (5, 4, 3, 2, 1) Tipologias de variáveis • Para cada fenômeno existe um número correspondente de resultados possíveis. Por exemplo: • fenômeno - “sexo” dois os resultados possíveis são: masculino e feminino; • fenômeno - “número de filhos” o número de resultados possíveis, é expresso através dos números naturais: 0, 1, 2, 3, 4, ..., n; • fenômeno “altura” os resultados podem tomar um número infinito de valores numéricos dentro de um certo intervalo. • Neste momento cabe reforçar a definição de Variável: é um conjunto de resultados possíveis de um fenômeno. • A partir dos exemplos anteriores podemos afirmar que os dados estatísticos também podem ser identificados segundo o seu tipo ou espécie, ou seja: • Dados contínuos – são aqueles em que a variável pode assumir qualquer valor dentro de um intervalo, como para o caso do exemplo “altura” , em que são aceitos valores desde 1,40 até 2,30. Neste caso a variável é dita variável quantitativa contínua. • Neste ponto cabe esclarecer algumas regras de aproximação e arredondamento de dados segundo a NBR 5891 da ABNT: Amostragem Não Probabilística • Acidental ou de conveniência – indicada para assuntos exploratórios. • Intencional – Escolhe-se um grupo específico. • Quotas ou proporcional – É necessário o conhecimento prévio da população. Amostragem Probabilística • Aleatória Simples – é utilizada uma tabela de números aleatórios. • Aleatória Estratificada – Estratifica cada subconjunto através de critérios. • Conglomerado – Por sorteio é indicado um conjunto. Tabelas I. Tabelas • Por definição tabela é um conjunto de observações de alguma forma organizadas e distribuídas em um quadro. Título Variável A Linhas com os Valores da variável A Variável B Linhas com os Valores da variável B II. Séries estatísticas • Por definição, série estatística é toda a tabela que representa um determinado conjunto de dados estatísticos organizados segundo a cronologia, o local ou a categoria. II.A Série cronológica ou temporal ou histórica • Descreve os valores da variável, em local específico, de acordo com intervalos de tempo variáveis. PRODUÇÃO MÉDIA DE FEIJÃO NO BRASIL 2007-2008 ANOS PRODUÇÃO (1.000 t) 2007 2008 51 138 52 223 II.B Série geográfica ou territorial • Descreve os valores da variável, em determinado instante, segundo diversos locais. Tempo de espera por um ônibus – 2001. Estado Pernambuco Bahia Sergipe Alagoas Paraíba Tempo em min. 7,5 7,0 7,0 5,9 Menos de 4 II.C Série especificativa ou categórica • Descreve os valores da variável, em determinado tempo e local, segundo espécies ou categorias. O que vai fazer com a participação nos lucros? - 2009 Opções Pagar dívidas Fazer compras Investir Valor percentual (%) 40 43 17 II.D Série mista • É uma série conjugada, pois pode variar simultaneamente o tempo, o fato e o lugar. ANO 1940 1950 1960 1970 1980 População Urbana do Brasil por Região REGIÃO N NE SE S 406 3381 7232 1591 581 4745 10721 2313 958 7517 17461 4361 1.624 11753 28965 7303 3.037 11567 42810 11878 CO 271 424 1007 2437 5115 GRÁFICO ESTATÍSTICO • Forma de se apresentar os dados estatísticos. Objetivos: • produzir uma impressão mais rápida e viva do fenômeno em estudo, • causar melhor impressão visual. Gráficos Estatísticos e Tabelas facilitam a análise e a interpretação. INDICADORES DE CONSUMO MELHORAM EM JANEIRO Miriam Leitão TIPOS DE GRÁFICOS • Diagramas Gráficos geométricos dispostos em, no máximo, duas dimensões. • Cartogramas Ilustrações relativas a cartas geográficas, utilizadas em Geografia, História e Demografia. • Pictogramas Processo gráfico no qual constam figuras. TIPOS DE GRÁFICOS • Diagramas Gráfico em linha ou em curva. Gráfico em colunas ou em barras. Gráfico em colunas ou em barra múltiplas. Gráfico em setores. • Cartogramas • Pictogramas GRÁFICOS EM LINHA OU EM CURVA • Utiliza uma linha poligonal. • Utiliza o Sistema de Coordenadas Cartesianas. GRÁFICOS EM LINHA OU EM CURVA GRÁFICO EM COLUNAS • Utiliza retângulos dispostos verticalmente. • Os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados. GRÁFICO EM COLUNAS GRÁFICOS EM BARRAS • Utiliza retângulos dispostos horizontalmente. • Os retângulos têm a mesma altura e os comprimentos das bases são proporcionais aos respectivos dados GRÁFICO EM COLUNAS/BARRAS MÚLTIPLOS • Representa simultaneamente dois ou mais fenômenos estudados com o objetivo de compará-los. GRÁFICO EM SETORES • Gráficos de pizza. • Construído com base em um círculo, dividido em setores, de acordo com o numero de parcelas. • Os 3600 disponíveis no círculo são repartidos proporcionalmente. • Regra de 3 simples, onde a soma de todas as parcelas corresponde a 3600. • Ressalta a participação de cada parcela no todo. GRÁFICO EM SETORES Exercícios • A tempe ( ) A temperatura máxima observada foi de 30 °C . • A tempe ( ) Às 09:00 horas a temperatura era mais elevada do que às 08:00 horas. ( ) A variação das temperaturas observada foi de 6 °c . CARTOGRAMA • Representam a cartas geográficas • Objetivo: apresentar dados estatísticos relacionados com áreas geográficas ou políticas. • Utilizado em Geografia, História e Demografia. • Dados absolutos (população): pontos em numero proporcional aos dados. • Dados relativos (densidade): hachuras ou cores. CARTOGRAMAS PICTOGRAMAS Processo gráfico no qual constam figuras. População Urbana no Brasil em 1980 (x10) PICTOGRAMAS PICTOGRAMAS Amostra dos alunos de uma escola sobre os seus desportos preferidos. Qual a relação entre os alunos que preferem futebol e volei? PICTOGRAMAS Qual foi o aumento de produção entre os anos de 1996 e 1997? Quantos livros de autores portugueses foram vendidos? Qual foi o genero de livro menos vendido nesse mês? ( ) Lúcia tem mais moedas da Austrália do que do Canadá. ( )O país do qual a Lúcia possui mais moedas é a Suíça. ( ) Lúcia tem mais 3 moedas do Brasil do que da Africa do Sul ( ) Lúcia tem menos moedas do Canadá do que do Brasil ( ) O número de moedas que a Lúcia tem na sua colecção é 84. (a) Gráfico em linha/curva (b) Grafico em Colunas (c) Pictograma (d) Grafico em Barras (e) Grafico em Setores (f) Cartograma (a) Gráfico em linha/curva (b) Grafico em Colunas (c) Pictograma (d) Grafico em Barras (e) Grafico em Setores (f) Cartograma (a) Gráfico em linha/curva (b) Grafico em Colunas (c) Pictograma (d) Grafico em Barras (e) Grafico em Setores ( f) Cartograma (a) Gráfico em Colunas Multiplas (b) Grafico em Barras Multiplas (c) Pictograma (d) Cartograma (a) Gráfico em linha/curva (b) Grafico em Colunas (c) Pictograma (d) Grafico em Barras (e) Grafico em Setores (f) Cartograma REPRESENTAÇÃO GRÁFICA DE UMA DISTRIBUIÇÃO • Histograma, Polígono de Frequência, Polígono de Frequência Acumulada (Ogiva de Galton). • Utilizam o primeiro quadrante do sistema de eixos coordenados cartesianos ortogonais. • Eixo das abscissas: valores da variável. • Eixo das ordenadas: freqüências. HISTOGRAMAS HISTOGRAMAS Histograma referente à distribuição do número de candidatos segundo as notas finais acumuladas nas duas etapas, com os respectivos pesos. 1998 UnB POLÍGONO DE FREQUÊNCIA • Gráfico em linha, com as freqüências marcadas sobre as perpendiculares ao eixo horizontal, levantadas pelos pontos médios dos intervalos de classe. • É a linha poligonal fechada que une ordenadas traçadas dos pontos médios das classes. • Sua construção é feita, quase sempre, acompanhando a do histograma Polígono de frequências sobre a duração das comunicações por telefones. POLÍGONO DE FREQUÊNCIA ACUMULADA •Ogiva de Galton •Sir Francis Galton 1822-1911 •Ogiva: gráfico de uma distribuição cumulativa POLÍGONO DE FREQUÊNCIA ACUMULADA (OGIVA DE GALTON) Representa frequência acumulada. Mantém o eixo das abscissas Altera a escala do eixo das ordenadas, conforme o tipo dessa frequência. Construção: marcamos na abscissa os valores da variável (limites superiores dos intervalos) e na ordenada as freqüências acumuladas. HISTOGRAMA/POLÍGONO DE FREQUÊNCIA POLÍGONO DE FREQUÊNCIA ACUMULADA • Questões para revisão de conteúdo: - Coloque F para falso e V para verdadeiro: ( ) Estatística é a ciência que estuda quantitativamente os fenômenos naturais ou sociais, cuja avaliação está baseada em métodos científicos de coleta, organização, apresentação e análise de dados. ( ) Amostra é um subconjunto das observações abrangidas pela população, através da qual se faz um estudo ou inferência sobre as características da população. - Tomando por base o texto abaixo: • Ao chegarmos a uma Empresa em que exista risco de acidentes, não precisamos percorrer todos os ambientes de trabalho, obrigatoriamente, para conseguirmos chegar à conclusão, bem próxima à realidade, de que existe o cuidado com a proteção do trabalhador. Para tanto, basta que seja observado, através de inspeção em alguns setores de cada Departamento, por exemplo, se todos possuem e estão usando os Equipamentos de Proteção Individual e Coletiva, bem como atendendo os procedimentos operacionais estabelecidos. Podemos afirmar que estamos tratando do conceito de: a) Amostra; b) População; c) Censo; d) Conjunto Universo. - Coloque F para falso e V para verdadeiro ( ) Os dados organizados recebem a denominação de “dados organizados em Rol”! ( ) Variável é um conjunto de resultados possíveis de um fenômeno. ( ) Dados contínuos são aqueles em que a variável pode assumir qualquer valor dentro de um intervalo. Considere uma faculdade com 2.000 estudantes dos quais 1.200 estudam Administração e 800 estudam Ciências Contábeis. Considerando que 40% dos alunos de Administração e 30% dos alunos de Ciências Contábeis possuem bolsas de estudo, responda: a) Quantidade de estudantes de Administração que possuem bolsas de estudo. b) Quantidade de estudantes de Ciências Contábeis que não possuem bolsas de estudo. c) Dentre os bolsistas, qual o percentual de alunos de Administração ? d) Dentre os não bolsistas , qual o percentual de alunos de Ciências Contábeis? Medidas de Posição Central • Em uma dada distribuição amostral, é possível fazer várias observações, no intuito de entender o comportamento dos seus valores. • Podemos, por exemplo, tentar localizar a maior concentração de valores de uma determinada distribuição. • Revisaremos então as medidas de posição. São elas: as medidas de tendência central e as separatrizes. Medidas de tendência Central • As medidas de tendência central são valores que, de maneira condensada, trazem informações contidas nos dados estatísticos; • É um valor que tende a melhor representar um conjunto de números. Funcionam como um resumo, passando a ideia do comportamento geral dos dados. • Resumindo: Representam um valor central em torno do qual os dados se concentram e se distribuem. Médias MÉDIA ARITMÉTICA SIMPLES a média aritmética, ou média, de um conjunto de N números X1, X2, ...., Xn é definido por: _ X = X1 + X2 + ....... + Xn / n EXEMPLO : {1, 1, 3, 4, 4} X = 1 + 1+ 3 + 4 + 4 = 13 = 2,6 MÉDIA PONDERADA Se os valores X1, X2, ...., Xn ocorrerem com freqüências f1, f2, ....., fn, então: _ X = X1 f1 + X2 f2 + ..... + Xn fn = Xi fi -------------------------------------------f1 + f2 + ..... + fn fi MODA Pode-se definir como moda o valor mas freqüente, quando comparada sua freqüência com a dos valores contíguos de um conjunto ordenado. A moda pode não existir e, mesmo que exista, pode não ser única. EXEMPLOS : X = 4, 5, 5, 6, 6, 6, 7, 7, 8, 8 moda = 6 – valor mais freqüente – unimodal Y = 2, 3, 4, 5, 6 não tem moda – amodal Z = 2, 4, 4, 4, 6, 7, 8, 8, 8, 9 tem duas modas 4 e 8 – bimodal MODA FÓRMULA PARA DADOS AGRUPADOS: Mo =( l * + L * ) / 2 Ou Mo = l* + h ( D1 / D1 + D2) Sendo: l* Limite Inferior da Classe Modal. L* Limite Inferior da Classe Modal. h intervalo de classe. D1 Frequencia Simples – Frequencia Anterior. D2 Frequencia Simples – Frequencia Posterior Mediana Corresponde ao valor do elemento central de uma amostra. FÓRMULA PARA DADOS AGRUPADOS: Md = l* + h ( Xm – F(Ant) / f*) Sendo: l* Limite Inferior da Classe Mediana. f* frequencia simples da classe mediana. h intervalo de classe. Xm Valor Mediano. Medidas de tendência Central Medidas de Posição • Na análise da distribuição de uma variável, há grande interesse de determinarmos qual o valor que divide a distribuição em duas partes iguais, quatro partes iguais, dez partes iguais e cem partes iguais. A estes valores (separatrizes) chamaremos respectivamente de: Quartis Decis Percentis • O interesse no conhecimento das separatrizes decorre do fato de a partir delas poderemos introduzir os índices de Pearson, de uso muito prático na descrição de uma variável X. Medidas de Posição • QUARTIS dividem a distribuição em quatro partes iguais. Qnq = X ( nqn / 4 + ½) Sendo: • Qnq primeiro, segundo e terceiro quartil ( i = 1, 2 e 3) • nq número do quartil que se deseja obter • X elemento da série ordenada • n tamanho da amostra Medidas de Posição DECIS – Dividem a distribuição ordenada em dez partes iguais. • Dnq = X ( Dqn / 10 + ½) • Sendo: • Dnq primeiro até o nono decil ( i = 1, 2 ... e 9) • nq número do Decil que se deseja obter • X elemento da série ordenada • n tamanho da amostra Medidas de Posição • PERCENTIS : Dividem a distribuição ordenda em cem partes iguais. • Cnq = X ( Cqn / 100+ ½) • Sendo: • Cnq primeiro ao nonagésimo nono centil ( i = 1, 2 ....e 99) • nq número do Centil que se deseja obter • X elemento da série ordenada • n tamanho da amostra Exercícios: 1. Determine a mediana para os dados (1, 5, 8, 9, 10): a) 3,3 b) 8 c) 6,6 d) 5 Exercícios: 2. Determine a média para os dados (2, 3, 10, 15, 15): a) 10 b) 13 c) 15 d) 9 Exercícios: 3. A moda representa: a) O elemento central da distribuição. b) A diferença entre a média e a mediana. c) O elemento de maior frequência na distribuição de valores. d) A soma de todos os valores, dividido pela quantidade de dados. Exercícios 4) Considere a seguinte amostra de uma pesquisa feita com 15 consumidores que atribuíram as seguintes notas a uma mercadoria , numa escala de 0 a 100 : 65, 68, 70, 75, 80, 80 ,82 ,85, 90 ,90, 90, 95, 98, 100, 100. Calcular : a) A Média b) Moda c) 3º Quartil Exemplo usando Excel • Determine a média, a moda, a mediana, Os quartis da amostra abaixo, depois Construa uma tabela de distribuição de frequências: 44 48 53 54 56 56 56 57 60 60 62 63 63 63 63 65 66 67 68 68 69 69 70 71 72 74 77 78 80 81 82 85 90 93 95 95 97 100 106 107 Medidas de Dispersão • As medidas de dispersão dizem como se distribuem os valores em torno da média da amostra (ou população). Elas são: – Amplitude – Variância – Desvio Padrão – Coeficiente de Variação Medidas de Dispersão • AMPLITUDE –É a diferença entre o maior e o menor dado observado. –A amplitude não mede bem a dispersão dos dados porque, em seu cálculo, usam-se apenas os valores extremos – e não todos os dados. Medidas de Dispersão Exemplo: Aluno Antônio João José Pedro Antônio João José Pedro 5 6 10 10 5 4 5 10 a = 5-5 =0 a = 6-4 = 2 a = 10-0 = 10 a = 10-0 = 10 Notas 5 5 5 5 Média 5 4 5 0 5 6 0 0 5 5 5 5 Medidas de Dispersão Variância A variância da amostra, representada por s2, é obtida somando-se os quadrados dos desvios, em relação à sua média e dividindo o resultado pelo número de observações menos um. s 2 ( x x) n 1 2 s 2 x 2 ( x) n 1 n 2 Medidas de Dispersão Exemplo: Considere dois bancos com as seguintes taxas de serviços: 2 ( x x ) Banco A: 8,9,10,8,6,11,7,13. 2 s Banco B: 7,3,10,6,5,13,18,10. n 1 Calcule a variância desses dois conjuntos. Banco A: X 8 9 10 8 6 11 7 13 Média 9 9 9 9 9 9 9 9 X - média -1 0 1 -1 -3 2 -2 4 2 ( x x ) (X – média)2 1 0 1 1 9 4 4 16 36 36 s 5,14 7 2 Medidas de Dispersão Exemplo: Considere dois bancos com as seguintes taxas de 2 serviços: ( x ) 2 Banco A: 8,9,10,8,6,11,7,13. x 2 n Banco B: 7,3,10,6,5,13,18,10. s n 1 Calcule a variância desses dois conjuntos. Banco B: X 7 3 10 6 5 13 18 10 X2 49 9 100 36 25 169 324 100 x x 72 812 2 s2 ? Medidas de Dispersão • DESVIO -PADRÃO –O desvio padrão é a raiz quadrada do valor obtido para a variância. –Ele é o valor que quantifica a dispersão dos eventos sob distribuição normal, ou seja, a média das diferenças entre o valor de cada evento e a média central. Medidas de Dispersão Coeficiente de Variação • Corresponde à relação entre o desvio-padrão e a média. • Ele mede a dispersão relativa em relação à média. CV s x 100 Medidas de Dispersão • Calcule o desvio-padrão da amostra: 4, 5, 5, 7 e 8 e marque a opção correta: A) B) C) D) 2,56. 1,64. 5,80. 1,80. Medidas de Dispersão • Calcule o desvio-padrão da amostra: 2, 2, 7, 8 e 9 e marque a opção correta: A) 5,6. B) 3,36. C) 7,6. D) 1,30. E) 1,70. Medidas de Dispersão • O Desvio Padrão, bem como a Variância, é uma medida de dispersão. Uma daquelas que medem o quanto cada elemento de uma distribuição se desviou de um valor central. No caso, este valor central é a média. As notas do aluno João ao longo de 6 simulados feitos por ele foram: 4,0 - 7,0 - 6,0 - 6,0 - 8,0 - 5,0 determine o desvio padrão dessas notas. Medidas de Dispersão • • • • • • • • • ENEM 2010 - Questão 170 – Prova Rosa. Marco e Paulo foram classificados em um concurso. Para classificação no concurso o candidato deveria obter média aritmética na pontuação igual ou superior a 14. Em caso de empate na média, o desempate seria em favor da pontuação mais regular. No quadro a seguir são apresentados os pontos obtidos nas provas de Matemática, Português e Conhecimentos Gerais, a média, a mediana e o desvio padrão dos dois candidatos. Dados dos candidatos no concurso O candidato com pontuação mais regular, portanto mais bem classificado no concurso, é: A) Marco, pois a média e a mediana são iguais. B) Marco, pois obteve menor desvio padrão. C) Paulo, pois obteve a maior pontuação da tabela, 19 em Português. D) Paulo, pois obteve maior mediana. E) Paulo, pois obteve maior desvio padrão. Medidas de Dispersão (Excel) Calcule a média e o desvio padrão dos dados apresentados na tabela abaixo: Peso em gramas de um produto. Produto A 25,5 26,0 26,5 25,0 26,0 25,0 24,0 25,0 25,5 26,0 Produto B 27,0 27,0 27,0 27,0 26,0 27,0 27,5 27,0 28,0 26,0 Medidas de Dispersão (Excel) Calcule a variância, o desvio padrão e o coeficiente de variação dos dados da tabela abaixo: Conceito de qualidade de uma pesquisa a um determinado serviço 100,0 100,0 97,5 80,0 97,5 85,0 85,0 80,0 Noções sobre correlação • Existem situações em que interessa estudar o comportamento conjunto de duas variáveis. O comportamento conjunto de duas variáveis aleatórias contínuas pode ser observado através do gráfico de dispersão, no qual cada variável é plotada em cada eixo cartesiano, ou através de uma medida estatística denominada coeficiente de correlação. Noções sobre correlação • O termo correlação significa relação nos dois sentidos: descreve a associação entre duas variáveis, não fazendo julgamento sobre se uma é causa ou conseqüência da outra. A correlação é usada quando se deseja estudar quão consistentemente duas variáveis mudam em conjunto. Quando isto ocorre diz-se que há uma correlação ou covariação, cuja direção e magnitude podem ser quantificadas. Diagrama de dispersão • Para desenhar uma diagrama de dispersão, 1º se traça o sistema de eixos cartesianos. Depois se representa uma das variáveis no eixo dos X e a outra variável no eixo dos Y. Colocam-se, então, os valores das variáveis sobre os respectivos eixos e marca-se um ponto para cada par de valores. Correlação: Positiva e Negativa • Correlação positiva – as variáveis X e Y crescem no mesmo sentido, isto é, à medida que x cresce, em média, Y também cresce. • Correlação negativa – as variáveis X e Y variam em sentidos opostos, isto é, caso X cresça, Y em média decresce. • Correlação nula – não há interação entre as variáveis X e Y. Coeficiente de correlação ( r ) • Sejam X e Y duas variáveis aleatórias de uma população, das quais é selecionada uma amostra de pontos (x;y). A correlação entre as variáveis X e Y quantifica o grau da relação linear entre os resultados. • A correlação entre as variáveis aleatórias X e Y da população é estimada pelo coeficiente de correlação de Pearson, denotado por r: r x2 x y xy x 2 n n y 2 y 2 n ***O coeficiente de correlação ( r )varia entre –1 e +1. Grau de correlação • CHADDOCK propôs a seguinte classificação quanto ao grau de correlação: Classificação do grau de correlação r=0 Não há correlação r < 0,5 Correlação Fraca r > 0,5 Correlação Média r > 0,75 Correlação Forte r=1 Correlação Perfeita Resumindo... • O coeficiente de correlação mede o “ajuste” de uma reta traçada o mais próximo possível dos pontos que a determinaram, isto é, quão próximos da reta traçada se encontram os pontos. O gráfico ou diagrama de dispersão mostra se as duas variáveis variam no mesmo sentido (r > 0), em sentidos opostos (r < 0),ou se as duas variáveis não variam em conjunto (r = 0). Portanto o coeficiente de correlação varia de -1 a +1, denominando a correlação para esses valores extremos de: correlação perfeita e negativa (r = -1) e correlação perfeita e positiva (r = +1). Exercício Exercícios • 1 - Faça um diagrama de dispersão e avalie se existe correlação e qual o seu tipo. Dia 1 5 10 15 20 25 30 Carros Vendidos 10 8 7 6 4 2 1 Qt de carros vendidos (y) 12 10 8 6 4 2 0 0 5 10 15 20 25 Dias do mês (x) 30 35 Exercícios • 2 - Faça um diagrama de dispersão e calcule o coeficiente de correlação para os dados apresentados na tabela abaixo: Dados relativos a duas variáveis X e Y X 3 5 4 2 1 Y 2 2 7 7 2 Exercícios • Um administrador de entrevistadores aferiu as semanas de experiência e o número de entrevistas realizadas numa amostra com 10 entrevistadores revelando os seguintes dados: Nº de entrevistas realizadas 4 9 12 6 8 10 6 5 10 7 Experiência de entrevistadores 14 nº de entrevistas realizadas Semanas de experiência 15 41 58 18 37 52 28 24 45 33 12 58 10 8 6 4 18 15 24 28 33 37 41 45 52 2 0 • Determine o coeficiente de correlação. 15 18 24 28 33 37 41 45 52 58 Semanas de experiência Desafio ( Excel ) • 3 – Em um trabalho analisando a produção de uma determinada peça, foi obtido tanto o tempo quanto a quantidade de peças produzidas. Os dados estão na tabela abaixo. Produção (Qt) Construa um diagrama de dispersão. Você acha que existe correlação entre as medidas? 25 Tempo (em horas) 2,7 45 2,7 60 3,5 68 3,7 80 5,8 100 5,1 120 4,8 140 11,7 143 11,1 148 14,2 Noções sobre Regressão Linear • Todas as vezes que temos duas variáveis com certa correlação e desejamos estudar uma variável em função da outra, fazemos uma análise de regressão. • O objetivo principal da análise de regressão é realizar a relação entre as duas variáveis, a partir de um modelo matemático linear, partindo de n observações delas. • A variável sobre a qual desejamos fazer a estimativa é denominada variável dependente e a outra recebe o nome de variável independente. Noções sobre Regressão Linear • Anteriormente foi estudado o comportamento conjunto de duas variáveis, agora será estudado como uma variável varia em função da outra. • Quando se estuda a variação da variável Y em função de uma variável X, diz-se que Y é a variável dependente e que X é a variável explanatória. Reta de regressão • Dada uma nuvem de pontos de configuração aproximadamente retilínea, é sempre possível interpolar a esses pontos uma reta – Reta de Regressão - com o objetivo de produzir uma informação simplificada. Tempo (minutos) 2 3 5 8 10 12 14 15 Produtos Fabricados 4 6 10 16 19 21 28 32 Produtos Fabricados y = 2,0073x - 0,3127 R² = 0,9809 40 35 30 25 20 15 10 5 0 0 2 4 6 8 10 12 14 16 18 Reta de regressão • Para que esta reta fique bem determinada é necessário que se calcule: – O coeficiente angular – que dá a inclinação da reta – é representado por b. b x y xy x 2 n ( x) 2 n – O coeficiente linear – que é o ponto que intercepta o eixo dos Y, representado por a. a y bx *Onde y e x são as médias de Y e X respectivamente. Reta de regressão ^ a equação da reta de regressão ficará: • Assim Y a bx são os valores calculados para Y Agora que já conhecemos as fórmulas, ajuste a reta de regressão do primeiro exemplo desta apresentação. Resolução do Exemplo Fórmulas: Coeficiente Angular b x y xy x 2 n ( x) 2 Coeficiente Linear ^ Equação da reta a y bx Y a bx X^2 Produtos Fabricados n Tempo (X) (minutos) 2 3 5 8 10 12 14 15 Produtos Fabricados (Y) 4 6 10 16 19 21 28 32 69 136 X.Y 35 4 9 25 64 100 144 196 225 8 18 50 128 190 252 392 480 767 1518 30 25 20 15 10 5 0 0 5 y 17 10 15 20 x 8,625 Ajustando a reta – Transformação de Variáveis Para que uma regressão linear simples possa ser ajustada aos dados, muitas vezes se torna necessário transformar uma ou as duas variáveis, já que, em alguns casos as duas variávies não se distribuem em torno de uma reta e sim, de uma curva ou mesmo de número muito grande de retas, ocasionando desta maneira, uma margem grande de erros, caso não haja a TRANSFORMAÇÃO DE VARIÁVEIS. • Essa transformação pode ser: – O logaritmo de uma variável – A extração de raiz quadrada – A inversão da variável. • Exercícios Um administrador de entrevistadores aferiu as semanas de experiência e o número de entrevistas realizadas numa amostra com 10 entrevistadores revelando os seguintes dados: Nº de entrevistas realizadas 4 9 12 6 8 10 6 5 10 7 Experiência de entrevistadores 14 nº de entrevistas realizadas Semanas de experiência 15 41 58 18 37 52 28 24 45 33 12 58 10 8 6 4 18 15 24 28 33 37 41 45 52 2 0 15 18 24 28 33 37 41 45 52 58 Semanas de experiência • Ajuste uma reta de regressão aos dados apresentados. Fórmulas: Coeficiente Angular b x y xy x 2 n ( x) 2 Resolução Coeficiente Linear a y bx ^ Equação da reta Y a bx n Semanas de experiência (X) 15 41 58 18 37 52 28 24 45 33 Nº de entrevistas realizadas (Y) 4 9 12 6 8 10 6 5 10 7 351 77 x^2 X.Y 225 60 1681 369 3364 696 324 108 1369 296 2704 520 784 168 576 120 2025 450 1089 231 14141 3018 y 7,7 x 35,1 Desafio ( Excel ) • Em um trabalho analisando a produção de uma determinada peça, foi obtido tanto o tempo quanto a quantidade de peças produzidas. Os dados estão na tabela abaixo. , Utilizando o Excel, Construa um diagrama de dispersão e Ajuste uma reta de regressão aos dados apresentados. 25 Tempo (em horas) 2,7 45 2,7 60 3,5 68 3,7 80 5,8 100 5,1 120 4,8 140 11,7 143 11,1 148 14,2 Conteúdo Programático desta aula Conhecer a definição de probabilidade e seus principais teoremas; Aprender o significado e aplicação dos eventos complementares, dos eventos independentes, bem como os eventos mutuamente exclusivos; Entender a definição dos conceitos de experimento aleatório e do espaço amostral, assim como suas finalidades, utilizações e aplicações no campo da teoria da probabilidade em estatística. • O estudo de probabilidades diz respeito a experiências aleatórias, cujo resultado não pode ser conhecido "a priori" antes que a experiência seja efetivamente realizada e o seu resultado observado. Embora o resultado de uma experiência aleatória seja imprevisível existe certo tipo de regularidade presente neste tipo de experiência, e isto nos permite criar modelos para representar fenômenos aleatórios. O estudo da probabilidade vem da necessidade de em certas situações, prevermos a possibilidade de ocorrência de determinados fatos. • Ao começarmos o estudo da probabilidade, normalmente a primeira ideia que nos vem à mente é a da sua utilização em jogos, mas podemos utilizálo em muitas outras áreas. Um bom exemplo é na área comercial, onde um site de comércio eletrônico pode dela se utilizar, para prever a possibilidade de fraude por parte de um possível comprador. Experimento Aleatório Experimentos cujos resultados podem apresentar variações, mesmo quando realizados em condições praticamente iguais. Ex.: Lançamento de um dado Observação do sexo de recém-nascidos Lançamento de uma moeda Jogar duas moedas Espaço Amostral ( S ) Conjunto de todos os resultados possíveis de um experimento aleatório. Ex.: S = { 1 , 2 , 3 , 4 , 5 , 6 } (lançamento de um dado) S = { M, F } S = { C , K } onde, C = cara K= coroa S = { 0 , 1 , 2 , 3 ,... } (números naturais) S = { CC, CK, KC, KK } (Lançamento de duas moedas) 1 2 3 4 5 Evento É qualquer subconjunto do espaço amostral, geralmente denotado por letras maiúsculas. Quando lançamos um dado ou uma moeda, chamamos a ocorrência deste fato de evento. Qualquer subconjunto de um espaço amostral é um evento. E = lançamento de um dado S={1,2,3,4,5,6} A = sair face par DEFINIÇÃO DE PROBABILIDADE Suponha que uma experiência aleatória tem apenas um número finito de resultados possíveis. Seja A um evento associado a essa experiência aleatória. Então a probabilidade do evento A é dada por: f P A p P(A) – probabilidade de ocorrer o evento A f – número de casos FAVORÁVEIS à ocorrência de A p – Número de casos POSSÍVEIS Importante: A probabilidade varia entre 0 e 1: Caso seja igual a um chama-se EVENTO CERTO. Caso seja igual a zero chama-se EVENTO IMPOSSÍVEL. DEFINIÇÃO DE PROBABILIDADE A probabilidade de um evento ocorrer (Luís voltar para casa primeiro) considerando-se um espaço amostral (Pedro, João e Luís) é igual a razão do número de elementos do evento (1, apenas Luís) para o número de elementos do espaço amostral (3, o número de irmãos que foram brincar na rua), desde que espaço o amostral seja um conjunto equiprovável, ou seja, todos os seus elementos tenham a mesma possibilidade de ocorrer (as condições de retorno para casa são as mesmas para os três irmãos). Probabilidade condicional É a probabilidade de ocorrer determinado evento sob uma dada condição. Indica-se a probabilidade condicional de ocorrer o evento A sob a condição de ter ocorrido B por P(A/B), que lê-se probabilidade de A dado B. Exemplo: Joga-se um dado e sabe-se que saiu um número ímpar. Qual a probabilidade desse número ter sido o número 3? Eventos independentes Dois eventos são independentes quando a probabilidade de ocorrer um deles não é modificada pela ocorrência do outro. Teorema do produto Para eventos independentes: P(A e B) = P(A). P(B) Para eventos dependentes: P(A e B) = P(A). P(B/A) Exemplo: Em um saco temos dez bolas, quatro brancas e seis vermelhas. Iremos fazer o sorteio de 2 bolas (com reposição), qual a probabilidade de sair uma bola branca e uma bola vermelha desse sorteio? P(B e V)= P(B) . P(V)= 4/10 . 6/10 = 24/100 Teorema da Soma Para eventos independentes: P(A ou B) = P(A) + P(B) Para eventos dependentes: P(A ou B) = P(A) + P(B) – P(A e B) Exemplo: Suponha que tenhamos uma urna com quatro bolas, duas pretas, uma azul e uma verde. Qual a probabilidade de sair uma bola azul ou verde do primeiro sorteio? P(A) = ¼ P(V) = ¼ P(A ou V) = ¼ + ¼ = ½ = 0,5 = 50% TEOREMA DA SOMA Exemplos 1)Ao lançarmos um dado, qual é a probabilidade de obtermos um número menor que 3 e maior que 4? Como sabemos neste exemplo o espaço amostral é composto de seis elementos: S = { 1, 2, 3, 4, 5, 6 } TEOREMA DA SOMA Chamemos de A o evento que representa a ocorrência de um menor que 3: A = { 1, 2 } Vamos chamar de B o evento que representa a ocorrência de um número maior que 4: B = { 5, 6 } Como o número de elementos de S é 6, temos que n(S) = 6. Para A temos n(A) = 2 e para B temos também n(B) = 2. Portanto: A probabilidade de obtermos um número menor que 3 e maior que 4 é igual a 4/6 ou 2/3. AXIOMAS Exemplos 1)Um dado é lançado. Qual é a probabilidade de obtermos um número divisor de 6? Como vimos acima, o espaço amostral do lançamento de um dado é: S = { 1, 2, 3, 4, 5, 6 } Como estamos interessados apenas nos resultados divisores de 6, o evento E é representado por: E = { 1, 2, 3, 6 }Então n(E) = 4 e n(S) = 6, portanto: Podemos também apresentar o resultado na forma de uma porcentagem: A probabilidade de se obter um número divisor de 6 é 2/3 ou 66,67%. EXERCÍCIOS Ao lançarmos um dado, qual é a probabilidade de obtermos um número menor que 2 e maior que 4? a) 2/3 b) 1/3 c) 1 d) 1/2 EXERCÍCIOS Ao lançarmos um dado, qual é a probabilidade de obtermos um número primo ou um número ímpar? a) 2/3 b) 1/3 c) 1 d) 1/2 EXERCÍCIOS • Uma pesquisa realizada entre 1000 consumidores, registrou que 650 deles trabalham com cartões de crédito da bandeira MasterCard, que 550 trabalham com cartões de crédito da bandeira VISA e que 200 trabalham com cartões de crédito de ambas as bandeiras. Qual a probabilidade de ao escolhermos deste grupo uma pessoa que utiliza a bandeira VISA, ser também um dos consumidores que utilizam cartões de crédito da bandeira MasterCard? EXERCÍCIOS No lançamento de um dado qual é a probabilidade de obtermos um 3 ou um 5? X Em lançamentos sucessivos de um dado qual é a probabilidade de obtermos um 3 e depois um 5? DISTRIBUIÇÃO BINOMIAL Objetivos: Conhecer a definição dos modelos teóricos de distribuição de probabilidade ; Aprender o significado e aplicação das variáveis aleatórias; Entender a definição dos conceitos de distribuição normal. Distribuição discreta Variável Aleatória Quando uma variável é influenciada pelo acaso, resultando de uma soma de fatores não controlados, diz-se que é uma variável aleatória. As variáveis aleatórias são indicadas por letras minúsculas, podem ser discretas ou contínuas. • Variável aleatória discreta – só assume valores que podem ser associados a números naturais (1, 2, 3.....). • Variável aleatória discreta binária – só assume um de dois valores possíveis. Exemplo: Ao jogarmos uma moeda, temos como resultado cara ou coroa. Podemos assumir que Cara é o número Zero e que Coroa é o número Um. • Variável aleatória contínua – assume infinitos valores em um dado intervalo. Exemplo: Peso corporal. Distribuição discreta É todo o conjunto de valores que podem ser assumidos pela variável aleatória discreta, com as suas respectivas probabilidades. Exemplo: Distribuição dos resultados de um jogo de dado. X P(X) 1 1/6 Atenção: A soma das 2 1/6 probabilidades associadas a 3 1/6 todos os valores possíveis de 4 1/6 uma variável aleatória é 5 1/6 sempre igual a 1 6 1/6 Total 1 PROBABILIDADES Distribuição de Probabilidade Consideremos a distribuição de frequências relativas ao número de acidentes em um estacionamento : Numero de Acidentes Frequência 0 22 1 5 2 2 3 1 30 Em um dia a possibilidade de: a) b) c) d) Não ocorrer acidente ocorrer um acidente ocorrerem dois acidentes ocorrerem três acidentes PROBABILIDADES Distribuição de Probabilidade Podemos escrever: Numero de Acidentes Probab. 0 0,73 1 0,17 2 0,07 3 0,03 1 Essa tabela é denominada distribuição de probabilidade. Distribuição Binomial É uma distribuição discreta que resulta da soma de variáveis aleatórias binárias. A distribuição binomial fica definida quando são dados dois parâmetros: n – número de variáveis aleatórias binárias observadas p – probabilidade de ocorrer valor 1 em uma única observação. Dados n e p temos: n x n x P( x) p q x onde n n! x x! (n x)! Combinação de n, x a x Exemplo: Distribuição Binomial (Exemplo 1) Uma moeda é lançada cinco vezes seguidas. Calcule a possibilidade de serem obtidas três caras nessas cinco provas F(X) = P(X = k) = 5 . p3 . q5-3 3 P(X = k) = 10 * (1/2)3 * (1/2)2 = 10*1/8*1/4 = 10/32 = 5/16 Exemplo: Distribuição Binomial (Exemplo 2) Dois times de futebol , A e B, jogam entre si seis vezes. Encontre a possibilidade do time A ganhar quatro jogos. F(X) = P(X = 4) = 6 . p4 . q6-4 4 P(X = 4) = 15 * (1/3)4 * (2/3)2 = 15*1/81*4/9 = 20/243 Exemplo: Sabe que na fabricação de uma peça ela pode ser boa ou apresentar defeito. Qual é a probabilidade de ocorrem 3 peças boas em 5 peças fabricadas? n=5 x=3 A probabilidade de ser peça boa em uma fabricação é ½ p = ½ Assim q = 1 – ½ = ½ teremos: 3 2 5 1 1 5! 1 1 1 P(3) 10 0,3125 3!(5 3)! 8 4 32 3 2 2 Em porcentagem P(3) = 0,3125 X 100 = 31,25% Média e Variância em distribuição binomial Média np Variância 2 npq Exemplo: Calcule a média e a variância para a fabricação de peças boas em 1000 peças fabricadas. 1 np 1000 500 2 1 1 npq 1000 250 2 2 2 Exercícios 1 – Um exame é constituído de dez testes tipo certo-errado. Quantos testes acertam, em média, um aluno que nada sabe sobre a matéria do exame? Qual a variância da distribuição? 2 – Seja X a variável aleatória que indica o número de meninos em uma família com 5 crianças. Apresente a distribuição de X em uma tabela. Distribuição Normal • O pesquisador estuda variáveis. O estatístico diz que essas variáveis são aleatórias porque elas têm um componente que varia ao acaso. • Por exemplo, a variabilidade dos pesos ao nascer de nascidos vivos de mesmo sexo, raça, idade gestacional e filhos de mães em condições similares de alimentação é explicada pelo acaso. Então o peso ao nascer é uma variável aleatória. Distribuição Normal • As grandes amostras de certas variáveis aleatórias permitem construir gráficos que têm aparência típica como o ilustrado abaixo. Peso ao nascer CARACTERÍSTICAS GERAIS • As medidas de produtos fabricados em série e os erros de medidas dão origem a gráficos semelhantes ao apresentado acima. Essas são variáveis que têm distribuição que se aproximam da distribuição normal. CARACTERÍSTICAS GERAIS 1. Variável aleatória pode assumir qualquer valor real; 2. Curva em forma de sino simétrica em torno da média; 3. Área total sob a curva vale 1 4. Igual probabilidade de ocorrer valores maiores ou menores que a média 5. A configuração da curva é dada por dois parâmetros: a média e o desvio padrão. TABELA - Distribuição Normal Padrão Z~N(0,1) Zc 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 0,00 0,0000 0,0398 0,0793 0,1179 0,1554 0,1915 0,2257 0,2580 0,2881 0,3159 0,3413 0,3643 0,3849 0,4032 0,4192 0,4332 0,4452 0,4554 0,4641 0,4713 0,4772 0,4821 0,4861 0,4893 0,4918 0,4938 0,4953 0,4965 0,4974 0,4981 0,4987 3,10 ou + 0,4999 0,01 0,0040 0,0438 0,0832 0,1217 0,1591 0,1950 0,2291 0,2611 0,2910 0,3186 0,3438 0,3665 0,3869 0,4049 0,4207 0,4345 0,4463 0,4564 0,4649 0,4719 0,4778 0,4826 0,4864 0,4896 0,4920 0,4940 0,4955 0,4966 0,4975 0,4982 0,4987 0,02 0,0080 0,0478 0,0871 0,1255 0,1628 0,1985 0,2324 0,2642 0,2939 0,3212 0,3461 0,3686 0,3888 0,4066 0,4222 0,4357 0,4474 0,4573 0,4656 0,4726 0,4783 0,4830 0,4868 0,4898 0,4922 0,4941 0,4956 0,4967 0,4976 0,4982 0,4987 0,03 0,0120 0,0517 0,0910 0,1293 0,1664 0,2019 0,2357 0,2673 0,2967 0,3238 0,3485 0,3708 0,3907 0,4082 0,4236 0,4370 0,4484 0,4582 0,4664 0,4732 0,4788 0,4834 0,4871 0,4901 0,4925 0,4943 0,4957 0,4968 0,4977 0,4983 0,4988 0,04 0,0160 0,0557 0,0948 0,1331 0,1700 0,2054 0,2389 0,2704 0,2995 0,3264 0,3508 0,3729 0,3925 0,4099 0,4251 0,4382 0,4495 0,4591 0,4671 0,4738 0,4793 0,4838 0,4875 0,4904 0,4927 0,4945 0,4959 0,4969 0,4977 0,4984 0,4988 0,05 0,0199 0,0596 0,0987 0,1368 0,1736 0,2088 0,2422 0,2734 0,3023 0,3289 0,3531 0,3749 0,3944 0,4115 0,4265 0,4394 *0,4505 0,4599 0,4678 0,4744 0,4798 0,4842 0,4878 0,4906 0,4929 0,4946 0,4960 0,4970 0,4978 0,4984 0,4989 0,06 0,0239 0,0636 0,1026 0,1406 0,1772 0,2123 0,2454 0,2764 0,3051 0,3315 0,3554 0,3770 0,3962 0,4131 0,4279 0,4406 0,4515 0,4608 0,4686 0,4750 0,4803 0,4846 0,4881 0,4909 0,4931 0,4948 0,4961 0,4971 0,4979 0,4985 0,4989 0,07 0,0279 0,0675 0,1064 0,1443 0,1808 0,2157 0,2486 0,2794 0,3078 0,3340 0,3577 0,3790 0,3980 0,4147 0,4292 0,4418 0,4525 0,4616 0,4693 0,4756 0,4808 0,4850 0,4884 0,4911 0,4932 0,4949 0,4962 0,4972 0,4979 0,4985 0,4989 0,08 0,0319 0,0714 0,1103 0,1480 0,1844 0,2190 0,2517 0,2823 0,3106 0,3365 0,3599 0,3810 0,3997 0,4162 0,4306 0,4429 0,4535 0,4625 0,4699 0,4761 0,4812 0,4854 0,4887 0,4913 0,4934 *0,4951 0,4963 0,4973 0,4980 0,4986 0,4990 0,09 0,0359 0,0753 0,1141 0,1517 0,1879 0,2224 0,2549 0,2852 0,3133 0,3389 0,3621 0,3830 0,4015 0,4177 0,4319 0,4441 0,4545 0,4633 0,4706 0,4767 0,4817 0,4857 0,4890 0,4916 0,4936 0,4952 0,4964 0,4974 0,4981 0,4986 0,4990 DISTRIBUIÇÃO NORMAL REDUZIDA • Distribuição normal de média zero e variância 1, probabilidades facilmente encontradas em tabelas. Exemplo: 1 - Qual a probabilidade de ocorrer valor entre zero e 1,56? Por tabela é ----->>> ????? 2 – Qual a probabilidade de ocorrer valor maior do que z=1,56? 1,56 PROBABILIDADES NA DISTRIBUIÇÃO NORMAL • Suponha que a quantidade de aditivo em 100ml de gasolina tem distribuição normal com média 200mg e desvio padrão 20mg. Qual a probabilidade de uma amostra apresentar entre 200 e 225mg de aditivo por 100ml de gasolina? Z X X 200 20 Como x=225 teremos: 225 200 z 1,25 20 Por tabela 1,25 corresponde a 39,44%. Exercícios • 01. Através de levantamentos anteriores, verificou-se que o tempo médio gasto por um candidato a supervisor de vendas, em determinado teste, é aproximadamente normal com média de 60 minutos e desvio padrão de 20 minutos. Que porcentagem de candidatos levará menos de 60 minutos para concluir o teste? Exercícios • 02. A vida útil de lavadoras de pratos automáticas é de 1,5 anos, com desvio padrão de 0,3 anos. Se os defeitos distribuem-se normalmente, que percentagem das lavadoras vendidas necessitará de conserto antes de expirar o período de garantia de um ano? Exercícios • 03. Latas de conservas são fabricadas por uma indústria com média de 990 g e variância de 100. Uma lata é rejeitada pelo controle de qualidade dessa indústria se possuir peso menor que 975g. Qual a probabilidade de uma lata ser rejeitada. Exercícios 04. Uma população com características normais tem peso médio de 75 kg e desvio padrão de 3 kg. Calcule o percentual de pessoas que tem peso acima de 79,5 Kg a) 10% b) 6,68% c) 43,32% d) 34,13% e) 5,87% Exercícios 05. O levantamento do custo unitário de produção de um medicamento revelou que sua distribuição é normal com média R$ 56,00 e desvio padrão R$ 5,00. Um item da produção é escolhido ao acaso. Calcular a probabilidade do custo desse item ser menor que R$ 51,00; a) 16,67% b) 6,68% c) 13,32% d) 34,13% e) 15,87% Amostragem • Distribuições de Amostragem • Intervalos de Confiança para a Média Amostragem Zentgraf (2007) aponta que os métodos de amostragem podem apresentar alguns problemas em sua aplicação quando : • Quando a população foi muito pequena • Quando os dados da população apresentarem volatilidade alta • Casos de necessidade de previsão absoluta • Dados da população já estiverem disponíveis Amostragem • Em uma pesquisa, buscamos uma amostra que seja representativa da população analisada. Porém, uma média amostral quase nunca será a mesma de uma média populacional, bem como o desvio-padrão. Esse erro amostral existe independente da forma ou critérios de como uma determinada pesquisa foi elaborada. Exemplo : Considere que ao analisar 10.000 notas de Estatística do nosso EAD , verificamos uma nota média de 6 , com desvio-padrão de 1,2. Porém ao retirar uma amostra de 50 alunos verificamos uma nota média e desvio-padrão diferentes do que o mensurado pela população. Amostragem Se repetirmos essa amostragem por 100 vezes , teremos diferentes médias e desvios-padrões para cada amostra coletada. Podemos chegar desta forma a uma distribuição amostral de médias. A distribuição amostral de médias , de acordo com Levin & Fox (2004) possuem algumas características : • “A medida que o tamanho das amostras cresce, as médias dessas amostram vão se aproximando a uma distribuição limite que é a distribuição normal.Este é o teorema do Limite Central. • A média de uma distribuição amostral de médias ( média das médias ) é igual a uma verdadeira média populacional. • O desvio-padrão de uma distribuição amostral de médias é menor do que a da população.” Amostragem • Na prática , uma pesquisa dificilmente é realizada com mais de uma ou duas amostras. Seria difícil, desta forma, chegar a chamada média das médias. O erro padrão da média é calculada pela divisão do desvio-padrão da população pela raiz quadrada do tamanho da amostra. sx =s/√n Vamos utilizar como exemplo um exercício do nosso material didático : O valor médio em dólar das vendas de um determinado produto no último ano é conhecida como seguindo a distribuição normal com média de R$ 3.400,00 por revendedor a varejo com desvio-padrão de R$ 200,00. Se um grande número de revendedores comercializar o produto, determine o erro padrão da média para uma amostra de tamanho n=25 s x = s / √ n = 200 /√ 25 = 200 / 5 = 40 Teste T (Student) Conteúdo Programático desta aula Aprender a aplicar o teste de hipóteses Compreender e analisar os resultados do Teste. TESTE T • O Teste T é utilizado para determinar se duas amostras poderão ser provenientes de duas populações subjacentes (ou amostras) que possuem a mesma média, ou seja: que as médias das duas populações (ou amostras) não sejam significativamente diferentes. Quando utilizar o Teste T? Pode ser utilizado em três situações distintas: 1ª) Quando as amostras são apresentadas em pares de valores, (amostras emparelhadas). 2ª) Quando as amostras, que podem ter números diferentes de dados, possuem variâncias iguais, (homoscedástica). 3ª) Quando as amostras, que podem ter números diferentes de dados, possuem variâncias desiguais, (heteroscedástica). Utilizando o Teste T • O Teste T de Student é ainda determinado utilizando a distribuição unicaudal ou bicaudal. Neste caso o Teste T retornará o dobro da probabilidade obtida pela distribuição unicaudal, correspondente à probabilidade de um valor mais alto da estatística-t sob a suposição de que as duas séries de dados sejam amostragens de populações com a mesma média. Executando o Teste T Para executar o Teste T entre duas amostras listadas em uma planilha, devem ser seguidos os passos descritos a seguir: 1º) Clique no menu “Ferramentas”, fazendo descer a cortina correspondente onde se deve clicar na última opção: “Análise de dados...”. 2º) Na janela “Análise de dados” escolha a ferramenta de análise desejada para o Teste T: Teste T: duas amostras em par para médias Teste T: duas amostras presumindo variâncias equivalentes Teste T: duas amostras presumindo variâncias diferentes. 3º) Na janela correspondente à análise selecionada, entre com as opções de “Entrada”, tais sejam: Intervalo da variável 1 Insira a referência de células para o primeiro intervalo de dados que você deseja analisar. O intervalo deve consistir em uma única coluna ou linha de dados. Ex.: A1:A10. Intervalo da variável 2 Insira a referência de células para o segundo intervalo de dados que você deseja analisar. O intervalo deve consistir em uma única coluna ou linha de dados. Ex.: B1:B10. Hipótese da diferença de média Insira o número que você deseja para a mudança nas médias das amostras. O valor 0 (zero) indica que as médias das amostras são hipoteticamente iguais. Rótulos Selecione esta opção se a primeira linha ou coluna dos intervalos de entrada contiver rótulos. Desmarque esta opção se os intervalos de entrada não contiverem rótulos; o Microsoft Excel gera os rótulos de dados adequados para a tabela de saída. Alfa Insira o nível de confiança para o teste. Este valor deve estar no intervalo entre 0 e 1. O nível alfa é um nível de significância relacionado à probabilidade de ocorrência de um erro tipo I (rejeição de uma hipótese verdadeira). Ex.: 0,05 (ou 5%). São três as opções de “Saída”: Intervalo de saída Insira a referência para a célula superior esquerda da tabela de saída. O Excel determinará automaticamente o tamanho da área de saída e exibirá uma mensagem se a tabela de saída estiver prestes a substituir os dados existentes. Nova planilha Clique nesta opção para inserir uma nova planilha na pasta de trabalho atual e colar os resultados começando pela célula A1 da nova planilha. Para nomear a nova planilha, digite um nome na caixa. Nova pasta de trabalho Clique nesta opção para criar uma nova pasta de trabalho e colar os resultados em uma nova planilha na nova pasta de trabalho. O Resultado O resultado apresentado em uma tabela contém: - Os parâmetros estatísticos média, variância e número de dados de cada amostra; - Coeficiente de correlação de Pearson para amostras emparelhadas ou a variância agrupada para amostras presumindo variâncias equivalentes; - Hipótese da diferença de média (valor de Entrada); geralmente 5%. - Graus de liberdade: igual a (n-1) para amostras emparelhadas ou a (n1 + n2 – 2) para os demais tipos; - Stat t: Valor calculado para a estatística t. - P(T <= t) unicaudal: Probabilidade obtida com a distribuição Student unicaudal. - t crítico unicaudal: Valor crítico para a estatística t, correspondente à distribuição Student unicaudal. - P(T <= t) bicaudal: Probabilidade obtida com a distribuição Student bicaudal. - t crítico bicaudal: Valor crítico para a estatística t, correspondente à distribuição Student bicaudal. Análise do resultado • Compara-se o valor da estatística t obtida para os dados das amostras (Stat t) com o valor crítico (tc) correspondente à distribuição teórica (Student) unicaudal ou bicaudal. Se t < tc, a hipótese nula não pode ser rejeitada, ou seja: “As duas amostras podem ser provenientes de duas populações subjacentes (ou amostras) que possuem a mesma média”, ou, em outras palavras: “As médias das duas amostras não são significativamente diferentes”. Atividade de Avaliação (3 pontos) • Disponibilizamos uma planilha no portal do curso (http://www.estacioarapiraca.com.br/mbagfc2015/) para a atividade avaliativa da disciplina. • A planilha foi dividida em 08 equipes que serão compostas por no máximo 06 alunos. • Cada equipe deve analisar a sua pasta de trabalho (os dados foram simulados para uma pesquisa sobre a taxa efetiva de juros entre dois bancos). Cada equipe deve apresentar a estatística descritiva, um gráfico comparando os resultados entre os dois bancos, como também aplicar o teste T e analisar o resultado obtido informando se há ou não uma diferença significativa entre as médias . OBRIGADO E BONS ESTUDOS!