UNIVERSIDADE DE UBERABA CURSO DE ENGENHARIA CIVIL DISCIPLINA ESTATÍSTICA E PROBABILIDADE PROF. LUÍS ALBERTO AMBRÓSIO INTRODUÇÃO A estatística fornece um conjunto de princípios e métodos para planejar a coleta de dados, para sumarizar e interpretar os dados e para tirar conclusões. A importância da estatística, que é o instrumento para se descrever e entender a variabilidade, reside na necessidade de se obter melhoria de qualidade nos produtos e processos da engenharia civil. A variabilidade pode ocorrer devido aos erros de medidas na mensuração dos instrumentos, ou efeitos devido a outras influências conhecidas ou não conhecidas. Por exemplo, um engenheiro que está interessado em determinar qual o melhor sistema de alarme contra incêndio (supõe-se que haja variabilidade em função dos tipos de aparelhos) pode realizar um planejamento de um experimento com alarmes de diversas marcas, para tanto necessitará do uso das técnicas estatísticas. Os métodos estatísticos são divididos em duas áreas: a) Estatística descritiva (estatística dedutiva). Descreve e analisa um certo grupo de observações, procurando expressar estas observações através de mediadas e formas de representação (Tabelas, gráficos, curvas etc). b) Inferência estatística (estatística indutiva). Compreende o processo de generalização, a partir da análise e interpretação de dados amostrais. Todo processo de generalização envolve uma margem de risco ou incerteza, que são estudados utilizando métodos e técnicas fundamentadas na Teoria da Probabilidade. CONCEITOS BÁSICOS População: População estatística (ou simplesmente população) é o conjunto de medidas (ou observações) sobre todos os elementos de um universo sobre o qual se pretende obter conclusões ou tomar decisões. Amostra: Amostra de uma população é o subconjunto de observações selecionadas em uma população, através de um processo denominado de amostragem. Amostragem Aleatória: é uma técnica de amostragem, onde cada elemento de uma população tem a mesma probabilidade de ser incluído na amostra. Na prática, usa se o sorteio dos elementos . Experimento Aleatório: é uma experiência estatística sobre um fenômeno em estudo. Caracteriza-se pela possibilidade de repetição contínua, observando-se as mesmas condições da experimentação. Outra característica é a aleatoridade do experimento, não podendo existir vícios ou tendências na obtenção dos resultados. Dados Estatísticos: Classificação dos dados quanto a organização: Brutos: Dados numericamente não organizados, exemplo = { 23, 10, 4, 18, 2, 20 } Rol: dados organizados de forma crescente ou decrescente, exemplo = { 2, 4, 10, 18, 20, 23 } = rol crescente Classificação dos dados quanto ao tipo ou espécie: Contínuos: Se referem as variáveis contínuas, ou seja cujos valores podem assumir qualquer intervalo. São obtidos por medição. Exemplo: altura, peso, comprimento, temperatura Discretos: Se referem as variáveis discretas, ou só podem assumir determinados valores. São obtidos por contagem. Apresentam valores inteiros. Exemplo: Números de casas num conjunto habitacional, número de pessoas numa residência, etc. Nominais ou categóricos; dados definidas por categoria: tipo de construção (madeira, alvenaria), Campo de estudo (engenharia, direito, administração) - se referem a variáveis nominais. Por postos: São dados sujeitos a avaliações subjetivas quanto a preferência ou desempenho. Exemplo: 1 º , 2º , 3º, ou atributos, bom, regular, ruim. Séries estatísticas: Série temporal: varia com o tempo: preço das construção civil em jan, fev, mar, abr, ou 1997, 1998, 1999 Série geográfica: varia com o local: preço das construção civil em Uberaba, Uberlândia, Araguari. Série específica: varia com o fenômeno. Defeitos nas construções (rachaduras, infiltrações, vazamentos) NORMA PARA APRESENTAÇÃO DE DADOS EM TABELAS Título: Fato, local e época Fonte: entidade que forneceu os dados Exemplo: Título Defeitos nas construções civis em Uberaba, 1999 Defeito Quantidade de ocorrência Rachaduras Infiltrações Vazamentos 34 15 6 Total 55 Fonte: Sindicado Fictício da Construção Civil, 1999 DISTRIBUIÇÃO DE FREQUÊNCIAS Tipos de freqüências Simples Absoluta Relativa Acumuladas Absolutas Crescente Decrescente Relativa Crescente Decrescente Exemplo: Valor Freq. Simples Freq. Simples Absoluta Relativa Xi fi fri 3 1 1/10=0,1 ou 10% 4 3 3/10=0,3 ou 30% 7 3 3/10=0,3 ou 30% 8 2 2/10=0,2 ou 20% 9 1 1/10=0,1 ou 10% Total 10 1 ou 100% Freq. Acum Absoluta crescente 1 4 7 9 10 - Freq. Acum. Absoluta decrescente 10 9 6 3 1 - Freq. Acum. Relativa crescente 10% 40% 70% 90% 100% - DISTRIBUIÇÃO DE FREQUÊNCIA 1. DADOS DISCRETOS 1.1 Freqüência simples absoluta (fi) É o número de observações correspondente a um determinado valor. 1.2 Amplitude amostral (A) É a diferença entre o maior e menor valor da amostra. Exemplo: { 2, 5, 11, 23, 46 } A = 46 - 2 = 44 2. DADOS CONTÍNUOS Considera-se a distribuição intervalar dos dados, para melhorar a apresentação, a análise e a precisão. 2.1 Classe É cada um do conjuntos ou intervalos obtidos a partir de um rol. Método de STURGES para determinar o número de classes (k). K = 1 + 3,3 log N Onde k = número de classes e N = número total de observações. Exemplo: se tivermos uma amostra com 500 observações, Então, k = 1 + 3,3 log 500 = 1 + 3,3 * 2,6989 = 9,906 ou k=10 aproximadamente. Representação das classes Tradicional 10 a 19 ou 10-19 10 20 inclui o 10 e exclui o 20 ou [10, 20) 20 a 29 ou 20-29 20 30 inclui o 20 e exclui o 30 ou [20, 30) 30 a 39 ou 30-39 30 40 inclui o 30 e exclui o 30 ou [30, 40) Símbolos modernos fechado a esquerda ou aberto a direita ou [ , ) fechado a direita ou aberto a esquerda ou ( , ] fechado ou [ , ] 2.2 Amplitude do intervalo de classe ( C) É a diferença entre os limites superiores ou inferiores sucessivos Exemplo Classe fi 140 - 150 2 150 - 160 5 160 - 170 3 140 limites inferiores sucessivos 160 limites superiores sucessivos 150 170 C= 150 - 140 = 10 ou C= 170 -160 = 10 Ainda, C = A/k 2.3 Ponto médio da classe (Pm) É a média aritmética simples dos limites 9superior e inferior) de cada classe. Exemplo: (140 + 150 ) / 2 = 145 (150 + 160) / 2 = 155 (160 + 170) / 2 = 165 2.4 Passos para a construção de tabela de freqüência que utiliza dados agrupados em classes 1 - Lista de dados rol 2 - Calcular a amplitude amostral, A 3 - Calcular o número de classes, K 4 - Determinar a amplitude do intervalo de classe, C 5 - escolher os limites de classe (número inteiro) 6 - Construir a tabela de freqüência com classes, freq. Absoluta simples e acumulada e freqüência relativa simples. REPRESENTAÇÃO GRÁFICA Prof. Luís Alberto Ambrósio 1. VARIÁVEIS DISCRETAS 1.1. Gráfico de bastões ou hastes É usado para dados discretos. Xi 0 1 2 3 fi 10 20 30 20 fi Freqüência de Xi 40 30 20 10 0 1 2 3 4 5 Xi 4 5 Total 10 5 95 1.2. Gráfico de Colunas É usado para dados categóricos Categoria Economistas Advogados Médicos Engenheiros Quantidade Freq. Rel. 120 0,333333 100 0,277778 90 0,25 50 0,138889 6 Quantidade 150 100 50 0 Econ. Adv. Méd. Eng. Profissões Total 360 1 1.3. Gráfico de Setores Usado para mostrar " partes de um todo". Cada grau do círculo corresponde a uma parte do todo. Quantidade 14% Economistas 33% Advogados 25% Médicos Engenheiros 28% 360º ---- 100% y ---- 25% y = 90º 60 VARIÁVEL Y 50 40 30 20 10 0 0 10 20 30 40 50 VARIÁVEL X 2. VARIÁVEIS CONTÍNUAS 2.1. Gráficos de pontos Para representar grande número de observações. E em gráficos de correlação. Gráfico de linhas . VARIÁVEL Y 60 50 40 30 20 10 0 0 10 20 30 40 50 VARIÁVEL X Para representar tendências entre duas variáveis. É bastante usado em Séries Temporais. 2.3. Histogramas Usado para representar dados agrupados em classes, dados contínuos. Classe [10-20) [20-30) [30-40) [40-30) [50-60) Freqüência 2 14 20 13 4 Histograma Freqüência 25 20 15 10 5 0 10 20 Quantidade 30 Classes 40 50 3. OBSERVAÇÃO 14% 33% Não é recomendado usar em linguagem científica, gráficos 3D, quando existem apenas uma ou duas variáveis. 25% Exemplo: 28% 120 100 80 60 40 20 Eng. Méd. Adv. Econ. 0 MEDIDAS DE TENDÊNCIA CENTRAL As medidas de tendência central são usadas para indicar um valor que tende a tipificar, ou representar melhor, um conjunto de dados. São elas: média, mediana e moda. 1. MÉDIA ARITMÉTICA É o quociente entre a soma dos valores observados e o seu número total. Representa o valor de uma distribuição igual para todos os elementos, do total dos valores da amostra. Para dados não agrupados: n X X i 1 i n Onde, Xi são os valores observados e n= número de observações. Exemplo 1 X = { 1, 3, 5, 7, 9 } X = ( 1+ 3 + 5 + 7 +9) / 5 = 25 /5 = 5 Portanto, X = 5 Exemplo 2 X = { 2, 4, 6, 8 10, 12 } X = ( 2 + 4+ 6+8+10+12) / 6 = 42/6 = 7 Portanto, X = 7 Para dados agrupados n X X i 1 f i i n Onde n = fi Exemplo 3 Xi fi 4 5 6 7 8 Total 1 5 6 5 3 20 xifi 4 x1 =4 5x5=25 6x6=36 7x5=35 8x3=24 124 X = 124/20 = 6,2 Dados agrupados em classes Calcula-se de modo idêntico ao anterior, mas no lugar de Xi coloca-se o ponto médio da classe, PMi. Exemplo 4 Classes [2 , 4) [4, 6) [6, 8) [8,10) [10,12) Total PMi fi Pmifi 3 3 9 5 5 25 7 10 70 9 5 45 11 3 33 26 182 X = 182 / 26 = 7 2. MEDIANA É a medida de tendência central que divide uma série ordenada de tal maneira que pelo menos a metade ou 50% dos itens sejam iguais ou maiores que ela. Para dados não agrupados. Quando n é impar. E =( n + 1 ) / 2 Onde E é o elemento mediano. Quando n é par . E=n/2 Exemplo 1 N é impar E = ( 5 + 1 ) /2 = 6 /2 = 3 = posição do elemento mediano. Portanto, a mediana é igual a Md = 5 Exemplo 2 N é par E = 6 /2 = 3 = a posição do elemento mediano está entre o 3 e 4 elementos. Portanto, para obter a mediana calcula-se a média aritmética entre o 3 e 4 elementos. Md = ( 6 + 8 ) / 2 = 7 . Observe que o valor 7 não ocorre na amostra. Para dados agrupados ( não em classes) Calcula-se E = n/2 para n par e E = (n+1)/2 para n impar. Na tabela de freqüência acumulada, encontra o valor do elemento mediano ( ou seja a posição em que se encontra a mediana). A mediana é respectivo valor de Xi. Exemplo 3 N = 20 é par, Portanto E= 20/2 = 10 a mediana está na décima posição. Ou seja o valor que contém o 10 elemento é o 6. Portanto, a mediana Md = 6. Xi 4 5 6 7 8 Total fi 1 5 6 5 3 20 xifi fa 4 x1 =4 1 5x5=25 6 6x6=36 12 7x5=35 17 8x3=24 20 124 Para dados agrupados em classes Onde Md = mediana ; Li é o limite inferior da classe mediana; E elemento mediano indicado por n/2 ; ffreq.ant.acum é a freqüência acumulada anterior à classe mediana e fMd é a freqüência absoluta da classe mediana ; h é a amplitude da classe mediana. E f freq.ant.acum. Md Li h{ } f Md Exemplo 4 Classes [2 , 4) [4, 6) [6, 8) [8,10) [10,12) Total PMi fi Pmifi facum 3 3 9 3 5 5 25 8 7 10 70 18 9 5 45 23 11 3 33 26 26 182 Calcula E = n/2 E = 26/2 =13 esta é a posição do elemento mediano. Ou seja na classe [6 , 8). Md = 6 + 2 { (13 - 8)/10 } = 6 + 2 { 5/10} = 6 + 2 {0,5} = 6 + 1 = 7, portanto a mediana é igual a 7. 3. MODA É uma medida de tendência central que se caracteriza pelo valor mais freqüente (maior freqüência absoluta simples). Para dados não agrupados. Exemplo. X = { 2, 4, 4, 5, 6, 6, 6, 7, 8} Mo = 6 conjunto modal ( tem uma modal) X = { 2, 4, 6, 10} conjunto amodal ( não tem moda) X = { 1, 2, 3, 3, 4, 5, 6, 7, 7, 8, 9} Moda= 3 e 7 conjunto Bimodal ( tem duas modas) Para dados agrupados ( não em classes) Exemplo Xi fi 1 2 4 6 9 8 Total 16 A Moda é o 9 pois tem maior freqüência absoluta. Para dados agrupados em classes Exemplo 4 Classe modal [10, 12) a moda é o ponto médio da classe. A moda é o ponto médio da classe. Neste caso Mo = 11 ( Moda Bruta) Também a Moda pode ser calculada pela relação Mo = 3 Md - 2 X MEDIDAS DE DISPERSÃO As medidas de dispersão são usadas para indicar o espalhamento ou variabilidade dos dados, ou seja, quanto um determinado valor se afasta em relação a média. 1. AMPLITUDE TOTAL (At) É igual a diferença entre o maior valor e o menor valor dos dados apresentados. At = maior valor - menor valor 2. DESVIO (di) É igual a diferença entre o valor observado e a média do conjunto dos valores observados. di X i X 3. DESVIO PADRÃO (S) É a medida de dispersão mais usada. É a média quadrática dos afastamentos (desvios) em relação à média aritmética. Dados não agrupados Para população Para amostra n n S di2 S i 1 d i 1 2 i n n 1 Dados Agrupados N = fi Dados Agrupados em classe N = fi no lugar de xi usa o Ponto médio PM. 4. VARIÂNCIA É a média dos quadrados dos desvios dos valores a contar da média. Para dados não agrupados Para população Para amostra n S2 Dados Agrupados Dados Agrupados em classe Ponto médio PM. n di2 S2 i 1 N = fi N = fi n d i 1 2 i n 1 no lugar de Xi, para calcular o desvio, usa o Outra forma alternativa de calcular a variância: Para população Para amostra n Xi n X i2 i 1 n S 2 i 1 n 1 2 n Xi n X i2 i 1 n S 2 i 1 n 2 5. COEFICIENTE DE VARIAÇÃO (CV) Mede a variabilidade em termos relativos, dividindo o desvio padrão pela média. Expresso em %. Portanto o coeficiente de variação é uma medida em % do desvio padrão em relação a média. S CV 100 X 6. EXEMPLOS 6.1 Para dados não agrupados. Onde, Xi são os valores observados e n= número de observações. Xi di di2 1 3 5 7 9 Total 1-5=-4 3- 5=-2 5- 5= 0 7- 5= 2 9- 5= 4 16 4 0 4 16 0 40 25 Média X = ( 1+ 3 + 5 + 7 +9) / 5 = 25 /5 = 5 Amplitude total At = 9-1 = 8 Desvio padrão Para população 40 S 1,6 1,26 25 Variância Para população S2 Coeficiente de Variação 1 5 6 5 3 20 4 x1 =4 5x5=25 6x6=36 7x5=35 8x3=24 124 Para amostra 40 40 S 1,67 1,29 25 1 24 Para amostra 40 1,6 25 S2 Para população CV = (1,26 / 5) 100 = 25,2% 6.2 Para dados agrupados Onde n = fi Xi fi xifi di 4 5 6 7 8 Total Portanto, média X = 5 di2 di2fi 4 - 6,2 = - 2,2 4,84 5 - 6,2 = -1,2 1,44 6 - 6,2 = -0,2 0,04 7 - 6,2 = 0,8 0,64 8 - 6,2 = 1,8 3,24 4,84 7,2 0,24 3,84 5,4 21,52 40 40 1,67 25 1 24 Para amostra CV = 1,29/5 100 = 25,8% N = 20 Média X = 124/20 = 6,2 Amplitude Total At = 8 -1 = 7 Desvio padrão Para população Para amostra S Variância 21,52 1,076 1,037 20 S Para população 21,52 S2 1,076 20 Coeficiente de Variação Para população CV = (1,037 / 6,2) 100 = 16,72% 21,52 21,52 1,133 1,064 20 1 19 Para amostra 21,52 21,52 S2 1,133 20 1 19 Para amostra CV = (1,064 / 6,2) 100 = 17,16% 6.3 Dados agrupados em classes Calcula-se de modo idêntico ao anterior, mas no lugar de xi coloca-se o ponto médio da classe, PM. Classes [2 , 4) [4, 6) [6, 8) [8,10) [10,12) Total N= 26 PMi fi Pmifi di di2 3 3 9 3 - 7 = -4 16 5 5 25 5 - 7 = -2 4 7 10 70 7-7= 0 0 9 5 45 9-7= 2 4 11 3 33 11 - 7 = 4 16 26 182 di2 fi 48 20 0 20 48 136 Média X= 182 / 26 = 7 Amplitude Total At = 8 -1 = 7 Desvio padrão Para população 136 S 5,23 2,29 26 Variância Para população 136 S2 5,23 26 Para amostra 136 136 S 5,44 2,33 26 1 25 Para amostra 136 136 S2 5,44 26 1 25 Coeficiente de Variação Para população CV = (2,29 / 7) 100 = 32,71 % Para amostra CV = (2,33 / 7) 100 = 33,28 % PROBABILIDADE 1. Conceitos. Experimento: é o processo de observar um fenônemo que tem variação em seus resultados. Espaço amostral: o espaço amostral associado a um experimento é a coleção de todos resultados possíveis do experimento. Cada ponto do espaço amostral é chamado evento simples ou um elemento do espaço amostral. É representado pela letra S. Evento: um evento é o conjunto de pontos amostrais com uma dada característica particular. É representado por letra maiúscula. Exemplo. Lançar um dado uma vez. Os pontos amostrais associados a este experimento são elementos do conjunto { 1, 2, 3, 4, 5, 6 }. Esta conjunto de valores possíveis associado ao experimento " lançar um dado uma vez" é o espaço amostral. 2. Princípios Básicos de probabilidade nos espaços amostrais finitos. Considerar a probabilidade de um Evento A como uma medida numérica da chance de ocorrência deste evento. Esta probabilidade representa a proporção de vezes que o evento A é esperado ocorrer quando o experimento é repetido sob condições idênticas. Representar a probabilidade de um evento A por P(A). Como 0 proporção 1 temos 0 probabilidade 1. Exemplo. Considere o experimento "lançar uma moeda duas vezes", a cada lançamento temos os resultados Cara (H) ou coroa (T) e o evento A = " ocorrência de exatamente uma cara". Os pontos amostrais associados a este experimento são: e1 = HH; e2=HT; e3=TH e e4=TT. Portanto A = {e2, e3}. A proporção de ocorrência de A é dada por: Proporção de vezes que A ocorre = proporção de vezes que HT ocorre + proporção de vezes que Th ocorre Portanto, a probabilidade do evento A é dada por: P(A) = P(HT) + P(TH) ou seja P(A) = 1/4 + 1/4 = 2/4 = 1/2 ou 50%. Propriedade 1: A probabilidade de um evento é a soma das probabilidades atribuídas a todos resultados elementares contidos no evento. Assim: P(A) = P(e). Propriedade 2: Como o espaço amostral S contém todos pontos possíveis ou resultados elementares associados ao experimento, S ocorre certamente, isto é sua probabilidade é igual a 1. P(S) = 1. Propriedade 3: A probabilidade de ocorrer qualquer evento A terá valor entre: 0 P(A) 1 Modelo de probabilidade uniforme No modelo de probabilidade uniforme, consideramos pontos amostrais com mesmas probabilidades de ocorrência. Exemplo. Considere o experimento "lançar um dado perfeito". Os resultados possíveis são: {1, 2, 3, 4, 5, 6} que formam o espaço amostral S. Todas as faces do dado tem mesmas chances de ocorrer. Assim, P(1) = 1/6; P(2)=1/6; P(3)=1/6; P(4)=1/6; P(5)=1/6; P(6)=1/6. Supondo o evento A= "obter número maior que 4", então A={5, 6}. P(A)=P(5)+P(6) = 1/6 + 1/6 = 2/6 =1/3 Quando os pontos elementares de um experimento são modelados como igualmente prováveis, temos um modelo de probabilidade uniforme. Se existirem k pontos num espaço amostral S, temos associado a cada ponto amostral a probabilidade 1/k. Um evento com m pontos elementares tem a probabilidade P(A) =m/k. O modelo de probabilidade uniforme é muito importante na formulação do processo de seleção de uma população. Isto leva a amostras aleatórias que implicará na obtenção de inferências válidas sobre a população. 3. Relações entre eventos Seja A um evento com probabilidade P(A) COMPLEMENTO DO EVENTO A : é o conjunto de pontos amostrais que não pertencem a A denotar o complemento de A por A . Observamos que a ocorrência de A implica a não ocorrência de A. UNIÃO DE DOIS EVENTOS A E B: é o conjunto de todos elementos amostrais que estão em A, em B ou em ambos. Denotar aunião de dois eventos A e B por A B. INTERSECÇÃO DE DOIS EVENTOS A E B: é o conjunto de todos elementos amostrais que estão em A e em B. Observar que a ocorrência da intersecção de A e B implica que ambos A e B ocorem. Denotar a intersecção de dois eventos A e B por A B ou simplesmente por AB. NOTAS: (1) A B C = pontos amostrais em pelo menos um dos eventos A, B ou C. (2) ABC = ocorrência simultânea de todos 3 eventos A, B e C. EVENTOS MUTUAMENTE EXCLUSIVOS: Dois eventos são mutuamente exclusivos se eles não tem elementos amostrais comuns. Isto é, AB é vazio. Exemplo. Supor que temos 4 tijolos de origens diferentes para serem usados num ensaio de resistência de materiais, de acordo com o material e a espessura. Tijolo material espessura 1 A 12 2 A 14 3 C 12 4 C 12 Selecionar aleatóriamente dois tijolos para um experimento, e definir os eventos A = "tijolos selecionados são de mesmo tipo" e B = " tijolos selecionados são de mesma espessura". Os elementos amostrais do espaço S associados ao experimento " selecionar aleatóriamente dois tijolos" é dado por S = { e1, e2, e3, e4, e5, e6} onde e1={1, 2}, e2={1, 3}, e3={1, 4}, e4={2, 3}, e5={2, 4} e6={3, 4}. Portanto, A = {e1, e6} e B={e2, e3, e6}. A união dos eventos A e B é dada por A B= {e1, e2, e3, e6} e aintersecção dos eventos A e B é dada por AB ={e6}. Considerando agora o evento C "tijolos selecionados são de tipos diferentes", temos C={e2, e3, e4, e5}. Daí C = A e BC Probabilidade condicional Se A e B são dois eventos, a probabilidade d e ocorrer, depois de A Ter acontecido, é definida por: P(B/A). Se a ocorrência ou não de A não afetar a probabilidade da ocorrência de B, então P(B/A) = P(B) e nesse caso A e B são eventos independentes e em caso contrário A e B são eventos dependentes. Evento composto Caracteriza-se pela ocorrência de ambos os eventos (A e B), simultâneamente ou então pela ocorrência de um ou outro evento (A ou B). Assim, P(A e B) = P(A B) = P(AxB) P(A ou B) = P(A B) = P(A + B) Regras de probabilidade Regra da adição P(A ou B) = P(A) + P(B) - P(A e B) Par eventos mutuamente exclusivos, teremos: P(A ou B) = P(A) + P(B) Regra da multiplicação P(A e B) = P(A)P(B/A) Para eventos mutuamente exclusivos P(A e B) = P(A)P(B) Exercícios: 1 - Num lote de 12 peças, 4 são defeituosos; duas peças são retiradas aleatoriamente. Calcule: a) a probabilidade de ambas serem defeituosas; b) a probabilidade de ambas não serem defeituosas; c) a probabilidade de ao menos uma ser defeituosa. 2 - Uma bolsa contém 2 moedas de um centavo, três de 10 centavos e 4 de um real. Duas moedas serão escolhidas da bolsa, ao acaso. Usando as fórmulas de adição e multiplicação, calcule a probabilidade de que: a) ambas as moedas serem de um centavo; b) uma moeda ser de 1 centavo e as outras de 1 real; c) ambas as moedas serem da mesma espécie; d) nenhuma moeda ser de 10 centavos; e) pelo menos se consiga uma moeda de 10 centavos. 3 - Determine a probabilidade de aparecer um 4, pelo menos uma vez, em dois lances de um dado. CORRELAÇÃO 1- CONCEITO A verificação da existência e do grau de relação entre variáveis. A análise de correlação é útil em trabalho exploratório, quando um pesquisador ou engenheiro procura determinar quais variáveis são potencialmente importantes e o interesse está basicamente no grau de relacionamento, no valor do coeficiente de correlação. O termo correlação significa "co-relacionamento", pois indica até que ponto os valores de uma variável estão relacionadas com os de outra. Atenção: o fato de duas variáveis serem correlacionadas não implica na existência de relações de causa e efeito entre elas Exemplos de problemas de engenharia que pode ser usada a análise de correlação: - Consumo de água num edifício está relacionado com o número de pessoas que nele residem? - A resistência de uma laje está relacionado com a quantidade de cimento? - A penetração do cone está relacionada com o teor de umidade do material? 2- CORRELAÇÃO SIMPLES ( r) ENTRE DUAS VARIÁVEIS. Coeficiente de correlação de PERSON ( x) ( y) xy ---------------n rxy = -------------------------------------(x)2 (y)2 [x2 - ------ ] [ y2 - ------ ] n n rxy varia entre -1 e +1, ou seja: -1 rxy +1 3. CORRELAÇÃO LINEAR POSITIVA Valores crescentes de x associados a valores crescentes de y. 0 < rxy < 1 4 - CORRELAÇÃO LINEAR PERFEITA POSITIVA Pontos perfeitamente alinhados. rxy = 1 5- CORRELAÇÃO LINEAR NEGATIVA Valores crescentes de x associados a valores decrescentes de y. -1 < rxy < 0 6- CORRELAÇÃO LINEAR PERFEITA NEGATIVA Pontos perfeitamente alinhados. rxy = -1 7 - CORRELAÇÃO NULA Quando não há relação entre x e y. rxy = 0 8- CÁLCULO DO COEFICIENTE DE CORRELAÇÃO LINEAR Calcular o coeficiente de correlação linear entre as variáveis x e y, usando os dados da tabela abaixo: Y X 10 2 8 4 6 6 10 8 12 10 Solução: y 10 8 6 10 12 46 rxy x 2 4 6 8 10 30 x2 4 16 36 64 100 220 y2 100 64 63 100 144 444 xy 20 32 36 80 120 288 46 . 30 288 - -----------5 = ---------------------------------------- = 0,416 302 462 [ 220 - ----- ] . [ 444 - ------- ] 5 5 Análise: Correlação positiva e baixa. Não há relação linear entre as variáveis x e y. Verifique graficamente. ANÁLISE DE REGRESSÃO 1. CONCEITO A análise de regressão compreende a análise de dados para saber como duas ou mais variáveis estão relacionadas uma com a outra. A regressão dá uma equação matemática que descreve o relacionamento entre duas ou mais variáveis. As equações de regressão são utilizadas na engenharia civil, nas seguintes situações: Quando duas variáveis medem aproximadamente a mesma coisa, mas uma delas é relativamente dispendiosa, ou difícil de lidar, enquanto a outra não. Por exemplo, a resistência e a dureza de um metal podem estar relacionadas, de modo que conhecendo-lhe a dureza podemos estimar-lhe a resistência. Se o teste de resistência destrói o metal, enquanto o teste de dureza não o destrói, obviamente que o engenheiro preferirá confiar nos resultados de dureza para estimar a resistência. Neste caso, a finalidade de uma equação de regressão seria então estimar valores de uma variável, com base em valores conhecidos de outra. As equações de regressão são usadas para explicar valores de uma variável em termos da outra. Isto é podemos suspeitar (a lógica de uma relação causal deve provir de teorias) de uma relação de causa e efeito entre duas variáveis. Por exemplo, um engenheiro pode tentar explicar as variações na procura por serviços de construção de casas populares em termos de desemprego. A distância de frenagem de um carro é influenciada por sua velocidade. As equações de regressão são usadas para predizer valores futuros de uma variável. Por exemplo, pode-se estimar a quantidade de CaO ( ou outra substância química que se decompõe com o tempo) presente que um material teria passados alguns meses. 2. REGRESSÃO LINEAR SIMPLES A regressão linear simples constitui uma tentativa de estabelecer um equação matemática linear (linha reta) que descreva o relacionamento entre duas variáveis. As equações lineares são importantes para a engenharia porque servem para aproximar muitas das relações físicas e porque são relativamente fáceis de lidar e de interpretar. 3. A EQUAÇÃO LINEAR A equação linear tem a forma: Y = a + b X Onde, "Y " é a variável dependente, que deve ser predita "X" é a variável independente, o valor preditor. "a" é a cota da reta em determinado ponto, é o termo constante da equação, é o intercepto de y, indica o nível "tecnológico". "b" é o coeficiente angula da reta, indica a variação de Y por unidade de variação de X ou Y/X. 4. EXEMPLO Por exemplo, suponhamos que um engenheiro mediu o total de horas de trabalho braçal gasto para construir dois tipos de casa: alvenaria e madeira, para diversos tamanhos de casas, em termos de metros quadrados. Feita a análise de regressão obteve as seguintes equações: Casa de alvenaria Y = 2 + 3 X (reta 1) Casa de madeira Y = 3 + 4 X (reta 2) Onde Y é as horas de trabalho gasto na construção da casa e X o tamanho da casa em metros quadrados. Interpretação: A reta 1 intercepta o eixo dos Y´s no ponto Y=2 e a reta 2 no ponto Y=3, poderíamos dizer que as "tecnologias" usadas para construir as casas são diferentes. O coeficiente angular da reta 1 é 3 (b=3), o que significa que cada metro quadrado (X) gasta 3 horas de mãode-obra (Y). E para a reta 2 o coeficiente angular é 4 (b=4), o que significa que cada metro quadrado (X) gasta 4 horas de mão-de-obra (Y). 5. DETERMINAÇÃO DA EQUAÇÃO MATEMÁTICA, MÉTODO DOS MÍNIMOS QUADRADOS. Na análise de regressão os valores de Y (variável dependente ou explicada) são preditos com base em valores dados ou conhecidos de X (variável independente ou explanatória). No nosso exemplo o engenheiro coletou os seguintes dados para as casas de alveraria: Observação (i) Horas de trabalho (Y) Metros quadrados da casa 1 32 10 2 47 15 3 152 50 4 182 60 5 302 100 ___________________________________________________________ FÓRMULAS: n (xy) - ( x ) ( y) b = ---------------------------n ( x2) - ( x)2 y - b x a = -------------------n Tabela de cálculo: ________________________________________________________ Y X xy x2 y2 ________________________________________________________ 32 10 320 100 1024 47 15 705 225 2209 152 50 7600 2500 23104 182 60 10920 3600 33124 302 100 30200 10000 91204 _________________________________________________________ Total () 715 235 49745 16425 150665 ________________________________________________________ 5(49745) - (715)(235) 248725 - 168025 80700 b = ---------------------------------- = ---------------------- =---------------- = 3 5(16425) - (235)2 82125 - 55225 26900 715 - 3 (235) a= ------------------5 715 - 705 10 = -------------------- = ------- = 2 5 5 Portanto, a equação de regressão , para as casas de alvenaria é Y = 2 + 3 X Se o engenheiro quiser saber quanto gastará de mão-de-obra para construir uma casa de alvenaria com 25 metros quadrados, podemos usar a equação: Y = 2 + 3(25) = 2 + 75 = 77 horas de mão de obra, em termos médios. Exercícios: 1. Determinar a equação de regressão para as casas de madeira. 2. Verificar que a reta de regressão sempre passa pelo ponto X médio e Y médio. 3. Calcular o coeficiente de correlação (rxy) entre as horas de mão de obra gastas e os metros quadrados das casas de alvenaria. Idem para as casas de madeira. 4. Com base nos dados abaixo: a- Calcule os coeficientes da equação de regressão. b- Duplique cada valor de x e recalcule os coeficientes. c- Duplique os X´s e os Y´s originais e recalcule os coeficientes. d- Use os valores X´s originais mas some 2 a cada valor Y original e recalcule os coeficientes. UNIVERSIDADE DE UBERABA ANÁLISE DA VARIÂNCIA 1. Conceitos A análise da variância é uma técnica usada para determinar se as médias de duas ou mais populações são iguais. 2. Exemplo Num teste para determinar se os rendimentos de quatro tipos de tintas (litros gastos em 10 metros quadrados de parede) são iguais, obteve-se os resultados abaixo. Note que cada tipo de tinta foi testada em 6 paredes (6 repetições do teste). OBSERVAÇÃO TIPO DE TINTA I X1 X2 X3 X4 1 15,1 14,9 15,4 15,6 2 15,0 15,2 15,2 15,5 3 14,9 14,9 16,1 15,8 4 15,7 14,8 15,3 15,3 5 15,4 14,9 15,2 15,7 6 15,1 15,3 15,2 15,7 MÉDIAS _ 15,2 15,0 15,4 15,6 AMOSTRAIS (X) VARIÂNCIAS 0,088 0,040 0,124 0,032 AMOSTRAIS (S2) MÉDIA AMOSTRAL X Xi n VARIÂNCIA AMOSTRAL S 2 X X 2 i n 1 Observe que não há duas médias iguais. A análise da variância determinará se as diferenças entre as médias são efetivas ou decorrem apenas da variabilidade amostral. 3. Formulação das hipóteses Hipótese nula H0: as médias das populações são iguais 1 = 2 = 3 = 4 Hipótese alternativa H1: As médias das populações não são toda iguais. 4. 1. 2. 3. Suposições As amostras devem ser aleatórias e independentes As amostras devem ser extraídas de populações normais As populações devem ter variâncias iguais (21 = 22 = 23 = 24 ) Parâmetros desconhecidos Estatísticas amostrais População 1 1 21 X1 S12 População 2 2 22 X2 S22 População 3 3 23 X3 S32 População 4 4 24 X4 S42 5. Análise da variância O exame das variâncias das amostras pode revelar se as médias populacionais são ou não iguais. A análise da variância usa dois processos diferentes para estimar as variâncias das populações. Se as duas estimativas são aproximadamente iguais, isto confirma H0. Se uma das estimativas é muito maior que a outra, isto confirma H1. Na população: Se H0 é verdadeira, então 1 = 2 = 3 = 4 Se H0 é falsa, então as médias não são todas iguais (pelo menos uma é diferente das outras). Para estimar a variância populacional ( 2 ) usamos a média das variâncias amostrais (S2). Isto é chamado de estimativa da variância "dentro", porque cada variância amostral reflete apenas a variação dentro da amostra em particular. Estimativa "dentro" da variância (Quadrado médio dentro do grupo) -QMD). Sw2 = ( S12 + S22 + S32 + S42 ) / 4 = ( 0,088 + 0,040 + 0,124 + 0,032 )/4 = 0,284/4 = 0,071 Este valor serve de padrão de comparação pelo qual se pode julgar uma Segunda estimativa chamada estimativa "entre"da variância. Se H0 é verdadeira, isto equivale a tomar todas as amostras da mesma população normal. Ou seja, o conjunto de médias amostrais provêm da mesma distribuição amostral. Então, a determinação da variância das médias amostrais possibilitará estimar a variância populacional. S x2 S x2 S x2 n S x2 n H0: verdadeira H0: falsa A estimativa "entre" da variância focaliza a variância entre as médias amostrais, relacionando-a com uma estimativa da variância populacional em termos de uma distribuição amostral de médias. Exemplo: 1- Determinar X , média das médias amostrais. k X x j 1 j = ( 15,2 + 15,0 + 15,4 + 15,6 ) / 4 = 15,3 k 2 - Determinar os quadrados dos desvios, somá-los e dividir por (k-1) X k S 2 x j 1 j X 2 k 1 = [( 15,2 -15,3 )2 + (15,0-15,3)2 + (15,4-15,3)2 + (15,6-15,3 )2] / (4-1) = 0,067 Como cada amostra (k=4 amostras) consiste de 6 observações, n=6, a estimativa da variância populacional é: S b2 n S x2 = 6 (0,067) = 0,402 Temos agora duas estimativas da variância populacional: Sw2 = 0,071 estimativa "dentro" da variância Sb2 = 0,402 estimativa "entre" da variância Lembremos que Sw2 é nosso padrão de comparação, pois não é afetada pela veracidade ou falsidade de H0, enquanto que Sb2 o é, sendo aproximadamente igual a Sw2 quando H0 é verdadeira, porém maior do que Sw2 quando H0 é falsa. No nosso exemplo, Sb2 é maior que Sw2 . Todavia, ainda não sabemos com segurança se é significativamente maior; a variação casual devida à amostragem pode ser inteiramente responsável por isto. Para ter certeza devemos fazer usar um teste estatístico denominado Teste F. 6. Teste F Razão F ou F calculado F calculado = Sb2 / Sw2 O valor do F calculado deve ser comparado com uma tabela de valores de F, que indica o valor máximo da estatística no caso de H0 ser verdadeira, a um determinado nível de significância. Graus de Liberdade Graus de liberdade indicam de certa forma o número de cálculos necessários para obter um determinado parâmetro. Para o Teste F os graus de liberdade do numerador é igual ao número de amostras menos 1, ou k-1. Para o denominador é igual ao número de amostras multiplicado pelo tamanho da amostra menos 1 ou k(n-1). Tabela F Os graus de liberdade são utilizados para obter o F da tabela.Graus de liberdade do numerador fica nas colunas e os graus de liberdade do denominador fica nas linhas. O menor número do interior da tabela representa F ao nível de significância de 5% e o maior número representa F ao nível de 1% de significância. Uso do Teste F. Compara-se o valor do F calculado com o valor do F tabelado. Se o valor F calculado é maior que o valor F tabulado, rejeita-se a hipótese nula. Se o valor calculado é menor do que o tabulado, a hipótese nula não pode ser rejeitada. Ou seja rejeita H0 se Fcalculado > F tabelado. No exemplo. F calculado = Sb2 / Sw2 = 0,402/0,071 = 5,70 F tabela = GL numerador = k-1 = 4-1 = 3 GL denominador = k(n-1) = 4(6-1) = 20 Valor de F tabela, ao nível de 0,05, é = 3,10 Portanto rejeita-se a hipótese H0 de que as médias das populações sejam iguais.