24/03/2017 Noções Básicas Base Matemática Probabilidade Experimento Aleatório • Resultado no lançamento de um dado; • Hábito de fumar de um estudante sorteado em sala de aula; • Tempo de duração de uma lâmpada; • Tipo sangüíneo de um habitante escolhido ao acaso. Noções Básicas Espaço Amostral • conjunto de todos os resultados possíveis de um experimento aleatório. Exemplos • Lançamento de um dado: = {1, 2, 3, 4, 5, 6} • Exame de sangue (tipo sangüíneo): = {A, B, AB, O} • Tempo de duração de uma lâmpada. = {t: t 0} Noções Básicas Evento • Subconjunto do espaço amostral. Exemplo • Experimento Aleatório: lançamento de um dado. • Espaço amostral: = {1, 2, 3, 4, 5, 6} • Alguns eventos: • A: face do dado é par A={2,4,6} • B: face do dado é > 3 B = {4, 5, 6} • C: face do dado é 1 C = {1} 1 24/03/2017 Operação com eventos Eventos Disjuntos A B: união dos eventos A e B. • Representa a ocorrência de pelo menos um dos eventos, A ou B. A B: interseção dos eventos A e B. Definição. A e B são disjuntos ou mutuamente exclusivos quando não têm elementos em comum, isto é, AB= • Representa a ocorrência simultânea dos eventos A e B. Eventos Complementares Definição. A e B são complementares se sua interseção é vazia e sua união é o espaço amostral, isto é, • AB= e AB= Exemplo: Lançamento de um dado = {1, 2, 3, 4, 5, 6} Eventos: A = {2, 4, 6}, B = {4, 5, 6} e C = {1} • sair uma face par e maior que 3 A B = {2, 4, 6} {4, 5, 6} = {4, 6} • sair uma face par e face 1 A C = {2, 4, 6} {1} = • sair uma face par ou maior que 3 A B = {2, 4, 6} {4, 5, 6} = {2, 4, 5, 6} •sair uma face par ou face 1 A C = {2, 4, 6} {1} = {1, 2, 4, 6} • não sair face par AC = {1, 3, 5} 2 24/03/2017 Probabilidade Probabilidade • Medida da incerteza associada aos resultados do experimento aleatório • Deve fornecer a informação de quão verossímil é a ocorrência de um particular evento Através das freqüências de ocorrências. • O experimento aleatório é repetido n vezes • Calcula-se a freqüência relativa com que cada resultado ocorre. Como atribuir probabilidade aos elementos do espaço amostral? Probabilidade Probabilidade Através de suposições teóricas. • Exemplo: lançamento de um dado • Admite-se que o dado é perfeitamente equilibrado • P(face 1) = ... = P(face 6) = 1/6. Definição. Uma distribuição de probabilidade Pr{} sobre um espaço amostral S é uma função que mapeia cada evento de S em um número real de modo que (i) Pr(A)>=0 para todo evento A (ii) Pr(S)=1 (iii) Para qualquer sequência de eventos A1,A2,... dois a dois mutuamente exclusivos, temos 3 24/03/2017 • Qual é a probabilidade do jovem escolhido ser alfabetizado sabendo-se que é do sexo masculino? Probabilidade Condicional Diretamente da tabela Definição. Dados dois eventos A e B, com P(B)>0, a probabilidade condicional de A dado que ocorreu B é denotada por P(A|B) e definida por P(A | B) P(A B) P(B) , Alfabetizada Sexo P(B) 0 . Da definição de probabilidade condicional, obtemos a regra do produto de probabilidades Total Sim Não Masc. 39.577 8.672 48.249 Fem. 46.304 7.297 56.601 Total 85.881 15.969 101.850 temos P(S | M) = 39.577 / 48.249 = 0,82. Pela definição, P(A B) P(B) P(A | B). P(S | M) Analogamente, se P(A) >0, P(A B) P(A) P(B | A) . 39.577 101.850 48.249 101.850 P(S M) P(M) 0,82. 13 14 Exemplo: Em uma urna, há 5 bolas: 2 brancas e 3 vermelhas. Duas bolas sucessivamente, sem reposição. são sorteadas A: 2ª bola sorteada é branca C: 1ª bola sorteada é branca P(A) = ??? Resultados 2 5 B 3 4 2 4 3 5 Probabilidades 2 5 2 5 BB BV V B 1 2 4 20 3 6 4 20 3 2 6 5 4 20 3 2 6 5 4 20 VB VV V Total 2 4 Para representar todas as possibilidades, utilizamos, um diagrama conhecido como diagrama de árvores ou árvore de probabilidades. B 1 V Temos P(A) 2 6 2 20 20 5 P(A | C) e 1 . 4 4 24/03/2017 Considere agora que as extrações são feitas com reposição, ou seja, a 1a bola sorteada é reposta na urna antes da 2a extração. Nesta situação, temos 2 5 2 5 3 5 B B 3 5 2 5 V B Resultados Probabilidade BB 2 2 4 5 5 25 BV 2 3 6 5 5 25 VB 3 2 6 5 5 25 VV 3 3 9 5 5 25 V Total 3 5 Neste caso, P(A) = P(branca na 2ª) = 4 6 2 25 25 5 P(A | C) = P( branca na 2ª | branca na 1ª) = P(A | Cc) = P(branca na 2ª | vermelha na 1ª) = e 2 P( A) 5 2 P( A) 5 ou seja, o resultado na 2a extração independe do que ocorre na 1a extração. 1 V Eventos Independentes Variável Aleatória Definição. Dois eventos A e B são independentes se e somente se Pr(A B)=Pr(A)Pr(B) Definição (intuitiva). Uma variável aleatoria X em um espaço amostral é uma função que associa cada elemento do espaço amostral a um valor real Exemplo. A probabilidade de Jonas tirar nota maior que 7 é 1/3 e a de Madalena é 2/3. Qual é a probabilidade de ambos tirarem nota maior que 7? Exemplo. Evento A: Jonas tira nota maior que 7 Espaço amostral: ={(i,j)| 1 <=i<=6 e 1<=j<=6} Experimento: dois dados honestos com 6 faces são jogados Evento B: Madalena tira nota maior que 7 X: valor máximo entre os dois dados X(a,b)=max{a,b} Pr{X=3} = 5/36 e Pr{X=6}=11/36 P(A B) = P(A) x P(B) = 1/3 x 2/3 = 2/9 19 20 5 24/03/2017 Variável Aleatória Valor Esperado Aplicações em Computação Valor Esperado. Dada uma variável discreta X, seu valor esperado E[X] é definido por : Variáveis aleatórias relacionadas a propriedades de algoritmos aleatorizados E[X ] j Pr[X j] • X: tempo de execução de um algoritmo aleatorizado Exemplo • X: qualidade da solução de um algoritmo aleatorizado • j0 X(a,b) = max{a,b}, onde (a,b) é o resultado de lançamento de dois dados honestos E[X] = 1*1/36 +2*3/36+3*5/36+ 4*7/36 +5*9/36 + 6*11/36 • Seção 6.3 do Cormen 21 Valor Esperado: Propriedades Importantes Guessing Cards Game. Shuffle a deck of n cards; turn them over one at a time; try to guess each card. Propriedade Útil. Se X é uma V.A. 0/1, E[X] = Pr[X = 1]. Pf. 1 j0 j0 Memoryless guessing. No psychic abilities; can't even remember what's been turned over already. Guess a card from full deck uniformly at random. E[X ] j Pr[X j] j Pr[X j] Pr[X 1] Claim. The expected number of correct guesses is 1. Pf. (surprisingly effortless using linearity of expectation) Let Xi = 1 if ith prediction is correct and 0 otherwise. Let X = number of correct guesses = X1 + … + Xn. E[Xi] = Pr[Xi = 1] = 1/n. E[X] = E[X1] + … + E[Xn] = 1/n + … + 1/n = 1. ▪ Linearidade do Valor Esperado. Dada duas V.A. X e Y definidas sobre o mesmo espaço de probabilidade, E[X + Y] = E[X] + E[Y]. Propriedade pode simplificar bastante alguns cálculos! linearity of expectation 24 25 6 24/03/2017 Linearidade do Valor Esperado Guessing Cards Game. Shuffle a deck of n cards; turn them over one at a time; try to guess each card. Exemplo. Qual é a o valor esperado do número de caras ao jogar uma moeda justa 100 vezes ? Guessing with memory. Guess a card uniformly at random from cards not yet seen. X: número de vezes que o resultado é cara Xi =1 se o resultado da i-ésima tentativa é cara e Xi =0, caso contrário. Claim. The expected number of correct guesses is (log n). Pf. Let Xi = 1 if ith prediction is correct and 0 otherwise. Let X = number of correct guesses = X1 + … + Xn. E[Xi] = Pr[Xi = 1] = 1 / (n - i - 1). E[X] = E[X1] + … + E[Xn] = 1/n + … + 1/2 + 1/1 = H(n). ▪ 100 E[ X ] E[ X i ] 50 E[ X i ] 1 / 2 i 1 linearity of expectation ln(n+1) < H(n) < 1 + ln n 26 27 Desigualdade de Markov Desigualdades de Cauda • Lema. Seja X uma V.A. que assume somente valores não negativos. Então, para todo t positivo, Como gerar limites superiores para a probabilidade de uma variável aleatória se afastar da média? Pr[ X t ] E[ X ] t Prova. Considere a variavel 0-1 Y que assume valor 1 se X>=t e 0, caso contrário. Note que Y X/t. Logo, Ferramenta fundamental para caracterizar o tempo de execução e/ou a probabilidade de sucesso de algoritmos aleatorizados Pr[X t]=E[Y] e E[Y] E[X]/t. Portanto, Pr[X t] E[X]/t 28 29 7 24/03/2017 Variância de uma distribuição Desigualdade de Markov Exemplo. Qual é a probabilidadade obtermos mais de 75 caras ao jogar uma moeda justa 100 vezes ? Definição. A variância de uma variável aleatória X é X: número de vezes que o resultado é cara Xi :1 se o resultado da i-ésima tentativa é cara e 0 caso contrário. E[ X i ] 1 / 2 definida como Var(X)= E[(X-E[X])2] 100 E[ X ] E[ X i ] 50 i 1 A variância mede o quanto a distribuição “foge” da média. Aplicando Markov temos Pr[X>75] 50/75=2/3 O desvio padrão de X, denotado por x , é a raiz quadrada da variância 30 31 Variância de uma distribuição Variância de uma distribuição Definição. Duas variáveis aleatórias X e Y são Propriedade importante: independentes se para qualquer par de reais x,y Var(X)= E[(X-E[X])2] = E[(X 2 - 2XE[X]+ E[X] 2] = Pr[X=x Y=y] = Pr[X=x]Pr[Y=y] , E[(X 2 - 2XE[X]+ E[X] 2)] = E[X 2]- E[X] 2 ou seja os eventos X=x e Y=y são independentes para todo x,y Lema: Se X e Y são V.A. independentes, então E[XY]=E[X]E[Y] Var(X+Y)=Var(X)+Var(Y) 32 33 8 24/03/2017 Desigualdade de Chebyschev Quicksort: Expected Number of Comparisons Theorem. Expected number of comparisons is 2nln n. Pf. Lema. Seja X uma V.A. com desvio padrão x.. Então, para todo t>0, Pr[ X E[ X ] t X ] Theorem. [Knuth 1973] Stddev of number of comparisons is ~ 0.65N. 1 t2 Ex. If n = 1 million, the probability that randomized quicksort takes less than 4n ln n comparisons is at least 99.4%. Prova. Pr [|X- E[X] | ≥ t·x] = Pr [(X-E[X])2 ≥ t2·x2] Chebyshev's inequality. Pr[|X - | k] 1 / k2. Se Y = (X- E[X])2 , por Markov temos, The result is established by setting k= 2 ln(n)/0.65 Pr [(X- E[X])2 ≥ t2 Var(X)] = Pr [ Y ≥ t2 Var(X)] ≤ E[Y]/ (t2Var(X)) =Var(X)/ (t2Var(X)) = 1/ t2 34 Desigualdade de Chebyschev Chernoff Bounds Teorema. Asumma que X1, …, Xn são variáveis aleatórias 0-1 independentes. Seja X = X1 + … + Xn. Então, para todo E[X] e para todo > 0, temos Exemplo. Qual é a probabilidadade obtermos mais de 75 caras ao jogar uma moeda justa 100 vezes ? e Pr[ X (1 ) ] 1 (1 ) X: número de vezes que o resultado é cara Xi :1 se o resultado da i-ésima tentativa é cara e 0, caso contrário E[ X ] 100 X i 1 i 50 e Var ( X ) 100 Var ( X i 1 i A soma é bsatante concentrada próximo da média Teorema. Assuma que X1, …, Xn são variáveis aleatórias 0-1 independentes. Seja X = X1 + … + Xn. Entao, para todo E[X] e para qualquer any 0 < < 1, temos ) 25 Aplicando Chebyschev temos Pr[ X (1 ) ] e Pr[|X-50| 5x5] 1/25 4% 2 / 2 Diretamente relacionado a lei dos grandes números... Pr [ X 75 ] 2% (simetria) 36 9 24/03/2017 Chernoff Bounds Hoeffding Bounds Exemplo. Qual é a probabilidade obtermos mais de 75 caras ao jogar uma moeda justa 100 vezes ? Lema. Sejam X1,...,Xn variáveis aleatórias reais, com Xi assumindo valores no intervalo [ai,bi]. Além disso, seja X= X1+... +Xn e =(b1-a1)+....+(bn-an) Portanto, Pr[ X – E[X] t] exp(-2t2/ ) X: número de vezes que o resultado é cara Xi :1 se o resultado da i-ésima tentativa é cara e 0 caso contrário E[ X ] 100 X i 1 i 50 Aplicando Chernoff temos e Pr[|X-50|>(1+0.5) x50]<=0.007 <= 0.7% Pr[ X – E[X] -t] exp(-2t2/ ) 38 Union Bound Union Bound Exemplo 1 Union bound. Dados os eventos E1, …, En, Um dado honesto de 6 faces é jogado uma vez. Considere os seguintes eventos: n n Pr Ei Pr[Ei ] i1 i1 Evento A: resultado é um número primo Evento B: resultado é par Evento C: resultado é impar Temos P(A U B) =5/6 P(A)+P(B) =1 P(A U C) =4/6 P(A)+P(C) =1 P(A U B U C) =1 P(A)+P(B)+P(C) =3/2 40 41 10 24/03/2017 Bibliografia Union Bound Exemplo 2 https://www.cs.cornell.edu/jeh/book.pdf A probabilidade de um sistema falhar ao utilizarmos ele uma vez é 0.001. Qual a probbilidade do sistema ter sucesso em 100 utilizações seguidas ? • Espaço amostral: Resultado possíveis para os 100 usos: {F,S,F,F,S,....,F} • Evento Ei: i-ésima utilização falhou • Evento E: sistema falhou em alguma das 100 utilizações • Evento S: sistema teve sucesso em todas as 100 utilizações • Como Pr(Ei )=0.001, então n Pr[E}= Pr i1 • n Ei Pr[Ei ] <= 0.1 i1 Segue que Pr[S]=1-Pr[E] >=0.9 42 43 11