Aula #01 - Instituto de Matemática

Propaganda
Estatística Aplicada II
•
•
•
•
•
Profa. Flávia Landim
E-mail: [email protected]
Aulas: quintas de 13h-18h20
Início: 22 de agosto de 2013
Avaliações: P1 10/10, P2 28/11. apresentação de
trabalhos: 5 e 12/12 (grupos de 3 alunos que
deverão ser definidos até o dia da P1).
MAD342 – AULA #01 – 22/08/2013
Estatística Aplicada II
• Ementa no SIGA: Conceito de regressão associado à correlação
entre variáveis. Conceito de ajustamento. Métodos de ajustamento e
aplicação à determinação das equações de regressão. Teoria elementar de
probabilidades: princípios fundamentais. Distribuição binomial e
distribuição normal: propriedades e aplicações à psicologia. Noções de
inferência estatística: estimação de parâmetros.
• Página com as informações da disciplina:
www.im.ufrj.br/flavia/estat2_psicologia.html
MAD342 – AULA #01 – 22/08/2013
Estatística Aplicada II
• Referências (livro-texto ainda a definir)
• Estatística Básica: a arte de trabalhar com dados.
João Ismael, Sônia, Santiago e Gastão. Editora
Campus.
• Estatística sem Matemática para Psicologia. Dancey
e Reidy. Artmed.
MAD342 – AULA #01 – 22/08/2013
Estatística: o que é?
• O primeiro uso da palavra ESTATÍSTICA parece datar do
final do século XVI, referindo-se a uma “ciência civil,
política, estatística e militar” em um trabalho do
historiador Girolomo Ghilini. (Berquó, 1981)
• As expressões “statistics”, “statist” e “statistical” são
derivadas do latim status com duplo significado:
estado político; e situação das coisas.
MAD342 – AULA #01 – 22/08/2013
O Estado da Estatística
Os primeiros usos da estatística envolviam compilação de dados e
gráficos que descreviam vários aspectos de um estado ou país. Em
1662, John Gaunt publicou informação estatística acerca de
nascimentos e mortes. O trabalho de Gaunt foi seguido por estudos
sobre taxas de mortalidade e de doenças, tamanhos de populações,
renda e taxas de desemprego.
Os governos e as empresas se apoiam fortemente em dados
estatísticos: taxas de desemprego, taxas de inflação, índices do
consumidor, taxas de nascimento e morte são cuidadosamente
compiladas de modo regular, e os dados resultantes são usados
pelos gestores para tomar decisões que afetam futuras
contratações, investimentos, níveis de produção e expansão para
novos mercados.”
Triola, 2005 – Uma Introdução à Estatística.
MAD342 – AULA #01 – 22/08/2013
Breve História da Estatística
• Nos séculos XVII e XVIII, a estatística voltou-se mais para
cálculos de probabilidades.
• No século XIX, Laplace e Gauss começaram a aplicar a
distribuição normal na explicação de fenômenos reais.
• Nesta época iniciou-se a aplicação da estatística na pesquisa
em Ciências Sociais.
• No século XX difundiram-se os métodos multivariados para
analisar conjuntamente várias variáveis.
MAD342 – AULA #01 – 22/08/2013
Estatística: o que é ?
Para Sir Ronald A. Fisher (1890-1962):
Estatística é o estudo das populações, das
variações e dos métodos de redução de dados.
MAD342 – AULA #01 – 22/08/2013
Estatística: o que é?
• ``Eu gosto de pensar na
Estatística como a ciência de
aprendizagem a partir dos
dados ... ´´
MAD342 – AULA #01 – 22/08/2013
Jon Kettenring
Presidente da American
Statistical Association, 1997
Estatística: o que é?
Uma boa definição é:
“Estatística é um conjunto de técnicas
e métodos que nos auxiliam no
processo de tomada de decisão na
presença de incerteza.”
MAD342 – AULA #01 – 22/08/2013
Estatística: o que é?
Toda atividade humana é baseada em previsões e tomadas de
decisão sob incerteza:
- quando
entramos para a universidade;
- quando
arrumamos um emprego;
- quando um paciente é submetido a um tratamento;
- quando investimos uma quantia no mercado de ações; etc.
MAD342 – AULA #01 – 22/08/2013
Estatística: o que é?
• Calyampudi R. Rao (1920- ), um estatístico
importante, cujo trabalho teórico contribuiu
para os fundamentos da Estatística Moderna
apresentou a seguinte equação:
Essa parte da equação
representa um papel
fundamental do estatístico
conhecimento
+
incerto
conhecimento
da quantidade =
de incerteza
nele
MAD342 – AULA #01 – 22/08/2013
conhecimento
útil
Alguns Exemplos de situações em que se usa
Estatística
• Mensuração das mudanças no meio-ambiente para avaliar os efeitos do
aquecimento global.
• Mensuração da poluição do ar para avaliar os efeitos na saúde da
população.
• Análise de experimentos sobre o uso de fertilizantes para maximizar a
produção de um grão.
• Mensuração da eficácia de diferentes medicamentos para encontrar o
melhor, e identificar efeitos colaterais.
• Cálculo de quão provável duas pessoas têm o mesmo perfil de DNA.
• Estudo sobre hábitos migratórios de certo animal;
• Estimação do tamanho populacional de certas espécies;
• Comparação de hábitos comportamentais em diferentes grupos;
MAD342 – AULA #01 – 22/08/2013
Conceitos Básicos
• População: conjunto de elementos com pelo menos
uma característica em comum. A população define o
universo que vai ser estudado.
• Amostra: é um subconjunto não-vazio da população.
MAD342 – AULA #01 – 22/08/2013
Conceitos Básicos
• Parâmetro – é uma característica numérica da
população.
• Estatística - é uma característica numérica da
amostra.
MAD342 – AULA #01 – 22/08/2013
Inferência Estatística
• Em linhas gerais podemos dizer que a Inferência Estatística
está voltada para fazer afirmações sobre toda a população,
quando se conhece apenas uma amostra da população.
• Desejamos fazer afirmações sobre parâmetros, usando
estatísticas.
• É claro que estaremos sujeitos a variações inerentes ao
processo de amostragem e será muito importante saber
quantificar a incerteza associada à inferência realizada.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Probabilidade
• A ferramenta matemática usada para
quantificar incertezas é a teoria das
probabilidades.
• Noções básicas de probabilidade serão objeto
de estudo nesta disciplina.
MAD342 – AULA #01 – 22/08/2013
Etapas na análise estatística de dados
Amostragem–coleta de
dados
Estatística descritiva - Análise
exploratória de dados –
organização dos dados
Cálculo de Probabilidades
Inferência Estatística
MAD342 – AULA #01 – 22/08/2013
Estatística Básica
• Vamos tratar agora da etapa do processo de análise, chamada
Análise Descritiva ou Análise Exploratória de Dados.
• Os dados precisam ser organizados em tabelas, gráficos ou mapas,
e também usando-se medidas úteis que descrevem de alguma
forma o conjunto de dados.
• Em geral, é a partir desta análise que será proposto um modelo que
descreva pelo menos razoavelmente a geração dos dados em
estudo.
• Não serão tratados aqui os tópicos sobre coleta e organização dos
dados.
MAD342 – AULA #01 – 22/08/2013
Escalas de medição e tipos de variáveis
• As escalas de medição são: nominal, ordinal, de
contagem, intervalar e de razão.
• As técnicas estatísticas diferenciam-se em relação ao
tipo de variável.
• As variáveis são classificadas em dois grandes grupos:
categóricas ou qualitativas (escalas nominal e ordinal) e
numéricas ou quantitativas (escalas de contagem,
intervalar ou de razão).
MAD342 – AULA #01 – 22/08/2013
Escalas intervalar e de razão
• A escala intervalar aproxima-se da concepção comum de medida, já que
possui uma unidade de medida constante. Entretanto, a origem desta
escala é arbitrária. Os exemplos mais comuns de escala de intervalo são as
escalas de temperatura Celsius e Fahrenheit. Cada uma delas atribui um
zero arbitrário.
• A escala de razão é a mais elaborada das escalas de medida, no sentido de
permitir todas as operações aritméticas. Essa escala possui um ponto zero
único, além de unidade de medida constante. É a escala de medida mais
comum nas ciências físicas, tais como as escalas para a medida de
comprimento, peso, etc.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Síntese numérica – medidas-resumo para variáveis
quantitativas
• As medidas a serem trabalhadas são de duas naturezas
distintas, a saber,
• 1) medidas de posição – média aritmética, mediana, moda,
percentis (quartis, quintis), buscam caracterizar valores que
sejam representativos na distribuição de frequência dos
valores observados, e
• 2) medidas de dispersão – amplitude amostral. distância
interquartílica, desvio médio, variância, desvio-padrão,
coeficiente de variação, buscam caracterizar a variação na
distribuição dos valores.
MAD342 – AULA #01 – 22/08/2013
Medidas de Posição
• 1) Moda – realização mais frequente do conjunto de
valores observados. Em alguns casos, pode haver
mais de uma moda, ou seja, uma distribuição pode
ser bimodal, trimodal, multimodal. É possível
também que não exista moda, se todos os valores
ocorrerem com a mesma frequência.
MAD342 – AULA #01 – 22/08/2013
Medidas de Posição
• 2) Mediana – é a realização que ocupa a posição central da
série de observações, quando estão ordenadas em ordem
crescente.
• Nota: se o número de observações é ímpar indica-se como
mediana o valor que ocupa a posição (n+1)/2. Caso contrário,
o usual é indicar como mediana a semi soma dos valores que
ocupam as duas posições centrais, a saber, n/2 e n/2+1.
• A posição de uma observação para efeito de obter a mediana
é considerada somente depois de colocar os dados em ordem
crescente.
MAD342 – AULA #01 – 22/08/2013
Medidas de Posição
• 3) Média aritmética – soma das observações dividida
pelo número de observações.
• Formalizando, se x1, x2, ..., xn são n valores observados
num conjunto de dados, a média aritmética é dada por
x 
n
1
n
 xi 
i 1
x1  x2  ...  xn
n
MAD342 – AULA #01 – 22/08/2013
Medidas de posição
• 4) Percentis: são 99 medidas que dividem a
distribuição de frequências em 100 partes de
frequência 1% tal que o p-ésimo percentil,
p=1,2,...,99, corresponde a um valor para o qual p%
dos valores observados são menores ou iguais a ele.
• Notação: (P1, P2, ..., P10, ..., P99)
MAD342 – AULA #01 – 22/08/2013
Percentis Especiais
• Quartis: são três medidas, Q1, Q2 e Q3, que dividem a
distribuição em quatro partes de frequências iguais a 25%.
• Q1 – primeiro quartil – 25% dos valores são menores ou iguais
a Q1
• Q2– segundo quartil – 50% dos valores são menores ou iguais
a Q2 (Observe que Q2 coincide com a mediana)
• Q3 – terceiro quartil – 75% dos valores são menores ou iguais
a Q3
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Percentis especiais
• Quintis – são quatro medidas que dividem a
distribuição em 5 partes de frequências iguais
a 20%. (P20,P40,P60,P80)
• Decis – são 9 medidas que dividem a
distribuição em 10 partes de frequências
iguais a 10%.(P10,P20, ..., P90)
MAD342 – AULA #01 – 22/08/2013
Medidas de dispersão
• 1) Amplitude amostral – é a diferença entre o
maior valor e menor valor observados.
• 2) Distância interquartílica – é a diferença
entre o terceiro e primeiro quartis.
MAD342 – AULA #01 – 22/08/2013
Medidas de Dispersão
• Sejam x1, x2, ..., xn os n valores observados num conjunto de
dados, e a média. Define-se como desvios da média as
x
diferenças:
xi  x
, i=1,2,...,n.
Em qualquer conjunto de dados a soma dos desvios da
média será sempre nula, pois os desvios positivos compensam-se com os desvios negativos.
MAD342 – AULA #01 – 22/08/2013
Variância amostral
• A variância amostral é uma média dos
quadrados dos desvios da média definida
por:
1 n
s 
2
x  x 

n 1
2
i 1
i
Podemos dizer que a variância caracteriza o
“espalhamento” dos valores no conjunto de dados
em torno da média.
MAD342 – AULA #01 – 22/08/2013
Desvio-padrão amostral
• O desvio-padrão amostral (s) é a raiz quadrada
positiva da variância amostral.
• O desvio-padrão tem a mesma unidade de
medida das observações e poderá ser
comparado à média, por exemplo.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Como comparar desvios padrão?
• Como as escalas dos valores podem ser diferentes não há
como dizer se um conjunto é mais disperso em relação a sua
média apenas olhando o valor do seu desvio-padrão.
• Um desvio padrão igual a 1 u pode ser grande ou pequeno
dependendo da magnitude dos valores observados.
• Se dois conjuntos têm desvios-padrões iguais, como classificar
o mais disperso em relação à média?
MAD342 – AULA #01 – 22/08/2013
Coeficiente de variação amostral
• É a razão entre desvio-padrão e média.
Em geral é apresentado em termos
percentuais sendo multiplicado por 100.
• É útil na avaliação da magnitude da
variância do conjunto de dados.
s
CV  100 
x
MAD342 – AULA #01 – 22/08/2013
Tipos de gráficos
• Setores, barras, linha, histograma, ramo-folhas, box
plot (diagrama de caixa), etc.
• Os gráficos de setores e barras são adequados para
variáveis categóricas (qualitativas).
• Nesses gráficos, a única escala a ser considerada é a
escala de frequência dos diferentes tipos de resposta
observados para a variável categórica.
MAD342 – AULA #01 – 22/08/2013
Gráfico de setores
Em geral, recomenda-se não usar este tipo de gráfico, quando o número de
respostas diferentes é maior do que quatro ou mesmo quando as diferenças
de frequências para as diferentes respostas são pequenas, pois é difícil
detectar pequenas diferenças nos ângulos centrais correspondentes aos
setores.
MAD342 – AULA #01 – 22/08/2013
Gráfico de setores
Observe que há apenas 4
respostas diferentes, mas não
dá para perceber diferenças
entre centro, norte e sul.
MAD342 – AULA #01 – 22/08/2013
Gráfico de barras
Agora é possível perceber as
diferenças entre as frequências
observadas.
As frequências podem ser absolutas ou relativas.
MAD342 – AULA #01 – 22/08/2013
Gráfico de barras
As barras que representam as frequências de cada resposta podem
ser dispostas de forma horizontal ou vertical.
MAD342 – AULA #01 – 22/08/2013
Gráfico de linha
• Adequado para representar observações feitas
ao longo do tempo.
• A série deve apresentar no mínimo 5
observações.
MAD342 – AULA #01 – 22/08/2013
Exemplo: dados sobre meningite
0
20
40
60
Nº de casos no município do Rio
1976
1978
1980
1982
1984
1986
1988
MAD342 – AULA #01 – 22/08/2013
1990
1992
Histograma
• É usado para representar a distribuição de
frequências de uma variável quantitativa
contínua cujos valores observados foram
agrupados em intervalos de classe.
• O gráfico é composto por retângulos
adjacentes cuja área é igual a frequência da
classe correspondente.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Ramo-e-folhas
• É um gráfico alternativo ao histograma.
• A vantagem do ramo-e-folhas em relação ao
histograma é que não há perda de
informação.
• No histograma as observações individuais
estão agrupadas em classes.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Medidas de posição: média e mediana


A média é a soma dos valores observados
sobre o número de observações (média
aritmética).
No histograma ela representa o ponto de
equilíbrio (é o centro de massa).
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Média versus mediana
MÉDIA
MEDIANA
é mais fácil de ser manipulada
algebricamente;
representa o centro de massa
dos dados.
É muito afetada por valores
extremos.
é mais difícil de ser manipulada
algebricamente;
é o valor que ocupa a posição
central quando os dados estão
ordenados; (divide o histograma
correspondente em duas partes
de áreas iguais).
não é afetada por valores
extremos.
MAD342 – AULA #01 – 22/08/2013
Distribuições unimodais
Em distribuições unimodais tem-se sempre a mediana entre a
média e a moda:
ou média<=mediana<=moda (assimetria negativa)
ou moda<=mediana<=média (assimetria positiva)
Em distribuições unimodais perfeitamente simétricas tem-se
média=moda=mediana.
MAD342 – AULA #01 – 22/08/2013
Assimetria positiva - distribuição unimodal
média>mediana>moda
A distribuição apresenta
maior concentração nos
menores valores.
MAD342 – AULA #01 – 22/08/2013
Assimetria negativa - distribuição unimodal
média<mediana<moda
A distribuição apresenta
maior concentração nos
valores mais altos.
MAD342 – AULA #01 – 22/08/2013
Distribuição unimodal simétrica
média=mediana=moda
MAD342 – AULA #01 – 22/08/2013
Medidas de assimetria e curtose
Quando uma distribuição unimodal é simétrica tem-se
Média = Mediana = Moda.
Numa distribuição unimodal, se Média < Mediana < Moda dizemos que ela
é assimétrica à esquerda ou negativamente assimétrica;
se Média > Mediana > Moda, dizemos que ela é assimétrica à direita ou
positivamente assimétrica.
Coeficiente de assimetria de Pearson:
As = 3 ( Média - Mediana ) / Desvio Padrão
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
MEDIDAS DE CURTOSE
•
•
•
•
Grau de achatamento de uma distribuição em relação a uma distribuição padrão,
denominada curva normal (curva correspondente a uma distribuição teórica de
probabilidade).
Quando a distribuição apresenta uma curva de freqüência mais fechada que a
normal (ou mais aguda ou afilada em sua parte superior), ela recebe o nome de
leptocúrtica.
Quando a distribuição apresenta uma curva de freqüência mais aberta que a
normal (ou mais achatada em sua parte superior), ela recebe o nome de
platicúrtica.
A curva normal, que é a nossa base referencial, recebe o nome de mesocúrtica.
MAD342 – AULA #01 – 22/08/2013
Coeficiente de curtose
C1 = (Q3 - Q1) / 2(P90 - P10)
Este coeficiente é conhecido como percentílico de curtose.
Relativamente a curva normal, temos:
C1 = 0,263
C1 < 0,263
C1 > 0,263



curva mesocúrtica
curva leptocúrtica
curva platicúrtica
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Exemplo: Distribuição Bimodal
Você acha que a média é
uma boa medida de posição
nesse caso? E a mediana?
Por que?
MAD342 – AULA #01 – 22/08/2013
Box Plot (desenho esquemático)
IQR=Q3-Q1
MAD342 – AULA #01 – 22/08/2013
Bioestat
• O BioEstat é programa gratuito para estudantes de graduação
e pós-graduação, pesquisadores e professores, com 210
aplicativos estatísticos de fácil uso pelos iniciantes, voltados
sobretudo para as áreas das ciências biológicas e médicas.
• Este programa contém o Manual (em formato de arquivo
"pdf") que orienta o usuário com indicações simples e
precisas para cada teste, exemplos práticos, gráficos de uso
mais frequente, glossário vinculado à biometria e fórmulas
estatísticas referentes aos aplicativos do BioEstat.
MAD342 – AULA #01 – 22/08/2013
Bioestat
• A licença de uso deste programa também é gratuita, sendo
permitida a instalação em vários computadores. Para outras
informações, envie um e-mail para
[email protected].
•
http://www.mamiraua.org.br/pt-br/downloads/programas/bioestat-versao-53/
• No que segue veremos alguns exemplos de uso do bioestat
para calcular medidas-resumo e construir gráficos.
MAD342 – AULA #01 – 22/08/2013
Exemplo 1
• Em um grupo de 80 alunos foi feita uma pesquisa
sobre hábitos de leitura. Uma das questões referia-se
que tipo de leitura eles mais gostavam: revistas,
jornais, livros de ficção, livros não-ficção, outros.
Após digitar as respostas verificou-se que 18
preferiam revistas, 25, jornais, 15 preferiam ficção,
13, não ficção e 9, outros.
MAD342 – AULA #01 – 22/08/2013
Exemplo 1
18
25
15
13
9
No Bioestat entramos com esses números que são as
frequências absolutas de preferências e depois solicitamos
a janela de gráficos escolhendo a opção “setores”.
Depois é só configurar uma legenda, título, etc.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Exemplo 2:
• As idades dos 80 alunos também foram observadas e seus
valores foram
18,18,18,18,18,18,18,18,18,18,19,19,19,19,19,19,
19,19,19,19,19,19,19,19,19,20,20,20,20,20,20,20,
20,20,20,20,20,20,20,20,20,20,20,20,20,21,21,21,
21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,
21,21,21,21,22,22,22,22,22,23,25,25,26,26,27,35.
MAD342 – AULA #01 – 22/08/2013
Atividades sugeridas
• Resolva os exercícios da lista #01 usando o
Bioestat.
MAD342 – AULA #01 – 22/08/2013
MAD342 – AULA #01 – 22/08/2013
Bibliografia:
•
•
•
•
Berquó, E. e outros (1981). Bioestatística.
Bisquerra, Sarriera, Martínez (2004). Introdução à Estatística.
Bussab e Morettin. (2002). Estatística Básica.
Dancey e Reidy. (2012). Estatística sem Matemática para
Psicologia.
• Medronho, e outros. (2005). Epidemiologia.
• Montgomery, D. e Runger, G. (2003). Estatística Aplicada e
Probabilidade para Engenheiros.
• Triola, M. (2005). Uma Introdução à Estatística.
MAD342 – AULA #01 – 22/08/2013
Download