CURSO DE ADMINISTRAÇÃO INTRODUÇÃO À ESTATÍSTICA Prof. Me. Clementina Scherpinski CAPÍTULO II CASCAVEL - 2010 CAPÍTULO II INTRODUÇÃO O que é Estatística? Quando ouvimos falar em estatística imaginamos taxas de desemprego, índices de mortalidade, litros por quilômetro, etc. Esta parte da estatística que usa números para descrever fatos é chamada de forma bastante apropriada, de Estatística Descritiva. A Estatística Descritiva compreende a organização, o resumo, a simplificação de informações que podem ser complexas. O objetivo é tornar as informações mais fáceis de serem entendidas, relatadas e discutidas. A média industrial Dow-Jones, o custo de vida, o índice pluviométrico, as médias de estudantes, tudo isso se enquadra nessa categoria. Outro ramo da Estatística relaciona-se com a probabilidade, e é útil para analisar situações que envolvem o acaso. Jogos de dados e de cartas, ou o lançamento de uma moeda se enquadram nessa categoria. A maioria dos jogos esportivos também é influenciada pelo acaso até certo ponto. Um terceiro ramo da Estatística é a inferência. Diz respeito a análise e interpretação de dados amostrais. (Não é preciso comer um bolo inteiro para saber se ele é gostoso). A idéia básica da amostragem é efetuar determinada mensuração sobre uma parcela pequena, mas típica chamada população e utilizar essa informação para fazer inferência sobre a população toda. Por exemplo, mergulhar a ponta do pé na água para avaliar a temperatura da piscina. Assistir um programa de TV alguns minutos para ver se vale a pena assisti-lo até o fim. Folhear um livro. Testar um novo carro. As fabricas normalmente produzem um pequeno número de peças (lote piloto) antes de se lançarem à fabricação em grande escala. Essas três áreas não são separadas ou distintas, ao contrário, elas tendem a se entrelaçar. Temos então a descrição e resumo de dados, teoria da probabilidade, e análise e interpretação de dados amostrais. 2 6 - MEDIDAS DE TENDÊNCIA CENTRAL PARA DADOS NÃO AGRUPADOS (sem intervalo de classe) E AGRUPADOS (com intervalo de classe) ESTATÍSTICA DESCRITIVA O planejamento de um estudo requer cuidado especial, para que os resultados tenham confiabilidade. Seja o estudo do perfil de uma determinada população ou um estudo de caso através de um delineamento experimental, o pesquisador deve sempre organizar os procedimentos, registrá-los e executá-los com muita atenção, sempre que possível, à luz de outros estudos inerentes. Isto é possível com uma revisão de literatura sobre o tema. Em um estudo, depois que o pesquisador procedeu à coleta de dados, deve iniciar a análise exploratória, como forma de interpretação e registro dos resultados. Para proceder à interpretação de um conjunto de dados, o pesquisador precisa organizar, sistematizar, enfim, realizar procedimentos que permitam a compreensão dos resultados, evidenciando as tendências comportamentais dos dados, com vistas à inferência. A estatística descritiva de dados quantitativos permite conhecer características de uma distribuição, seja de uma amostra ou de uma população. MEDIDAS DE POSIÇÃO As medidas de posição permitem ao pesquisador verificar a distribuição e o comportamento de dados quantitativos no intervalo fechado [Valor Min; Valor Max]. Entre as medidas de posição citam-se a média aritmética, a mediana e a moda, conhecidas como medidas de tendência central. As separatrizes também são denominados medidas de posição: 1º, 2º e 3º quartis, decis e percentis. O segundo quartil equivale à mediana. 3 6.1 Média Aritmética A partir de um conjunto de dados numéricos o pesquisador poderá proceder ao cálculo de várias médias como: Média geométrica: defina como a raiz enésima do produto de n valores dados; Média cúbica: é a raiz cúbica da média aritmética dos cubos de valores dados; Média proporcional: é a média geométrica de dois valores; Média harmônica: é o inverso da média aritmética dos inversos de um conjunto de valores; Média quadrática: que é a raiz quadrada da média aritmética dos quadrados de valores dados; Tri-média: que é obtida através da função maior inteiro. Entretanto, uma das médias mais utilizada na análise exploratória de dados, é a média aritmética, que é definida como o quociente entre a soma dos n valores dos dados com o número de elementos do conjunto. A média aritmética amostral é dada pela expressão matemática: Em que: _ n _ x x i 1 x é a média aritmética da amostra; i n xi iésima observação da variável aleatória; n é o número de elementos da amostra. n x i 1 i é o somatório de todos os valores xi na amostra. A expressão matemática da média aritmética, ainda pode ser escrita fazendose a expansão do somatório, ou seja: _ x x1 x2 x3 ... xn n 4 A média aritmética pode ser populacional e ou amostral. Os procedimentos matemáticos, em ambos os casos, é o mesmo; o que muda é o significado. A média de uma amostra é um parâmetro estimado da verdadeira média da população. A média aritmética populacional é dada pela expressão matemática: N Xi i 1 N Em que: é a média aritmética da população; X i são os valores da variável; N é número de elementos da população. 6.1.1 Dados agrupados: a) Sem intervalos de classe Consideremos a distribuição relativa a 34 empresas, tomando para variável em estudo, o nº. de acidentes do trabalho por empresa durante um ano de trabalho. O cálculo da quantidade média de acidentes do trabalho por empresa: xi 0 1 2 3 4 Total fi 2 6 10 12 4 34 Neste caso, a tabela deveria ser interpretada da seguinte forma,””duas empresas não tiveram nenhum acidente de trabalho” durante aquele ano; “seis empresas tiveram um acidente de trabalho” e assim por diante. Como as freqüências neste caso são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada, dada pela seguinte fórmula: x x1 * P1 x 2 * P2 x 3 * P3 ... x n * Pn P1 P2 P3 ...Pn ou x (x * P ) P i i i 5 Tabela 1: Notas referentes a um teste psicotécnico de 100 futuros motoristas Notas 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 Total Freqüência 1 4 1 3 10 6 10 15 17 11 9 6 3 1 2 1 100 Freqüência acumulada 1 5 6 9 19 25 35 50 67 78 87 93 96 97 99 100 b) Com intervalos de classe Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, e determinamos a média aritmética ponderada por meio da fórmula: x (f * x ) f i i i onde: xi é o ponto médio da classe. 6 Tabela 2: Notas de candidatos concorrentes a uma bolsa de estudos Classes 3 l----- 13 13 l----- 23 23 l----- 33 33 l----- 43 43 l----- 53 53 l----- 63 63 l----- 73 73 l----- 83 83 l----- 93 93 l-----100 Total Freqüência (fi) 9 12 12 16 16 13 12 05 04 01 100 Freqüência acumulada (Fi) 9 21 33 49 65 78 90 95 99 100 Média de intervalo (xi) 8 18 28 38 48 58 68 78 88 Outro aspecto a ser destacado é que a média de uma população ou amostra de uma população tende a ter característica determinante, ou seja, difere. Por exemplo, à média da estatura de um grupo de alunos da 5ª série do ensino fundamental, difere da média da estatura de um grupo de alunos universitários, tendo em vista que, na maioria das vezes, a faixa etária está diretamente ligada à estatura. A média das notas dos candidatos constantes da Tabela 1 é uma estimativa da verdadeira média das notas dos alunos. Geralmente, a média de uma amostra é utilizada na realização de estudos de diversas naturezas, dada a dificuldade de se trabalhar com dados da população. Isto se deve, na maioria das vezes, pela questão dos custos operacionais do estudo, ou pela inviabilidade operacional de realização dos ensaios. Toda vez que se utiliza a média da amostra em um estudo, ela é denominada um estimador da verdadeira média, ou seja, um valor estimado da média verdadeira. 6.2 Mediana A mediana de um conjunto de dados é o valor do meio em uma seqüência ordenada de dados. A mediana não é afetada por qualquer observação extrema em um conjunto de dados. Assim, sempre que uma observação extrema está 7 presente, é apropriado utilizar a mediana em vez da média aritmética para descrever um conjunto de dados. Para calcular a mediana em um conjunto de dados coletados em sua forma crua, precisamos primeiramente posicionar os dados em uma disposição ordenada. Então, utilizamos a fórmula do ponto de posicionamento (n+1)/2 para encontrar, na disposição ordenada, o lugar que corresponde ao valor da mediana. Uma das seguintes regras é seguida: regra 1: Se o tamanho da amostra for um número ímpar, a mediana é representada pelo valor numérico correspondente ao ponto de posicionamento (n + 1)/2 das observações após a ordenação. Regra 2: Se o tamanho da amostra for um número par, o ponto de posicionamento fica entre as duas observações centrais na disposição ordenada. A mediana é a média dos valores numéricos correspondentes àquelas duas observações. A mediana obtida permite ao pesquisador identificar, a partir de seu valor, que 50% dos elementos do conjunto possuem valores abaixo deste, enquanto que os demais, estão acima deste valor, conforme Figura 1. FIGURA 1 – REPRESENTAÇÃO GEOMÉTRICA DA MEDIANA 50 % X1 50 % Me Xn 6.2.1 Dados agrupados a) Sem intervalos de classe Devemos seguir os seguintes passos: 8 1º) Determinamos as freqüências acumuladas - Fi; 2º) Encontrarmos a classe onde se encontra a mediana 0,50 * f i ; 3º) Marcamos a classe correspondente à freqüência acumulada (Fi) igual ou imediatamente superior à 0,50 * f i . Tal classe será a classe mediana. xi 0 1 2 3 4 Total fi 2 6 9 13 5 35 Fi 2 8 17 30 35 Assim, 0,50 * f i = b) Com intervalos de classe Devemos repetir os passos 1, 2 e 3 anteriormente citados: 4º) Calculamos a Mediana com a seguinte fórmula: Md l i (0,50 * f ) F(anterior ) * h i fi i onde: li = é o limite inferior da classe mediana; 0,50 * f = valor que divide a série em duas partes iguais; i F(ant) = é a Freqüência Acumulada (Fi) da classe anterior a classe mediana; fi = é a freqüência simples da classe mediana; hi = é a amplitude do intervalo da classe mediana. 9 Exemplo: 0,50 * f = classes 50 |------------ 54 54 |------------ 58 58 |------------ 62 62 |------------ 66 66 |------------ 70 70 |------------ 74 Total fi 4 9 11 8 5 3 40 Fi 4 13 24 32 37 40 i OBS: Esta mediana é estimada, pois não temos os 40 valores da distribuição. 6.3 Moda A moda de um conjunto de dados é o valor que aparece com maior freqüência. Nos conjuntos de dados onde não acontece repetição de valores, usa-se denominar série amodal. É comum ainda, encontrar séries de valores com dois ou mais valores, cujas freqüências são iguais. Denomina-se, então, série bimodal, trimodal e assim sucessivamente. Em alguns casos, a moda explica melhor a situação da amostra ou da população do que a média. Isto ocorre, por exemplo, quando determinados valores de um conjunto de dados em estudo são muito grandes, ou então muito menor que a maioria. Exemplo: O conjunto de números 2, 2, 5, 7, 9, 9, 9, 10, 11, 12, 18 tem moda 9. 6. 3.1 Dados agrupados a) Sem intervalos de classe Uma vez agrupados os dados, é possível determinar imediatamente a moda: basta fixar o valor da variável de maior freqüência. Exemplo: Qual a temperatura mais comum medida no mês abaixo: 10 Temperaturas 0º C 1º C 2º C 3º C Total Freqüência= fi 3 9 12 6 30 b) Com intervalos de classe Neste caso, devemos inicialmente encontrar a classe que apresenta a maior freqüência, a qual denominaremos de classe modal. Existem duas formas básicas de encontrarmos a moda. Um dos métodos, a qual denominamos de moda bruta, consiste em encontra a classe modal e em seguida calcular o ponto médio desta classe com a seguinte fórmula: Mo li Li 2 onde: li = limite inferior da classe modal; e Li= limite superior da classe modal. Exemplo: Calcule a moda do conjunto de dados abaixo: Classes fi xi 50 |------------ 54 4 52 54 |------------ 58 9 56 58 |------------ 62 11 60 62 |------------ 66 8 64 66 |------------ 70 5 68 70 |------------ 74 3 72 Total 40 O outro método é mais elaborado para determinação da moda foi desenvolvido por CZUBER: D1 * h i Mo l i D1 D 2 li= limite inferior da classe modal; 11 D1= fi - f(ant); D2= fi - f(post); fi = freqüência simples da classe modal; f(ant) = freqüência anterior à da classe modal f(post) = freqüência posterior à da classe modal hi= amplitude da classe modal Utilizamos a moda quando desejamos obter uma medida rápida e aproximada de posição ou quando a medida de posição deva ser o valor mais típico da distribuição. 6.4 - Quartis Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Precisamos, portanto de 3 quartis (Q1, Q2 e Q3) para dividir a série em quatro partes iguais. O Q1 representa os primeiros 25% dos dados ordenados (1/4), o Q2=Md encontra-se no meio do conjunto de dados (2/4) e o Q3 representa os primeiros 75% do conjunto de dados ordenados (3/4). 6.4.1 Dados não-agrupados Exemplo1: Calcule os quartis da série ímpar: { 5, 2, 6, 9, 10, 13, 15 } 1º) ordenar os dados de forma crescente ou decrescente: {2, 5, 6, 9, 10, 13, 15} Q1 Q2 Q3 Exemplo2: Calcule os quartis da série par: {1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13} Q2 = Md = (5+6)/2 = 5,5; 12 Q1 será a mediana da série à esquerda do Q2 {1, 1, 2, 3, 5, 5}, então Q1=(2+3)/2 = 2,5; Q3 será a mediana da série à direita do Q2 {6, 7, 9, 9, 10, 13 }, então Q3=(9+9)/2 = 9; 6.4.2 Dados agrupados Usar a fórmula 0,25 * f i para a determinação do primeiro quartil (Q1), 0,50 * f i para a determinação do segundo quartil (Q2) e 0,75 * f i para a determinação do terceiro quartil (Q3). Assim a fórmula genérica para determinação dos quartis será: Q k li (% * f ) F(anterior ) * h i fi i Exemplo 3 - Calcule os quartis da tabela abaixo: i 1 2 3 4 5 6 classes 50 |------------ 54 54 |------------ 58 58 |------------ 62 62 |------------ 66 66 |------------ 70 70 |------------ 74 Total fi 4 9 11 8 5 3 40 Fi 4 13 24 32 37 40 Q1 Q2 Q3 FIGURA 2 – REPRESENTAÇÃO GEOMÉTRICA DOS QUARTIS X1 Q1 Me Xn Q3 7 - MEDIDAS DE DISPERSÃO ( Medidas de variabilidade) 13 As medidas de dispersão medem a variabilidade dos dados em estudo. As medidas de dispersão como amplitude, variância, desvio padrão e coeficiente de variação, permitem verificar se o conjunto de dados é homogêneo ou heterogêneo. 7.1 - Amplitude Amplitude total ou máxima é a diferença entre o maior e o menor valor de um conjunto de dados. Como no caso da nota média das notas do teste psicotécnico da Tabela 1, a amplitude máxima é dada pela diferença entre 75 e 60, ou seja, 05. Logo, as notas do teste variam 05 unidades. Para estudar a dispersão dos dados, a amplitude não é um dos melhores meios, pois, este cálculo é efetuado apenas com os valores extremos do conjunto. Por exemplo, as idades em anos de um grupo de pessoas, são: 2, 5, 8, 10, 14, 18 e 22. Um segundo grupo, possui as idades: 2, 14, 15, 15, 16,16 e 22. Nos dois grupos de pessoas, a amplitude máxima é de 20 anos, porém, a dispersão no primeiro é bem maior que no segundo. Para medir a dispersão de um grupo de dados, o pesquisador poderá fazer uso do desvio padrão, de procedimento matemático igualmente fácil, mas muito mais elaborado e que contempla todos os valores do conjunto de dados em estudo. 7.2 Variância A variância da amostra é aproximadamente a média das diferenças ao quadrado entre cada uma das observações de um conjunto de dados. Assim sendo, para uma amostra contendo n observações x1, x2, ..., xn, a variância da amostra pode ser escrita como 14 S 2 2 2 2 x1 x x 2 x ... x n x n 1 ou como sendo S2 x x 2 i n 1 _ Em que: x é a média aritmética da amostra; xi iésima observação da variável aleatória; n é o número de elementos da amostra. 7.3 Desvio Padrão O desvio padrão de uma amostra (representado pela letra S) é definido como sendo a raiz quadrada da variância da amostra. Ao iniciar as análises de um agrupamento de dados, a média permite que se estabeleça um juízo sobre tal conjunto. Porém, não permite avaliar a dispersão, principalmente para conjunto de dados mais numerosos. Um dos modos mais simples de se medir a dispersão, é calcular a amplitude total, entretanto, tal amplitude pode se deixar influenciar pelos valores extremos. O desvio padrão foge a essa falha por levar em conta todos os valores em questão. Portanto, o desvio padrão é muito mais conveniente no cálculo da dispersão. O desvio padrão é definido como a raiz quadrada da média dos quadrados dos desvios (variância): Desvio padrão populacional N (X i 1 i N )2 é desvio padrão populacion al é a média populacion al X i os valores da amostra N é o número de elementos da população 15 O desvio padrão populacional ou amostral mede a variabilidade dos dados, com respeito à média. Conjunto de dados com maior dispersão implica em desvios padrões elevados. A diferença entre o desvio padrão populacional e o desvio padrão amostral, está no significado do conjunto e no denominador da expressão matemática que o determina. Enquanto o desvio padrão amostral é calculado com a média de uma amostra da população, portanto, expresso a partir de um valor estimado da verdadeira média, o desvio padrão populacional é obtido com a média verdadeira, ou seja, a média da população. Então, o denominador n do desvio estimado, é subtraído de uma unidade como forma de correção, uma vez que essa subtração implica em um aumento de seu valor e, portanto, o uso do desvio padrão amostral tem diminuído a possibilidade de erro quando for usado para verificar a variabilidade dos dados. Para exemplificar a análise de variabilidade de dados, analisar-se-á 4 amostras de massas de alunos iniciantes em um curso de graduação. Os dados com as estaturas destes alunos, constam abaixo. Amostras com massas de alunos de graduação AMOSTRAS MASSAS (kg) Amostra 1 Amostra 2 Amostra 3 Amostra 4 62 63 42 38 58 63 55 46 70 63 65 85 65 63 78 90 60 63 75 56 Em ambas as amostras da tabela acima, a média das massas dos alunos é 63 kg. Entretanto, a dispersão observada não é a mesma. Para a amostra 1, o desvio padrão amostral é de 4,69 kg, a segunda amostra não possui variabilidade, na terceira o desvio padrão é de 14,82 e, para a quarta, este valor sobe para 23,32. Comparando os resultados dos desvios padrões calculados, se observa que, quanto maior for a dispersão dos dados, maior será o valor numérico do desvio padrão. Ressalta-se que o desvio padrão somente tem sentido enquanto informação se for comparado com a média. O que a Variância e o desvio padrão indicam? 16 A variância e o desvio padrão medem a dispersão “média” em torno da média aritmética, ou seja, como as observações maiores flutuam acima dela e as observações menores se distribuem abaixo dela. 7.4 Coeficiente de variação O coeficiente de variação dá uma idéia da precisão de um experimento ou da dispersão de um conjunto de dados. É definido como o quociente entre desvio padrão e a média, multiplicado por 100. Logo, o coeficiente de variação nada mais é do que o desvio padrão em porcentagem da média. S CV X 100% Organizando uma nova tabela, a partir da tabela anterior e agora incluindo a amplitude máxima, o desvio padrão e o coeficiente de variação, pode-se perceber que o desvio padrão realmente é um medidor da dispersão de um conjunto de dados numéricos. Dados das massas dos alunos do ensino médio AMOSTRA MASSAS (kg) AM (kg) S (kg) CV (%) Amostra 1 Amostra 2 Amostra 3 62 63 42 58 63 55 70 63 65 65 63 78 60 63 75 12 0 36 4,69 0 14,82 7,44% 0 23,52% Amostra 4 38 46 85 90 56 52 23,32 37,02% AM = Amplitude Máxima S = desvio padrão CV=Coeficiente de variação Um indicativo de grande variabilidade dos dados acontece quando o desvio padrão é maior que a média, o que faz com que o coeficiente de variação supere 100%. 17 PIMENTEL GOMES (1987, p. 24) afirma que “Tendo em vista os coeficientes de variação comumente obtidos nos experimentos de campo ...” pode-se considerar: CONDIÇÃO VARIABILIDADE Baixa INTERVALO se CV < 10% Média se 10%<CV <20%; Alta se 20%<CV <30%; Muito alta se CV >30%; O pesquisador pode, também, adotar como parâmetro de análise que um CV superior a 50%, possui grande variabilidade e, abaixo deste, baixa ou pequena variabilidade. Entretanto, não há consenso entre os autores, uma vez que depende muito do tipo de conjunto de dados ou experimento que se está estudando. No caso da amostra 1, constante da tabela acima, a variabilidade dos dados é baixa, e de forma subjetiva, um gráfico de dispersão permite ao pesquisador visualizar tal situação, conforme o Gráfico 1, onde a linha pontilhada representa a média do conjunto. GRÁFICO 1 – DISPERSÃO DAS MASSAS DOS ALUNOS – AMOSTRA 1 80 70 70 60 massas (kg) 65 62 60 58 50 40 30 20 10 0 0 1 2 3 4 5 6 alunos Amostra 1 Já no caso da amostra 2, onde todos os alunos possuem a mesma massa, não existe variabilidade, conforme mostra o Gráfico 2. 18 GRÁFICO 2 – DISPERSÃO DAS MASSAS DOS ALUNOS – AMOSTRA 2 70 63 massas (kg) 60 63 63 63 63 50 40 30 20 10 0 0 1 2 3 4 5 6 alunos Amostra 2 GRÁFICO 3 – DISPERSÃO DAS MASSAS DOS ALUNOS – AMOSTRA 3 90 80 78 massas (kg) 70 75 65 60 55 50 42 40 30 20 10 0 0 1 2 3 4 5 6 alunos Amostra 3 GRÁFICO 4 – DISPERSÃO DAS MASSAS DOS ALUNOS – AMOSTRA 4 100 90 massas (kg) 90 85 80 70 60 56 50 46 40 38 30 20 10 0 0 1 2 3 4 5 6 alunos Amostra 4 Os gráficos 1, 2, 3 e 4 indicam a variabilidade dos dados subjetivamente. Entretanto, o gráfico 4 é o que possui maior distanciamento dos dados da amostra, com respeito à média, simbolizada por uma linha pontilhada horizontal. 19 6.5 A planilha Excel para procedimentos de estatística descritiva O programa Excel do Windows é uma planilha que pode ser utilizada pelo pesquisador, pelo estudante, pelo gerente, enfim, por todos aqueles que queiram executar procedimentos de cálculo estatístico. Abordar-se neste item, algumas funções matemático-estatísticas que possibilita a obtenção de aplicações de praticamente, todas as ferramentas da estatística descritiva, tratadas neste capítulo. Uma vez que os dados foram inseridos na planilha de dados do Excel, uma das funções que poderá ser utilizada é a função , ou seja, a função Colar Função. Primeiramente, o pesquisador deve escolher uma célula, que uma selecionada será o local onde o programa fará a inserção da operação escolhida. A partir de um clik no ícone colar função, abre-se a janela Colar Função do programa. No lado esquerdo da janela, o pesquisador seleciona a opção Estatística no quadro Categoria da função, procedimento que exibe, automaticamente, no quadro à direita, diversas opções de operações estatísticas. Entre as opções, várias funções estatísticas poderão ser executas. Cita-se a média, a moda, o desvio padrão, a mediana, os quartis, entre outras. Uma vez feita a opção da função que o operador deseja executar, e clicando na opção Ok, o operador terá acionado a caixa de criação de fórmulas – Figura 3, que orienta sobre esta operação. Quando acionada a caixa de criação de fórmulas, o programa ainda não tem definido o conjunto de dados que deve proceder ao cálculo da função estatística escolhida. O pesquisador deve registrar o endereço das células com os dados a serem processados, bastando clicar no ícone da caixa de diálogo número 1. Depois deste procedimento, basta selecionar os argumentos (valores ou dados) que deseja proceder aos cálculos. Para retornar a caixa de criação de fórmulas, basta dar um clik no ícone ativo na barra de fórmulas, seguido da opção Ok, ou através da tecla enter do teclado para inserir o resultado da operação na célula selecionada. 20 FIGURA 3 – CAIXA DE CRIAÇÃO DE FÓRMULAS DO EXCEL Como exemplo de aplicação, o cálculo da média dos argumentos 1, 3, 5, 6, e 8, inseridos nas células B2 a B6 – Figura 3, gera o resultado: média 4,6. Para finalizar a operação, basta teclar enter no teclado ou clicar o ícone Ok, para a inserção do resultado na célula selecionada. Outros cálculos de estatística podem ser utilizados com operações similares ao cálculo da média descritos. O Excel também possui uma opção de cálculo macro para um grupo de argumentos, que realiza de uma só vez, várias operações estatísticas. Primeiramente, o Excel precisa ter acionada a opção análise de dados, que está disponível no ícone Ferramentas da barra de menu. Caso esta opção não esteja disponível, click em Ferramentas, seguido de Suplementos, selecionando a opção Análise de dados nesta janela – Figura 5. Executados estes procedimentos, o Excel exib, na opção Ferramentas da barra de menu, o comando Análise de dados. Para proceder aos cálculos da estatística descritiva através desta opção, insira o conjunto de dados em uma coluna de dados. Acione a opção Ferramentas seguido do comando Análise de dados. 21 FIGURA 5 – CAIXA DE DIÁLOGO SUPLEMENTOS Estes procedimentos abrem a janela Análise de dados – Figura 6 onde o pesquisador deve escolher a opção estatística descritiva. Clicando a opção Ok, o Excel abre a janela Estatística descritiva – Figura 7. Nesta janela, o pesquisador deve indicar no quadro Entrada desta janela, na caixa de diálogo Intervalo de entrada, em quais células se encontram os argumentos que deseja proceder aos cálculos da estatística descritiva. Escolhe também se os cálculos serão efetuados e inseridos em colunas ou linhas. Nas opções de saída desta janela, o pesquisador pode escolher a mesma área de trabalho do Excel, ou inserir tais resultados em uma nova planilha. Ainda pode acionar opções como o intervalo de confiança para a média em níveis de probabilidade, o resumo estatístico e os valores máximo e mínimo do conjunto, que já são previstos no resumo estatístico. A opção de estatística descritiva da planilha Excel permite ao pesquisador agilizar procedimentos de cálculo, com vistas à realização de análises. Quando se processa uma quantidade de argumentos reduzidos, como no exemplo em questão, não se pode mensurar a importância desta opção, enquanto ferramenta de análise e agilidade no processo. Entretanto, se os argumentos em estudo forem, por exemplo, da ordem de 300 ou 1000, o cálculo do desvio padrão por exemplo, já demandaria muito tempo para ser calculado manualmente ou com auxilio de uma calculadora comum. Portanto, o Excel permite a realização da estatística descritiva de forma ágil e rápida quando da realização de procedimentos estatísticos com vistas à realização de análises e inferência. 22 FIGURA 6 – CAIXA DE DIÁLOGO ANÁLISE DE DADOS Ao acionar a seqüência de comandos ao conjunto de dados 1, 3, 5, 6, e 8, o resultado gerado pelo programa é dado como na tabela a seguir. FUNÇÃO ESTATÍSTICA Média Erro padrão Mediana Moda Desvio padrão Variância da amostra Curtose Assimetria Intervalo Mínimo Máximo Soma Contagem Maior(1) Menor(1) Nível de confiança (95,0%) RESUMO ESTATÍSTICO 4,6 1,208304597 5 #N/D 2,701851217 7,3 -0,681178457 -0,182523257 7 1 8 23 5 8 1 3,354798334 #N/D: notação do Excel que, neste caso, significa não existir o valor modal. 23 Note-se que a partir do resumo estatístico da tabela anterior, o pesquisador poderá realizar a análise dos resultados sobre: relações, variabilidades, médias quartis, entre outros, com vistas à interpretação e inferência. EXERCÍCIO PROPOSTO 01 – Em um estudo que investiga as causas de morte entre pessoas com asma severa, os dados foram registrados para dez pacientes que chegaram ao hospital em estado de parada respiratória e inconscientes. A Tabela 1 lista os batimentos cardíacos para estes pacientes na internação do hospital. Como podemos caracterizar esse conjunto de observações? Tabela 1: Batimentos cardíacos para dez pacientes asmáticos em estado de parada respiratória Paciente 1 2 3 4 5 6 7 8 9 10 Batimento Cardíaco (min.) 167 150 125 120 150 150 40 136 120 150 a) Calcule a média. O que aconteceria com a média se o batimento do paciente 7 fosse removido do grupo? Há influência de uma simples observação não usual sobre a média? b) Calcule as medidas de tendência central (mediana, quartis) para todos os pacientes observados. c) Calcule as medidas de dispersão (desvio padrão, variância, coeficiente de variação). 24 REFERÊNCIAS MUCELIN, C. A. Estatística elementar e experimental aplicada às tecnologias. Medianeira, PR, 2003. VIEIRA, S. Elementos de estatística. 3.ed. São Paulo: Atlas, 1999. STEVENSON; William J. Estatística Aplicada à Administração. Tradução da 2º edição norte-americana. São Paulo:Harbra, 2001. 25