ESTATÍSTICA / DEFINIÇÃO A Estatística é uma parte da Matemática Aplicada que fornece métodos para coleta, organização, descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões. A utilização de técnicas, destinadas à análise de situações complexas ou não, tem aumentado e faz parte do nosso cotidiano. Tome-se, por exemplo, as transmissões esportivas. Em um jogo de futebol, o número de escanteios, o número de faltas cometidas e o tempo de posse de bola são dados fornecidos ao telespectador e fazem com que a conclusão sobre qual time foi melhor em campo se torne objetiva (não que isso implique que tenha sido o vencedor). Com isso e atualmente, a estatística desempenha um papel que se encontra em ascendência constante e importante em quase todas as fases da pesquisa humana, haja vista a necessidade de se possuir referenciais quantitativos (dados) para avaliação e tomadas de decisões mais precisas acerca de determinadas situações quando submetidas em um determinado contexto. A influência da estatística estende-se neste momento às mais diversas áreas do conhecimento, tais como Biologia, Economia, Administração, Agricultura, Medicina, Ciências Políticas, Psicologia, Sociologia, Comunicação e outros inúmeros campos da ciência e engenharia. ÁREAS DA ESTATÍSTICA possível fazer “inferências” ou generalizações acerca de uma população no qual os dados foram extraídos. Pode-se dizer que a probabilidade e a estatística têm objetivos diferentes, embora ambos conceitos tendem a complementar-se entre si: enquanto nas probabilidades se parte de um dado esquema ou modelo para calcular as possibilidades de certos resultados ou acontecimentos, na estatística parte-se de dados ou observações e procura-se o conhecimento de algo sobre o modelo (OLIVEIRA E MURTERA, 1990). POPULAÇÃO X AMOSTRA POPULAÇÃO OU UNIVERSO ESTATÍSTICO Conjunto de indivíduos ou objetos agrupados que apresentam uma característica em comum. Cada elemento da população estudada é denominado unidade estatística. POPULAÇÃO ESTATÍSTICA UNIDADE ESTATÍSTICA 11 jogadores pertencentes a um time de futebol. Cada jogador que faz parte desse time. 20 clubes participantes do campeonato brasileiro de futebol. Cada clube participante desse campeonato. Em geral, podemos dividir a Estatística em três áreas: Estatística Descritiva, Probabilidade e Inferência Estatística. Estatística Descritiva: pode ser definida como um conjunto de técnicas destinadas a descrever e resumir dados, a fim de que possamos tirar conclusões a respeito de características de interesse. Em geral utilizamos a Estatística Descritiva na etapa inicial da análise quando tomamos contato com os dados pela primeira vez. A finalidade da Estatística Descritiva é tornar as coisas mais fáceis de entender, de relatar e discutir, através de técnicas que visam simplificar uma grande massa de dados, transformando-os em informações valiosas para, depois, extrairmos conhecimentos sobre as mesmas. Para que as inferências se apresentem corretas, é necessário garantir que a amostra seja representativa da população, isto é, a amostra deve possuir as mesmas características básicas da população, no que diz respeito ao fenômeno que desejamos pesquisar. É preciso, pois, que a amostra ou as amostras que vão ser usadas sejam obtidas por processos de coletagem estatísticos adequados. Probabilidade: pode ser pensada como a teoria matemática utilizada para estudar a incerteza oriunda de fenômenos que envolvem os acontecimentos aleatórios. Jogos de dados e de cartas, ou o lançamento de uma moeda para o ar enquadram-se na categoria da aleatoriedade dos acontecimentos. Como exemplo, a maioria dos jogos esportivos é influenciada pela aleatoriedade até certo ponto. Inferência estatística: pode ser definida como método científico de tirar conclusões sobre os parâmetros da população a partir do recolhimento, tratamento e análise dos dados de uma amostra, recolhida dessa população. Possui como objetivo a construção e desenvolvimento de métodos que permitem a extensão do particular para o geral (chamada inferência indutiva), a partir de um conjunto de dados, tornando assim AMOSTRA Amostra é um subconjunto finito de uma população retirado para a análise, dado um universo de unidades e a consequente impossibilidade momentânea de analisá-los um por um em sua completude. Num problema de inferência estatística, OU se admite que a distribuição da população possui uma forma matematicamente reconhecida, embora contendo um ou mais parâmetros desconhecidos; OU se pretende conhecer a forma da distribuição. Ao primeiro caso, denomina-se estatística paramétrica; e ao segundo, estatística não paramétrica. FASES DO TRABALHO ESTATÍSTICO convenientes para fazermos uma análise dos resultados obtidos, através dos métodos da Estatística Indutiva ou Inferencial, e tirarmos desses resultados conclusões e previsões. 5ª) Conclusão: é de responsabilidade de um especialista no assunto que está sendo pesquisado, que não é necessariamente um estatístico, relatar as conclusões de maneira que sejam facilmente entendidas por quem as for usar na tomada de decisões. VARIÁVEL 1ª) Coleta: primeira fase do ciclo de tratamento logo após a definição do problema que se queira pesquisar. A coleta pode ser direta ou indireta. A coleta é direta quando feita sobre elementos informativos de registro obrigatório (nascimentos, casamentos e óbitos, importação e exportação de mercadorias), elementos pertinentes aos prontuários dos alunos de uma escola ou, ainda, quando os dados são coletados pelo próprio pesquisador através de inquéritos e questionários. A coleta direta de dados pode ser classificada relativamente ao fator tempo em contínua (quando feita sequencialmente, tal como a de nascimentos e óbitos, bem como e a de frequência dos alunos às aulas); periódica (quando feita em intervalos constantes de tempo, como os censos e as avaliações mensais dos alunos); ou ocasional (quando feita extemporaneamente, a fim de atender a uma conjuntura ou a uma emergência, como no caso de epidemias que assolam ou dizimam rebanhos inteiros). A coleta se diz indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do conhecimento de outros fenômenos relacionados com o fenômeno estudado. Como por exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que é feita através de dados colhidos por uma coleta direta. Obtidos os dados, eles devem ser cuidadosamente criticados, à procura de possíveis falhas e imperfeições, a fim de não incorrermos em erros grosseiros ou certo vulto, que possam influir sensivelmente nos resultados. A crítica é externa quando visa às causas dos erros por parte do informante, por distração ou má interpretação das perguntas que lhe foram feitas; è interna quando visa observar os elementos originais dos dados da coleta. 2ª) Tratamento dos dados: nada mais é do que a soma e o processamento dos dados obtidos e a disposição mediante critérios de classificação Pode ser manual ou eletrônica. 3ª) Apresentação dos dados: por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados sob forma adequada – tabelas e gráficos – tornando mais fácil o exame daquilo que está sendo objeto de tratamento estatístico. 4ª) Análise dos resultados: após a apresentação dos dados devemos calcular as medidas típicas VARIÁVEL QUALITATIVA QUANTITATIVA DISCRETA OU CONTÍNUA Podemos afirmar que o conceito de variável, convencionalmente, é o conjunto de resultados possíveis de um determinado fenômeno. QUALITATIVA: valores expressos por atributos (qualidade) >> Exemplos: Grau de instrução, sexo, estado civil etc. São variáveis qualitativas nominais: Turma (A ou B), sexo (F ou M), cor dos olhos, campo de estudo etc. São variáveis qualitativas ordinais: Tamanho (pequeno, médio ou grande), Classe social (baixa, média ou alta) etc. QUANTITATIVA: valores expressos em números >> Exemplos: números de filhos, salário, idade, estaturas, peso etc. Variável Quantitativa Classificação dicotômica: 1) Discreta: valores formam um conjunto finito ou enumerável de números, e que resultam, frequentemente, de uma contagem, como por exemplo, número de clientes na fila de um banco (0,1,2,3,...). 2) Contínua: possíveis valores que pertencem a um intervalo de números reais e que resultam de uma mensuração, como por exemplo: alturas, quilos, diâmetros, quilogramas, metros etc. *** constante Se a variável assumir um único valor ao longo de um contexto. Produto Faturamento Chá mate Chá verde Chá camomila Chá preto Chá erva cidreira 18,46 1,60 12,45 20,13 2,50 Fonte: dados fictícios 2) Séries Heterógradas séries nas quais o fenômeno ou fato apresenta gradações ou subdivisões. Embora fixo, o fenômeno varia em intensidade. A distribuição de frequências é uma série heterógrada. SÉRIES ESTATÍSTICAS Basicamente, é a apresentação (organização) das informações de determinado fenômeno em forma de tabelas (ou gráficos) em função da época, do local ou da espécie. As referidas séries podem ser divididas em dois tipos: Uma distribuição de frequência é uma tabela onde constam os possíveis valores para uma variável. Se os dados estiverem dispostos de forma aleatória, sem prévia organização, dizemos que a tabela é primitiva; a tabela obtida após a organização dos dados em ordem crescente ou decrescente é chamada de ROL. 1) Séries Homógradas Aplicadas no casos em que a variável aleatória apresenta variação discreta ou descontínua. As Séries Temporais, as Geográficas e as Especificativas formam as precípuas Séries Homógradas. Série Temporal A variável de interesse refere-se a um período de tempo. Faturamento mensal (R$ 1000000) Empresa XY – ano 2012 Mês Janeiro Fevereiro Março Abril Maio Junho Julho Faturamento 0,96 1,12 1,04 0,98 1,29 6,32 10,50 Fonte: dados fictícios Série Geográfica a variável estudada é o local. Faturamento mensal (R$ 1000000) Empresa XY – ano 2012 REGIÃO Cuiabá Porto Alegre São Paulo Paraná Tocantins Faturamento 0,96 10,20 12,45 0,98 0,50 Fonte: dados fictícios Série Específica Aqui a variável estudada é a espécie do fenômeno em estudo. Faturamento mensal (R$ 1000000) Empresa XY – ano 2012 Fonte: dados fictícios Nas próximas aulas, esse assunto será mais bem explorado. EXERCÍCIOS DE APLICAÇÃO 1- Classifique cada uma das variáveis abaixo em qualitativa (nominal / ordinal) ou quantitativa (discreta / contínua): a) Ocorrência de hipertensão pré-natal em grávidas com mais de 35 anos (sim ou não são possíveis respostas para essa variável) b) Intenção de voto para presidente (possíveis respostas são os nomes dos candidatos, além de não sei). c) Perda de peso de maratonistas na Corrida de São Silvestre, em quilos. d) Intensidade da perda de peso de maratonistas na Corrida de São Silvestre (leve,moderada, forte). e) Grau de satisfação da população brasileira com relação ao trabalho de seu presidente (valores de 0 a 5, com 0 indicando totalmente insatisfeito e 5 totalmente satisfeito). f) Cor dos cabelos dos alunos de uma escola. g) Precipitação pluviométrica, durante um ano em uma estação meteorológica de Vitória. h) Raça dos alunos de uma certa escola. i) Número de ações negociadas na bolsa de valores de São Paulo. j) k) l) m) n) o) p) q) Número de filhos de casais residentes em Vila Velha. Salário dos funcionários de uma empresa. Diâmetro externo de peças produzidas por certa maquina. Número de peças produzidas por hora por certa máquina. Índice de liquidez das indústrias de Cariacica. Pontos obtidos em cada jogada de um dado. Sexo dos filhos dos casais residentes em Viana. Número de exemplares dos livros da biblioteca da Univila. 2- Ao nascer, os bebês são pesados e medidos, para saber se estão dentro das tabelas de peso e altura esperados. Estas duas variáveis são: a) Qualitativas b) Ambas discretas c) ambas contínuas d) contínua e discreta, respectivamente. e) discreta e contínua, respectivamente. 3 - Para as situações descritas a seguir, identifique a população e a amostra correspondente. Discuta a validade do processo de inferência estatística para cada um dos casos. a) Para avaliar a eficácia de uma campanha de vacinação no Estado de São Paulo, 200 mães de recém-nascidos, durante o primeiro semestre de um dado ano e em uma dada maternidade em São Paulo, foram perguntadas a respeito da última vez em que vacinaram seus filhos. b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. c) Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados por telefone com relação ao canal em que estavam sintonizados. d) A fim de avaliar a intenção de voto para presidente dos brasileiros. 122 pessoas foram entrevistadas em Brasília.