AMOSTRAGEM EM PESQUISA DE MERCADO - Porque Persistir No Mesmo Erro Quando Há Tantos Novos Erros A Cometer? A prática de amostragem em pesquisa de mercado em geral atenta contra a criatividade que, presume-se, deve estar presente nos trabalhos em Marketing. É comum que as informações sobre o plano amostral de uma pesquisa se resumam a uma referência acerca do caráter aleatório da escolha das unidades de informação e à apresentação , sem maiores justificativas, da fórmula que foi utilizada para definir o número de unidade pesquisadas. Um procedimento muito difundido em Marketing para o cálculo do tamanho de uma amostra, mesmo não se conhecendo a variância da população, constitui-se de duas etapas. Primeiro usa-se uma amostra piloto para estimar a variância da população e em seguida se utiliza essa estimativa para no cálculo do número de unidades de informação a serem pesquisadas. Nessa prática, em geral, utiliza-se a formula seguinte para o cálculo do número de elementos da amostra n= z 2 α / 2σ 2 e2 (1) onde: e é o erro amostral máximo admitido α é o nível de significância Zα/2 é o valor correspondente ao nível de significância α/2 em uma distribuição normal padrão σ2 é a variância da população o cálculo da variância amostral é feito através de s 2 ∑( x − x) = n −1 2 (2) onde x é a média e s o desvio padrão da amostra Os erros subjacentes ao uso da formula (1), na forma descrita anteriormente, não são difíceis de compreender, mas precisa-se de um certo conhecimento de teoria estatística para que se possa apreende-los completamente . Felizmente esse conhecimento não precisa estar em um nível muito além daquele que se obtém em um MBA e talvez seja possível perceber-se a fonte e a natureza desses erros, e assim corrigir uma prática errada, mesmo quando não se tem muita simpatia pela formalização matemática. 2 Neste trabalho busca-se inicialmente caracterizar o erro cometido ao se praticar uma amostragem de duas etapas, utilizando-se uma amostra piloto para estimativa da variância populacional através de (2) e usando-se (1) para o cálculo do número de unidades de informação a serem pesquisadas. Procura-se mostrar no tópico 1 que esse erro é de certa forma uma continuação do que se praticava no início deste século, antes que se difundisse a solução que William Gosset , sob o pseudônimo de Student, deu para o problema de construção de intervalos de confiança para uma média populacional quando não é conhecida a variância de uma população que se supõe distribuir-se normalmente. Infelizmente a solução de Gosset apesar de extraordinariamente frutífera não resolve o problema de determinar o tamanho de uma amostra necessário para a estimação da média de uma população normal com variância desconhecida, mas oferece, como se verá, a base para uma solução desse problema apresentada por Charles Stein, em 1945, e que é objeto de análise no tópico 2. No tópico 3 mostra-se uma alternativa apresentada, em 1987, por Ronald Shiffler e Arthur Adams, no Journal of Marketing Research, buscando corrigir o viés existente quando se obtém uma amostra piloto para estimar a variância populacional através de (2) e utiliza-se (1) para determinar o tamanho da amostra, como já indicado. . No tópico 4 faz-se uma avaliação dos resultados obtidos por Stein e por Shiffler e Adams e indica-se, a título de sugestão, em que situação o uso de uma ou da outra solução pode minorar os erros cometidos com o uso indevido da fórmula (1). . 1- A Solução de Gosset. Uma forma fácil de identificar o problema existente com o uso da formula (1) em uma amostragem de duas etapas é escrever a fórmula para um intervalo de confiança, da média de uma distribuição Normal, quando não se conhece a variância populacional, com um nível de significância α, que é: s s ≤ µ ≤ x + tα / 2 x − tα / 2 n n (3) onde: x é a média amostral µ é média da população s é o desvio padrão da amostra t α /2 é o valor correspondente ao nível de significância α/2 em uma distribuição t de Student com n-1 graus de liberdade A partir de (3), fixando-se o erro amostral máximo admitido chega-se a n= tα / 2 s 2 e2 (4) que é a fórmula correta para calcular-se o número de elementos de uma amostra quando não se conhece a variância populacional. 2 3 Mas, de onde provêm (3) e (4) ? A resposta para esta pergunta leva necessariamente à distribuição t de Student . Saber um pouco sobre os problemas que levaram ao desenvolvimento dessa distribuição, bem como sobre que tipo de solução ela ofereceu a esses problemas, permite compreender com clareza que o tipo de erro que se comete ao utilizar (1) em lugar de (4) é do mesmo tipo do que se cometia até o aparecimento da distribuição t de Student, no início deste século. Por essa razão esboça-se a seguir o contexto em que a distribuição t de Student foi desenvolvida, antes de apresenta-la formalmente. Na virada para o nosso século, a conhecida cervejaria Guinnes contratou o químico William Gosset para trabalhar no controle do processo de fabricação de cerveja . Gosset começou aplicando a distribuição Normal de probabilidade no seu trabalho de pesquisa, havendo escrito em 1904 um relatório para a Guinnes que intitulou “The Application of the Law of Error to Work of Brewery”, onde enfatizava a importância do uso dos modelos probabilísticos para a pesquisa que desenvolvia. Nesse trabalho Gosset já identificara as dificuldades surgidas na utilização da “Lei do Erro’’ em amostras pequenas, e sugeria a necessidade de contratar a consultoria de um matemático para tentar resolver o problema. Gosset foi então posto em contato com o famoso estatístico Karl Pearson, que há época já havia desenvolvido as idéias que o levaram à que hoje conhecemos como distribuição do Qui-Quadrado. Pearson, que então chefiava o laboratório de Biometria da University College , em Londres e, como a grande maioria dos estatísticos da época, estava interessado tanto pratica quanto teoricamente em grandes amostras. A despeito disso, Gosset levou seu interesse adiante e publicou na revista Biometrica, em 1908, seu famoso artigo “The Probable Error of a Mean” onde apresentou a distribuição t de Student. Um dado curioso é que a Guinnes para proteger o sigilo de suas pesquisas proibia seus pesquisadores de se identificarem nas publicações externas o que obrigou Gosset a, com extrema modéstia , a usar o pseudônimo “Student”, daí ser a distribuição por ele proposta ser hoje conhecida como t de Student. ( Boland, 1984, 180) A solução que Gosset encontrou para o problema de obter estimativas a partir de pequenas amostras, quando não se conhece a variância de uma população distribuída Normalmente, a despeito de não haver sido muito difundida à sua época, é hoje considerado um resultado básico da Estatística. Em resumo, a argumentação e o desenvolvimento apresentados por Gosset foram os seguintes: é conhecido que o intervalo de confiança para uma média de uma população normal com variância conhecida é dado, a um nível de significância α, por [ x − zα / 2 σ n ≤ µ ≤ x + zα / 2 σ n ] (5) Mesmo se a variância não for conhecida, se o número de elementos da amostra for grande este intervalo pode ser estabelecido utilizando-se (2) para estimar a variância da população. Há muitas situações, entretanto, em que somente é possível obter-se um pequeno número de amostras. Qual seria então, nessa situação, o intervalo de confiança para a média de uma população quando a variância é desconhecida? 3 4 Uma forma equivalente de por a questão é buscar-se definir uma fronteira entre pequena e grande amostra e então obter uma distribuição de probabilidades que permita a construção dos intervalos de confiança desejados, tal como Gosset (1908). “...although is well known that the method of using the normal curve is only trustworthy when the sample is “large” no one has yet told us very clearly where the limit between large and smal sample is to be draw. The aim of this paper is to determine the point at which we may use the tables of the probability integral in judging of the significance of the mean of a series of experiments, and to furnish alternative tables for use when the number of experiments is too few” Gosset mostrou que s 2 (n-1)/n se distribuía segundo uma curva de Pearson do tipo III, o que é equivalente a dizer-se em linguagem moderna que (n − 1) s 2 / σ 2 se distribui segundo uma Qui-Quadrado com n-1 graus de liberdade. Alem do que, concluiu corretamente, embora através de um raciocínio incorreto, que a média da amostra e sua variância eram independentes. Encontrou então que a distribuição de t= x−µ s/ n (7) era da forma g( t ) = c(1 + t ) −n/2 (8) Gosset construiu tabelas para g(t) e a partir de então tornou-se possível construir intervalos de confiança para a média de uma população Normal com variância desconhecida, quando se possue somente uma amostra pequena, simplesmente obtendo o valor apropriado de t na tabela t de Student e substituindo esse valor em (5). Um ponto a notar é que diferentemente da distribuição Normal a distribuição t de Student depende do tamanho da amostra. Assim, são necessárias tábuas para cada valor de n. Note-se também que quando n tende para infinito a distribuição t de Student tende para uma Normal Padrão. Em termos práticos quando n>30 a aproximação já é bastante boa, como se pode ver confrontando os valores de tabelas das distribuições Normal e de Student. Pode parecer a uma primeira vista que o fato de Gosset ter resolvido o problema da construção dos de intervalos de confiança para a média de uma distribuição Normal com variância desconhecida, resolvia também o problema de determinar o tamanho da amostra necessário para obter esses intervalos de confiança. Infelizmente não é assim, pois em (4) o valor de t depende de n . E esse é exatamente o problema: para se calcular t é preciso saber-se o valor de n , mas esse por sua vez depende de t. O problema a uma primeira vista parece insolúvel, mas em 1945 Stein apresentou uma solução engenhosa e é dessa solução que trata o tópico seguinte. 2- A Solução de Stein 4 5 Com o desenvolvimento da distribuição t de Student, a fórmula correta para o cálculo do número de elementos de uma amostra, quando não se conhece a variância da população é claramente (4), onde o valor t substitui o valor z da fórmula (1). O problema com (4), conforme já indicado, é que para se conhecer n precisa-se de t, mas para ter-se t é necessário determinar seus graus de liberdade, e portanto n, o que leva a um círculo vicioso. A solução proposta por Stein (1945) também baseia-se em duas amostras. Uma amostra piloto de tamanho m na qual se calcula s, uma estimativa para a variância populacional e uma segunda amostra de tamanho n, onde n é uma função de s. A solução de Stein(1945) evita o círculo vicioso que aparece ao se tentar utilizar (4) diretamente. A despeito de sua importância, trata-se de uma solução extremamente simples, como se verá em seguida. Seja X uma variável aleatória normalmente distribuída com media µ e desvio padrão σ . Se m+n é o tamanho de uma amostra aleatória simples obtida de X X −µ então se distribui segundo uma Normal Padrão. Tal como visto no tópico σ / n+m se distribui segundo uma Qui-Quadrado com m-1 graus anterior) ( m − 1) s 2 / σ 2 X −µ se distribui segundo de liberdade. Também como foi visto anteriormente S / n+m uma t de Student com n-1 graus de liberdade o que permite que se construa o seguinte intervalo de confiança: t n −1α / 2 t n −1α / 2 ≤µ≤x− x − m+n m+n (9) De onde se obtém t 2 n =1α / 2 s 2 n= -m c2 (10) Suponha-se que se deseje estimar a média de X, com erro amostral máximo de c um nível de significância de no mínimo α. Pode acontecer que o erro obtido na amostra piloto já seja igual ou inferior ao pretendido. Nesse caso não seria necessário aumentar a amostra e n seria igual a zero. Assim o processo se reduziria a retirar uma amostra de tamanho m ( m arbitrado). Em resumo, o número de elementos da amostra é segundo Stein: n= t 2 n =1α / 2 s 2 -m c2 n=0 t 2 n −1α / 2 s 2 (11) c2 t 2 n −1α / 2 s 2 se m ≥ (12) c2 se m < 3- A Correção Proposta por Shiffler e Adams 5 6 A despeito da solução de Stein , o uso da fórmula (1) tornou-se uma constante na prática da pesquisa em Marketing. Shifller e Adams (1987, 319) chamam a atenção para o fato de que usar-se s como estimativa da variância da população na equação (1) torna n uma variável aleatória e afirmam que “litlle atention has been paid in Marketing or statistical literature to the randon nature of n and its implications” A contribuição de Shifller e Adams reside em, reconhecendo o caráter aleatório de n em (1), quando se usa a variância da amostra como estimativa da variância populacional, encontrar sua distribuição de probabilidade e o momento de ordem geral e medir sua assimetria, o que lhes permitiu construir uma tabela de fatores que compensam essa assimetria. A contribuição de Shifller e Adams (1987) pode ser resumida como segue: z 2 α / 2σ 2 n= e2 Seja tal como em (1) Se a variância da população é desconhecida e for estimada pela variância da amostra então n$ = zα s 2 c2 (13) é uma variável aleatória pois s é uma variável aleatória. n$ pode ser escrita na forma n$ = kx onde k = n / m-1 x= e (m − 1) sm2 σ2 Tal como foi visto no tópico 1, x tem distribuição Qui-Quadrado com m-1 graus de liberdade. Da função de distribuição de probabilidade encontrada momento de ordem geral e daí E (n$) = n (15) 2n 2 e Var (n$) = m−1 (16) para n$ , obteve-se seu 6 7 De onde se conclui que n é um estimador não viesado de n$ , independente do tamanho da amostra piloto, e a variância de n$ é definida para valores de m maiores do que 1, decrescendo quando cresce o tamanho da amostra piloto A assimetria da distribuição medida por η= E ( n$ − n) 3 3 2 3 2 = 2 (m − 1) −1 2 (17) {var(n$)} é positiva para valores de m maiores do que 2, decrescendo monotonicamente quando m cresce, tendo portanto um valor máximo de 2,83 no ponto m=2. Essa assimetria positiva indica uma preponderância de valores de n no lado esquerdo da distribuição de probabilidade. Isso implica que o pesquisador tem uma probabilidade maior de subestimar do que superestimar o verdadeiro valor de n. Porque a assimetria é monotonicamente decrescente esse problema é maior quanto menor for a amostra piloto. Para minorar essa dificuldade Shiffler e Adams sugerem o uso de um fator de correção que iguale as probabilidades de sub e super-estimação. Esse fatores são apresentados na tabela seguinte, para diversos valores de m: Tabela 1 Probabilidade de subestimar n e fatores de correção amostra piloto (m) 3 4 5 6 8 10 12 15 20 40 60 p( n$ ≤ n) .632 .608 .594 .584 .571 .563 .557 .550 .543 .530 .525 fator de correção 1.443 1.267 1.192 1.149 1.089 1.071 1.064 1.049 1.036 1.017 1.011 4-Avaliação , Sugestões e Conclusão A solução encontrada por Stein para o cálculo do tamanho de uma amostra, quando não se conhece a variância da população permite que se resolva o círculo vicioso que surge quando se tenta utilizar a fórmula (3), a que seria correta nessa situação, mas cria algumas dificuldades. Uma delas decorre de desprezar uma parte da informação obtida na segunda amostra, haja vista que o cálculo de n depende da variância obtida na amostra piloto, perdendo-se a estimativa da variância populacional que poderia ser obtida em uma amostra maior, que inclui a amostra piloto, o que pode fazer com que, como indicou Scheffé(1959 , 65), “some practically oriented people 7 8 would hesitate to apply the Stein’s theory because only the information about or from the first stage is utilized (the second stage might indicate a very different value).” Outro problema com a solução de Stein é que ele não oferece qualquer indicação para a determinação do tamanho da amostra piloto, de modo que , conforme ponderou Wilcox (1984, 35) “... an important practical point is that many of the procedures always include the possibility of not requiring additional observations in the second stage” de modo que a solução pelo menos teoricamente pode se tornar anti-econômica por levar a uma amostra de tamanho superestimado, tal como muitas vezes acontece quando se usa (1). Para evitar que a determinação do tamanho da amostra piloto fique completamente ao arbítrio do pesquisador pode-se utilizar de alguns procedimentos, tal como o desenvolvido por Seelbinder(1953), que propõe que m seja obtido de modo a minimizar o valor esperado do tamanho da amostra total. O problema em utilizar as tábuas desenvolvidas por Seelbinder é que para tal torna-se necessário ter-se informação sobre a variância populacional (Adams e Shiffler , 1989, 242) e assim, de certa forma, retorna-se ao problema inicial de obter-se uma estimativa para fora da amostra . Também na solução proposta por Shiffler e Adams (1987) deve-se identificar alguns pontos dos quais o pesquisador deve ficar consciente antes de decidirse por sua utilização. Do ponto de vista teórico há o problema de que ao tornar-se n, o tamanho da amostra, uma variável aleatória também variável aleatória torna-se a precisão do intervalo de confiança estimado , ao invés de um quantidade exata , tal como ocorre quando esse intervalo é construído segundo o método de Stein. Além do mais, como notou Gillett (1989,239), o tamanho da amostra não é um fim em si mesmo, de modo que a probabilidade de subestimar n pode não ser um problema sério desde que se garanta a precisão do intervalo de confiança. Do ponto de vista prático, deve-se notar que somente no caso em que são retiradas amostras muito pequenas, por exemplo m=5, o fator de correção pode expandir muito o tamanho da segunda amostra. Se, por, exemplo o valor de n calculado através de (2) for igual a 300, usando-se o fator de correção proposto n cresce para 358. Mas se no mesmo exemplo a amostra piloto tivesse sido de tamanho m=40 então n seria igual a 306. Para valores de m maiores ou iguais do que 60 o fator de correção torna-se irrelevante. As limitações apontadas nas soluções propostas por Stein (!945) e Shiffler e Adams (1987) de nenhum m modo pode justificar o uso da fórmula (1) quando não se conhece a variância da população. A despeito das dificuldades quanto à escolha do tamanho da amostra piloto, o método de Stein é fortemente recomendado quando se deseja obter um intervalo de confiança cuja precisão seja uma quantidade determinada e com um garantido nível de precisão, mesmo que a obtenção desse objetivo custe a perda de informação. Além do mais, a experiência de um pesquisador pode ser um bom guia para evitar os efeitos decorrentes do super dimensionamento da amostra piloto. A solução de Shiffler e Adams , não possui o mesmo grau de fundamentação teórica da proposta por Stein, mas pode ser usada em situações em que se pretenda simplesmente diminuir a probabilidade de subestimar o tamanho de n ou em uma situação em que o pesquisador não se disponha a desfazer-se de informação amostral . De todo modo, este estudo deixa claro que o erro cometido ao se utilizar a fórmula (2) para cálculo do número de elementos de uma amostra , quando não se conhece a variância da população e utiliza-se uma amostra pequena para estima-la, é semelhante àquele que se cometia 8 9 quando a distribuição t de Student ainda não havia sido desenvolvida por Gosset, de modo que não há porque continuar a comete-lo. Se o Marketing se pretende uma disciplina que combina arte e ciência, então em sua parte científica deve buscar o mesmo padrão de qualidade que é reconhecido existir em sua parte mais criativa. É certo que as duas soluções propostas apresentam limitações substantivas que, em muitos casos, tanto do ponto de vista prático quanto do teórico, devem ser muito bem avaliadas, antes de serem utilizadas. De todo modo, cabe ao pesquisador explicitar as limitações das opções feitas e tentar aproximar-se das soluções ideais o quanto mais lhe seja possível no atual estado das artes da Disciplina . Afinal, por que insistir sempre no mesmo erro quando há tantos novos erros a cometer? Referências Bibliográficas Adams A . J. e Shiffler R. E. “ Commentary on Biasing Effects of Pilot Samples and Gillet’s Observations on The Stein Confidence Interval” Journal of Marketing Research 26 (May) 241-243 Gillet, Raphael (1989) “Confidence Interval Construction by Stein’s Method: A Practical and Economic Method Approach to Sample Size Determination” Journal of Marketing Research, 26, (May) 237-40 Scheffé, Henry (1959) The Analysis of Variance. New York, John Wiley &Sons Inc. Seelbinder B.M.(1953) “On Stein’s Mathematical Statistics, 24., 640-9 Two Stage Sampling Scheme” Annals of Shiffler R.E. e Adams A .J. (1987) “A Correction for Biasing Effects of Pilot Sample Size on Sample Size Determination” Journal of Marketing Research , 24 (August) 31921 Stein Charles (1945) “A Two Sample Test for a Linear Hypothesis Whose Power is Independent of the Variance”. Annals of Mathematical Statistcs, 16, 243-258 Student (1908) “The Probable Error of a Mean”. Biometrica, 6, 1-25 Wilcox, R. R. (1948) “A Review of Exact Hypothesis Testing Procedures ( and Selection Thecnicques ) That Control Power Regardless of the Variance “ British Journal of Mathematical and Statistical Psychology” 37, 34-48. 9