A ideia básica do paper: mostrar uma prática de marketing

Propaganda
AMOSTRAGEM EM PESQUISA DE MERCADO - Porque Persistir
No Mesmo Erro Quando Há Tantos Novos Erros
A Cometer?
A prática de amostragem em pesquisa de mercado em geral atenta contra
a criatividade que, presume-se, deve estar presente nos trabalhos em Marketing. É
comum que as informações sobre o plano amostral de uma pesquisa se resumam a
uma referência acerca do caráter aleatório da escolha das unidades de informação e à
apresentação , sem maiores justificativas, da fórmula que foi utilizada para definir o
número de unidade pesquisadas.
Um procedimento muito difundido em Marketing para o cálculo do
tamanho de uma amostra, mesmo não se conhecendo a variância da população,
constitui-se de duas etapas. Primeiro usa-se uma amostra piloto para estimar a variância
da população e em seguida se utiliza essa estimativa para no cálculo do número de
unidades de informação a serem pesquisadas. Nessa prática, em geral, utiliza-se a
formula seguinte para o cálculo do número de elementos da amostra
n=
z 2 α / 2σ 2
e2
(1)
onde:
e é o erro amostral máximo admitido
α é o nível de significância
Zα/2 é o valor correspondente ao nível de significância α/2 em uma distribuição
normal padrão
σ2 é a variância da população
o cálculo da variância amostral é feito através de
s
2
∑( x − x)
=
n −1
2
(2)
onde x é a média e s o desvio padrão da amostra
Os erros subjacentes ao uso da formula (1), na forma descrita
anteriormente,
não são difíceis de compreender, mas precisa-se de um certo
conhecimento de teoria estatística para que se possa apreende-los completamente .
Felizmente esse conhecimento não precisa estar em um nível muito além daquele que
se obtém em um MBA e talvez seja possível perceber-se a fonte e a natureza desses
erros, e assim corrigir uma prática errada, mesmo quando não se tem muita simpatia
pela formalização matemática.
2
Neste trabalho busca-se inicialmente caracterizar o erro cometido ao se
praticar uma amostragem de duas etapas, utilizando-se uma amostra piloto para
estimativa da variância populacional através de (2) e usando-se (1) para o cálculo do
número de unidades de informação a serem pesquisadas. Procura-se mostrar no tópico
1 que esse erro é de certa forma uma continuação do que se praticava no início deste
século, antes que se difundisse a solução que William Gosset , sob o pseudônimo de
Student, deu para o problema de construção de intervalos de confiança para uma média
populacional quando não é conhecida a variância de uma população que se supõe
distribuir-se normalmente.
Infelizmente a solução de Gosset
apesar de
extraordinariamente frutífera não resolve o problema de determinar o tamanho de uma
amostra necessário para a estimação da média de uma população normal com variância
desconhecida, mas oferece, como se verá, a base para uma solução desse problema
apresentada por Charles Stein, em 1945, e que é objeto de análise no tópico 2. No
tópico 3 mostra-se uma alternativa apresentada, em 1987, por Ronald Shiffler e Arthur
Adams, no Journal of Marketing Research, buscando corrigir o viés existente quando
se obtém uma amostra piloto para estimar a variância populacional através de (2) e
utiliza-se (1) para determinar o tamanho da amostra, como já indicado. . No tópico 4
faz-se uma avaliação dos resultados obtidos por Stein e por Shiffler e Adams e
indica-se, a título de sugestão, em que situação o uso de uma ou da outra solução pode
minorar os erros cometidos com o uso indevido da fórmula (1).
.
1- A Solução de Gosset.
Uma forma fácil de identificar o problema existente com o uso da formula
(1) em uma amostragem de duas etapas é escrever a fórmula para um intervalo de
confiança, da média de uma distribuição Normal, quando não se conhece a variância
populacional, com um nível de significância α, que é:
s
s 

≤ µ ≤ x + tα / 2

 x − tα / 2
n
n

(3)
onde:
x é a média amostral
µ é média da população
s é o desvio padrão da amostra
t α /2 é o valor correspondente ao nível de significância α/2 em uma distribuição t de
Student com n-1 graus de liberdade
A partir de (3), fixando-se o erro amostral máximo admitido chega-se a
n=
tα / 2 s 2
e2
(4)
que é a fórmula correta para calcular-se o número de elementos de uma amostra quando
não se conhece a variância populacional.
2
3
Mas, de onde provêm (3) e (4) ? A resposta para esta pergunta leva
necessariamente à distribuição t de Student . Saber um pouco sobre os problemas que
levaram ao desenvolvimento dessa distribuição, bem como sobre que tipo de solução ela
ofereceu a esses problemas, permite compreender com clareza que o tipo de erro que se
comete ao utilizar (1) em lugar de (4) é do mesmo tipo do que se cometia até o
aparecimento da distribuição t de Student, no início deste século. Por essa razão
esboça-se a seguir o contexto em que a distribuição t de Student foi desenvolvida, antes
de apresenta-la formalmente.
Na virada para o nosso século, a conhecida cervejaria Guinnes contratou o
químico William Gosset para trabalhar no controle do processo de fabricação de cerveja
. Gosset começou aplicando a distribuição Normal de probabilidade no seu trabalho de
pesquisa, havendo escrito em 1904 um relatório para a Guinnes que intitulou “The
Application of the Law of Error to Work of Brewery”, onde enfatizava a importância do
uso dos modelos probabilísticos para a pesquisa que desenvolvia. Nesse trabalho
Gosset já identificara as dificuldades surgidas na utilização da “Lei do Erro’’ em
amostras pequenas, e sugeria a necessidade de contratar a consultoria de um matemático
para tentar resolver o problema. Gosset foi então posto em contato com o famoso
estatístico Karl Pearson, que há época já havia desenvolvido as idéias que o levaram à
que hoje conhecemos como distribuição do Qui-Quadrado. Pearson, que então
chefiava o laboratório de Biometria da University College , em Londres e, como a
grande maioria dos estatísticos da época, estava interessado tanto pratica quanto
teoricamente em grandes amostras. A despeito disso, Gosset levou seu interesse
adiante e publicou na revista Biometrica, em 1908, seu famoso artigo “The Probable
Error of a Mean” onde apresentou a distribuição t de Student. Um dado curioso é que a
Guinnes para proteger o sigilo de suas pesquisas proibia seus pesquisadores de se
identificarem nas publicações externas o que obrigou Gosset a, com extrema modéstia ,
a usar o pseudônimo “Student”, daí ser a distribuição por ele proposta ser hoje
conhecida como t de Student. ( Boland, 1984, 180)
A solução que Gosset encontrou para o problema de obter estimativas a
partir de pequenas amostras, quando não se conhece a variância de uma população
distribuída Normalmente, a despeito de não haver sido muito difundida à sua época, é
hoje considerado um resultado básico da Estatística. Em resumo, a argumentação e o
desenvolvimento apresentados por Gosset foram os seguintes: é conhecido que o
intervalo de confiança para uma média de uma população normal com variância
conhecida é dado, a um nível de significância α, por
[ x − zα / 2
σ
n
≤ µ ≤ x + zα / 2
σ
n
]
(5)
Mesmo se a variância não for conhecida, se o número de elementos da
amostra for grande este intervalo pode ser estabelecido utilizando-se (2) para estimar a
variância da população.
Há muitas situações, entretanto, em que somente é possível obter-se um
pequeno número de amostras. Qual seria então, nessa situação, o intervalo de confiança
para a média de uma população quando a variância é desconhecida?
3
4
Uma forma equivalente de por a questão é buscar-se definir uma fronteira
entre pequena e grande amostra e então obter uma distribuição de probabilidades que
permita a construção dos intervalos de confiança desejados, tal como Gosset (1908).
“...although is well known that the method of using the normal curve
is only trustworthy when the sample is “large” no one has yet told us very
clearly where the limit between large and smal sample is to be draw. The aim
of this paper is to determine the point at which we may use the tables of the
probability integral in judging of the significance of the mean of a series of
experiments, and to furnish alternative tables for use when the number of
experiments is too few”
Gosset mostrou que
s 2 (n-1)/n se distribuía segundo uma curva de
Pearson do tipo III, o que é equivalente a dizer-se em linguagem moderna que
(n − 1) s 2 / σ 2
se distribui segundo uma Qui-Quadrado com n-1 graus de liberdade.
Alem do que, concluiu corretamente, embora através de um raciocínio incorreto, que a
média da amostra e sua variância eram independentes. Encontrou então que a
distribuição de
t=
x−µ
s/ n
(7)
era da forma
g( t ) = c(1 + t )
−n/2
(8)
Gosset construiu tabelas para g(t) e a partir de então tornou-se possível
construir intervalos de confiança para a média de uma população Normal com variância
desconhecida, quando se possue somente uma amostra pequena, simplesmente obtendo
o valor apropriado de t na tabela t de Student e substituindo esse valor em (5).
Um ponto a notar é que diferentemente da distribuição Normal a
distribuição t de Student depende do tamanho da amostra. Assim, são necessárias
tábuas para cada valor de n. Note-se também que quando n tende para infinito a
distribuição t de Student tende para uma Normal Padrão. Em termos práticos quando
n>30 a aproximação já é bastante boa, como se pode ver confrontando os valores de
tabelas das distribuições Normal e de Student.
Pode parecer a uma primeira vista que o fato de Gosset ter resolvido o
problema da construção dos de intervalos de confiança para a média de uma distribuição
Normal com variância desconhecida, resolvia também o problema de determinar o
tamanho da amostra necessário para obter esses intervalos de confiança. Infelizmente
não é assim, pois em (4) o valor de t depende de n . E esse é exatamente o problema:
para se calcular t é preciso saber-se o valor de n , mas esse por sua vez depende de t.
O problema a uma primeira vista parece insolúvel, mas em 1945 Stein apresentou uma
solução engenhosa e é dessa solução que trata o tópico seguinte.
2- A Solução de Stein
4
5
Com o desenvolvimento da distribuição t de Student, a fórmula
correta para o cálculo do número de elementos de uma amostra, quando não se
conhece a variância da população é claramente (4), onde o valor t substitui o valor z
da fórmula (1). O problema com (4), conforme já indicado, é que para se conhecer n
precisa-se de t, mas para ter-se t é necessário determinar seus graus de liberdade, e
portanto n, o que leva a um círculo vicioso. A solução proposta por Stein (1945)
também baseia-se em duas amostras. Uma amostra piloto de tamanho m na qual se
calcula s, uma estimativa para a variância populacional e uma segunda amostra de
tamanho n, onde n é uma função de s. A solução de Stein(1945) evita o círculo vicioso
que aparece ao se tentar utilizar (4) diretamente. A despeito de sua importância, trata-se
de uma solução extremamente simples, como se verá em seguida.
Seja X uma variável aleatória normalmente distribuída com media µ e
desvio padrão σ . Se m+n é o tamanho de uma amostra aleatória simples obtida de X
X −µ
então
se distribui segundo uma Normal Padrão. Tal como visto no tópico
σ / n+m
se distribui segundo uma Qui-Quadrado com m-1 graus
anterior) ( m − 1) s 2 / σ 2
X −µ
se distribui segundo
de liberdade. Também como foi visto anteriormente
S / n+m
uma t de Student com n-1 graus de liberdade o que permite que se construa o seguinte
intervalo de confiança:
t n −1α / 2 
t n −1α / 2

≤µ≤x−
x −

m+n
m+n

(9)
De onde se obtém
t 2 n =1α / 2 s 2
n=
-m
c2
(10)
Suponha-se que se deseje estimar a média de X, com erro amostral
máximo de c um nível de significância de no mínimo α. Pode acontecer que o erro
obtido na amostra piloto já seja igual ou inferior ao pretendido. Nesse caso não seria
necessário aumentar a amostra e n seria igual a zero. Assim o processo se reduziria a
retirar uma amostra de tamanho m ( m arbitrado). Em resumo, o número de elementos
da amostra é segundo Stein:
n=
t 2 n =1α / 2 s 2
-m
c2
n=0
t 2 n −1α / 2 s 2
(11)
c2
t 2 n −1α / 2 s 2
se m ≥
(12)
c2
se m <
3- A Correção Proposta por Shiffler e Adams
5
6
A despeito da solução de Stein , o uso da fórmula (1) tornou-se uma
constante na prática da pesquisa em Marketing. Shifller e Adams (1987, 319)
chamam a atenção para o fato de que usar-se s como estimativa da variância da
população na equação (1) torna n uma variável aleatória e afirmam que “litlle
atention has been paid in Marketing or statistical literature to the randon
nature of n and its implications” A contribuição de Shifller e Adams reside em,
reconhecendo o caráter aleatório de n em (1), quando se usa a variância da amostra
como estimativa da variância populacional, encontrar sua distribuição de probabilidade
e o momento de ordem geral e medir sua assimetria, o que lhes permitiu construir uma
tabela de fatores que compensam essa assimetria. A contribuição de Shifller e Adams
(1987) pode ser resumida como segue:
z 2 α / 2σ 2
n=
e2
Seja
tal como em
(1)
Se a variância da população é desconhecida e for estimada pela variância da amostra
então
n$ =
zα s 2
c2
(13)
é uma variável aleatória pois s é uma variável aleatória.
n$ pode ser escrita na forma
n$ = kx
onde k = n / m-1
x=
e
(m − 1) sm2
σ2
Tal como foi visto no tópico 1, x tem distribuição Qui-Quadrado com m-1 graus de
liberdade.
Da função de distribuição de probabilidade encontrada
momento de ordem geral e daí
E (n$) = n
(15)
2n 2
e Var (n$) =
m−1
(16)
para n$ ,
obteve-se seu
6
7
De onde se conclui que n é um estimador não viesado de n$ , independente do tamanho
da amostra piloto, e a variância de n$ é definida para valores de m maiores do que 1,
decrescendo quando cresce o tamanho da amostra piloto
A assimetria da distribuição medida por
η=
E ( n$ − n)
3
3
2
3
2
= 2 (m − 1)
−1
2
(17)
{var(n$)}
é positiva para valores de m maiores do que 2, decrescendo monotonicamente quando
m cresce, tendo portanto um valor máximo de 2,83 no ponto m=2. Essa assimetria
positiva indica uma preponderância de valores de n no lado esquerdo da distribuição
de probabilidade. Isso implica que o pesquisador tem uma probabilidade maior de
subestimar do que superestimar o verdadeiro valor de n. Porque a assimetria é
monotonicamente decrescente esse problema é maior quanto menor for a amostra piloto.
Para minorar essa dificuldade Shiffler e Adams sugerem o uso de um fator de correção
que iguale as probabilidades de sub e super-estimação.
Esse fatores são apresentados na tabela seguinte, para diversos valores de m:
Tabela 1
Probabilidade de subestimar n e fatores de correção
amostra
piloto (m)
3
4
5
6
8
10
12
15
20
40
60
p( n$ ≤ n)
.632
.608
.594
.584
.571
.563
.557
.550
.543
.530
.525
fator de
correção
1.443
1.267
1.192
1.149
1.089
1.071
1.064
1.049
1.036
1.017
1.011
4-Avaliação , Sugestões e Conclusão
A solução encontrada por Stein para o cálculo do tamanho de uma amostra,
quando não se conhece a variância da população permite que se resolva o círculo
vicioso que surge quando se tenta utilizar a fórmula (3), a que seria correta nessa
situação, mas cria algumas dificuldades. Uma delas decorre de desprezar uma parte
da informação obtida na segunda amostra, haja vista que o cálculo de n depende da
variância obtida na amostra piloto, perdendo-se a estimativa da variância populacional
que poderia ser obtida em uma amostra maior, que inclui a amostra piloto, o que pode
fazer com que, como indicou Scheffé(1959 , 65), “some practically oriented people
7
8
would hesitate to apply the Stein’s theory because only the information about
or from the first stage is utilized (the second stage might indicate a very
different value).”
Outro problema com a solução de Stein é que ele não oferece qualquer
indicação para a determinação do tamanho da amostra piloto, de modo que , conforme
ponderou Wilcox (1984, 35) “... an important practical point is that many of the
procedures always include the
possibility of not requiring additional
observations in the second stage” de modo que a solução pelo menos teoricamente
pode se tornar anti-econômica por levar a uma amostra de tamanho superestimado, tal
como muitas vezes acontece quando se usa (1). Para evitar que a determinação do
tamanho da amostra piloto fique completamente ao arbítrio do pesquisador pode-se
utilizar de alguns procedimentos, tal como o desenvolvido por Seelbinder(1953), que
propõe que m seja obtido de modo a minimizar o valor esperado do tamanho da amostra
total. O problema em utilizar as tábuas desenvolvidas por Seelbinder é que para tal
torna-se necessário ter-se informação sobre a variância populacional (Adams e Shiffler ,
1989, 242) e assim, de certa forma, retorna-se ao problema inicial de obter-se uma
estimativa para fora da amostra .
Também na solução proposta por Shiffler e Adams (1987) deve-se
identificar alguns pontos dos quais o pesquisador deve ficar consciente antes de decidirse por sua utilização. Do ponto de vista teórico há o problema de que ao tornar-se n, o
tamanho da amostra, uma variável aleatória também variável aleatória torna-se a
precisão do intervalo de confiança estimado , ao invés de um quantidade exata , tal
como ocorre quando esse intervalo é construído segundo o método de Stein. Além do
mais, como notou Gillett (1989,239), o tamanho da amostra não é um fim em si
mesmo, de modo que a probabilidade de subestimar n pode não ser um problema sério
desde que se garanta a precisão do intervalo de confiança. Do ponto de vista prático,
deve-se notar que somente no caso em que são retiradas amostras muito pequenas, por
exemplo m=5, o fator de correção pode expandir muito o tamanho da segunda amostra.
Se, por, exemplo o valor de n calculado através de (2) for igual a 300, usando-se o fator
de correção proposto n cresce para 358. Mas se no mesmo exemplo a amostra piloto
tivesse sido de tamanho m=40 então n seria igual a 306. Para valores de m maiores ou
iguais do que 60 o fator de correção torna-se irrelevante.
As limitações apontadas nas soluções propostas por Stein (!945) e Shiffler e
Adams (1987) de nenhum m modo pode justificar o uso da fórmula (1) quando não se
conhece a variância da população. A despeito das dificuldades quanto à escolha do
tamanho da amostra piloto, o método de Stein é fortemente recomendado quando se
deseja obter um intervalo de confiança cuja precisão seja uma quantidade determinada
e com um garantido nível de precisão, mesmo que a obtenção desse objetivo custe a
perda de informação. Além do mais, a experiência de um pesquisador pode ser um bom
guia para evitar os efeitos decorrentes do super dimensionamento da amostra piloto. A
solução de Shiffler e Adams , não possui o mesmo grau de fundamentação teórica da
proposta por Stein, mas pode ser usada em situações em que se pretenda simplesmente
diminuir a probabilidade de subestimar o tamanho de n ou em uma situação em que o
pesquisador não se disponha a desfazer-se de informação amostral . De todo modo, este
estudo deixa claro que o erro cometido ao se utilizar a fórmula (2) para cálculo do
número de elementos de uma amostra , quando não se conhece a variância da população
e utiliza-se uma amostra pequena para estima-la, é semelhante àquele que se cometia
8
9
quando a distribuição t de Student ainda não havia sido desenvolvida por Gosset, de
modo que não há porque continuar a comete-lo. Se o Marketing se pretende uma
disciplina que combina arte e ciência, então em sua parte científica deve buscar o
mesmo padrão de qualidade que é reconhecido existir em sua parte mais criativa. É
certo que as duas soluções propostas apresentam limitações substantivas que, em muitos
casos, tanto do ponto de vista prático quanto do teórico, devem ser muito bem
avaliadas, antes de serem utilizadas. De todo modo, cabe ao pesquisador explicitar as
limitações das opções feitas e tentar aproximar-se das soluções ideais o quanto mais lhe
seja possível no atual estado das artes da Disciplina . Afinal, por que insistir sempre no
mesmo erro quando há tantos novos erros a cometer?
Referências Bibliográficas
Adams A . J. e Shiffler R. E. “ Commentary on Biasing Effects of Pilot Samples and
Gillet’s Observations on The Stein Confidence Interval” Journal of Marketing Research
26 (May) 241-243
Gillet, Raphael (1989) “Confidence Interval Construction by Stein’s Method: A
Practical and Economic Method Approach to Sample Size Determination” Journal of
Marketing Research, 26, (May) 237-40
Scheffé, Henry (1959) The Analysis of Variance. New York, John Wiley &Sons Inc.
Seelbinder B.M.(1953) “On Stein’s
Mathematical Statistics, 24., 640-9
Two Stage Sampling Scheme” Annals of
Shiffler R.E. e Adams A .J. (1987) “A Correction for Biasing Effects of Pilot Sample
Size on Sample Size Determination” Journal of Marketing Research , 24 (August) 31921
Stein Charles (1945) “A Two Sample Test for a Linear Hypothesis Whose Power is
Independent of the Variance”. Annals of Mathematical Statistcs, 16, 243-258
Student (1908) “The Probable Error of a Mean”. Biometrica, 6, 1-25
Wilcox, R. R. (1948) “A Review of Exact Hypothesis Testing Procedures ( and
Selection Thecnicques ) That Control Power Regardless of the Variance “ British
Journal of Mathematical and Statistical Psychology” 37, 34-48.
9
Download