Uma analise comparativa para o gerenciamento da

Propaganda
Uma analise comparativa para o gerenciamento da rotatividade
do cliente de telefonia Banda Larga utilizando técnicas
multivariadas dependentes versus independentes
André Pedro Fernandes Neto (UFERSA)
[email protected]
Resumo
Os avanços tecnologicos têm mudado de forma acelerada o mundo. Nesse cenário emergente,
as empresas de telecomunicaçoes iniciaram um processo de comercialização de internet banda
larga baseado em um produto de valor agregado à telefonia fixa, o Asymmetric Digital
Subscriber Line (ADLS). O aumento da concorrência e dos custos associados à atração de
novos clientes impõe o desafio de reter clientes cada vez mais exigentes, fazendo com que as
empresas alterem seu comportamento tático e estratégico. Como resposta a esse cenário, uma
das práticas de gestão que esta sendo empregada é o gerenciamento da taxa de abandono
(Churn). Os constantes avanços da área de tecnologia da informação têm viabilizado o
armazenamento de grandes e múltiplas bases de dados. Os pesquisadores estão, ao longo das
últimas décadas, tentando desenvolver formas inteligentes para analisar, interpretar e
relacionar essas bases de maneira útil em benefício das organizações. O relacionamento entre
indicadores de desempenho e a qualidade da gestão de serviços é relevante para o ambiente
empresarial atual. As empresas prestadoras de serviços estão incluídas nesse contexto, já que
a formulação das estratégias, o planejamento, a realizaçoes das ações, os programas e
processos de melhoria e mudanças nas operações iniciam-se na elaboração de métricas que
possam monitorar seus estágios de desenvolvimento, passados e presentes, permitindo
previsões para o futuro (ARNETT, 2000). O relacionamento entre a taxa de abandono e a
correta gestão de qualidade dos serviços, pode evidenciar um problema, pois se por um lado
devem ser garantidos níveis de satisfação que promovem a fidelizaçao do cliente, por outro se
gasta tempo e dinheiro na procura de novos clientes. Essa pesquisa foi direcionada para
comparar dois métodos de analises multivariados, tendo o objetivo de auxiliar na gestão das
áreas operacionais das prestadoras de serviços, por meio da análise de desempenho da
qualidade de serviços versus a taxa de abandono. Para isso, nesse artigo, procurou-se analisar
os dados de banda larga armazenados pelas empresas de telefonia, com o objetivo de
encontrar relação entre os dados referentes á qualidade de serviço e a taxa de abandono
(FERNANDES, 2007).
Palavras-chave: Análise da Rotatividade, Mineração de Dados, Manutenção
1|P ági na
1. Introdução
Os avanços tecnologicos têm mudado de forma acelerada o mundo. Nesse cenário emergente,
as empresas de telecomunicaçoes iniciaram um processo de comercialização de internet banda
larga baseado em um produto de valor agregado à telefonia fixa, o Asymmetric Digital
Subscriber Line (ADLS).
O aumento da concorrência e dos custos associados à atração de novos clientes impõe o
desafio de reter clientes cada vez mais exigentes, fazendo com que as empresas alterem seu
comportamento tático e estratégico. Como resposta a esse cenário, uma das práticas de gestão
que esta sendo empregada é o gerenciamento da taxa de abandono (Churn). Os constantes
avanços da área de tecnologia da informação têm viabilizado o armazenamento de grandes e
múltiplas bases de dados. Os pesquisadores estão, ao longo das últimas décadas, tentando
desenvolver formas inteligentes para analisar, interpretar e relacionar essas bases de maneira
útil em benefício das organizações.
O relacionamento entre indicadores de desempenho e a qualidade da gestão de serviços é
relevante para o ambiente empresarial atual. As empresas prestadoras de serviços estão
incluídas nesse contexto, já que a formulação das estratégias, o planejamento, a realizaçoes
das ações, os programas e processos de melhoria e mudanças nas operações iniciam-se na
elaboração de métricas que possam monitorar seus estágios de desenvolvimento, passados e
presentes, permitindo previsões para o futuro (ARNETT, 2000).
O relacionamento entre a taxa de abandono e a correta gestão de qualidade dos serviços, pode
evidenciar um problema, pois se por um lado devem ser garantidos níveis de satisfação que
promovem a fidelizaçao do cliente, por outro se gasta tempo e dinheiro na procura de novos
clientes. Essa pesquisa foi direcionada para comparar dois métodos de analises multivariados,
tendo o objetivo de auxiliar na gestão das áreas operacionais das prestadoras de serviços, por
meio da análise de desempenho da qualidade de serviços versus a taxa de abandono. Para isso,
nesse artigo, procurou-se analisar os dados de banda larga armazenados pelas empresas de
telefonia, com o objetivo de encontrar relação entre os dados referentes á qualidade de serviço
e a taxa de abandono (FERNANDES, 2007).
2. Qualidade de serviço
O desenvolvimento desse trabalho segue as premissas defendidas como qualidade de serviço
por Gronroos (1997) e Teboul (1995). Tradicionalmente, esses autores colocam três principais
diferenças entre produto e serviço: serviços simultâneos, serviços intangíveis e serviços que
demanda a presença do cliente para ser produzidos.
Gronroos (1993) e Gianesi & Correa (1994) concordam que existem duas situações distintas
em relação à visibilidade do cliente em função do serviço consumido. Uma das situações é
que o cliente está presente e consome o serviço. A outra situação ocorre quando na entrega de
bens, apenas parte do processo de produção do serviço é vivenciado e, portanto consumido
simultaneamente pelo cliente. Entretanto é importante compreender que a parte de produção
visível é a que vai influenciar a perspectiva do cliente.
Outro aspecto importante é a intangibilidade dos serviços. Correa (2002) salienta que uma
implicação da intangibilidade maior ou menor dos serviços está na maior ou menor facilidade
com que se avalia a qualidade do pacote de valor a ser recebido. Essa característica faz com
que o avaliação da qualidade do serviço, pelo gestor da operação, seja difícultada.
3. Descoberta de conhecimento em base de dados
Para Fayyad (1996), o conceito de descoberta de conhecimento em bases de dados pode ser
2|P ági na
resumido como o processo não-trivial de identificar padrões novos, válidos, potencialmente
úteis e, principalmente, compreensíveis em meio às observações presentes em uma base de
dados. Contudo o objetivo último da descoberta do conhecimento em bases de dados não é o
de simplesmente encontrar padrões e relações em meio à imensa quantidade de informação
disponível em bases de dados, e sim a extração de conhecimento inteligível e imediatamente
utilizável para o apoio às decisões.
Os constantes avanços da área de tecnologia da informação têm viabilizado uma elevada
quantidade de armazenamento de dados. As bases de dados podem ser tratadas seguindo um
processo de descobertas do conhecimento em etapas. Como o conhecimento está inicialmente
na forma de dados, sendo passado para uma segunda fase denominada de informações e
finalmente, a partir dos dados, obtêm-se o conhecimento. O processo de descoberta de
conhecimento em base de dados pode ser divido em três etapas: Pré-processamento,
Mineração de Dados e Pós-processamento (GOLDSCHMIDT et al, 2005). A etapa de préprocessamento compreende as funções relacionadas à captação, à organização e ao tratamento
de dados. É na etapa de pré-processamento, que se preparam os dados para a etapa de
mineração onde é realizada a busca efetiva por conhecimentos úteis no contexto da pesquisa
em questão. A etapa de pós-processamento abrange o tratamento do conhecimento obtido na
mineração.
3.1 Modelando dados com uso de análise de regressão multivariada
Regressão é o termo utilizado para designar uma equação matemática que descreva as
relações entre duas ou mais variáveis. Regressão linear é um método para se estimar o valor
esperado de uma variável Y (variável dependente), dados os valores de algumas outras
variáveis X (variáveis independentes). Assim, dadas duas matrizes de dados, X e Y, a
finalidade da regressão é construir um modelo Y = f(X). Tal modelo tenta explicar, ou
predizer, as variações em Y dada as variações em X. A regressão multivariada leva em
consideração as diversas variáveis preditivas simultaneamente, modelando a variável
dependente com mais exatidão. Neste trabalho, a variável dependente são as vendas efetivas e
o grupo de variáveis independentes são os indicadores do desempenho de vendas. O modelo
de regressão é representado pela equação 1.
Yi = β 0 + β 1 xi1 + β 2 xi 2 + K + β p xip + ε i
.
(1)
Em que Yi – representa a variável dependente, xik (i = 1, ..., n) são as variáveis independentes
(k = 1, 2, ..., p); βi’s são os coeficientes da regressão (parâmetros desconhecidos no modelo –
a serem estimados); εi é o resíduo, variável aleatória que captura a parcela do comportamento
da variável Yi não explicada pela equação da regressão.
Os parâmetros de um modelo da regressão podem ser estimados de várias formas:
a)
b)
c)
d)
Mínimos quadrados, minimizando o erro quadrático médio dos resíduos;
Máxima verossemelhança;
Métodos baysiana;
Minimizando o desvio absoluto.
Os métodos da equação 2-a e 2-b coincidem para um modelo com os erros normalmente
distribuídos. Estimativas dos mínimos quadrados, usados nesse trabalho, são dadas por
(LAROSE, 2006)
3|P ági na
βˆ = ∑
(xi − x )( yi − y )
∑ (xi − x )2 .
αˆ = y − βˆx .
(2-a)
(2-b)
O estimador de mínimos quadrados, na forma matricial, é dado por = (X’.X)-1 (X’.Y), onde o
apóstrofo significa transposto. Cada observação tem seu próprio resíduo, que somados
produzem a soma dos erros quadráticos, uma medida total dos erros da estimação. Três somas
quadráticas (SSE, soma quadrática dos erros; SSR, a soma dos quadrados da regressão; SST,
a soma total dos quadrados) podem ser calculadas como segue:
SSE = ∑ ( y − ŷ )
2
.
SSR = ∑ ( yˆ − y )
2
(3-a)
(3-b)
.
SST = ∑ ( y − y )
2
(3-c)
.
A estatística da regressão pode ser apresenta sucintamente com uso de tabelas da análise de
variância (ANOVA). Erros médios (por exemplo, MSE e o MSR) são derivados da equação 4.
Um parâmetro importante é o coeficiente de determinação múltipla, que é definida como:
R2 =
SSR
SST .
(4)
Para a regressão múltipla, R2 é interpretado como a proporção da variabilidade na variável
alvo que é esclarecido no relacionamento linear com o conjunto de variáveis preditoras.
3.2 Modelando dados com uso de análise fatorial
É um nome genérico dado a uma classe de métodos multivariadas cujo propósito principal é
definir a estrutura adjacente em uma matriz de dados, aborda o problema de analisar a
estrutura das inter-relações entre um grande numero de variáveis, definindo um conjunto de
dimensões latentes comuns, chamadas fatores.
a) Tipologia:
A análise exploratória é útil na busca da estrutura em um conjunto de variáveis ou como um
método de redução, nesta perspectiva considera-se as informações que os dados oferecem e
não estabelecem restrições a priori sobre a estimativa de componentes nem sobre o numero de
componentes a serem extraídos:
− Busca estruturada de conjuntos de variáveis
− Redução de dados
A análise confirmatória: Testa as hipóteses envolvendo questões sobre, por exemplo quais
variáveis deveriam ser agrupadas em um fator ou o numero exato de fatores, ou seja avalia o
grau em que os dados satisfazem a estrutura esperada.
4|P ági na
b) Objetivos da Análise Fatorial:
O objetivo geral de uma analise fatorial é condensar a informação contida num número de
variáveis originais, em um conjunto menor de fatores com um mínimo de perda dessa
informação.
− Observar um conjunto de dimensões latentes num grande conjunto de variáveis - Análise
Fatorial do tipo R.
− Combinar ou condensar um grande número de observações em grupos - Análise Fatorial
do tipo Q.
− Identificar variáveis apropriadas para uma posterior regressão, correlação ou Análise
Discriminante.
− Criar um novo conjunto de novas variáveis em menor número, para substituir outro
conjunto.
As variáveis utilizadas na Análise Fatorial são geralmente métricas. As observações devem
ser, no mínimo, de 50 casos e preferencialmente de 100 ou mais. Entretanto as variáveis
dicotômicas, apesar de consideradas não métricas, podem ser empregadas, porem se todas as
variáveis são dicotômicas, então formas mais especificas de analise fatorial, como analise
fatorial booleana são mais indicadas.
c) Determinação dos Fatores e avaliação do ajuste geral:
Segundo Malhotra (2005) os fatores podem ser extraídos como ortogonais ou oblíquos. Como
ortogonais, eles serão independentes entre si e como oblíquos serão correlacionados ou
dependentes - o que é controverso e discutível.
Fatores ortogonais representam redução de informação, sendo bons para regressões ou
Análise Discriminante, mas podem não ter sentido real, após ser examinando a matriz de
fatores sem rotação, pode-se explorar as possibilidades de redução de dados e obter uma
estimativa preliminar do número de fatores a extrair.
Se o objetivo da analise for identificar variáveis importantes para uso posterior, o especialista
deve examinar a matriz de dados e selecionar a variável com mais alto peso fatorial como
representativa de uma dimensão particular. Entretanto se o objetivo for o de criar um conjunto
inteiramente novo, com um número menor de variáveis, então os escores fatoriais devem ser
calculados e utilizados como dados brutos em análises posteriores.
Na Análise Fatorial insere-se a variância comum (comunalidade) na diagonal da mesma
matriz, antes de extrair os fatores. Neste estagio pode-se executar duas análises diferentes, a
analise de componentes principais e a de fatores comum.
Na Análise de Componentes Principais, o especialista está preocupado com predição,
determinando um número mínimo de fatores necessários para explicar o máximo de variação
do conjunto original de dados, tendo conhecimento prévio de que as variâncias específicas e
do erro são pequenas com relação à variância total. Enquanto que na Análise de fatores
comum o especilaistaestá preocupado em identificar dimensões latentes no conjunto de
variáveis originais, tendo pouco conhecimento sobre as variâncias específicas e do erro,
desejando eliminá-las.
Para melhorar a analise pode-se utilizar o artifício da rotação de fatores para girar os eixos de
referência dos fatores, em torno da origem, até alcançar uma posição ideal. Ela pode ser
ortogonal ou oblíqua, caso os eixos se mantiverem ou não em 90 graus entre si durante o giro.
5|P ági na
O objetivo é facilitar a leitura dos fatores, pois a rotação deixa pesos fatoriais altos em um
fator e baixos em outros, definindo mais claramente os grupos de variáveis que fazem parte de
um fator estudado. A rotação oblíqua é mais realista, porém mais controversa. O método de
rotação mais utilizado é o varimax o qual simplifica as colunas da matriz de fatores.
d) Modelo Ortogonal Varimax:
A estatística da analise fatorial pode ser apresenta sucintamente com uso da equação 5. Um
parâmetro importante é o coeficiente de determinação múltipla, que é definida como:
. E[ X ] = µ , Var ( X ) = Σ
Seja X px1 tal que
(5)
X é linearmente dependente de poucas variáveis não-observáveis, F1 , F2 , ..., Fm , chamadas
fatores comuns e de p fontes adicionais de variação ε1 , ε2 , ..., εp , chamadas erros ou fatores
especificos.
X 1 − µ1 = l11 F1 + l12 F2 + L + l1m Fm + ε 1
X 2 − µ 2 = l 21 F1 + l 22 F2 + L + l 2 m Fm + ε 2
M
X p − µ p = l p1 F1 + l p 2 F2 + L + l pm Fm + ε p
(6)
ou, em notação matricial,
X − µ = LF + ε
A análise VARIMAX simplifica as colunas, neste método maximiza-se a soma das variâncias
de cargas exigidas, para em seguida concentra-se em rotacionar uma matriz de modo que uma
varaivel tenha carga alta em um fator e cargas baixas em todos os outros.
4. Taxa de abandono de clientes (Churn)
A Taxa de Abandono ou Churn consiste no ato de um cliente abandonar uma empresa,
geralmente em favor de um concorrente, terminando toda a sua relação com a antiga empresa
(IKEDA, 2006). O termo ainda não tem uma tradução usual para o português, mas nas
empresas de banda larga causa exatamente o que o verbo quer dizer: uma grande agitação de
clientes no mercado, trocando de empresa a todo o momento, o que, por sua vez, levam as
empresas a se mexerem em busca de novas formas de manter seus clientes no seu negócio, ao
mesmo tempo em que buscam seduzir os clientes da concorrência (FERREIRA, 2005).
Estatísticas revelam que as empresas americanas perdem metade de seus clientes em cinco
anos e que, nessa taxa de perda de clientes, as empresas têm seus desempenhos financeiros
(desempenho) reduzidos de 25% a 50%. (Reichheld; Teal, 1996 apub Ganesh et. al, 2000).
Churn trata-se de um termo muito comum na indústria de telecomunicações (LINOFF e
BERRY, 2000). Quando se diz que a taxa de churn de uma empresa varia entre 10% a 15%
anualmente, significa que essa empresa está perdendo de 10% a 15% dos clientes que se
encontram na sua base de dados, por fazer ou ter feito com ela, e que, por algum motivo, não
ficaram satisfeitos e se evadiram de sua base de clientes ativos.
Pesquisadores levantaram alguns fatores de influência correlacionados positivamente com a
manutenção de clientes (GANESH et al, 2000; VENETIS e GHAURI, 2004):
6|P ági na
−
−
−
−
Qualidade de serviços prestados aos clientes;
Satisfação do cliente;
Lealdade do cliente;
Comprometimento do cliente – definido como “a medida do quanto às partes em uma
relação de troca deseja continuar o relacionamento de valor” (VERHOEF, 2003);
− Tratamento dados pelos funcionários.
O gerenciamento do churn é, justamente, o desenvolvimento de técnicas que permitam à
empresa manter seus clientes mais lucrativos. Para Neslin et al., (2006), uma forma de
gerenciar o churn é prever quais clientes, tem mais probabilidade de abandonar o
relacionamento com a empresa e trabalhar com eles a fim de tentar evitar a ocorrência desse
rompimento. Para isso, é preciso que a empresa seja capaz de realizar este tipo de previsão e
identificação, buscando deter os clientes que provavelmente se desligarão, considerando quais
são os que, de fato, geram valor suficiente para a empresa e justifiquem o investimento de
retenção.
5. Metodologia
O processo discutido por Hair et al., (2005) consiste em uma metodologia baseada em seis
estágios para a analise de regressao multipla e tambem em seis estagios para analise fatorial.
A seguir faz-se uma analise comparativa susinta entre os dois modelos. Esse processo procura
construir uma estrutura para desenvolver, interpretar e validar análises multivariadas.
5.1 Análise dos Modelos
A – Regressão Múltipla.
a) Definição do problema da pesquisa, dos objetivos e da técnica multivariada a ser usada.
O ponto de partida para uma análise multivariada de dados é definir o problema da pesquisa e
os objetivos de análise em termos conceituais, antes de especificar qualquer variável ou
medida. Com o objetivo e o modelo conceitual especificados, deve-se escolher a técnica
multivariada a ser utilizada. Após escolher entre um método de dependência ou
independência, a última decisão é selecionar a técnica em particular com base nas
características de medidas das variáveis dependentes e independentes.
b) Planejamento da pesquisa
Para cada técnica deve ser desenvolvido um plano de análise que aborde as questões
particulares a seu propósito e projeto. As questões incluem considerações gerais, como
tamanho mínimo da amostra, tipos permitidos ou exigidos de variáveis e métodos de
estimação, além de aspectos específicos, como o tipo de medidas de associação de resultados
agregados ou desagregados em análise conjunta ou uso de formulações especiais de variáveis
para representar efeitos não-lineares ou interativos em regressão. Em cada caso, essas
questões resolvem detalhes específicos e exigências para a coleta dos dados.
c) Suposições em análise
Nesse estágio devem-se fazer várias suposições sobre as relações entre as variáveis
dependentes e independentes que afetam o procedimento estatístico (mínimos quadráticos). A
seguir discutem-se testes para as suposições e possíveis ações para corretivas.
Atender as suposições da análise e essencial para garantir que os resultados obtidos sejam
realmente representativos nas observações, obtendo com isto os melhores resultados
possíveis. As questões básicas a serem respondidas nesse estágio estão ligadas às suposições
7|P ági na
abaixo:
−
−
−
−
Linearidade do fenômeno medido;
Variância constante dos termos de erro;
Independência dos termos de erro;
Normalidade da distribuição dos termos de erro.
Todas as técnicas multivariadas têm suposições inerentes, estatísticas e conceituais, que
influenciam muito suas habilidades para representar relações multivariadas. Cada técnica tem
também uma série de suposições conceituais que lidam com questões como a formulação de
modelo e os tipos de relações representadas. Antes de qualquer estimação de modelo, deve ser
garantido que as suposições estatísticas e conceituais estejam satisfeitas.
d) Estimação do modelo e avaliação do ajuste geral do modelo
Com a análise da pesquisa especificada em termos de variáveis dependentes e independentes,
a amostra considerada adequada para os objetivos do estudo e as suposições avaliadas para as
variáveis individuais, o processo de construção do modelo agora segue para a estimação do
modelo a ser pesquisado e a avaliação do ajuste geral do modelo. Nesse estágio devem ser
cumpridas três tarefas básicas:
Selecionar um método para especificar o modelo a ser estimado;
− Avaliar a significância estatística do modelo geral na previsão da variável estatística;
− Determinar se algumas das observações exercem uma influencia indevida nos resultados.
No processo de estimação, se dispõe de opções para atender características especificas dos
dados ou maximizar o ajuste dos dados. Depois que o modelo é estimado, o seu ajuste geral é
avaliado para estabelecer se atinge níveis aceitáveis sobre os critérios estatísticos, se identifica
às relações propostas e se tem significância prática. Muitas vezes o modelo é reespecificado,
em uma tentativa de atingir melhores níveis de ajustes e explicação geral. Em todos os casos,
um modelo aceitável deve ser obtido antes de se prosseguir.
e) Interpretação das variáveis estatística pesquisadas
Nesse estágio deve-se examinar a equação preditiva, e com isso avaliar a importância relativa
que as variáveis individuais na previsão geral do produto. O pesquisador tem como função
interpretar a variável estatística de regressão pela avaliação dos coeficientes de regressão
estimados em termos de sua explicação da variável dependente, não se deve avaliar tão
somente o modelo de regressão estimado, mas também as variáveis independentes potenciais
que foram omitidos, se uma busca seqüencial ou abordagem combinatória foi empregada.
f) Validação dos resultados.
Essa fase consiste em generalizar a aplicação do modelo, demonstrando que ele não é
específico as observações utilizadas na estimação. Deve-se garantir que ele represente a
população geral e que sejam apropriadas as situações nas quais será usada.
B- Análise Fatorial
a) Objetivo da análise fatorial
Encontrar um modo de condensar a informação contida em diversas variáveis originais em um
conjunto menor de novas dimensões compostas ou variáveis estatísticas.
Mais especificamente, as tecnicas da analise fatorial podem satisfazer um entre dois objetivos:
8|P ági na
− Identifaicação da estrutura por meio da estrutura de dados
− Redução de dados
b) Planejamento da pesquisa
Consiste na criação de um plano de análise que aborde as questões particulares e próprias do
projeto, nesta etapa destacam-se os seguintes passos.
− Calculo dos dados de entrada (matiz de correlação) - Para atender os objetivos
especificados de agrupamento de variáveis ou respondentes pode-se empregar para calcular
a matriz de correlação a analise do tipo R ou Q.
− O planejamento em relação ao numero de variáveis - As propriedades de medida e tipo de
variáveis admissíveis (seleção de Variáveis), deve ser analisada em função de duas
questões, como as variáveis são medidas e quantas variáveis devem ser incluídas.
− Tamanho necessário para a amostra - Em termos absolutos e como função do numero de
variáveis na analise o tamanho da amostra preferencialmente deve ser maior ou igual a
100, sendo o tamanho mais aceitável igual a dez para um.
c) Análise de Suposições
Nas analises de suposições criticas são mais conceituais do que estatísticas. De um ponto de
vista estatístico, os desvios de normalidade, da homoscedasticidade e da linearidade se
aplicam apenas no nível em que elas diminuem as relações de correlação observada, a seguir
mostra-se alguns testes úteis.
− Teste Bartlet de esfericidade: Um teste estatístico para detecção da presença de correlações
entre as variáveis, fornecendo a probabilidade estatística de que a matriz de correlação
tenha correlações significantes entre pelo menos algumas das variáveis.
− Medida da adequação da amostra (MSA ou KMO Kaiser-Meyer-Olkin): Este índice varia
de 0 a 1, alcançando 1 quando cada variável é perfeitamente prevista sem erro pelas outras
variáveis.
d) Determinação dos Fatores e avaliação do ajuste geral
Segundo Malhotra (2005) os fatores podem ser extraídos como ortogonais ou oblíquos. Como
ortogonais, eles serão independentes entre si e como oblíquos serão correlacionados ou
dependentes - o que é controverso e discutível.
Fatores ortogonais representam redução de informação, sendo bons para regressões ou
Análise Discriminante, mas podem não ter sentido real, após ser examinando a matriz de
fatores sem rotação, pode-se explorar as possibilidades de redução de dados e obter uma
estimativa preliminar do número de fatores a extrair.
Se o objetivo da analise for identificar variáveis importantes para uso posterior, o especialista
deve examinar a matriz de dados e selecionar a variável com mais alto peso fatorial como
representativa de uma dimensão particular. Entretanto se o objetivo for o de criar um conjunto
inteiramente novo, com um número menor de variáveis, então os escores fatoriais devem ser
calculados e utilizados como dados brutos em análises posteriores.
e) Interpretação dos fatores
Na interpretação dos fatores e na seleção do fator final deve-se analisar inicialmente a matriz
não rotacionada com a finalidade de obter uma identificação preliminar do numero de fatores
9|P ági na
a extrair. Ao computar a matriz fatorial não-rotacionada a analise é feita apenas na melhor
combinação particular das variáveis originais, sendo o primeiro fator o melhor resumo de
relações lineares. A seguir emprega-se um método rotacional para simplificar as soluções
fatoriais e mais significativas, nestes casos a rotação dos fatores melhora a interpretação,
reduzindo as ambigüidades. Por fim deve-se avaliar a necessidade de reespecificar o modelo
fatorial.
f) Validação dos Resultados
Neste estagio se avalia o grau de generalização dos resultados para a população da amostra e
da influencia potencial de casos ou respondentes individuais sobre os resultados gerais, sendo
especialmente grave esta a questão de generalização pois necessita de uma estrutura de dados
que seja representativa da população.
A seguir faz um breve resumo dos estágios do diagrama de decisão adaptada a metodologia
utilizada por Hair, comparando a Regressão Múltipla e a Análise Fatorial no Quadro 1.
QUADRO 1 - Estágios no diagrama de decisão de regressão múltipla
Regressão Múltipla
Análise Fatorial
Definir o problema da pesquisa e os objetivos de
análise em termos conceituais.
Encontrar um modo de condensar a informação
contida em diversas variáveis originais em um
conjunto menor de novas dimensões compostas ou
variáveis estatísticas.
Desenvolvido um plano de análise que aborde as
questões particulares a seu propósito e projeto.
Criação de um plano de análise que aborde as
questões particulares e próprias do projeto;
Devem-se fazer várias suposições sobre as relações
entre as variáveis dependentes e independentes que
afetam o procedimento estatístico (mínimos
quadráticos).
O processo de construção do modelo agora segue
para a estimação do modelo a ser pesquisado e a
avaliação do ajuste geral do modelo.
Execução de suposições sobre
interdependentes das variáveis;
Nesse estágio deve-se examinar a equação
preditiva, e com isso avaliar a importância relativa
que as variáveis individuais na previsão geral do
produto.
Essa fase consiste em generalizar a aplicação do
modelo.
Três passos são envolvidos na interpretação e na
seleção da solução fatorial;
as
relações
Métodos de extração de fatores e Qual o numero
de fatores selecionados para representar a estrutura
latente de dados.
Consiste em validar a aplicabilidade do modelo.
Fonte: Adaptado pelo autor do HAIR (2005)
A seguir na Figura 1 tentou-se criar de forma sucinta uma seqüência para ser utilizada nas
duas analises multivariada.
Definição
do
Problema
Planejament
o
Suposições
em análise
Estimação
do modelo
Interpretaçã
o das
variáveis
Validação
dos
resultados
10 | P á g i n a
Figura 1 – O número de fatores na extração. Fonte: Adaptado pelo autor do Goldsimith (2005)
6. Análise e implementação dos resultados
Considerando que o objetivo proposto é uma confirmação da equação de regressão por meio
da analise fatorial, existe a necessidade de se especificar e selecionar as variáveis a serem
analisadas.
Descreve-se a seguir os indicadores de internet banda larga utilizados nas empresas de
telecomunicações.
QUADRO 2 - caracterização das variáveis dependente e independente
Indicador
Formula dos Indicadores
Valores
Tipo de
Variável
TAXA PREVENTIVA
∑ dos Reparos Preventivos
∑ dos Reparos Corretivos do Mês Anterior
%
TAXA DE ABANDONO
Quantidade de Retiradas X 100
Base em Serviço do Mês Anterior
%
Dependente
Reparos Aberto nos últimos 30 dias X 100
Total de Instalação Realizadas nos Últimos
30 dias
%
Independente
∑ Tempos de Reparo no mês
Base de Terminais Reclamados no mês
%
Independente
IPGC
Instal. Executados em até 3 dias corridas x
100
Total de Instalação no Período
%
Independente
RPAV
Reparos Executados no Prazo (4 h ) X 100
Total de Reparos no Mês
%
Independente
RPDC
Reparos Executados no Prazo (8 h ) X 100
Total de Reparos no Mês
%
Independente
RPT
Reparos Executados no Prazo X 100
Total de Reparos no Mês
%
Independente
RRAV
Reparos Reincidente < 90 dias Alto V. X 100
Total de Reparos no Mês
%
Independente
RRDC
Reparos Reincidente < 90 dias D. C. X 100
Total de Reparos no Mês
%
Independente
RRT
Reparos Reincidente < 90 dias X 100
Total de Reparos no Mês
%
Independente
Quantidade Reparos em 30 dias X 100
Base em Serviço Mês
%
Independente
%
Independente
IGT
TEMPO
REPARO
MEDIO
TAXA DE REPARO
TEMPO
INSTALAÇAO
DE
∑ Tempos de Instalação no mês
Base de Terminais instalados no mês
Fonte: Elaborada pelo autor
Independente
11 | P á g i n a
A regressão múltipla e a analise fatorial ortogonal foram selecionadas como as técnicas
multivariadas a serem utilizadas, devido fornecem um meio de avaliar objetivamente o grau e
o caráter da relação entre as variáveis dependentes e independentes. Nesse artigo escolheu-se
a ferramenta SPSS pela sua facilidade de utilização, pela sua vasta literatura e por ser bastante
usada na análise de regressão múltipla e analise fatorial.
6.2 O planejamento da pesquisa
Obtidos um total de 336 observações ocorridas em uma grande empresa de telecomunicações
existente no Brasil, com atuação nas regiões nordeste, norte e sudeste. A fim de comparar os
dois modelos de analise multivariados, é feito inicialmente um estudo com o modelo de
regressão múltipla por meio de uma abordagem de busca seqüencial (Stepwise). A seguir, é
utilizado o método de analise fatorial para confirmar a equação de regressão com um conjunto
de fatores sendo então executada a extração dos fatores na ordem de sua maior importância.
No método Stepwise, em cada etapa, a variável independente ainda ausente da equação são
incorporadas caso possuam valores baixos da estatística F. As variáveis já na equação da
regressão são removidas se sua probabilidade de F se tornar suficientemente grande. O
método conclui quando não mais há variável elegível para a inclusão ou a remoção. O nível
de tolerância usado foi 0,05.
Na analise fatorial o teste utilizado é o de esfericidade de Bartlett é baseado na distribuição
estatística de “Chi-Square” e testa a hipótese (nula H0) de que a matriz de correlação é uma
matriz identidade (cuja diagonal é 1,0 e todas as outras as outras iguais a zero),ou seja que não
há correlação entre as variáveis.(Pereira, 2001). Valores de significância maiores que 0,100,
indicam que os dados não são adequados para o tratamento com o método em questão; que a
hipótese nula não pode ser rejeitada. Já valores menores que o indicado permite rejeitar a
hipótese nula (SPSS,1999 e HAIR et al.,2005).
6.3 Suposições em análise de regressão linear múltipla
Fazendo-se análise da matriz de correlação entre as variáveis do modelo, pode ser verificado
que, entre as variáveis independentes, não existem valores superiores a 0,5, conforme dados
obtidos a partir do SPSS (NORUSIS, 2004). Ou seja, não existindo nenhum valor
pode ser concluído pela inexistência de multicolinearidade.
rX i X j ≥ 0,5
,
A seguir, faz-se uma análise dos gráficos de dispersão para a regressão múltipla e o scree test
para analise fatorial. No scree test apresentado na Fgura 2, mostra-se os autovalores versus o
número de fatores na ordem de extração, sendo assim pode-se determinar o ponto de corte,
pode ser verificado que existe uma distribuição consistente dos resíduos em relação à
distribuição teórica, ou seja, segue aproximadamente a forma da curva normal. Na Figura 3
nota-se uma tendência de distribuição uniforme, ou seja, os pontos encontram-se próximos de
uma reta.
12 | P á g i n a
Scree Plot
Normal P-P Plot of Regression Standardized Residual
10
Dependent Variable: CHURN_
1,0
8
Expected Cum Prob
Eigenvalue
0,8
6
4
2
0,6
0,4
0,2
0
0,0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Component Number
Figura 2 – O número de fatores na extração
Fonte: Analise Fatorial Relatório do SPSS
0,0
0,2
0,4
0,6
0,8
1,0
Observed Cum Prob
Figura 3– Probabilidade normal PP-plot
Fonte: Relatório do SPSS
6.4 A equação estimada de regressão múltipla
O principal objetivo dos modelos de regressão é a estimação dos parâmetros desconhecidos β.
A esse processo é comum chamar-se de “ajuste do modelo aos dados”. Os coeficientes do
modelo stepwise contém as estimativas dos parâmetros e respectivas estimativas do erro
padrão, as estimativas dos coeficientes padronizados e o valor da estatística t-Student. Por
meio dos dados do SPSS (coeficientes do modelo), pode ser caracterizada a equação de
regressão que pode ser vista abaixo:
Taxa de Abandono = 0,53(TMI) + 0,41(TRP) + 0,60(TMR) – 0,39(QRPR)
(7)
Onde:
− TMI: Representa o tempo médio gasto na instalação do circuito, ou seja, é o tempo desde
abertura da ordem de serviço até o seu efetivo fechamento.
− TRP: Representa a taxa de reparo executado no prazo acordado com o cliente esse prazo
varia de 8 horas para clientes Alto Valor e 24 horas para os Demais Clientes geralmente
são os clientes varejo.
− QRPR: Esse valor representa a quantidade de reparos preventivos efetuados nas empresas.
− TMR: Representa o tempo médio gasto no reparo do circuito, ou seja, é o tempo desde
abertura do Bilhete de Defeito até o seu efetivo fechamento.
6.5 Interpretação por meio da análise fatorial
Na interpretação dos valores e na seleção do fator final deve-se analisar inicialmente a matriz
não rotacionada com a finalidade de obter uma identificação preliminar do numero de valores
a extrair. Ao computar a matriz fatorial não-rotacionada a analise é feita apenas na melhor
combinação particular das variáveis originais, sendo o primeiro fator o melhor resumo de
relações lineares. A seguir emprega-se um método rotacional para simplificar as soluções
13 | P á g i n a
fatoriais e mais significativas, nestes casos a rotação ortogonal utilizando VARIMAX dos
fatores melhora a interpretação, reduzindo as ambigüidades. Por fim deve-se avaliar a
necessidade de reespecificar o modelo fatorial.
Na analisa-se da matriz de correlação rotacionda, mostrada na Tabela 1, pode-se concluir
que, O fator 1 tem altos coeficientes para as variáveis V1 (Tempo Medio do Reparo) e V3
(Tempo Medio de Instalação) e um coeficiente negativo V5 (Quantidade de Reparos
Preventivos), sendo o fator 2 mais fortemente relacionado com as variáveis V2 (Taxa de
Reparo), V4 (Reparo Reincidente) e V6 (Reparo no Prazo). Verifica-se que existe uma quebra
distinta em 3 fatores, sendo os dois primeiros fatores respondem por mais de 80% da
variância e que o ganho obtido ao passar para 3 torna-se pequeno.
TABELA 1 - Matriz Componente Rotacionada(a)
Componente
V1
V3
V5
V2
V6
V4
V7
V8
V10
V12
V9
V11
V13
V14
V16
V17
V15
1
.803
.835
-.903
-.067
.075
-.052
-,027
,061
-,053
-,060
-,044
,095
,096
,093
,095
,096
,010
2
-.014
-.164
-.119
.873
.827
.768
,358
,726
-,011
,238
,395
-,191
-,129
-,158
-,153
-,122
-,151
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a Rotation converged in 3 iterations.
6.6 A comparação entre significância dos modelos
Por meio da analise fatorial foi selecionado três fatores como os mais relevantes V1 (Tempo
Medio do Reparo) e V3 (Tempo Medio de Instalação) e um coeficiente negativo V5
(Quantidade de Reparos Preventivos).
Na analise por regressao multipla a quantidade de fatores foram quatro Tempo médio de
instalação (TMI), Taxa de reparo (TRP), Tempo médio de reparo (TMR), Reparo
repetida(QRPR). A seguir o Quadro 3 compara os dois métodos:
14 | P á g i n a
QUADRO 3 - Quadro comparativo analise fatorial x regressão multipla
Regressão Multipla
Analise Fatorial
4 Variaveis independentes
1 Fator com 3 variaveis
No Teste de significativa estatística, na amostraNo teste de Bartlett, na amostra observada temos:
observada temos: Fobs = 43.367 que é superior a Fc=F(95%Um valor menor que 0,0001, o que permite
; 4 ; 163) = 2,40 (valor percentual de uma distribuição confirmar a possibilidade e adequação do método de
com 4 graus de liberdade no numerador e 163 noanálise fatorial para o tratamento dos dados.
denominador) com isso valida a hipótese alternativa de
que a regressão é estatisticamente significativa.
Método multivariado de análise que utiliza aMétodo multivariado de análise que utiliza a
dependência e tem como medida variáveis métricas.
independência e tem na sua estrutura a relação de
variáveis.
Resultado final: uma equação com quatro variáveisResultado final: três fatores mais relevantes.
independentes e uma dependente
Fonte: Elaborada pelo autor
7. Considerações finais
A gerência, controle e diminuição do churn tornaram-se críticas nos mercados de
telecomunicações. A fim de competir neste mercado, as operadoras de serviços têm
procurado exaustivamente tomar ações dinâmicas para reter clientes valiosos e diminuir o
churn.
Nesta pesquisa, foi proposta duas técnicas diferentes para identificar varaiveis ou fatores com
características mais relevantes. Após examinar o impacto de dados inadequados na criaçao
dos modelo. Nossa avaliação estatística mostra que as técnicas da mineração de dados podem
eficazmente ajudar as operadoras de serviços de telecomunicações a fazer uma gerencia e
controle mais do churn.
A qualidade dos serviços prestados foi identificada como um dos fatores de relevante
importância para a analise da taxa de abandono, tanto na metodologia utilizando a regressão
multipla quanto pela metodologia utilizando analise fatorial. Foi possível observar na
regressão múltipal que 50,4% do abandono pode ser relacionada ao comportamento de quatro
indicadores de qualidade sendo eles Tempo Médio de Reparo, Tempo Médio de Instalação,
Reparos Preventivos, Taxa de Reparo, enquanto que na analise fatorial o índice para a a
presente solução mostra que 90,3% da variância total são representadas pela inforamçao
contida na matriz fatorial contida em três variaveis V1 (Tempo Medio do Reparo) e V3
(Tempo Medio de Instalação) e um coeficiente negativo V5 (Quantidade de Reparos
Preventivos). A partir destas analises confirma-se a importancia dos indicadores Tempo
Médio de Reparo, Tempo Médio de Instalação e Reparos Preventivos, pois foram variaveis e
fatores relevantes nas duas analises.
Por fim os resultados obtidos demonstram a aplicabilidade dos indicadores, consequtemente
possibilitando ganhos para as prestadoras de serviço que decidirem utilizar estes métodos em
suas estratégias de manutenção, para isto investimentos devem ser feitos em melhoria de
qualidade na instalação, reparo e na manutenção preventiva, devendo este investimento ser
visto pela ótica da retenção de cliente e manutenção da base. O artigo comprovou que uma
instalação ou reparo feito em menor tempo, uma preventiva bem feita afetam positivamente a
satisfação do cliente colaborando com que o mesmo permaneça na empresa.
15 | P á g i n a
Referências
ARNETT, Dennis B; Menon, Anil, Wilcox, James B. “Using Competitive Intelligence: Antecedents and
Consequences”, Competitive Intelligence Review, Vol. 11(3), 2000.
CORREA, H. L. The Links Between Uncertainty, Variability of Outputs and Flexibility in Manufacturing
Systems. University of Warwick, Warwick, 2002.
FACINA, Taís. Manutenção Sem Fronteiras. Revista Manutenção. Julho e Agosto, 1999.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P.; UTHURUSAMY, R. “Advances in Knowledge
Discovery & Data Mining”, Cambridge, MA (The AAAI Press/The MIT Press), 1996.
FERNANDES, A. P. Análise dos Indicadores de Qualidade versus Taxa de Abandono Utilizando Método de
Regressão Múltipla para Serviço de Banda Larga (Dissertação de Mestrado). Programa de Pós-Graduação em
Engenharia de Produção, Universidade Federal do Rio Grande do Norte, Natal, 2007.
FERREIRA, J. B. Mineração de Dados na Retenção de Clientes em Telefonia Celular. Engenharia Elétrica,
Pontifícia Universidade Católica do Rio de Janeiro - PUC, Rio de Janeiro, 2005.
GANESH, J. ARNOLD, M. J.; REYNOLDS, K. E. Understanding the Customer Base of Service Providers:
Na Examination of the Differences Between Switchers and Stayers. Journal of Marketing, Vol. 64, 2000.
GIANESI, I. G. N., CORREA, H. L. Administração estratégica de serviços – operações para a satisfação do
cliente. São Paulo: Atlas, 1994.
GOLDSCHMIDT, Ronald; PASSOS, Emmanuel. Data Mining – Um Guia Prático, Conceitos, Técnicas,
Ferramentas, Orientações e Aplicações. São Paulo: Campus, 2005.
GRONROOS, Christian. Value-driven relational marketing: from products to ressources and competencies.
Journal of Marketing Manegement, Vol.13, n.5, 1997.
_____________________. Marketing Gerenciamento e Serviço A Competição por Serviço na Hora da Verdade.
4° edição, São Paulo: Campus, 1993.
HAIR, J.; ANDERSIN, R. E.; TATHAM, R. L. Análise Multivariada de Dados. São Paulo: Bookman,Vol.1,
2005.
IKEDA, Ana Akemi. Segure o Churn! In: LOVELOCK, Cristopher; WIRTZ, Jochen. Marketing de Serviços:
pessoas, tecnologia e resultados. 5o ed. São Paulo: Editora Prentice Hall, 2006
LAROSE, Daniel T. Data Mining Methods and Models. a John Wiley & Sons, inc; 2006.
LAPIERRE, J. Customer - Perceived Value in Industrial Contexts. Journal of Business & Industrial Marketing,
Vol.15, n. 2/3, 2000.
LINOFF, Gordon.; BERRY, Michael,; “Mastering Data Mining: The Art and Science of Customer
Relationships Management”, John Wiley & Sons Inc, USA, 2000.
NEELY, A. et. al. Designing Performance Measures: A Structured Approach. International Journal of
Operations & Production Management, Vol. 17, n.11, 1997.
NESLIN, Scott A.; GUPTA, Sunil; KAMAKURA, Wagner, LU, Junxiang; MASON, Charlott H. Defection
detection: measuring and understanding the predictive accuracy of customer churn models. Jounal of Marketing
Research, Chicago, Vol. 43, n.2, 2006.
NORUSIS, M. SPSS 13.0 Statistical Procedures Companion. Upper Saddle-River, N.J.: Prentice Hall, Inc..
2004.
PINTO, Alan Kardec; XAVIER, Júlio Nassif. Manutenção: Função Estratégica. Rio de Janeiro: Qualitymark,
1998.
PIATETSKY-SHAPIRO, “Measuring Lift Quality In Database Marketing”. Journal Of SIGKDD Exploration
Newsletter, Vol. 2, New York; 2000.
REICHHELD, Frederick. A estratégia da Lealdade: a força invisível que mantém clientes e funcionários e
sustenta crescimento, lucros e valor. Rio de Janeiro: Campus, 1996.
SPSS (2007). Statistical Package for Social Sciences. SPSS v. 13.0. URL: <http://www.spss.com>. Acesso em
novembro, 2007.
16 | P á g i n a
TÉBOUL, James. A Era dos Serviços – Uma Abordagem de Gerenciamento. Rio de Janeiro: Qualitymark,1995.
VENETIS, K. A.; GHAURI, P. N. Service quality and customer retention: building long-term relationships.
European Journal of Marketing. Vol. 38, n. 11/12, 2004.
VERHOEF, P. Understanding the Effect of Customer Relationship Managment Efforts on Customer Retention
and Customer Share Development. Journal of Marketing. Vol. 67, n. 10, 2003.
XENOS, Harilaus Georgius d'Philippos. Gerenciando a Manutenção Produtiva. Belo Horizonte:
Desenvolvimento Industrial, 1998.
17 | P á g i n a
Download