Uma analise comparativa para o gerenciamento da rotatividade do cliente de telefonia Banda Larga utilizando técnicas multivariadas dependentes versus independentes André Pedro Fernandes Neto (UFERSA) [email protected] Resumo Os avanços tecnologicos têm mudado de forma acelerada o mundo. Nesse cenário emergente, as empresas de telecomunicaçoes iniciaram um processo de comercialização de internet banda larga baseado em um produto de valor agregado à telefonia fixa, o Asymmetric Digital Subscriber Line (ADLS). O aumento da concorrência e dos custos associados à atração de novos clientes impõe o desafio de reter clientes cada vez mais exigentes, fazendo com que as empresas alterem seu comportamento tático e estratégico. Como resposta a esse cenário, uma das práticas de gestão que esta sendo empregada é o gerenciamento da taxa de abandono (Churn). Os constantes avanços da área de tecnologia da informação têm viabilizado o armazenamento de grandes e múltiplas bases de dados. Os pesquisadores estão, ao longo das últimas décadas, tentando desenvolver formas inteligentes para analisar, interpretar e relacionar essas bases de maneira útil em benefício das organizações. O relacionamento entre indicadores de desempenho e a qualidade da gestão de serviços é relevante para o ambiente empresarial atual. As empresas prestadoras de serviços estão incluídas nesse contexto, já que a formulação das estratégias, o planejamento, a realizaçoes das ações, os programas e processos de melhoria e mudanças nas operações iniciam-se na elaboração de métricas que possam monitorar seus estágios de desenvolvimento, passados e presentes, permitindo previsões para o futuro (ARNETT, 2000). O relacionamento entre a taxa de abandono e a correta gestão de qualidade dos serviços, pode evidenciar um problema, pois se por um lado devem ser garantidos níveis de satisfação que promovem a fidelizaçao do cliente, por outro se gasta tempo e dinheiro na procura de novos clientes. Essa pesquisa foi direcionada para comparar dois métodos de analises multivariados, tendo o objetivo de auxiliar na gestão das áreas operacionais das prestadoras de serviços, por meio da análise de desempenho da qualidade de serviços versus a taxa de abandono. Para isso, nesse artigo, procurou-se analisar os dados de banda larga armazenados pelas empresas de telefonia, com o objetivo de encontrar relação entre os dados referentes á qualidade de serviço e a taxa de abandono (FERNANDES, 2007). Palavras-chave: Análise da Rotatividade, Mineração de Dados, Manutenção 1|P ági na 1. Introdução Os avanços tecnologicos têm mudado de forma acelerada o mundo. Nesse cenário emergente, as empresas de telecomunicaçoes iniciaram um processo de comercialização de internet banda larga baseado em um produto de valor agregado à telefonia fixa, o Asymmetric Digital Subscriber Line (ADLS). O aumento da concorrência e dos custos associados à atração de novos clientes impõe o desafio de reter clientes cada vez mais exigentes, fazendo com que as empresas alterem seu comportamento tático e estratégico. Como resposta a esse cenário, uma das práticas de gestão que esta sendo empregada é o gerenciamento da taxa de abandono (Churn). Os constantes avanços da área de tecnologia da informação têm viabilizado o armazenamento de grandes e múltiplas bases de dados. Os pesquisadores estão, ao longo das últimas décadas, tentando desenvolver formas inteligentes para analisar, interpretar e relacionar essas bases de maneira útil em benefício das organizações. O relacionamento entre indicadores de desempenho e a qualidade da gestão de serviços é relevante para o ambiente empresarial atual. As empresas prestadoras de serviços estão incluídas nesse contexto, já que a formulação das estratégias, o planejamento, a realizaçoes das ações, os programas e processos de melhoria e mudanças nas operações iniciam-se na elaboração de métricas que possam monitorar seus estágios de desenvolvimento, passados e presentes, permitindo previsões para o futuro (ARNETT, 2000). O relacionamento entre a taxa de abandono e a correta gestão de qualidade dos serviços, pode evidenciar um problema, pois se por um lado devem ser garantidos níveis de satisfação que promovem a fidelizaçao do cliente, por outro se gasta tempo e dinheiro na procura de novos clientes. Essa pesquisa foi direcionada para comparar dois métodos de analises multivariados, tendo o objetivo de auxiliar na gestão das áreas operacionais das prestadoras de serviços, por meio da análise de desempenho da qualidade de serviços versus a taxa de abandono. Para isso, nesse artigo, procurou-se analisar os dados de banda larga armazenados pelas empresas de telefonia, com o objetivo de encontrar relação entre os dados referentes á qualidade de serviço e a taxa de abandono (FERNANDES, 2007). 2. Qualidade de serviço O desenvolvimento desse trabalho segue as premissas defendidas como qualidade de serviço por Gronroos (1997) e Teboul (1995). Tradicionalmente, esses autores colocam três principais diferenças entre produto e serviço: serviços simultâneos, serviços intangíveis e serviços que demanda a presença do cliente para ser produzidos. Gronroos (1993) e Gianesi & Correa (1994) concordam que existem duas situações distintas em relação à visibilidade do cliente em função do serviço consumido. Uma das situações é que o cliente está presente e consome o serviço. A outra situação ocorre quando na entrega de bens, apenas parte do processo de produção do serviço é vivenciado e, portanto consumido simultaneamente pelo cliente. Entretanto é importante compreender que a parte de produção visível é a que vai influenciar a perspectiva do cliente. Outro aspecto importante é a intangibilidade dos serviços. Correa (2002) salienta que uma implicação da intangibilidade maior ou menor dos serviços está na maior ou menor facilidade com que se avalia a qualidade do pacote de valor a ser recebido. Essa característica faz com que o avaliação da qualidade do serviço, pelo gestor da operação, seja difícultada. 3. Descoberta de conhecimento em base de dados Para Fayyad (1996), o conceito de descoberta de conhecimento em bases de dados pode ser 2|P ági na resumido como o processo não-trivial de identificar padrões novos, válidos, potencialmente úteis e, principalmente, compreensíveis em meio às observações presentes em uma base de dados. Contudo o objetivo último da descoberta do conhecimento em bases de dados não é o de simplesmente encontrar padrões e relações em meio à imensa quantidade de informação disponível em bases de dados, e sim a extração de conhecimento inteligível e imediatamente utilizável para o apoio às decisões. Os constantes avanços da área de tecnologia da informação têm viabilizado uma elevada quantidade de armazenamento de dados. As bases de dados podem ser tratadas seguindo um processo de descobertas do conhecimento em etapas. Como o conhecimento está inicialmente na forma de dados, sendo passado para uma segunda fase denominada de informações e finalmente, a partir dos dados, obtêm-se o conhecimento. O processo de descoberta de conhecimento em base de dados pode ser divido em três etapas: Pré-processamento, Mineração de Dados e Pós-processamento (GOLDSCHMIDT et al, 2005). A etapa de préprocessamento compreende as funções relacionadas à captação, à organização e ao tratamento de dados. É na etapa de pré-processamento, que se preparam os dados para a etapa de mineração onde é realizada a busca efetiva por conhecimentos úteis no contexto da pesquisa em questão. A etapa de pós-processamento abrange o tratamento do conhecimento obtido na mineração. 3.1 Modelando dados com uso de análise de regressão multivariada Regressão é o termo utilizado para designar uma equação matemática que descreva as relações entre duas ou mais variáveis. Regressão linear é um método para se estimar o valor esperado de uma variável Y (variável dependente), dados os valores de algumas outras variáveis X (variáveis independentes). Assim, dadas duas matrizes de dados, X e Y, a finalidade da regressão é construir um modelo Y = f(X). Tal modelo tenta explicar, ou predizer, as variações em Y dada as variações em X. A regressão multivariada leva em consideração as diversas variáveis preditivas simultaneamente, modelando a variável dependente com mais exatidão. Neste trabalho, a variável dependente são as vendas efetivas e o grupo de variáveis independentes são os indicadores do desempenho de vendas. O modelo de regressão é representado pela equação 1. Yi = β 0 + β 1 xi1 + β 2 xi 2 + K + β p xip + ε i . (1) Em que Yi – representa a variável dependente, xik (i = 1, ..., n) são as variáveis independentes (k = 1, 2, ..., p); βi’s são os coeficientes da regressão (parâmetros desconhecidos no modelo – a serem estimados); εi é o resíduo, variável aleatória que captura a parcela do comportamento da variável Yi não explicada pela equação da regressão. Os parâmetros de um modelo da regressão podem ser estimados de várias formas: a) b) c) d) Mínimos quadrados, minimizando o erro quadrático médio dos resíduos; Máxima verossemelhança; Métodos baysiana; Minimizando o desvio absoluto. Os métodos da equação 2-a e 2-b coincidem para um modelo com os erros normalmente distribuídos. Estimativas dos mínimos quadrados, usados nesse trabalho, são dadas por (LAROSE, 2006) 3|P ági na βˆ = ∑ (xi − x )( yi − y ) ∑ (xi − x )2 . αˆ = y − βˆx . (2-a) (2-b) O estimador de mínimos quadrados, na forma matricial, é dado por = (X’.X)-1 (X’.Y), onde o apóstrofo significa transposto. Cada observação tem seu próprio resíduo, que somados produzem a soma dos erros quadráticos, uma medida total dos erros da estimação. Três somas quadráticas (SSE, soma quadrática dos erros; SSR, a soma dos quadrados da regressão; SST, a soma total dos quadrados) podem ser calculadas como segue: SSE = ∑ ( y − ŷ ) 2 . SSR = ∑ ( yˆ − y ) 2 (3-a) (3-b) . SST = ∑ ( y − y ) 2 (3-c) . A estatística da regressão pode ser apresenta sucintamente com uso de tabelas da análise de variância (ANOVA). Erros médios (por exemplo, MSE e o MSR) são derivados da equação 4. Um parâmetro importante é o coeficiente de determinação múltipla, que é definida como: R2 = SSR SST . (4) Para a regressão múltipla, R2 é interpretado como a proporção da variabilidade na variável alvo que é esclarecido no relacionamento linear com o conjunto de variáveis preditoras. 3.2 Modelando dados com uso de análise fatorial É um nome genérico dado a uma classe de métodos multivariadas cujo propósito principal é definir a estrutura adjacente em uma matriz de dados, aborda o problema de analisar a estrutura das inter-relações entre um grande numero de variáveis, definindo um conjunto de dimensões latentes comuns, chamadas fatores. a) Tipologia: A análise exploratória é útil na busca da estrutura em um conjunto de variáveis ou como um método de redução, nesta perspectiva considera-se as informações que os dados oferecem e não estabelecem restrições a priori sobre a estimativa de componentes nem sobre o numero de componentes a serem extraídos: − Busca estruturada de conjuntos de variáveis − Redução de dados A análise confirmatória: Testa as hipóteses envolvendo questões sobre, por exemplo quais variáveis deveriam ser agrupadas em um fator ou o numero exato de fatores, ou seja avalia o grau em que os dados satisfazem a estrutura esperada. 4|P ági na b) Objetivos da Análise Fatorial: O objetivo geral de uma analise fatorial é condensar a informação contida num número de variáveis originais, em um conjunto menor de fatores com um mínimo de perda dessa informação. − Observar um conjunto de dimensões latentes num grande conjunto de variáveis - Análise Fatorial do tipo R. − Combinar ou condensar um grande número de observações em grupos - Análise Fatorial do tipo Q. − Identificar variáveis apropriadas para uma posterior regressão, correlação ou Análise Discriminante. − Criar um novo conjunto de novas variáveis em menor número, para substituir outro conjunto. As variáveis utilizadas na Análise Fatorial são geralmente métricas. As observações devem ser, no mínimo, de 50 casos e preferencialmente de 100 ou mais. Entretanto as variáveis dicotômicas, apesar de consideradas não métricas, podem ser empregadas, porem se todas as variáveis são dicotômicas, então formas mais especificas de analise fatorial, como analise fatorial booleana são mais indicadas. c) Determinação dos Fatores e avaliação do ajuste geral: Segundo Malhotra (2005) os fatores podem ser extraídos como ortogonais ou oblíquos. Como ortogonais, eles serão independentes entre si e como oblíquos serão correlacionados ou dependentes - o que é controverso e discutível. Fatores ortogonais representam redução de informação, sendo bons para regressões ou Análise Discriminante, mas podem não ter sentido real, após ser examinando a matriz de fatores sem rotação, pode-se explorar as possibilidades de redução de dados e obter uma estimativa preliminar do número de fatores a extrair. Se o objetivo da analise for identificar variáveis importantes para uso posterior, o especialista deve examinar a matriz de dados e selecionar a variável com mais alto peso fatorial como representativa de uma dimensão particular. Entretanto se o objetivo for o de criar um conjunto inteiramente novo, com um número menor de variáveis, então os escores fatoriais devem ser calculados e utilizados como dados brutos em análises posteriores. Na Análise Fatorial insere-se a variância comum (comunalidade) na diagonal da mesma matriz, antes de extrair os fatores. Neste estagio pode-se executar duas análises diferentes, a analise de componentes principais e a de fatores comum. Na Análise de Componentes Principais, o especialista está preocupado com predição, determinando um número mínimo de fatores necessários para explicar o máximo de variação do conjunto original de dados, tendo conhecimento prévio de que as variâncias específicas e do erro são pequenas com relação à variância total. Enquanto que na Análise de fatores comum o especilaistaestá preocupado em identificar dimensões latentes no conjunto de variáveis originais, tendo pouco conhecimento sobre as variâncias específicas e do erro, desejando eliminá-las. Para melhorar a analise pode-se utilizar o artifício da rotação de fatores para girar os eixos de referência dos fatores, em torno da origem, até alcançar uma posição ideal. Ela pode ser ortogonal ou oblíqua, caso os eixos se mantiverem ou não em 90 graus entre si durante o giro. 5|P ági na O objetivo é facilitar a leitura dos fatores, pois a rotação deixa pesos fatoriais altos em um fator e baixos em outros, definindo mais claramente os grupos de variáveis que fazem parte de um fator estudado. A rotação oblíqua é mais realista, porém mais controversa. O método de rotação mais utilizado é o varimax o qual simplifica as colunas da matriz de fatores. d) Modelo Ortogonal Varimax: A estatística da analise fatorial pode ser apresenta sucintamente com uso da equação 5. Um parâmetro importante é o coeficiente de determinação múltipla, que é definida como: . E[ X ] = µ , Var ( X ) = Σ Seja X px1 tal que (5) X é linearmente dependente de poucas variáveis não-observáveis, F1 , F2 , ..., Fm , chamadas fatores comuns e de p fontes adicionais de variação ε1 , ε2 , ..., εp , chamadas erros ou fatores especificos. X 1 − µ1 = l11 F1 + l12 F2 + L + l1m Fm + ε 1 X 2 − µ 2 = l 21 F1 + l 22 F2 + L + l 2 m Fm + ε 2 M X p − µ p = l p1 F1 + l p 2 F2 + L + l pm Fm + ε p (6) ou, em notação matricial, X − µ = LF + ε A análise VARIMAX simplifica as colunas, neste método maximiza-se a soma das variâncias de cargas exigidas, para em seguida concentra-se em rotacionar uma matriz de modo que uma varaivel tenha carga alta em um fator e cargas baixas em todos os outros. 4. Taxa de abandono de clientes (Churn) A Taxa de Abandono ou Churn consiste no ato de um cliente abandonar uma empresa, geralmente em favor de um concorrente, terminando toda a sua relação com a antiga empresa (IKEDA, 2006). O termo ainda não tem uma tradução usual para o português, mas nas empresas de banda larga causa exatamente o que o verbo quer dizer: uma grande agitação de clientes no mercado, trocando de empresa a todo o momento, o que, por sua vez, levam as empresas a se mexerem em busca de novas formas de manter seus clientes no seu negócio, ao mesmo tempo em que buscam seduzir os clientes da concorrência (FERREIRA, 2005). Estatísticas revelam que as empresas americanas perdem metade de seus clientes em cinco anos e que, nessa taxa de perda de clientes, as empresas têm seus desempenhos financeiros (desempenho) reduzidos de 25% a 50%. (Reichheld; Teal, 1996 apub Ganesh et. al, 2000). Churn trata-se de um termo muito comum na indústria de telecomunicações (LINOFF e BERRY, 2000). Quando se diz que a taxa de churn de uma empresa varia entre 10% a 15% anualmente, significa que essa empresa está perdendo de 10% a 15% dos clientes que se encontram na sua base de dados, por fazer ou ter feito com ela, e que, por algum motivo, não ficaram satisfeitos e se evadiram de sua base de clientes ativos. Pesquisadores levantaram alguns fatores de influência correlacionados positivamente com a manutenção de clientes (GANESH et al, 2000; VENETIS e GHAURI, 2004): 6|P ági na − − − − Qualidade de serviços prestados aos clientes; Satisfação do cliente; Lealdade do cliente; Comprometimento do cliente – definido como “a medida do quanto às partes em uma relação de troca deseja continuar o relacionamento de valor” (VERHOEF, 2003); − Tratamento dados pelos funcionários. O gerenciamento do churn é, justamente, o desenvolvimento de técnicas que permitam à empresa manter seus clientes mais lucrativos. Para Neslin et al., (2006), uma forma de gerenciar o churn é prever quais clientes, tem mais probabilidade de abandonar o relacionamento com a empresa e trabalhar com eles a fim de tentar evitar a ocorrência desse rompimento. Para isso, é preciso que a empresa seja capaz de realizar este tipo de previsão e identificação, buscando deter os clientes que provavelmente se desligarão, considerando quais são os que, de fato, geram valor suficiente para a empresa e justifiquem o investimento de retenção. 5. Metodologia O processo discutido por Hair et al., (2005) consiste em uma metodologia baseada em seis estágios para a analise de regressao multipla e tambem em seis estagios para analise fatorial. A seguir faz-se uma analise comparativa susinta entre os dois modelos. Esse processo procura construir uma estrutura para desenvolver, interpretar e validar análises multivariadas. 5.1 Análise dos Modelos A – Regressão Múltipla. a) Definição do problema da pesquisa, dos objetivos e da técnica multivariada a ser usada. O ponto de partida para uma análise multivariada de dados é definir o problema da pesquisa e os objetivos de análise em termos conceituais, antes de especificar qualquer variável ou medida. Com o objetivo e o modelo conceitual especificados, deve-se escolher a técnica multivariada a ser utilizada. Após escolher entre um método de dependência ou independência, a última decisão é selecionar a técnica em particular com base nas características de medidas das variáveis dependentes e independentes. b) Planejamento da pesquisa Para cada técnica deve ser desenvolvido um plano de análise que aborde as questões particulares a seu propósito e projeto. As questões incluem considerações gerais, como tamanho mínimo da amostra, tipos permitidos ou exigidos de variáveis e métodos de estimação, além de aspectos específicos, como o tipo de medidas de associação de resultados agregados ou desagregados em análise conjunta ou uso de formulações especiais de variáveis para representar efeitos não-lineares ou interativos em regressão. Em cada caso, essas questões resolvem detalhes específicos e exigências para a coleta dos dados. c) Suposições em análise Nesse estágio devem-se fazer várias suposições sobre as relações entre as variáveis dependentes e independentes que afetam o procedimento estatístico (mínimos quadráticos). A seguir discutem-se testes para as suposições e possíveis ações para corretivas. Atender as suposições da análise e essencial para garantir que os resultados obtidos sejam realmente representativos nas observações, obtendo com isto os melhores resultados possíveis. As questões básicas a serem respondidas nesse estágio estão ligadas às suposições 7|P ági na abaixo: − − − − Linearidade do fenômeno medido; Variância constante dos termos de erro; Independência dos termos de erro; Normalidade da distribuição dos termos de erro. Todas as técnicas multivariadas têm suposições inerentes, estatísticas e conceituais, que influenciam muito suas habilidades para representar relações multivariadas. Cada técnica tem também uma série de suposições conceituais que lidam com questões como a formulação de modelo e os tipos de relações representadas. Antes de qualquer estimação de modelo, deve ser garantido que as suposições estatísticas e conceituais estejam satisfeitas. d) Estimação do modelo e avaliação do ajuste geral do modelo Com a análise da pesquisa especificada em termos de variáveis dependentes e independentes, a amostra considerada adequada para os objetivos do estudo e as suposições avaliadas para as variáveis individuais, o processo de construção do modelo agora segue para a estimação do modelo a ser pesquisado e a avaliação do ajuste geral do modelo. Nesse estágio devem ser cumpridas três tarefas básicas: Selecionar um método para especificar o modelo a ser estimado; − Avaliar a significância estatística do modelo geral na previsão da variável estatística; − Determinar se algumas das observações exercem uma influencia indevida nos resultados. No processo de estimação, se dispõe de opções para atender características especificas dos dados ou maximizar o ajuste dos dados. Depois que o modelo é estimado, o seu ajuste geral é avaliado para estabelecer se atinge níveis aceitáveis sobre os critérios estatísticos, se identifica às relações propostas e se tem significância prática. Muitas vezes o modelo é reespecificado, em uma tentativa de atingir melhores níveis de ajustes e explicação geral. Em todos os casos, um modelo aceitável deve ser obtido antes de se prosseguir. e) Interpretação das variáveis estatística pesquisadas Nesse estágio deve-se examinar a equação preditiva, e com isso avaliar a importância relativa que as variáveis individuais na previsão geral do produto. O pesquisador tem como função interpretar a variável estatística de regressão pela avaliação dos coeficientes de regressão estimados em termos de sua explicação da variável dependente, não se deve avaliar tão somente o modelo de regressão estimado, mas também as variáveis independentes potenciais que foram omitidos, se uma busca seqüencial ou abordagem combinatória foi empregada. f) Validação dos resultados. Essa fase consiste em generalizar a aplicação do modelo, demonstrando que ele não é específico as observações utilizadas na estimação. Deve-se garantir que ele represente a população geral e que sejam apropriadas as situações nas quais será usada. B- Análise Fatorial a) Objetivo da análise fatorial Encontrar um modo de condensar a informação contida em diversas variáveis originais em um conjunto menor de novas dimensões compostas ou variáveis estatísticas. Mais especificamente, as tecnicas da analise fatorial podem satisfazer um entre dois objetivos: 8|P ági na − Identifaicação da estrutura por meio da estrutura de dados − Redução de dados b) Planejamento da pesquisa Consiste na criação de um plano de análise que aborde as questões particulares e próprias do projeto, nesta etapa destacam-se os seguintes passos. − Calculo dos dados de entrada (matiz de correlação) - Para atender os objetivos especificados de agrupamento de variáveis ou respondentes pode-se empregar para calcular a matriz de correlação a analise do tipo R ou Q. − O planejamento em relação ao numero de variáveis - As propriedades de medida e tipo de variáveis admissíveis (seleção de Variáveis), deve ser analisada em função de duas questões, como as variáveis são medidas e quantas variáveis devem ser incluídas. − Tamanho necessário para a amostra - Em termos absolutos e como função do numero de variáveis na analise o tamanho da amostra preferencialmente deve ser maior ou igual a 100, sendo o tamanho mais aceitável igual a dez para um. c) Análise de Suposições Nas analises de suposições criticas são mais conceituais do que estatísticas. De um ponto de vista estatístico, os desvios de normalidade, da homoscedasticidade e da linearidade se aplicam apenas no nível em que elas diminuem as relações de correlação observada, a seguir mostra-se alguns testes úteis. − Teste Bartlet de esfericidade: Um teste estatístico para detecção da presença de correlações entre as variáveis, fornecendo a probabilidade estatística de que a matriz de correlação tenha correlações significantes entre pelo menos algumas das variáveis. − Medida da adequação da amostra (MSA ou KMO Kaiser-Meyer-Olkin): Este índice varia de 0 a 1, alcançando 1 quando cada variável é perfeitamente prevista sem erro pelas outras variáveis. d) Determinação dos Fatores e avaliação do ajuste geral Segundo Malhotra (2005) os fatores podem ser extraídos como ortogonais ou oblíquos. Como ortogonais, eles serão independentes entre si e como oblíquos serão correlacionados ou dependentes - o que é controverso e discutível. Fatores ortogonais representam redução de informação, sendo bons para regressões ou Análise Discriminante, mas podem não ter sentido real, após ser examinando a matriz de fatores sem rotação, pode-se explorar as possibilidades de redução de dados e obter uma estimativa preliminar do número de fatores a extrair. Se o objetivo da analise for identificar variáveis importantes para uso posterior, o especialista deve examinar a matriz de dados e selecionar a variável com mais alto peso fatorial como representativa de uma dimensão particular. Entretanto se o objetivo for o de criar um conjunto inteiramente novo, com um número menor de variáveis, então os escores fatoriais devem ser calculados e utilizados como dados brutos em análises posteriores. e) Interpretação dos fatores Na interpretação dos fatores e na seleção do fator final deve-se analisar inicialmente a matriz não rotacionada com a finalidade de obter uma identificação preliminar do numero de fatores 9|P ági na a extrair. Ao computar a matriz fatorial não-rotacionada a analise é feita apenas na melhor combinação particular das variáveis originais, sendo o primeiro fator o melhor resumo de relações lineares. A seguir emprega-se um método rotacional para simplificar as soluções fatoriais e mais significativas, nestes casos a rotação dos fatores melhora a interpretação, reduzindo as ambigüidades. Por fim deve-se avaliar a necessidade de reespecificar o modelo fatorial. f) Validação dos Resultados Neste estagio se avalia o grau de generalização dos resultados para a população da amostra e da influencia potencial de casos ou respondentes individuais sobre os resultados gerais, sendo especialmente grave esta a questão de generalização pois necessita de uma estrutura de dados que seja representativa da população. A seguir faz um breve resumo dos estágios do diagrama de decisão adaptada a metodologia utilizada por Hair, comparando a Regressão Múltipla e a Análise Fatorial no Quadro 1. QUADRO 1 - Estágios no diagrama de decisão de regressão múltipla Regressão Múltipla Análise Fatorial Definir o problema da pesquisa e os objetivos de análise em termos conceituais. Encontrar um modo de condensar a informação contida em diversas variáveis originais em um conjunto menor de novas dimensões compostas ou variáveis estatísticas. Desenvolvido um plano de análise que aborde as questões particulares a seu propósito e projeto. Criação de um plano de análise que aborde as questões particulares e próprias do projeto; Devem-se fazer várias suposições sobre as relações entre as variáveis dependentes e independentes que afetam o procedimento estatístico (mínimos quadráticos). O processo de construção do modelo agora segue para a estimação do modelo a ser pesquisado e a avaliação do ajuste geral do modelo. Execução de suposições sobre interdependentes das variáveis; Nesse estágio deve-se examinar a equação preditiva, e com isso avaliar a importância relativa que as variáveis individuais na previsão geral do produto. Essa fase consiste em generalizar a aplicação do modelo. Três passos são envolvidos na interpretação e na seleção da solução fatorial; as relações Métodos de extração de fatores e Qual o numero de fatores selecionados para representar a estrutura latente de dados. Consiste em validar a aplicabilidade do modelo. Fonte: Adaptado pelo autor do HAIR (2005) A seguir na Figura 1 tentou-se criar de forma sucinta uma seqüência para ser utilizada nas duas analises multivariada. Definição do Problema Planejament o Suposições em análise Estimação do modelo Interpretaçã o das variáveis Validação dos resultados 10 | P á g i n a Figura 1 – O número de fatores na extração. Fonte: Adaptado pelo autor do Goldsimith (2005) 6. Análise e implementação dos resultados Considerando que o objetivo proposto é uma confirmação da equação de regressão por meio da analise fatorial, existe a necessidade de se especificar e selecionar as variáveis a serem analisadas. Descreve-se a seguir os indicadores de internet banda larga utilizados nas empresas de telecomunicações. QUADRO 2 - caracterização das variáveis dependente e independente Indicador Formula dos Indicadores Valores Tipo de Variável TAXA PREVENTIVA ∑ dos Reparos Preventivos ∑ dos Reparos Corretivos do Mês Anterior % TAXA DE ABANDONO Quantidade de Retiradas X 100 Base em Serviço do Mês Anterior % Dependente Reparos Aberto nos últimos 30 dias X 100 Total de Instalação Realizadas nos Últimos 30 dias % Independente ∑ Tempos de Reparo no mês Base de Terminais Reclamados no mês % Independente IPGC Instal. Executados em até 3 dias corridas x 100 Total de Instalação no Período % Independente RPAV Reparos Executados no Prazo (4 h ) X 100 Total de Reparos no Mês % Independente RPDC Reparos Executados no Prazo (8 h ) X 100 Total de Reparos no Mês % Independente RPT Reparos Executados no Prazo X 100 Total de Reparos no Mês % Independente RRAV Reparos Reincidente < 90 dias Alto V. X 100 Total de Reparos no Mês % Independente RRDC Reparos Reincidente < 90 dias D. C. X 100 Total de Reparos no Mês % Independente RRT Reparos Reincidente < 90 dias X 100 Total de Reparos no Mês % Independente Quantidade Reparos em 30 dias X 100 Base em Serviço Mês % Independente % Independente IGT TEMPO REPARO MEDIO TAXA DE REPARO TEMPO INSTALAÇAO DE ∑ Tempos de Instalação no mês Base de Terminais instalados no mês Fonte: Elaborada pelo autor Independente 11 | P á g i n a A regressão múltipla e a analise fatorial ortogonal foram selecionadas como as técnicas multivariadas a serem utilizadas, devido fornecem um meio de avaliar objetivamente o grau e o caráter da relação entre as variáveis dependentes e independentes. Nesse artigo escolheu-se a ferramenta SPSS pela sua facilidade de utilização, pela sua vasta literatura e por ser bastante usada na análise de regressão múltipla e analise fatorial. 6.2 O planejamento da pesquisa Obtidos um total de 336 observações ocorridas em uma grande empresa de telecomunicações existente no Brasil, com atuação nas regiões nordeste, norte e sudeste. A fim de comparar os dois modelos de analise multivariados, é feito inicialmente um estudo com o modelo de regressão múltipla por meio de uma abordagem de busca seqüencial (Stepwise). A seguir, é utilizado o método de analise fatorial para confirmar a equação de regressão com um conjunto de fatores sendo então executada a extração dos fatores na ordem de sua maior importância. No método Stepwise, em cada etapa, a variável independente ainda ausente da equação são incorporadas caso possuam valores baixos da estatística F. As variáveis já na equação da regressão são removidas se sua probabilidade de F se tornar suficientemente grande. O método conclui quando não mais há variável elegível para a inclusão ou a remoção. O nível de tolerância usado foi 0,05. Na analise fatorial o teste utilizado é o de esfericidade de Bartlett é baseado na distribuição estatística de “Chi-Square” e testa a hipótese (nula H0) de que a matriz de correlação é uma matriz identidade (cuja diagonal é 1,0 e todas as outras as outras iguais a zero),ou seja que não há correlação entre as variáveis.(Pereira, 2001). Valores de significância maiores que 0,100, indicam que os dados não são adequados para o tratamento com o método em questão; que a hipótese nula não pode ser rejeitada. Já valores menores que o indicado permite rejeitar a hipótese nula (SPSS,1999 e HAIR et al.,2005). 6.3 Suposições em análise de regressão linear múltipla Fazendo-se análise da matriz de correlação entre as variáveis do modelo, pode ser verificado que, entre as variáveis independentes, não existem valores superiores a 0,5, conforme dados obtidos a partir do SPSS (NORUSIS, 2004). Ou seja, não existindo nenhum valor pode ser concluído pela inexistência de multicolinearidade. rX i X j ≥ 0,5 , A seguir, faz-se uma análise dos gráficos de dispersão para a regressão múltipla e o scree test para analise fatorial. No scree test apresentado na Fgura 2, mostra-se os autovalores versus o número de fatores na ordem de extração, sendo assim pode-se determinar o ponto de corte, pode ser verificado que existe uma distribuição consistente dos resíduos em relação à distribuição teórica, ou seja, segue aproximadamente a forma da curva normal. Na Figura 3 nota-se uma tendência de distribuição uniforme, ou seja, os pontos encontram-se próximos de uma reta. 12 | P á g i n a Scree Plot Normal P-P Plot of Regression Standardized Residual 10 Dependent Variable: CHURN_ 1,0 8 Expected Cum Prob Eigenvalue 0,8 6 4 2 0,6 0,4 0,2 0 0,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Component Number Figura 2 – O número de fatores na extração Fonte: Analise Fatorial Relatório do SPSS 0,0 0,2 0,4 0,6 0,8 1,0 Observed Cum Prob Figura 3– Probabilidade normal PP-plot Fonte: Relatório do SPSS 6.4 A equação estimada de regressão múltipla O principal objetivo dos modelos de regressão é a estimação dos parâmetros desconhecidos β. A esse processo é comum chamar-se de “ajuste do modelo aos dados”. Os coeficientes do modelo stepwise contém as estimativas dos parâmetros e respectivas estimativas do erro padrão, as estimativas dos coeficientes padronizados e o valor da estatística t-Student. Por meio dos dados do SPSS (coeficientes do modelo), pode ser caracterizada a equação de regressão que pode ser vista abaixo: Taxa de Abandono = 0,53(TMI) + 0,41(TRP) + 0,60(TMR) – 0,39(QRPR) (7) Onde: − TMI: Representa o tempo médio gasto na instalação do circuito, ou seja, é o tempo desde abertura da ordem de serviço até o seu efetivo fechamento. − TRP: Representa a taxa de reparo executado no prazo acordado com o cliente esse prazo varia de 8 horas para clientes Alto Valor e 24 horas para os Demais Clientes geralmente são os clientes varejo. − QRPR: Esse valor representa a quantidade de reparos preventivos efetuados nas empresas. − TMR: Representa o tempo médio gasto no reparo do circuito, ou seja, é o tempo desde abertura do Bilhete de Defeito até o seu efetivo fechamento. 6.5 Interpretação por meio da análise fatorial Na interpretação dos valores e na seleção do fator final deve-se analisar inicialmente a matriz não rotacionada com a finalidade de obter uma identificação preliminar do numero de valores a extrair. Ao computar a matriz fatorial não-rotacionada a analise é feita apenas na melhor combinação particular das variáveis originais, sendo o primeiro fator o melhor resumo de relações lineares. A seguir emprega-se um método rotacional para simplificar as soluções 13 | P á g i n a fatoriais e mais significativas, nestes casos a rotação ortogonal utilizando VARIMAX dos fatores melhora a interpretação, reduzindo as ambigüidades. Por fim deve-se avaliar a necessidade de reespecificar o modelo fatorial. Na analisa-se da matriz de correlação rotacionda, mostrada na Tabela 1, pode-se concluir que, O fator 1 tem altos coeficientes para as variáveis V1 (Tempo Medio do Reparo) e V3 (Tempo Medio de Instalação) e um coeficiente negativo V5 (Quantidade de Reparos Preventivos), sendo o fator 2 mais fortemente relacionado com as variáveis V2 (Taxa de Reparo), V4 (Reparo Reincidente) e V6 (Reparo no Prazo). Verifica-se que existe uma quebra distinta em 3 fatores, sendo os dois primeiros fatores respondem por mais de 80% da variância e que o ganho obtido ao passar para 3 torna-se pequeno. TABELA 1 - Matriz Componente Rotacionada(a) Componente V1 V3 V5 V2 V6 V4 V7 V8 V10 V12 V9 V11 V13 V14 V16 V17 V15 1 .803 .835 -.903 -.067 .075 -.052 -,027 ,061 -,053 -,060 -,044 ,095 ,096 ,093 ,095 ,096 ,010 2 -.014 -.164 -.119 .873 .827 .768 ,358 ,726 -,011 ,238 ,395 -,191 -,129 -,158 -,153 -,122 -,151 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a Rotation converged in 3 iterations. 6.6 A comparação entre significância dos modelos Por meio da analise fatorial foi selecionado três fatores como os mais relevantes V1 (Tempo Medio do Reparo) e V3 (Tempo Medio de Instalação) e um coeficiente negativo V5 (Quantidade de Reparos Preventivos). Na analise por regressao multipla a quantidade de fatores foram quatro Tempo médio de instalação (TMI), Taxa de reparo (TRP), Tempo médio de reparo (TMR), Reparo repetida(QRPR). A seguir o Quadro 3 compara os dois métodos: 14 | P á g i n a QUADRO 3 - Quadro comparativo analise fatorial x regressão multipla Regressão Multipla Analise Fatorial 4 Variaveis independentes 1 Fator com 3 variaveis No Teste de significativa estatística, na amostraNo teste de Bartlett, na amostra observada temos: observada temos: Fobs = 43.367 que é superior a Fc=F(95%Um valor menor que 0,0001, o que permite ; 4 ; 163) = 2,40 (valor percentual de uma distribuição confirmar a possibilidade e adequação do método de com 4 graus de liberdade no numerador e 163 noanálise fatorial para o tratamento dos dados. denominador) com isso valida a hipótese alternativa de que a regressão é estatisticamente significativa. Método multivariado de análise que utiliza aMétodo multivariado de análise que utiliza a dependência e tem como medida variáveis métricas. independência e tem na sua estrutura a relação de variáveis. Resultado final: uma equação com quatro variáveisResultado final: três fatores mais relevantes. independentes e uma dependente Fonte: Elaborada pelo autor 7. Considerações finais A gerência, controle e diminuição do churn tornaram-se críticas nos mercados de telecomunicações. A fim de competir neste mercado, as operadoras de serviços têm procurado exaustivamente tomar ações dinâmicas para reter clientes valiosos e diminuir o churn. Nesta pesquisa, foi proposta duas técnicas diferentes para identificar varaiveis ou fatores com características mais relevantes. Após examinar o impacto de dados inadequados na criaçao dos modelo. Nossa avaliação estatística mostra que as técnicas da mineração de dados podem eficazmente ajudar as operadoras de serviços de telecomunicações a fazer uma gerencia e controle mais do churn. A qualidade dos serviços prestados foi identificada como um dos fatores de relevante importância para a analise da taxa de abandono, tanto na metodologia utilizando a regressão multipla quanto pela metodologia utilizando analise fatorial. Foi possível observar na regressão múltipal que 50,4% do abandono pode ser relacionada ao comportamento de quatro indicadores de qualidade sendo eles Tempo Médio de Reparo, Tempo Médio de Instalação, Reparos Preventivos, Taxa de Reparo, enquanto que na analise fatorial o índice para a a presente solução mostra que 90,3% da variância total são representadas pela inforamçao contida na matriz fatorial contida em três variaveis V1 (Tempo Medio do Reparo) e V3 (Tempo Medio de Instalação) e um coeficiente negativo V5 (Quantidade de Reparos Preventivos). A partir destas analises confirma-se a importancia dos indicadores Tempo Médio de Reparo, Tempo Médio de Instalação e Reparos Preventivos, pois foram variaveis e fatores relevantes nas duas analises. Por fim os resultados obtidos demonstram a aplicabilidade dos indicadores, consequtemente possibilitando ganhos para as prestadoras de serviço que decidirem utilizar estes métodos em suas estratégias de manutenção, para isto investimentos devem ser feitos em melhoria de qualidade na instalação, reparo e na manutenção preventiva, devendo este investimento ser visto pela ótica da retenção de cliente e manutenção da base. O artigo comprovou que uma instalação ou reparo feito em menor tempo, uma preventiva bem feita afetam positivamente a satisfação do cliente colaborando com que o mesmo permaneça na empresa. 15 | P á g i n a Referências ARNETT, Dennis B; Menon, Anil, Wilcox, James B. “Using Competitive Intelligence: Antecedents and Consequences”, Competitive Intelligence Review, Vol. 11(3), 2000. CORREA, H. L. The Links Between Uncertainty, Variability of Outputs and Flexibility in Manufacturing Systems. University of Warwick, Warwick, 2002. FACINA, Taís. Manutenção Sem Fronteiras. Revista Manutenção. Julho e Agosto, 1999. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P.; UTHURUSAMY, R. “Advances in Knowledge Discovery & Data Mining”, Cambridge, MA (The AAAI Press/The MIT Press), 1996. FERNANDES, A. P. Análise dos Indicadores de Qualidade versus Taxa de Abandono Utilizando Método de Regressão Múltipla para Serviço de Banda Larga (Dissertação de Mestrado). Programa de Pós-Graduação em Engenharia de Produção, Universidade Federal do Rio Grande do Norte, Natal, 2007. FERREIRA, J. B. Mineração de Dados na Retenção de Clientes em Telefonia Celular. Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro - PUC, Rio de Janeiro, 2005. GANESH, J. ARNOLD, M. J.; REYNOLDS, K. E. Understanding the Customer Base of Service Providers: Na Examination of the Differences Between Switchers and Stayers. Journal of Marketing, Vol. 64, 2000. GIANESI, I. G. N., CORREA, H. L. Administração estratégica de serviços – operações para a satisfação do cliente. São Paulo: Atlas, 1994. GOLDSCHMIDT, Ronald; PASSOS, Emmanuel. Data Mining – Um Guia Prático, Conceitos, Técnicas, Ferramentas, Orientações e Aplicações. São Paulo: Campus, 2005. GRONROOS, Christian. Value-driven relational marketing: from products to ressources and competencies. Journal of Marketing Manegement, Vol.13, n.5, 1997. _____________________. Marketing Gerenciamento e Serviço A Competição por Serviço na Hora da Verdade. 4° edição, São Paulo: Campus, 1993. HAIR, J.; ANDERSIN, R. E.; TATHAM, R. L. Análise Multivariada de Dados. São Paulo: Bookman,Vol.1, 2005. IKEDA, Ana Akemi. Segure o Churn! In: LOVELOCK, Cristopher; WIRTZ, Jochen. Marketing de Serviços: pessoas, tecnologia e resultados. 5o ed. São Paulo: Editora Prentice Hall, 2006 LAROSE, Daniel T. Data Mining Methods and Models. a John Wiley & Sons, inc; 2006. LAPIERRE, J. Customer - Perceived Value in Industrial Contexts. Journal of Business & Industrial Marketing, Vol.15, n. 2/3, 2000. LINOFF, Gordon.; BERRY, Michael,; “Mastering Data Mining: The Art and Science of Customer Relationships Management”, John Wiley & Sons Inc, USA, 2000. NEELY, A. et. al. Designing Performance Measures: A Structured Approach. International Journal of Operations & Production Management, Vol. 17, n.11, 1997. NESLIN, Scott A.; GUPTA, Sunil; KAMAKURA, Wagner, LU, Junxiang; MASON, Charlott H. Defection detection: measuring and understanding the predictive accuracy of customer churn models. Jounal of Marketing Research, Chicago, Vol. 43, n.2, 2006. NORUSIS, M. SPSS 13.0 Statistical Procedures Companion. Upper Saddle-River, N.J.: Prentice Hall, Inc.. 2004. PINTO, Alan Kardec; XAVIER, Júlio Nassif. Manutenção: Função Estratégica. Rio de Janeiro: Qualitymark, 1998. PIATETSKY-SHAPIRO, “Measuring Lift Quality In Database Marketing”. Journal Of SIGKDD Exploration Newsletter, Vol. 2, New York; 2000. REICHHELD, Frederick. A estratégia da Lealdade: a força invisível que mantém clientes e funcionários e sustenta crescimento, lucros e valor. Rio de Janeiro: Campus, 1996. SPSS (2007). Statistical Package for Social Sciences. SPSS v. 13.0. URL: <http://www.spss.com>. Acesso em novembro, 2007. 16 | P á g i n a TÉBOUL, James. A Era dos Serviços – Uma Abordagem de Gerenciamento. Rio de Janeiro: Qualitymark,1995. VENETIS, K. A.; GHAURI, P. N. Service quality and customer retention: building long-term relationships. European Journal of Marketing. Vol. 38, n. 11/12, 2004. VERHOEF, P. Understanding the Effect of Customer Relationship Managment Efforts on Customer Retention and Customer Share Development. Journal of Marketing. Vol. 67, n. 10, 2003. XENOS, Harilaus Georgius d'Philippos. Gerenciando a Manutenção Produtiva. Belo Horizonte: Desenvolvimento Industrial, 1998. 17 | P á g i n a