CAPA - Projetos

Propaganda
UNIVERSIDADE FEDERAL DE SANTA CATARINA
Rodrigo Benincá Machado
APLICAÇÃO DO PROCESSO DE DESCOBERTA DE CONHECIMENTO
EM BASE DE DADOS POPULACIONAIS
Florianópolis, 2004
UNIVERSIDADE FEDERAL DE SANTA CATARINA
Rodrigo Benincá Machado
APLICAÇÃO DO PROCESSO DE DESCOBERTA DE CONHECIMENTO
EM BASE DE DADOS POPULACIONAIS
Rascunho do projeto de conclusão de curso
submetido à Universidade Federal de Santa Catarina
como parte dos requisitos para obtenção
da nota final da disciplina de Projetos I.
Orientador:
Paulo José Ogliari
Banca Avaliadora: José Messias Bastos
Paulo F. Andrade
Florianópolis, 2004
Sumário
Capítulo 1 – Apresentação do Trabalho
1.1 Introdução
1.2 Objetivos
1.3 Justificativa
1.4 Metodologia
1.5 Estrutura do trabalho
Capítulo 2 – Uma Visão Geral de Data Mining
2.1 A evolução dos sistemas de banco de dados
2.2 Definindo Data Mining
2.3 As etapas do processo de descoberta de conhecimento
2.4 A arquitetura do Data Mining
2.5 Padrões que podem ser encontrados
2.6 Importância dos padrões encontrados
2.7 Classificação dos sistemas de Data Mining
Capítulo 3 – Dicionário de Dados
Capítulo 4 – Bibliografia
1
1
1
1
2
2
3
3
5
6
7
8
8
8
9
9
1
Capítulo 1 – Apresentação do Trabalho
1.1 Introdução
A cada 10 anos o IBGE – Instituto Brasileiro de Geografia e Estatística – realiza o
censo da população pesquisando de maneira completa, para o conjunto da população,
variáveis demográficas, nupcialidade e fecundidade, trabalho, educação, renda e
características dos domicílios. É operacionalizado em dois estágios, o primeiro através da
aplicação de um conjunto de questões básicas a toda a população e, o segundo, abordando
uma amostra através de um questionário mais completo.
Em todo o território nacional foram selecionados 5.304.711 domicílios para responder
ao questionário da amostra, o que significou uma fração amostral da ordem de 11,7%.
O presente trabalho de conclusão de curso pretende aplicar o processo de descoberta
de conhecimento na base de dados do censo demográfico brasileiro do ano 2000, fornecida
pelo IBGE, analisando as características populacionais dos municípios de Criciúma e
Florianópolis, conforme descritas nos objetivos abaixo.
1.2 Objetivos
O objetivo geral desse trabalho de conclusão de curso é utilizar o processo de
descoberta de conhecimento (KDD – Knowledge Discovery in Database) para traçar o perfil
sócio-econômico dos municípios de Criciúma e Florianópolis e encontrar padrões,
probabilidades ou fatos que não são facilmente identificáveis.
1.3 Justificativa
A obtenção do conhecimento tornou-se muito importante em nossa sociedade atual.
Tanto instituições privadas quanto as públicas precisam de informações para tomarem as
decisões mais adequadas para seu negócio.
Para as instituições governamentais, é apenas através dos censos populacionais que se
obtém informações sobre a situação de vida da população de uma determinada região. São os
censos que fornecem informações necessárias para a definição de políticas públicas
municipais, estaduais ou federais e para a tomada de decisões de investimentos, sejam eles
provenientes da iniciativa pública ou privada ou de qualquer nível de governo (IBGE, 2004).
2
Esse trabalho de conclusão de curso, como citado nos objetivos, visa utilizar o
processo de descoberta de conhecimento para traçar o perfil das cidades de Criciúma e
Florianópolis e encontrar padrões, probabilidades ou fatos que poderiam ser utilizadas como
auxilio na tomada de decisões.
1.4 Metodologia
A metodologia de desenvolvimento desse trabalho pode ser dividida em três partes
distintas: revisão bibliográfica, o estudo da base de dados e a aplicação desse conhecimento
na mineração da base de dados selecionada. Essas três atividades podem ser realizadas
paralelamente no decorrer do desenvolvimento desse trabalho.
A revisão bibliográfica abrangerá a estudo dos conceitos necessários para a realização
de um processo de descoberta de conhecimento. Também se faz necessário levantar
informações sobre os dois municípios em estudo, Criciúma e Florianópolis, para ter-se
embasamento técnico suficiente para compreender os resultados encontrados durante o
processo e apontar os motivos que levaram a essa diferença entre os dois municípios.
O estudo da base de dados selecionada para o trabalho inicia através de seu dicionário
de dados e mapas dos municípios em análise. O conhecimento obtido nesse estudo será
utilizado durante a primeira etapa do processo de descoberta de conhecimento, a preparação
dos dados.
Com o embasamento teórico e o estudo da base de dados concluídos inicia-se a parte
prática desse trabalho, que é a aplicação do processo de descoberta de conhecimento. Serão
aplicadas todas as etapas do processo de descoberta de conhecimento com exceção da fase de
aplicação das descobertas e avaliação dos resultados.
1.5 Estrutura do trabalho
[nesse rascunho não será apresentado esse tópico, apenas no documento final a ser
apresentado no próximo semestre]
3
Capítulo 2 – Uma Visão Geral de Data Mining
Nessa parte do trabalho é apresentada a evolução da tecnologia de banco de dados
desde meados de 1960 até os dias atuais, a importância do data mining, sua arquitetura e o
possível ganho de conhecimento obtido com a mineração dos dados. Também são
apresentados os tipos de padrões que podem ser encontrados e como distinguir quais deles
realmente apresentam conhecimento útil.
A grande razão pela qual data mining tem atraído a atenção da indústria da informação
nos últimos anos é devido a disponibilidade de grandes quantidades de dados e a eminente
necessidade de transformar esses dados em informação útil e conhecimento. A informação e
conhecimentos obtidos podem ser utilizados desde aplicações de business management,
controle de produção e análise de mercado até aplicações de projetos de engenharia e
exploração científica.
2.1 A evolução dos sistemas de banco de dados
Data mining pode ser visto como um dos resultados da evolução natural da tecnologia
da informação. Um caminho evolutivo pode ser visto na indústria de banco de dados pelo
desenvolvimento das seguintes funcionalidades: coleção de dados e criação de base de dados;
gerenciamento de dados (incluindo recuperação e base de dados de processamento
transacional) e, entendimento e análise de dados (envolvendo data warehouse e data mining).
A figura 1 mostra a evolução da tecnologia de banco de dados.
A partir dos anos sessenta, a tecnologia da informação e banco de dados tem se
envolvido sistematicamente desde os primitivos sistemas de processamento de arquivos até os
sofisticados e poderosos sistemas de banco de dados. Com a evolução da tecnologia de banco
de dados os usuários ganharam um acesso mais flexível e conveniente aos dados através de
linguagens de consulta, interfaces gráficas com o usuário, otimização no processamento de
consultas e gerenciamento de transação. Métodos eficientes para processamento de transações
on-line (OLTP), onde a consulta é vista como uma transação somente de leitura, tem
contribuído para a evolução e aceitação em larga escala da tecnologia relacional como a
principal ferramenta para armazenamento eficiente dos dados, recuperação e gerenciamento
de grande quantidade de dados.
4
A evolução no hardware dos computadores conduziu a popularização e ao aumento do
poder de processamento dos mesmos. O hardware é o grande impulsionador da indústria de
banco de dados e da informação, e aumenta a disponibilidade de banco de dados e
repositórios de informação para gerenciamento de transação, recuperação de informação e
análise de dados.
(1960) Coleção de Dados e Criação de bases de dados
- Processamento primitivo de Arquivos
(1970 – 1980) Sistemas Gerenciadores de Banco de Dados
- Sistemas Hierárquicos
- Sistemas Relacionais
- Ferramentas de modelagem de dados: modelo entidade-relacionamento
- Indexação e técnicas de organização de dados: Árvores B+, hashing
- Linguagens de consulta: SQL
- Mecanismos de otimização de consultas
- Gerenciamento de transações: recuperação de falhas, controle de concorrência
- Processamento de transações on-line (OLTP)
(1985 – presente) Avanço nos Sistemas
de Banco de Dados
- Avanço nos modelos de dados:
extended-relational, orientado a objeto,
objeto-relacional
-Orientado a aplicação: geográficos,
temporais, multimídia, ativos, científicos,
bases de conhecimento
(1990 – presente) Sistemas de Baco de
Dados baseados na WEB
- Sistemas de banco de dados baseados
em XML
- Web mining
(1990 – presente) Data Warehouse e Data
Mining
- Data Warehouse e tecnologia OLAP
- Data Mining e descoberta de conhecimento
(2000 - ...) Nova geração de Sistemas de
Informação Integrados
Figura 1 - A evolução da tecnologia de banco de dados (Kamber,
2xxx)
5
Os dados podem ser armazenados em diferentes tipos de bancos de dados. Uma
arquitetura de banco de dados que surgiu recentemente é o data warehouse. Data warehouse é
um repositório de dados que organiza num esquema unificado e em apenas um local a
informação proveniente de diversas fontes de dados com o objetivo de facilitar o
gerenciamento da decisão. A tecnologia de data warehouse inclui a limpeza e integração dos
dados e o processo analítico on-line (OLAP). OLAP é uma técnica de análise com
funcionalidades como a sumarização, consolidação e agregação, assim como a habilidade de
ver a informação de diferentes ângulos. Embora as ferramentas OLAP suportem análise
multidimensional e tomada de decisão, ferramentas adicionais de análise de dados são
requeridas para uma análise detalhada, como classificação e agrupamentos, por exemplo.
As grandes quantidades de dados armazenados já excederam em muito a habilidade
humana de compreensão sem o uso de poderosas ferramentas de análise. Como resultado
disso, os dados armazenados em grandes bases de dados podem acabar se tornando pouco
utilizados. Consequentemente, importantes decisões são tomadas pela intuição dos analistas e
não pela informação armazenada, simplesmente porque o analista não dispõe das ferramentas
para extrair o conhecimento embutido na grande quantidade de dados.
As ferramentas de data mining realizam análises nos dados e podem descobrir
importantes padrões, contribuindo para a estratégia do negócio, bases de conhecimento,
pesquisas médicas e científicas, administração governamental e controle ambiental.
2.2 Definindo Data Mining
O termo data mining pode ser encontrado na literatura como sendo um passo dentro do
processo de descoberta de conhecimento (KDD – Knowledge Discovering in Databases) ou
sendo referenciado como todo o processo em si, isso dependerá da fonte pesquisada. Nesse
trabalho o termo data mining é tratado como sendo parte do processo de descoberta de
conhecimento.
O processo de descoberta de conhecimento é um processo composto por diversas
etapas, envolvendo metodologias, técnicas e ferramentas de data mining. O seu objetivo é o
de “otimizar e automatizar o processo de descrição das tendências e dos padrões contidos
nesse processo, potencialmente úteis e interpretáveis” (ogliari, 2004).
Esse processo inclui limpeza, integração, seleção e transformação dos dados, data
mining, avaliação de padrões e apresentação de conhecimentos.
6
Data mining é uma das etapas no processo de descoberta de conhecimento, como
apresentado na figura 2. É um campo novo e interdisciplinar desenhado a partir de áreas como
os sistemas de banco de dados, data warehousing, estatística, inteligência artificial,
visualização de dados, recuperação de informação, computação de alta performance, entre
outros.
Data mining pode ser conceituado como o “uso de técnicas de exploração de grande
quantidade de dados de forma a descobrir novos padrões e relações que, devido ao volume de
dados, não seriam facilmente descobertos a olho nu pelo ser humano”. (Carvalho, 2001 in
Ogliari, 2004).
Em português, a tradução mais comum para termo data mining seria mineração de
dados. Nesse trabalho optou-se por manter o nome original, ou seja, data mining.
2.3 As etapas do processo de descoberta de conhecimento
A figura 2 ilustra as etapas do processo de descoberta de conhecimento, note a
presença de uma etapa denominada data mining.
Análise
Assimilação
(Conhecimento)
Data Mining
⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟⃟
Transformação
••••
••••
Pré-processamento
°°°°
°°°°
Seleção
°°°°
°°°°
Base de dados
Padrões
Dados
transformados
Dados
processados
Dados
selecionados
(a analisar)
Preparação de dados
Mineração de dados
Figura 2 – As etapas do processo de descoberta de conhecimento (Ogliari,
2004)
7
[nesse rascunho não será apresentado as definições de cada uma das etapas
apresentadas na figura. Apenas no documento final a ser apresentado no próximo semestre]
2.4 A arquitetura do Data Mining
A figura 3 ilustra a arquitetura típica de um sistema de data mining segundo
(Kamber,2004). Nela encontram-se os seguintes componentes:
[reproduzir a figura da arquitetura e colocá-la aqui]
Figura 3 - A arquitetura de um sistema de data mining

Base de dados, data warehouse: são considerados as fontes de dados utilizados
pelo sistema de data mining. Pode haver mais de uma fonte de dados para cada
análise realizada, isso depende do objetivo da análise e como estão organizados
os dados para serem utilizados. Em geral técnicas como a limpeza e integração
dos dados serão necessárias.

Base de dados ou data warehouse server: possuem a responsabilidade de
buscar os dados relevantes para a análise, de acordo com a requisição do
usuário do data mining.

Base de conhecimento: [pesquisar mais sobre esse item]

Motor do data mining (data mining engine): é a parte fundamental de um
sistema de data mining e consiste em um conjunto de módulos para realizar
tarefas como a caracterização, associação, análise de agrupamentos (clustering)
etc.
 Módulo de avaliação de padrões: esse módulo emprega medidas de interesse e
interage com outros módulos do sistema para focar a busca na direção de
padrões interessantes. Pode ser utilizado com limites de interesse para filtrar ou
descobrir padrões.
8
 Interface gráfica com o usuário: é o módulo que faz a comunicação entre o
sistema e seu usuário, permitindo a esse, interagir com o sistema pela
especificação de uma tarefa ou consulta, prover informação para auxiliar na
busca e realizar mineração exploratória baseado em resultados intermediários.
Esse módulo também permite ao usuário navegar nas estruturas de dados da
base, avaliar os padrões encontrados e visualizá-los de diferentes formas.
A partir de uma perspectiva de data warehouse, o data mining pode ser visto como um
estágio seguinte do processamento analítico on-line (OLAP). Entretanto, data mining vai além
do estilo de sumarização do processo analítico do data warehouse por ter incorporado técnicas
mais avançadas para o entendimento de dados.
Data mining envolve uma integração de tecnologias de múltiplas disciplinas como a
tecnologia de banco de dados, estatística, inteligência artificial, computação de alta
performance, reconhecimento de padrões, visualização de dados, recuperação de informação,
processamento de imagem e sinal. A execução do data mining permite que os conhecimentos
interessantes, as regularidades, os padrões possam ser visualizados e navegados por diferentes
ângulos.
A descoberta de conhecimento pode ser aplicada na tomada de decisões, controle de
processos, gerenciamento da informação, e processamento de consultas. Consequentemente,
data mining é considerado uma das mais importantes fronteiras em sistemas de base de dados
e um dos desenvolvimentos interdisciplinares mais promissores na indústria da informação.
2.5 Padrões que podem ser encontrados
[em andamento. Podendo ainda ser disponibilizado para avaliação do rascunho nesse
mês de novembro].
2.6 Importância dos padrões encontrados
[em andamento. Podendo ainda ser disponibilizado para avaliação do rascunho nesse
mês de novembro].
2.7 Classificação dos sistemas de Data Mining
[em andamento. Podendo ainda ser disponibilizado para avaliação do rascunho nesse
mês de novembro].
9
Capítulo 3 – Dicionário de Dados
[nesse tópico, que será um futuro anexo, será apresentado o significado de alguns
termos. Alguns eu já acrescentei para futura definição. Pediria aos senhores que sugerissem
termos conforme forem lendo o trabalho].

SQL

Árvores B+

DW

modelo entidade-relacionamento

data store

processamento transacional

business management

OLTP

Padrão
Capítulo 4 – Bibliografia
[tópico em construção]
(IBGE, 2004) - http://www.ibge.gov.br/censo/importancia.shtm
(Kamber, 2xxx) (Ogliari, 2004) – [como referenciar as transparências de aula?]
Download