BANCO DE DADOS E MINERAÇÃO DE DADOS EM

Propaganda
BANCO DE DADOS E MINERAÇÃO DE DADOS
EM BIOINFORMÁTICA
ANA PAULA SANDOVAL CARLOS
PIBIC/CNPQ
JERONIZA NUNES MARCHAUKOSKI
Com o avanço da tecnologia, o crescimento das
informações através da produção científica é
exorbitante. Dados biológicos, como a genômica e
proteômica, o contingente é ainda maior. O desafio
posto na manipulação de elementos complexos
instiga a busca de soluções eficazes. O estudo trata
da modelagem desses, definindo arquiteturas de
banco de dados para o gerenciamento de grandes
volumes de informação e estratégias de mineração,
através de algoritmos genéticos e redes neuronais
Pesquisa e estudos dos repositórios de dados
biológicos do NCBI (NR),PFAM e COG. O NCBI
concentra diversos dados de genomas, cada
sequência de proteína é identificada por um único
‘gi’, composto somente por números, sua base de
dados inclui ainda taxonomia, tamanho da
sequência. O PFAM organiza os dados
relacionados a famílias de proteínas, incluindo
suas anotações. A base de dados COG classifica
esses genomas por relacionamentos ortólogos.
[1]PFAM:<http://pfam.sanger.ac.uk/>.[2]NCBI:http://
www.ncbi.nlm.nih.gov/>.[3]COG:<http://www.ncbi.nl
m.nih.gov/COG/>.[4]ENZYME:<http://enzyme.expas
y.org/>.[5]Xml_io_tools.:<http://www.mathworks.com
/matlabcentral/fileexchange/12907-xmliotools>.
Ao verificar os bancos, observou-se a redundância
ocasionada por erros de anotação de genes ou informações
repetidas de diferentes formas. Os comandos de inserção e
comparação dos dados no banco de dados dos repositórios
foram alterados de forma a facilitar o entendimento. Neste
trabalho, o identificador ‘gi’ do NCBI foi utilizado como
referência para integrar os dados das bases de dados
públicas NCBI, PFAM e COG, das proteínas em estudo. Uma
nova base de dados integradora foi desenvolvida utilizandose o Sistema Gerenciador de Banco de Dados MySQL,
linguagem de programação C e interface para a manipulação
de dados em MATLAB. Para melhorar a comparação, será
necessário comparar as sequências pela tabela de
sequências do NR e depois fazer outra comparação a fundo
mas só dos gis atrelado a essa sequência (também é
necessário desenvolver uma técnica para encontrar o gi
certo).
Com os bancos de dados públicos integrados, as consultas
às informações de proteína são extraídas de forma
transparente e mais rapidamente,. A manipulação das
informações são realizadas através de comandos da
linguagem de Banco de Dados, mais amigável e, dinâmico
pois os dados podem ser acessados em um único local.
Download