ANÁLISE COMPORTAMENTAL PARA PROTEÇÃO DA CRIANÇA NAS REDES SOCIAIS POR MEIO DE MINERAÇÃO DE INTERAÇÕES E SISTEMAS MULTIAGENTES Mário Sérgio Rodrigues Falcão Júnior Enyo José Tavares Gonçalves Ticiana Linhares Coelho da Silva Marcos Antonio de Oliveira Curso de Engenharia de Software Universidade Federal do Ceará (UFC Campus Quixadá) Quixadá – Brasil [email protected], [enyp, ticianalc, marcos.oliveira]@ufc.br Abstract - A internet viabiliza a conexão de bilhões de pessoas em todo o mundo e, consequentemente, diversas maneiras de interação e organização social. Redes sociais como Facebook, MySpace e Twitter têm criado uma nova forma de interação entre seus usuários, proporcionando boas experiências a estes. No entanto, estes ambientes constituem-se de uma forma de exposição social a pessoas de diversas faixas etárias, dentre elas crianças. Em virtude da dificuldade dos pais acompanharem as interações de seus filhos nestes ambientes são necessários mecanismos que realizem uma classificação automática do nível de exposição de um determinado usuário por meio da análise de seus comportamentos na rede social. Este trabalho objetiva contribuir neste cenário, de modo a auxiliar no acompanhamento dos filhos pelos pais, mais especificamente contra a ação de indivíduos que oferecem risco para as crianças que participam da rede social Facebook. Para tanto foi desenvolvida uma ferramenta inteligente com a utilização de técnicas de Mineração de Dados e Sistemas Multiagentes com a capacidade de classificar o nível de fragilidade da criança à ataques dentro da rede social. Os resultados desse experimento mostram os detalhes sobre recursos utilizados pelas crianças dentro da rede social Facebook e a forma de utilização desses recursos, se estão sendo aproveitados de forma sensível a ameaças virtuais ou não. Keywords - Aliciamento sexual infantil; Sistemas Multiagentes; Mineração de dados; Análise cognitiva. I. INTRODUÇÃO A internet é uma rede mundial que interliga milhões de computadores em todo o mundo, servindo como um grande fator de comunicação e integração social (BELLONI, 2001). Um grupo de aplicações para internet são construídas com base nos fundamentos ideológicos e tecnológicos da Web 2.0, e que permitem a criação e troca de Conteúdo Gerado pelo Utilizador (UCG) (KIETZMANN, 2011), ou seja, blogs, páginas de relacionamentos, chats, redes profissionais (Linkedin, Rede Trabalhar), redes comunitárias (redes sociais em bairros ou cidades), redes políticas e principalmente redes sociais eletrônicas como Facebook, Twitter, Google +, MySpace e entre outros formam o grande conjunto das mídias sociais (LEMIEUX, 2008). É pertinente que em nossa sociedade contemporânea as pessoas estejam mais próximas da tecnologia, principalmente as crianças, que possuem habilidades diferentes das de antigamente, ou seja, enquanto uma criança da década de 80 possuía maior facilidade para construir ou modelar um brinquedo, as crianças da geração atual possuem habilidades para lidar com a informática, devido ao convívio rotineiro com a mesma (BOMBONATTO, 2007). As redes sociais são organizações virtuais compostas por pessoas e dão oportunidade destas se relacionarem com diferentes tipos de indivíduos (MAZMAN, 2009). Diante destes distintos relacionamentos há certas características que podem predispor crianças e adolescentes ao aliciamento sexual. Crianças com desamparo emocional, desestruturadas emocionalmente, e baixa autoestima estão mais propensas a serem aliciadas e abertas à desproteção de sentimentos, fator que alguns indivíduos aliciadores sexuais infantis se aproveitam para utilizar em suas investidas. Tipos de conversações envolvendo problemas familiares, segredos e participação em temas polêmicos são alguns dos variados recursos adotados por esses aliciadores para seduzirem gradativamente suas vítimas. Após isso, o envio de fotos com conotações sexuais, conversas não apropriadas e pornografia são fatores dominantes nos demais diálogos. Dessa forma os responsáveis pela criança podem ter a certeza de que um processo de sedução foi inicializado, e medidas devem ser tomadas levando em consideração a proteção da criança. Há um déficit de inspeção na internet dos pais para com seus filhos, muitas crianças ficam expostas a um mundo até então desconhecido e formado por distintos tipos de personalidades (PEREIRA, 2009). Uma pesquisa realizada pela empresa Minor Monitor afirma que aproximadamente 38% das crianças na rede social Facebook não possuem a idade permitida para sua utilização e 30% dos pais permitem a utilização sem supervisão (SILVIO, 2012). Uma das causas para este déficit pode estar relacionado com a escassez de ferramentas computacionais propostas para esta finalidade. Para reduzir o déficit dessa inspeção é interessante dispor de ferramentas automatizadas que identifiquem padrões irregulares ou suspeitos no uso das redes sociais. Dessa maneira o grupo infantil de usuários dessas redes estaria menos vulnerável aos possíveis ataques. Diante desta lacuna, é necessário propor mecanismos que possam ser facilmente utilizados pelos pais para velar pela dignidade de crianças usuárias de redes sociais, uma vez que estas são pessoas ainda em desenvolvimento e estão sujeitas a aproximação de pessoas mal intencionadas na internet (BUCKINGHAM, 2000). Este artigo propõe uma alternativa aos pais diante do cenário apresentado por meio de software que utiliza Mineração de Dados e Sistemas Multiagentes para identificar automaticamente o nível de exposição de crianças com base em suas interações. Este trabalho encontra-se organizado da seguinte forma: a Seção II apresenta a Fundamentação Teórica, na Seção III serão apresentados alguns trabalhos relacionados, na Seção IV é apresentado o Sistema Multiagente desenvolvido com módulos de Mineração de Dados que constituem a metodologia adotada neste trabalho, na seção V serão descritos os resultados, e na seção VI conclusões e trabalhos futuros. II. 1. FUNDAMENTAÇÃO TEÓRICA Aliciamento Sexual Infantil implícito nas redes sociais O aliciamento sexual infantil implícito nas redes sociais consiste em instigar crianças à prática do ato sexual com pessoas mais “velhas”, é uma forma de abuso infantil em que um adulto ou adolescente mais velho usa uma criança para (HABIGZANG, 2005). O aliciamento define a conduta social de um potencial agressor sexual infantil que procura ter alguma aceitação de suas investidas, por exemplo, em um chat. Todavia, ultimamente se nota uma propagação de tais tentativas em redes sociais, já que os recursos oferecidos por esses serviços são superiores. No Facebook páginas de artistas infantis, jogos, grupos para crianças e entre outros são alvos acessíveis para esses indivíduos. Em razão disso não se pode deixar de afirmar que existem ameaças disfarçadas nesses grandes espaços de iteração virtual. Os pais ou responsáveis pelas crianças devem estar atentos e monitorando as atividades das crianças na internet, e as ferramentas tecnológicas podem auxiliá-los a deduzir o que se passa no fluxo de dados entre a vítima e o potencial aliciador. Este é um dos objetivos deste trabalho: construir uma ferramenta que auxilie os reponsáveis, indicando se a criança está em risco ou não. Padrões, recursos e palavras chaves são frequentemente utilizados por aliciadores para conseguirem seus objetivos (ALGERIS, 2006). Compartilhamentos de segredos, participações em temas polêmicos, tipos de fotos adicionadas, associações em determinados grupos, games, tipos musicais e exposição ao extremo da vida privada, familiar e financeira podem ser temas significativos para avaliação e classificação do nível de suspeita que o perfil possui dentro da rede social. Grande parte dos aliciadores sexuais infantis costumam seduzir gradualmente as crianças dando atenção, atuando de forma gentil e dando presentes. Quando conquistam a confiança tentam distanciar a criança do contato familiar. Nas conversas, esses aliciadores potencializam problemas familiares como forma de falso apoio, aproximando-se ainda mais das vítimas, dedicam uma considerável parte do tempo à aproximação. O momento mais crítico é durante a noite. Conhecem as músicas da moda, hobbies e interesses da criança (MIRANDA, 2000). A partir do momento em que conquistam a confiança, começam a compartilhar material pornográfico de forma gradual nas conversas como forma de iniciar o contato sexual. A pornografia adulta é utilizada por essas pessoas para criar a ilusão de que relacionamentos entre crianças e adultos é algo comum. O objetivo principal é o contato por vídeo para depois realizarem encontros pessoais (WORTLEY, 2012). As crianças gostam de atenção e aceitação por parte das pessoas, e muitas vezes quando não encontram isso dentro de casa procuram na internet, e este é um dos pontos fracos que os aliciadores podem se aproveitar e agir, transparecendo confiança e devotando atenção às crianças estes indivíduos mal intencionados conquistam a admiração das vítimas (WORTLEY, 2012). Frequentemente o artifício utilizado para as conversações e encontros virtuais são os chats, no entanto recentemente o uso das redes sociais e jogos online que possuem bate papo vem ganhando espaço como um recurso para o estabelecimento do contato inicial (FAVERO, 2014). Por esse fator é relevante que as crianças não compartilhem fotos ou informações pessoais, como nome, escola onde estuda e número de telefone. No decorrer do desenvolvimento da ferramenta deste trabalho alguns testes foram realizados utilizando-se da ferramenta gráfica de Data Mining WEKA na página do Facebook “OFICIALBARBIEBRASIL”, essa por sua vez foi uma excelente fonte de dados por possuir uma grande quantidade de curtidas, mais de 12 milhões. Alguns tipos de comentários em fotos publicados pela página possuíam tendências não infantis, informações textuais que fomentavam a persuasão por parte do aliciador. A divulgação das informações não foram exibidas por preservação de ambas as partes envolvidas, mas se nota que os mecanismos utilizados por aliciadores sexuais infantis para seduzirem suas vítimas não são inexistentes e com as medidas corretas de análise podem ser desacobertados. 2. Análise Cognitiva por meio da Mineração de Dados O processo de análise cognitiva serve para obter conhecimento sobre algum domínio por meio de percepção, memória, raciocínio, juízo, imaginação, pensamento ou linguagem. De forma clara se pode dizer que a cognição é o arranjo com que o cérebro aprende e recorda por meio dos cinco sentidos (ROSE, 2012). No âmbito desse trabalho qualquer perfil da rede social que esteja sujeito a possíveis riscos foi classificado como vulnerável. Tal classificação foi obtida a partir da aplicação dos dados a um modelo de classificação gerado por meio de técnicas de Mineração de Dados. O processo de minerar dados é formado por um conjunto de técnicas para descoberta de conhecimento a partir de grandes bases de dados. Tais técnicas baseiam-se em modelos capazes de sumarizar dados, extrair novos conhecimentos ou realizar predições. Classificação é uma técnica de mineração de dados que está na categoria de aprendizagem supervisionada, ou seja, é fornecida uma classe à qual cada amostra do conjunto de dados de treinamento pertence. Os algoritmos que implementam essa técnica são preditivos, pois suas tarefas de mineração desempenham inferências nos dados com o intuito de fornecer previsões ou tendências, obtendo informações não disponíveis a partir dos dados disponíveis (COELHO DA SILVA, 2013). Outras duas técnicas de Mineração de Dados bastante conhecidas são Clusterização e Regras de Associação. A técnica de Classificação foi utilizada neste trabalho a fim de criar um modelo preditivo. Assim, os dados sobre o comportamento de uma criança são coletados do Facebook, tais informações são dadas de entrada ao modelo que responde se a criança está em risco ou não. Não se pode simplesmente notar tais valores apenas com a exploração tradicional ou manual, estratégias matemáticas bseadas em modelos se fazem necessárias para tomada de decisão (REZENDE, 2005). Os dados coletados do perfil da criança são explicados na Seção IV. 3. Sistemas Multiagentes Sistemas Multiagentes (SMA) é uma subárea da Inteligência Artificial Distribuída e concentram-se no estudo de agentes autônomos, que tomam decisões próprias e se organizam dinamicamente, em um ambiente multiagente. Um sistema Multiagente (SMA) é um sistema composto por múltiplos agentes inteligentes que interagem entre si (MARIETTO, 2009). O SMA vem sendo utilizado em vários domínios, como por exemplo o comércio eletrônico, resposta a desastres, modelo para estruturas sociais, games, transporte, logística, gráficos, sistemas de informações geográficas, dentre outros. No contexto deste trabalho, o SMA foi utilizado para implementar um modelo dinâmico e inteligente de interações entre agentes que analisam as informações provenientes do Facebook, e geram um modelo (a partir da Mineração de Dados) a ser utilizado para classificar automaticamente novos perfis de crianças. III. Trabalhos Relacionados 1. Análise automática de textos em mensagens instantâneas para detecção de aliciamento sexual infantil. Em um estudo feito por Santin (2011), um serviço de software foi desenvolvido para classificar estágios de conversações em salas de bate papo, através de um conjunto de palavras pré-selecionadas e por um conjunto de regras. O estudo de Santin (2011) utiliza o algoritmo SVM (Support Vector Machine) para classificar os estágios de interação entre as entidades, crianças e possíveis suspeitos. O estudo de Santin (2011) utilizou a base de dados “www.perverted-justice.com” com conversações reais entre pedofílos e crianças. Essa base não foi utilizada diretamente neste trabalho, mas serviu para o aprendizado de como os aliciadores sexuais interagem com suas vítimas e as persuadem. Inconvenientemente, as palavras do bate papo deveriam ser exatamente iguais ao conjunto de palavras na base de dados, o que restringe bastante a precisão para identificar os estágios, já que as palavras podem variar de região para região ou de pessoa para pessoa. O tipo de comunicação em sites de relacionamentos chega a ser quase coloquial, composto por gírias, vícios da linguagem e expressões regionais que possivelmente podem não estar no conjunto pré-selecionado. Assim, o potencial para atingir uma grande massa de dados é muito restrito. A principal diferença com relação a este trabalho e o de Santin (2011) é a análise de eventos que sobretudo não se alteram e não dependem de tanta acurácia quanto a de analisar uma determinada cadeia de caracteres, não apenas focando em uma análise literal como feito no trabalho de análise automática de textos feito por Santin (2011). Na abordagem deste trabalho busca-se utilizar também alguns comportamentos dos usuários na rede social para obtenção de conhecimento sobre suas ações e objetivos. Devido a quantidade de eventos do Facebook como curtidas, compartilhamentos, postagens, cutucadas, interesses, status de relacionamento, músicas, entre outros, o trabalho foi além apenas da análise de “texto”. 2. Identificação de perfis falsos nas redes sociais A ferramenta Social Privacy Protector software for Facebook (SPP), tem por objetivo identificar perfis “falsos” na rede social Facebook, e melhorar as configurações de privacidade e segurança dos usuários (FIRE et al., 2012). O SPP possui três camadas de proteção que aperfeiçoam a privacidade do usuário por meio da implementação de diferentes métodos. O sistema primeiro indica um possível perfil que pode representar uma ameaça, e logo em seguida fornece os meios para restringir suas informações pessoais para com o perfil suspeito. Em seguida a segunda camada permite ao dono do perfil na rede social ajustar suas configurações de privacidade de acordo com seu tipo de personalidade. Existem três tipos de personalidades: Celebridade, Recomendada e Crianças. Caso o indivíduo se considere uma “Celebridade” todas suas informações estarão dispostas ao público. Na situação “Recomendada” os dados estarão expostos apenas aos amigos. Já para o perfil “Crianças” apenas amigos terão contato e as requisições de amizades apenas estarão disponíveis para amigos de amigos. A terceira camada do sistema alerta ao usuário sobre a quantidade de aplicações instaladas nas contas de terceiros que possuem acesso aos seus dados privados. Tais dados, podem possivelmente serem disponibilizados na internet sem o consentimento do titular e tornarem-se públicos. De forma análoga, a rede social utilizada pelo SPP é o Facebook, e também faz uso de técnicas de Mineração de Dados para classificação das entidades. Entretanto, deve-se observar que o foco do SPP é identificar perfis “falsos”, ou seja, pessoas que se passam por outras independente de seus objetivos finais. Analogamente, esse projeto busca identificar pessoas que ameacem um grupo infantil, de baixa faixa etária, sendo essas pessoas usuários “falsos” ou não. Esse grupo infantil faz referência as pessoas com até 12 anos de idade incompletos, de acordo com a lei 8.069, de 1990, do Estatuto da Criança e do Adolescente (ECA). O SPP supostamente ajudou no desenvolvimento desse trabalho por conta das suas idéias descritas anteriormente em como classificar ou apontar um perfil do Facebook sendo este falso ou não, muitos aliciadores sexuais infantis se passam por crianças e mentem suas informações pessoais. Fundamentando nisso o SPP possuiu relevância e contribuiu na soma dos algoritmos dessa ferramenta desenvolvida. 3. Intervenções para prevenir e reduzir abusos cibernéticos da juventude: Uma análise sistemática feita por Mishna. O trabalho de Mishna(2011) realiza uma análise sistemática em estudos que combatem os abusos cibernéticos e mede a palpabilidade das técnicas para reduzir o risco nos comportamentos da criança. Entre tais técnicas, a de se criar um grupo de controle para debater o risco que a internet pode oferecer e como se comportar para se distanciar dos aliciadores, desempenha papel importante para a segurança pessoal das crianças. Além disso a educação e conhecimento por parte dos responsáveis, pais e professores sobre os riscos que a internet pode oferecer pode proteger mais a criança contra os aliciamentos. Essa pesquisa realizada por Mishna(2011) se fundamentou em mais de 3000 estudos. No entanto, para o contexto deste trabalho tais metodologias não puderam ser aplicadas, como por exemplo o uso de terapia psicológica para a criança, software pra bloquear conteúdos impróprios, intervenções por parte dos pais e etc. São metodologias consideradas boas segundo o estudo de Mishna (2011), entretanto não puderam ser aplicadas no estudo em questão. As intervenções dos responsáveis no uso da rede social Facebook por parte da criança serviu de base nesse trabalho após o relatório obtido para lidar com a criança e ensinarlhe seus respectivos limites. Os grupos de controle e orientação para os responsáveis da criança serviram de influências para aproximar ambos os lados, criança e responsável, a manterem conversações em busca de minimizar o risco oferecido pela internet. Isso pode se refletir na ferramenta desenvolvida em relação ao relatório gerado que tem por objetivo ajudar a estabelecer as orientações entre os responsáveis e a criança. Nota-se que na pesquisa feita por Mishna(2011) os recursos tecnológicos que potencialmente podem ser utilizados para o combate dos aliciadores são definidos de maneira abstrata e pouco específica, por outro lado, nesse trabalho desenvolvido a descrição dos recursos tecnológicos é feita de forma detalhada e não exigirá por parte dos responsáveis um conhecimento tecnológico prévio de como utilizar a ferramenta ou usar os recursos. Dando para os responsáveis da criança resultados mais concretos e específicos. IV. Sistema Multiagente Baseado em Mineração de Dados para Proteção de Crianças no Facebook O sistema desenvolvido é constituído por Agentes Autônomos desenvolvidos no framework Jade (Java Agent Development Framework), um módulo de mineração de dados construído em conjunto com um algoritmo de classificação do WEKA e um framework Facebook4j responsável por se conectar ao servidor do Facebook, o fornecedor dos dados. 1. Arquitetura do sistema juntamente com os agentes autônomos - A arquitetura utilizada para comunicação entre os agentes, servidor fornecedor de dados do Facebook e o módulo de mineração de dados do WEKA pode ser melhor visualizada na Figura 1, na qual se pode notar a interação entres os módulos. Após toda comunicação entre os agentes autônomos (marcados de amarelo na Figura 1), tomadas de decisões e processamento o servidor central retornará para o usuário o nível de vulnerabilidade e exposição ao qual a criança está sujeita. Os agentes autônomos interagem entre si recolhendo dados provenientes do servidor do Facebook, por meio do framework Facebook4j. Arquivos no formato JSON são solicitados e lidos pelos agentes autônomos. Estes filtram essas informações e trabalham em conjunto até gerar um objeto que seja possível de ser classificado pelo módulo de mineração, tal objeto gerado possui referências a informações consideradas relevantes para o modulo de mineração de dados, a seguir este último tem por responsabilidade receber esse objeto por meio de uma chamada de método e utilizar do algoritmo de classificação para categorizar essa instância através do modelo de classificação do próprio sistema, após isso o nível de vulnerabilidade ao qual a criança está suscetível é retornado ao módulo central do servidor, e este expõe ao usuário o relatório obtido explicando os motivos pelos quais a criança foi ou não classificada sob risco. Após todo o processamento das informações o servidor central prepara os dados considerados suspeitos e retorna em uma página HTML, como se pode ver na Figura 2, o que foi considerado não seguro para a idade da criança. As informações disponibilizadas no relatório geral são: amigos considerados perigosos, postagens feitas pela criança ou em alguma a qual ela foi marcada que possuem conteúdo, descrições ou comentários de terceiros não aconselháveis para a pouca idade do usuário, quantidade de fotos em alta exposição, livros, vídeos, canais de televisão, grupos e músicas não recomendados, família cadastrada na rede social ou não, quantidade de cutucadas recebidas na madrugada, álbuns compartilhados com terceiros e que possuem algum assunto não indicado para o menor e uma nota de privacidade informando o grau de exposição geral da criança dentro da rede social, ou seja, indicando o quão explícitos estão seus dados para amigos, amigos de amigos, desconhecidos e jogos ou aplicações que obtêm esses dados de forma não tão perceptiva aos olhos humanos. FIGURA 1 - Arquitetura do sistema FIGURA 2 – Página HTML com os resultados A arquitetura utilizada não gerou problemas, a não ser na parte de sincronização do servidor e o sistema Multiagente, para isso um controle de threads foi necessário para o servidor esperar a resposta dos agentes autônomos e logo em seguida prosseguir com a execução do código. 2. Coleta dos dados da rede social Facebook- Para que haja um público a ser investigado se faz necessária a existência de conteúdo. Em virtude de que a rede social Facebook possui um grande volume de dados e distintos tipos de perfis de usuários alguns atributos desempenham papel importante na interpretação de sentimentos, captura de costumes, gostos e entre outros. Em virtude disso algumas características são relevantes para análise e decisão dos possíveis riscos oferecidos à conta da criança, entre esses atributos é possível citar: feed de notícias, interesses, músicas, vídeos, páginas, links curtidos ou compartilhados, data de nascimento, inspirações, tipo de educação, conversações, postagens, datas e horários impróprios de atividades registradas na rede social, jogos, eventos, canais de televisão, família, álbuns compartilhados e com excesso de fotos, comentários maldosos em fotos e postagens, mensagens privadas de amigos ou terceiros que contenham conotação sexual, nota de privacidade que informa o quão exposto as informações pessoais estão e amigos que possam representar uma ameaça. 3. Tecnologias utilizadas - O sistema desenvolvido é constituído por Agentes Autônomos desenvolvidos no framework Jade (Java Agent Development Framework), e utiliza dos protocolos padrão FIPA (Foundation for Intelligent Physical Agents), para comunicação entre os agentes. A ferramenta de Mineração de Dados Weka foi escolhida por ser conhecida como uma das ferramentas “top 10 free” do mercado de Business Intelligence atual, de acordo com o site da “Predicts Analytics Today” (NYCE, 2007). O algoritmo de classificação utilizado neste trabalho foi Árvore de Decisão (QUINLAN, 1986) implementado no Weka como J48. A ideia básica do algoritmo de árvore de decisão é recursivamente escolher o melhor atributo para dividir os nós da árvore. Após selecionar um atributo, os dados são divididos em várias partições de acordo com o valor do atributo escolhido. Para cada partição é computado recursivamente o melhor atributo para dividir os dados no nó corrente da árvore. As regras de decisão são armazenadas e novas regras são geradas. 4. Dados utilizados e Modelo de Classificação validado – Os dados para gerar o modelo de classificação são obtidos a partir do Facebook e organizados em tuplas que possuem as seguintes colunas: postagens, (se apresenta apenas álbuns privados), álbuns privado preferências sobre livros, músicas, vídeos, se atualiza o feed de notícias, família cadastrada na conta ou não, jogos, vídeos com conotação não infantil em seus comentários ou descrições, cutucadas na madrugada e conversações com teor adulto, e uma última coluna responsável por classificar a tupla como “há risco” ou “não há risco”. Os dados que irão preencher essas colunas são analisados pelos agentes inteligentes que atribuem valores prédefinidos, que servirão para o modelo classificatório, de acordo com o conteúdo averiguado. Os valores escolhidos pelos agentes serão explicados mais adiante ao final desse tópico. O modelo de Árvore de Decisão é apresentado na Figura 3, assim novas instâncias podem ser classificadas como “no”, não corre risco, ou “yes” que adverte a criança a um possível perigo baseado nos caminhos da Árvore. Foram separados cinco mil linhas criadas por um algoritmo randômico, obviamente com determinadas heurísticas definidas, para gerar o modelo de classificação. O treino do modelo ocorreu da seguinte maneira: As instâncias são geradas conforme os valores atribuídos aos campos da árvore na Figura 3 e de acordo com esses valores ao final ela é classificada como “há risco” ou “não há risco”. Com o intuito de refinar o modelo e aumentar sua acurácia alguns testes foram executados para deixá-lo mais apto à categorizar cada instância da forma menos incorreta possível. Entre os testes utilizados fornecidos pelo Weka pode-se citar o Use training set, Supplied test set, Crossvalidation e o Percentage Split. Dessas cinco mil linhas geradas 30% foram usadas para o teste do modelo e 70% para treino. Após esse processo o coeficiente de precisão do modelo foi encontrado, se aproximando a 87,3% (Gerado pela ferramenta WEKA), esse valor é a média de precisão dos três percentuais para cada algoritmo utilizado, levando em consideração que os três trabalham em conjunto para retornar a resposta sobre o nível de vulnerabilidade, uma média aritmética foi feita baseando-se nos três valores encontrados individualmente. Os testes foram feitos por meio da ferramenta gráfica oferecida pelo WEKA, dessa forma o upload do arquivo contendo o modelo, gerado pelo sistema previamente, poderia ser analisado de forma eficiente e prática. O modelo a princípio possuía uma alta taxa de acerto para classificar as instâncias, não por estar correto mas sim por estar sendo um modelo viciado, ou seja, apenas uma coluna com um valor oferecedor de risco o modelo gerado já classificaria essa instância como “há risco” e não se preocuparia em ir mais além nas outras colunas visando gerar um resultado fundamentado no máximo de colunas possíveis. Em virtude disso a inevitabilidade de se adicionar outliers, identificação de dados que deveriam seguir um padrão esperado mas não o fazem (LIDIO, 2014), se tornou relevante para aprimorar o modelo aos casos menos corriqueiros. Após uma sequência de testes o arquivo composto pelos dados responsáveis em gerar o modelo proporcionou um padrão apto para receber diferentes tipos de instâncias, ou seja, não mais fundamentado em apenas uma coluna, e sim no máximo possível, como se pode ver na Figura 3. Para gerar esses outliers um algoritmo capaz de gerar instâncias com dados aleatórios e já classificados foi elaborado com o intuito de criar cinco mil tuplas, em virtude de que as tuplas abrangiam distintos casos de cada classe, o gargalo para os outliers se expandiu e dessa forma o modelo pôde deixar de ter um padrão viciado. FIGURA 3 – Modelo gerado pelo algoritmo J48 Os campos dessa árvore são preenchidos com valores definidos pelos agentes autônomos, conforme mencionado anteriormente, de acordo com suas análises; O campo postagens informa a segurança das postagens feitas pela criança e as quais ela foi marcada. Qualquer valor acima de 3.0 já é considerado como não seguro, o valor é obtido por meio da seguinte fórmula: ((quantidade de datas perigosas) * 3 + (nota de privacidade * 1) + (quantidade de mensagens perigosas * 2) + (quantidade de amigos perigosos * 2) + (quantidade de descrições e comentários perigosos das postagens *2)) / 10. O campo Álbuns é um booleano que recebe “Verdadeiro” ou “Falso”, caso seja verdadeiro a criança não corre risco nas descrições, quantidade de fotos de seus álbuns e alguns compartilhados com outros amigos, do contrário a criança está sujeita a riscos. O campo Preferências é constituído por um conjunto de valores, notas nos itens: tipos de livros, músicas, filmes, eventos (exemplo: festa, show, aniversário e etc), canais de televisão e grupos vinculados a sua conta, após uma média ponderada nesses itens o valor de preferências é apontado como “Verde”, “Amarelo” ou “Vermelho” em ordem crescente de perigo. O Feed de notícias é um booleano que recebe “Verdadeiro” ou “Falso”, caso palavras de teor pejorativo e sexual ou conteúdos não indicados para o menor sejam observados, por exemplo: violência, abuso sexual, safada, xvideo, RedTube, pelada, mande uma foto, transa, masturbação, erotismo, segredo, vou contar pra sua mãe, pornô, carnaval, folia, dentre outras mais explícitas. O campo cutucadas é constituído de um valor numérico que informa a quantidade de cutucadas recebidas pela criança durante a madrugada (00:00 até 06:00). O campo Família é um booleano que recebe “Verdadeiro” ou “Falso” informando se a família da criança está cadastrada na sua conta ou não, se estiver, o campo receberá “Verdadeiro”, do contrário receberá “Falso”. O campo Jogos é um valor numérico que informa a quantidade de jogos não aconselháveis utilizados frequentemente pela criança, por exemplo, Tinder, Cupid, Interesting, Skout, Let’s date, Meetmoi e Catra. Qualquer valor acima de 5 já é considerado como não seguro. O campo Vídeos é um valor numérico que informa a quantidade de vídeos não aconselháveis vistos pela criança. Os vídeos considerados como não aconselháveis são identificados através do nome ou descrição, caso alguma palavra chave contenha termos pejorativos ou de contexto sexual o vídeo é classificado como perigoso. O campo conversações é um booleano que recebe “Verdadeiro” ou “Falso” informando se as conversas privadas da criança possuem alguma palavra torpe ou conteúdos impróprios. Essas conversações são extraídas do Facebook e posteriormente analisadas pelos agentes que se referenciam em uma base de dados com palavras prédefinidas que possam representar um risco à criança. V. Resultados Foi identificado e selecionado dois perfis infantis no Facebook e, com permissão dos pais dos mesmos, utilizamos seus dados para análise. Os perfis foram selecionados por meio de conhecidos físicos que possuíam filhos. Ambos os dois estudos de caso foram realizados de forma totalmente automática pela ferramenta. As duas crianças possuem 12 anos e são do sexo feminino, a primeira criança é natural da cidade de Floriano – PI e a segunda de Quixadá-CE. TABELA 1 – Resultados Criança Criança de Floriano Criança de Quixadá Datas Perigosas Logada 224 vezes pela madrugada. Nenhuma Canais de televisão não aconselháveis Malhação Nenhum Músicas não aconselháveis Família Conversações privadas 6 diferentes Nenhum membro da família está cadastrado na sua conta. Porra, caralho, fdp, safada e a expressão quero te ver nua dita por um amigo. Nenhum membro da família está cadastrado na sua conta. Nenhuma cantores. 3 diferentes cantores. Os pais das crianças avaliadas em questão, forneceram a autorização para análise já tendo conhecimento que a não divulgação das informações pessoais das crianças, como o nome, perfil do Facebook ou qualquer dado que exponha suas informações pessoais seriam reveladas. Todavia os resultados são listados sobre o conteúdo encontrado nos perfis das crianças. 1. Considerações sobre a Criança de Floriano: Todas as palavras da coluna “Conversações Privadas” foram registradas em maior parte no período da noite, entre 19:00 horas até 02:00 horas do dia seguinte. A respeito dessa mesma criança no período do carnaval de 2014 alguns amigos perguntaram se a própria teria ido para festas de duas bandas carnavalescas. Além disso ao final um amigo em específico a chamou para uma festa em sua casa às 20:24 horas no dia 23 de agosto de 2013. Se nota que apesar da conta do Facebook analisada em questão ter ficado inativa no início do ano de 2014 até Junho de 2015 ainda assim alguns dados puderam ser recuperados e identificados como não seguros para uma criança de 12 anos. O modelo de mineração de dados classificou essa criança como sujeita à riscos. 2. Considerações sobre a Criança de Quixadá: Não foram encontradas datas perigosas (00:00 até 06:00 horas) na conta da segunda criança, a mãe da mesma fez questão de destacar que não permite o uso da rede social durante períodos tardios da noite. Nenhum membro da família está cadastrado na sua conta, o que pode representar um tipo de desproteção, dessa forma pessoas desconhecidas podem se sentir mais livres para se Cutucadas na madrugada Nota de Privacidade Postagens da criança 22 12,85 “E que se for para ser sozinha e feliz sem ele, que minha vida prossiga; D #Happy #Funy #Girl #Top (08/abril/2014 às 12:31:57)”. Nenhuma 1,86 Nenhuma aproximarem da criança. No entanto, a nota de privacidade da criança em questão está baixa, 1.86, o que significa que os dados da criança estão “protegidos” e pouco acessíveis à aplicações ou pessoas. No quesito música três cantores com letras de canções não aconselháveis para crianças foram encontrados, o que levou a ferramenta a classificá-los como irregulares para a criança foram as seguintes frases postadas nas páginas dos três: Primeiro cantor: Vem cantar comigo meu povo de Ouro Branco-MG... hoje tem muita música e alegria no aquecimento do Escarpas Folia Sertaneja! Quero ver todo mundo lá hein! A partir da 22h. #ourobranco #escarpasfolia Foto: Flaney Gonzales. Segundo cantor: Partiu Ponta Grossa-PR ! Hj a festa é lá ! Borá ! #vamoscomDeus #Turne2014. Segundo cantor: E começa o batidão...Já estava com saudades! Hj a festa será em Porangatu-GO. #vamoscomDeus #carnaval2014 #lepolepo #causadordeefeitos #mausbocados #casoindefinido. Terceiro cantor: Tá chegando! Com casa cheia, vamo que vamo Thaeme e Thiago Victor Hugo e Americano e toda a galera deSP!! #AcabouSeOsIngressos#VaiVendoVillaCountry. Terceiro cantor: E a festa continua, hoje é dia de cantar e animar muito com a galera em Atlanta! Quem ai vai? #TourUSA2k15 O modelo de mineração de dados classificou essa criança como não sujeita à riscos O coeficiente de precisão do modelo se aproxima a 87,3% (Gerado pela ferramenta WEKA), esse valor é a média de precisão dos três percentuais para cada algoritmo utilizado. Os responsáveis da criança após o resultado consideraram não haver nenhum problema relacionado aos gosto musical da mesma. Essa é uma dentre as vantagens que a ferramenta oferece, identificar o possível perigo e oferecer aos responsáveis da criança a oportunidade de considerar determinado gosto de música, livro, vídeo e entre outros nocivos ou não à criança. VI. Conclusões e Trabalhos Futuros Esse trabalho realizou o desenvolvimento de uma ferramenta inteligente capaz de analisar os dados provenientes do Facebook de uma criança e informar seu possível nível de vulnerabilidade à riscos. Se nota que o aliciamento sexual infantil além de estar presente na internet também ocupa espaço dentro das redes socias, e que devido a ampla quantidade de informações e recursos ofertados por esses serviços de interação social os pais muitas vezes não conseguem monitorar ou rastrear os riscos presentes nesse mundo virtual que tanto tende a crescer. O software desenvolvido para combater esses riscos utilizou da plataforma multiagente Jade (Java Agent Development Framework) e da ferramenta de mineração de dados WEKA (Machine learning). Além disso três novos agentes foram inseridos (verificador de conversas privadas, verificador de conversas externas e verificador do feed de notícias) e um modelo classificatório mais abrangente para aceitar distintos dados provenientes da conta da criança. O algoritmo utilizado para classificação e aplicado nos testes, o J48, foi elegido por representar os dados em uma árvore binária, dessa forma a visualização e interpretação de como o modelo trabalha ficou mais perceptível aos autores do projeto. Inicialmente o modelo utilizado para classificação das instâncias provocava divergências nos resultados devido a conflitos nas informações, isto é, instâncias com dados semelhantes categorizadas como classes distintas, após uma sequência de filtragens e escolha correta dos tipos de dados a serem utilizados no modelo, o algoritmo de classificação começou a retornar resultados condizentes com a realidade. REFERÊNCIAS [1] [2] [3] [4] [5] BELLONI, M.L. – O que é Mídia-educação. Campinas, Editora Autores Associados, 2001a, vol. 30, n. 109, p. 1081-1102. KIETZMANN, J.H., HERMKENS, K., McCarthy, I.P., & Silvestre, B.S. Social media? Get serious! Understanding the functional building blocks of social media. Business Horizons, Vol. 54(3), pp. 241-251. 2011. I. S. Jacobs and C. P. Bean, “Fine particles, thin films and exchange anisotropy,” in Magnetism, vol. III, G. T. Rado and H. Suhl, Eds. New York: Academic, 1963, pp. 271–350. LEMIEUX,VINCENT. MATHIEU OUIMET, Sérgio Pereira. Análise Estrutural das Redes Sociais. 2008. R. Nicole, “Title of paper with only first word capitalized,” J. Name Stand. Abbrev., in press. BOMBONATTO, Q. - Associação Brasileira de Psicopedagogia. XVI Encontro de Psicopedagogia do Ceará, na UNICHRISTUS. Fortaleza, 2012. M. Young, The Technical Writer’s Handbook. Mill Valley, CA: University Science, 1989. MAZMAN, Sacide Guzin & USLUEL, Yasemin Koçak; The Usage of Social Networks in Educational Context, 2009. [6] PEREIRA, S. E. F. N. Redes sociais de adolescentes em contexto de vulnerabilidade social e sua relação com os riscos de envolvimento com o tráfico de drogas. Tese (Doutorado em Psicologia Clínica e Cultura) Instituto de Psicologia, Universidade de Brasília, Brasília, 2009. [7] SILVIO, C. 38% das crianças no Facebook têm idade abaixo do permitido, LeiaJá, v. 21, n.7, edição 344, p.18-22, São Paulo, 2012. [8] BUCKINGHAM, D. After the Death of Childhood: Growing Up in the Age of Electronic Media. Cambridge: Polity Press, 2000. [9] HABIGZANG, K., A., Abuso Sexual Infantil e Dinâmica Familiar:Aspectos Observados em Processos Jurídicos. Psicologia: Teoria e Pesquisa, Vol. 21 n. 3, pp. 341-348, 2005. [10] AMAZARRY, K., Alguns aspectos observados no desenvolvimento de crianças vítimas de abuso sexual.Psicol. Reflex. Crit. v.11 n.3, Porto Alegre 1998. [11] ROSE, Classes de estímulos: Implicações para uma análise comportamental da cognição. Universidade Federal de São Carlos, N° 2, pp. 283-303, São Paulo 2012. [12] REZENDE, S. O. Mineração de Dados. XXV Congresso da Sociedade Brasileira de Computação, 2005. [13] MALUCELLI, Andreia et al.Classificação de microáreas de risco com uso de mineraçãode dados. Rev. Saúde Pública. vol.44, n.2, pp. 292300. ISSN 0034-8910, 2010. [14] ELLIOTT, M., BROWNE, K., & KILCOYNE, J. Child sexual abuse prevention: What offenders tell us.Child Abuse and Neglect, 19,579– 594, 1995. [15] KENNY, M. C., & MCEACHERN, A. G. Racial, ethnic, and cultural factors of childhood sexual abuse: A selected review of the literature. Clinical Psychology Review, 20,905–922, 2000. [16] SNOWDEN, L. Cultural factors in the intervention of child maltreatment.Child and Adolescent Social Work, 7,161–175. (1990). [17] ALGERIS, SOUZA LM. Violence against children and adolescents: a challenge in the daily work of the nursing team. Rev Latinoam Enferm. 2006. [18] MIRANDA, A. O., & CORCORAN, C. L. Comparison of perpetration characteristics between male juvenile and adult sexual offenders: Preliminary results. Sexual Abuse: Journal of Research and Treatment, 12, 179–188, 2000. [29] WORTLEY, R. – Pornografia infantil na internet. Washington, Departamento de Justiça dos Estados Unidos, 2012. [20] FAVERO, D. – Saiba como pedófilos buscam vítimas na internet. São Paulo, ONG/Terre des Hommes, 2014. [21] MARIETTO, M. G. B. ; Barbosa, G. C. O. ; Kobayashi, G. ; Franca, R. S. (2009) “Multi-Agent Systems to Build a Computational Middleware: A Chatterbot Case Study”, In: The 4th International Conference for Internet Technology and Secured Transactions, 2009, London. IEEE Proceedings the 4th International Conference for Internet Technology and Secured Transactions, 2009. [22] NYCE, Predictive Analytics White Paper, American Institute for Chartered Property Casualty Underwriters/Insurance Institute of America, p. 1, 2007. [23] SANTIM, P. L. L., FREITAS, C. O. A.; PARAISO, E. C. Emerson Cabrera Paraiso. Análise automática de textos de mensagens instantâneas para detecção de aliciamento sexual de crianças e adolescentes. V. 2, n. 2, p. 43-59, PUC - Paraná, 2011. [24] FIRE, D. A. Y. Friend or Foe? Fake Profile Identification in Online Social Networks. Ben gurion. Israel. Springer Journal of Social Network Analysis and Mining, (2012). [25] FINKELHOR, D., MITCHELL, K. J., & WOLAK, .Online victimization: A report on the nation’s youth. Alexandria, VA: National Center for Missing and Exploited Children, 2003. [26] MISHNA, M. W., Family Chair in Child and Family, University of Toronto, Factor-Inwentash Faculty of Social Work, 246 Bloor Street West, Toronto, Ontario M5S 1A1, Canada. 2011. [27] T. COELHO DA SILVA, C. DA SILVA, A. CAVALCANTE, A. NETO, F. SOUSA, J. ANTÔNIO, F. DE MACÊDO e J. MACHADO. Análise em Big Data e um Estudo de Caso utilizando Ambientes de Computação em Nuvem. Quixadá. 2013. [28] QUINLAN, J. R. Induction of decision trees. Machine learning, 1(1):81– 106. 1986.[29] LIDIO M., Mineração de Dados com Detecção de Outliers em Tarefas de Predição de Séries Temporais, XI Simpósio de excelência em gestão e tecnologia. SEGET. 2014