Paper Title (use style: paper title)

Propaganda
ANÁLISE COMPORTAMENTAL PARA PROTEÇÃO
DA CRIANÇA NAS REDES SOCIAIS POR MEIO DE
MINERAÇÃO DE INTERAÇÕES E SISTEMAS
MULTIAGENTES
Mário Sérgio Rodrigues Falcão Júnior
Enyo José Tavares Gonçalves
Ticiana Linhares Coelho da Silva
Marcos Antonio de Oliveira
Curso de Engenharia de Software
Universidade Federal do Ceará (UFC Campus Quixadá)
Quixadá – Brasil
[email protected], [enyp, ticianalc, marcos.oliveira]@ufc.br
Abstract - A internet viabiliza a conexão de bilhões de
pessoas em todo o mundo e, consequentemente, diversas maneiras de interação e organização social. Redes sociais como Facebook, MySpace e Twitter têm criado uma nova forma de interação entre seus usuários, proporcionando boas experiências a
estes. No entanto, estes ambientes constituem-se de uma forma de
exposição social a pessoas de diversas faixas etárias, dentre elas
crianças. Em virtude da dificuldade dos pais acompanharem as
interações de seus filhos nestes ambientes são necessários mecanismos que realizem uma classificação automática do nível de
exposição de um determinado usuário por meio da análise de
seus comportamentos na rede social. Este trabalho objetiva contribuir neste cenário, de modo a auxiliar no acompanhamento
dos filhos pelos pais, mais especificamente contra a ação de indivíduos que oferecem risco para as crianças que participam da
rede social Facebook. Para tanto foi desenvolvida uma ferramenta inteligente com a utilização de técnicas de Mineração de Dados
e Sistemas Multiagentes com a capacidade de classificar o nível
de fragilidade da criança à ataques dentro da rede social. Os
resultados desse experimento mostram os detalhes sobre recursos
utilizados pelas crianças dentro da rede social Facebook e a forma de utilização desses recursos, se estão sendo aproveitados de
forma sensível a ameaças virtuais ou não.
Keywords - Aliciamento sexual infantil; Sistemas Multiagentes; Mineração de dados; Análise cognitiva.
I.
INTRODUÇÃO
A internet é uma rede mundial que interliga milhões
de computadores em todo o mundo, servindo como um grande
fator de comunicação e integração social (BELLONI, 2001).
Um grupo de aplicações para internet são construídas com
base nos fundamentos ideológicos e tecnológicos da Web 2.0,
e que permitem a criação e troca de Conteúdo Gerado pelo
Utilizador (UCG) (KIETZMANN, 2011), ou seja, blogs, páginas de relacionamentos, chats, redes profissionais (Linkedin,
Rede Trabalhar), redes comunitárias (redes sociais em bairros
ou cidades), redes políticas e principalmente redes sociais
eletrônicas como Facebook, Twitter, Google +, MySpace e
entre outros formam o grande conjunto das mídias sociais
(LEMIEUX, 2008).
É pertinente que em nossa sociedade contemporânea
as pessoas estejam mais próximas da tecnologia, principalmente as crianças, que possuem habilidades diferentes das de
antigamente, ou seja, enquanto uma criança da década de 80
possuía maior facilidade para construir ou modelar um brinquedo, as crianças da geração atual possuem habilidades para
lidar com a informática, devido ao convívio rotineiro com a
mesma (BOMBONATTO, 2007).
As redes sociais são organizações virtuais compostas
por pessoas e dão oportunidade destas se relacionarem com
diferentes tipos de indivíduos (MAZMAN, 2009). Diante
destes distintos relacionamentos há certas características que
podem predispor crianças e adolescentes ao aliciamento sexual. Crianças com desamparo emocional, desestruturadas emocionalmente, e baixa autoestima estão mais propensas a serem
aliciadas e abertas à desproteção de sentimentos, fator que
alguns indivíduos aliciadores sexuais infantis se aproveitam
para utilizar em suas investidas. Tipos de conversações envolvendo problemas familiares, segredos e participação em temas
polêmicos são alguns dos variados recursos adotados por esses
aliciadores para seduzirem gradativamente suas vítimas. Após
isso, o envio de fotos com conotações sexuais, conversas não
apropriadas e pornografia são fatores dominantes nos demais
diálogos. Dessa forma os responsáveis pela criança podem ter
a certeza de que um processo de sedução foi inicializado, e
medidas devem ser tomadas levando em consideração a proteção da criança.
Há um déficit de inspeção na internet dos pais para
com seus filhos, muitas crianças ficam expostas a um mundo
até então desconhecido e formado por distintos tipos de personalidades (PEREIRA, 2009). Uma pesquisa realizada pela
empresa Minor Monitor afirma que aproximadamente 38%
das crianças na rede social Facebook não possuem a idade
permitida para sua utilização e 30% dos pais permitem a utilização sem supervisão (SILVIO, 2012). Uma das causas para
este déficit pode estar relacionado com a escassez de ferramentas computacionais propostas para esta finalidade.
Para reduzir o déficit dessa inspeção é interessante
dispor de ferramentas automatizadas que identifiquem padrões
irregulares ou suspeitos no uso das redes sociais. Dessa maneira o grupo infantil de usuários dessas redes estaria menos
vulnerável aos possíveis ataques.
Diante desta lacuna, é necessário propor mecanismos
que possam ser facilmente utilizados pelos pais para velar pela
dignidade de crianças usuárias de redes sociais, uma vez que
estas são pessoas ainda em desenvolvimento e estão sujeitas a
aproximação de pessoas mal intencionadas na internet
(BUCKINGHAM, 2000).
Este artigo propõe uma alternativa aos pais diante do
cenário apresentado por meio de software que utiliza Mineração de Dados e Sistemas Multiagentes para identificar automaticamente o nível de exposição de crianças com base em
suas interações. Este trabalho encontra-se organizado da seguinte forma: a Seção II apresenta a Fundamentação Teórica,
na Seção III serão apresentados alguns trabalhos relacionados,
na Seção IV é apresentado o Sistema Multiagente desenvolvido com módulos de Mineração de Dados que constituem a
metodologia adotada neste trabalho, na seção V serão descritos os resultados, e na seção VI conclusões e trabalhos futuros.
II.
1.
FUNDAMENTAÇÃO TEÓRICA
Aliciamento Sexual Infantil implícito nas redes sociais
O aliciamento sexual infantil implícito nas redes sociais consiste em instigar crianças à prática do ato sexual com
pessoas mais “velhas”, é uma forma de abuso infantil em
que um adulto ou adolescente mais velho usa uma criança para
(HABIGZANG, 2005).
O aliciamento define a conduta social de um potencial agressor sexual infantil que procura ter alguma aceitação
de suas investidas, por exemplo, em um chat. Todavia, ultimamente se nota uma propagação de tais tentativas em redes
sociais, já que os recursos oferecidos por esses serviços são
superiores. No Facebook páginas de artistas infantis, jogos,
grupos para crianças e entre outros são alvos acessíveis para
esses indivíduos. Em razão disso não se pode deixar de afirmar que existem ameaças disfarçadas nesses grandes espaços
de iteração virtual.
Os pais ou responsáveis pelas crianças devem estar
atentos e monitorando as atividades das crianças na internet, e
as ferramentas tecnológicas podem auxiliá-los a deduzir o que
se passa no fluxo de dados entre a vítima e o potencial aliciador. Este é um dos objetivos deste trabalho: construir uma
ferramenta que auxilie os reponsáveis, indicando se a criança
está em risco ou não.
Padrões, recursos e palavras chaves são frequentemente utilizados por aliciadores para conseguirem seus objetivos (ALGERIS, 2006). Compartilhamentos de segredos, participações em temas polêmicos, tipos de fotos adicionadas,
associações em determinados grupos, games, tipos musicais e
exposição ao extremo da vida privada, familiar e financeira
podem ser temas significativos para avaliação e classificação
do nível de suspeita que o perfil possui dentro da rede social.
Grande parte dos aliciadores sexuais infantis costumam seduzir gradualmente as crianças dando atenção, atuando de forma
gentil e dando presentes. Quando conquistam a confiança
tentam distanciar a criança do contato familiar. Nas conversas,
esses aliciadores potencializam problemas familiares como
forma de falso apoio, aproximando-se ainda mais das vítimas,
dedicam uma considerável parte do tempo à aproximação. O
momento mais crítico é durante a noite. Conhecem as músicas
da moda, hobbies e interesses da criança (MIRANDA, 2000).
A partir do momento em que conquistam a confiança, começam a compartilhar material pornográfico de forma gradual
nas conversas como forma de iniciar o contato sexual. A pornografia adulta é utilizada por essas pessoas para criar a ilusão
de que relacionamentos entre crianças e adultos é algo comum. O objetivo principal é o contato por vídeo para depois
realizarem encontros pessoais (WORTLEY, 2012).
As crianças gostam de atenção e aceitação por parte
das pessoas, e muitas vezes quando não encontram isso dentro
de casa procuram na internet, e este é um dos pontos fracos
que os aliciadores podem se aproveitar e agir, transparecendo
confiança e devotando atenção às crianças estes indivíduos
mal intencionados conquistam a admiração das vítimas
(WORTLEY, 2012).
Frequentemente o artifício utilizado para as conversações e encontros virtuais são os chats, no entanto recentemente o uso das redes sociais e jogos online que possuem bate
papo vem ganhando espaço como um recurso para o estabelecimento do contato inicial (FAVERO, 2014). Por esse fator é
relevante que as crianças não compartilhem fotos ou informações pessoais, como nome, escola onde estuda e número de
telefone.
No decorrer do desenvolvimento da ferramenta deste
trabalho alguns testes foram realizados utilizando-se da ferramenta gráfica de Data Mining WEKA na página do Facebook
“OFICIALBARBIEBRASIL”, essa por sua vez foi uma excelente fonte de dados por possuir uma grande quantidade de
curtidas, mais de 12 milhões. Alguns tipos de comentários em
fotos publicados pela página possuíam tendências não infantis,
informações textuais que fomentavam a persuasão por parte
do aliciador. A divulgação das informações não foram exibidas por preservação de ambas as partes envolvidas, mas se
nota que os mecanismos utilizados por aliciadores sexuais
infantis para seduzirem suas vítimas não são inexistentes e
com as medidas corretas de análise podem ser desacobertados.
2. Análise Cognitiva por meio da Mineração de Dados
O processo de análise cognitiva serve para obter conhecimento sobre algum domínio por meio de percepção,
memória, raciocínio, juízo, imaginação, pensamento ou linguagem. De forma clara se pode dizer que a cognição é o
arranjo com que o cérebro aprende e recorda por meio dos
cinco sentidos (ROSE, 2012).
No âmbito desse trabalho qualquer perfil da rede social que esteja sujeito a possíveis riscos foi classificado como
vulnerável. Tal classificação foi obtida a partir da aplicação
dos dados a um modelo de classificação gerado por meio de
técnicas de Mineração de Dados.
O processo de minerar dados é formado por um conjunto de técnicas para descoberta de conhecimento a partir de
grandes bases de dados. Tais técnicas baseiam-se em modelos
capazes de sumarizar dados, extrair novos conhecimentos ou
realizar predições. Classificação é uma técnica de mineração
de dados que está na categoria de aprendizagem supervisionada, ou seja, é fornecida uma classe à qual cada amostra do
conjunto de dados de treinamento pertence. Os algoritmos que
implementam essa técnica são preditivos, pois suas tarefas de
mineração desempenham inferências nos dados com o intuito
de fornecer previsões ou tendências, obtendo informações não
disponíveis a partir dos dados disponíveis (COELHO DA
SILVA, 2013). Outras duas técnicas de Mineração de Dados
bastante conhecidas são Clusterização e Regras de Associação.
A técnica de Classificação foi utilizada neste trabalho
a fim de criar um modelo preditivo. Assim, os dados sobre o
comportamento de uma criança são coletados do Facebook,
tais informações são dadas de entrada ao modelo que responde
se a criança está em risco ou não. Não se pode simplesmente
notar tais valores apenas com a exploração tradicional ou
manual, estratégias matemáticas bseadas em modelos se fazem
necessárias para tomada de decisão (REZENDE, 2005). Os
dados coletados do perfil da criança são explicados na Seção
IV.
3. Sistemas Multiagentes
Sistemas Multiagentes (SMA) é uma subárea da
Inteligência Artificial Distribuída e concentram-se no estudo
de agentes autônomos, que tomam decisões próprias e se organizam dinamicamente, em um ambiente multiagente. Um
sistema Multiagente (SMA) é um sistema composto por múltiplos agentes inteligentes que interagem entre si
(MARIETTO, 2009). O SMA vem sendo utilizado em vários
domínios, como por exemplo o comércio eletrônico, resposta a
desastres, modelo para estruturas sociais, games, transporte,
logística, gráficos, sistemas de informações geográficas, dentre outros. No contexto deste trabalho, o SMA foi utilizado
para implementar um modelo dinâmico e inteligente de interações entre agentes que analisam as informações provenientes
do Facebook, e geram um modelo (a partir da Mineração de
Dados) a ser utilizado para classificar automaticamente novos
perfis de crianças.
III.
Trabalhos Relacionados
1. Análise automática de textos em mensagens
instantâneas para detecção de aliciamento sexual infantil.
Em um estudo feito por Santin (2011), um serviço de
software foi desenvolvido para classificar estágios de conversações em salas de bate papo, através de um conjunto de palavras pré-selecionadas e por um conjunto de regras.
O estudo de Santin (2011) utiliza o algoritmo SVM
(Support Vector Machine) para classificar os estágios de interação entre as entidades, crianças e possíveis suspeitos. O
estudo de Santin (2011) utilizou a base de dados
“www.perverted-justice.com” com conversações reais entre
pedofílos e crianças. Essa base não foi utilizada diretamente
neste trabalho, mas serviu para o aprendizado de como os
aliciadores sexuais interagem com suas vítimas e as persuadem.
Inconvenientemente, as palavras do bate papo deveriam ser exatamente iguais ao conjunto de palavras na base de
dados, o que restringe bastante a precisão para identificar os
estágios, já que as palavras podem variar de região para região
ou de pessoa para pessoa. O tipo de comunicação em sites de
relacionamentos chega a ser quase coloquial, composto por
gírias, vícios da linguagem e expressões regionais que possivelmente podem não estar no conjunto pré-selecionado. Assim, o potencial para atingir uma grande massa de dados é
muito restrito.
A principal diferença com relação a este trabalho e o
de Santin (2011) é a análise de eventos que sobretudo não se
alteram e não dependem de tanta acurácia quanto a de analisar
uma determinada cadeia de caracteres, não apenas focando em
uma análise literal como feito no trabalho de análise automática de textos feito por Santin (2011). Na abordagem deste trabalho busca-se utilizar também alguns comportamentos dos
usuários na rede social para obtenção de conhecimento sobre
suas ações e objetivos. Devido a quantidade de eventos do
Facebook como curtidas, compartilhamentos, postagens, cutucadas, interesses, status de relacionamento, músicas, entre
outros, o trabalho foi além apenas da análise de “texto”.
2. Identificação de perfis falsos nas redes sociais
A ferramenta Social Privacy Protector software for
Facebook (SPP), tem por objetivo identificar perfis “falsos”
na rede social Facebook, e melhorar as configurações de
privacidade e segurança dos usuários (FIRE et al., 2012).
O SPP possui três camadas de proteção que aperfeiçoam a privacidade do usuário por meio da implementação de
diferentes métodos. O sistema primeiro indica um possível
perfil que pode representar uma ameaça, e logo em seguida
fornece os meios para restringir suas informações pessoais
para com o perfil suspeito. Em seguida a segunda camada
permite ao dono do perfil na rede social ajustar suas configurações de privacidade de acordo com seu tipo de personalidade. Existem três tipos de personalidades: Celebridade, Recomendada e Crianças. Caso o indivíduo se considere uma “Celebridade” todas suas informações estarão dispostas ao público. Na situação “Recomendada” os dados estarão expostos
apenas aos amigos. Já para o perfil “Crianças” apenas amigos
terão contato e as requisições de amizades apenas estarão
disponíveis para amigos de amigos.
A terceira camada do sistema alerta ao usuário sobre
a quantidade de aplicações instaladas nas contas de terceiros
que possuem acesso aos seus dados privados. Tais dados,
podem possivelmente serem disponibilizados na internet sem
o consentimento do titular e tornarem-se públicos.
De forma análoga, a rede social utilizada pelo SPP é
o Facebook, e também faz uso de técnicas de Mineração de
Dados para classificação das entidades.
Entretanto, deve-se observar que o foco do SPP é
identificar perfis “falsos”, ou seja, pessoas que se passam por
outras independente de seus objetivos finais. Analogamente,
esse projeto busca identificar pessoas que ameacem um grupo
infantil, de baixa faixa etária, sendo essas pessoas usuários
“falsos” ou não. Esse grupo infantil faz referência as pessoas
com até 12 anos de idade incompletos, de acordo com a lei
8.069, de 1990, do Estatuto da Criança e do Adolescente
(ECA).
O SPP supostamente ajudou no desenvolvimento
desse trabalho por conta das suas idéias descritas anteriormente em como classificar ou apontar um perfil do Facebook
sendo este falso ou não, muitos aliciadores sexuais infantis se
passam por crianças e mentem suas informações pessoais.
Fundamentando nisso o SPP possuiu relevância e contribuiu
na soma dos algoritmos dessa ferramenta desenvolvida.
3. Intervenções para prevenir e reduzir abusos cibernéticos da juventude: Uma análise sistemática feita por
Mishna.
O trabalho de Mishna(2011) realiza uma análise sistemática em estudos que combatem os abusos cibernéticos e
mede a palpabilidade das técnicas para reduzir o risco nos
comportamentos da criança.
Entre tais técnicas, a de se criar um grupo de controle
para debater o risco que a internet pode oferecer e como se
comportar para se distanciar dos aliciadores, desempenha
papel importante para a segurança pessoal das crianças. Além
disso a educação e conhecimento por parte dos responsáveis,
pais e professores sobre os riscos que a internet pode oferecer
pode proteger mais a criança contra os aliciamentos.
Essa pesquisa realizada por Mishna(2011) se fundamentou em mais de 3000 estudos. No entanto, para o contexto
deste trabalho tais metodologias não puderam ser aplicadas,
como por exemplo o uso de terapia psicológica para a criança,
software pra bloquear conteúdos impróprios, intervenções por
parte dos pais e etc. São metodologias consideradas boas segundo o estudo de Mishna (2011), entretanto não puderam ser
aplicadas no estudo em questão.
As intervenções dos responsáveis no uso da rede social Facebook por parte da criança serviu de base nesse trabalho após o relatório obtido para lidar com a criança e ensinarlhe seus respectivos limites. Os grupos de controle e orientação para os responsáveis da criança serviram de influências
para aproximar ambos os lados, criança e responsável, a manterem conversações em busca de minimizar o risco oferecido
pela internet. Isso pode se refletir na ferramenta desenvolvida
em relação ao relatório gerado que tem por objetivo ajudar a
estabelecer as orientações entre os responsáveis e a criança.
Nota-se que na pesquisa feita por Mishna(2011) os
recursos tecnológicos que potencialmente podem ser utilizados para o combate dos aliciadores são definidos de maneira
abstrata e pouco específica, por outro lado, nesse trabalho
desenvolvido a descrição dos recursos tecnológicos é feita de
forma detalhada e não exigirá por parte dos responsáveis um
conhecimento tecnológico prévio de como utilizar a ferramenta ou usar os recursos. Dando para os responsáveis da criança
resultados mais concretos e específicos.
IV. Sistema Multiagente Baseado em Mineração de Dados para Proteção de Crianças no Facebook
O sistema desenvolvido é constituído por Agentes
Autônomos desenvolvidos no framework Jade (Java Agent
Development Framework), um módulo de mineração de dados
construído em conjunto com um algoritmo de classificação do
WEKA e um framework Facebook4j responsável por se conectar ao servidor do Facebook, o fornecedor dos dados.
1. Arquitetura do sistema juntamente com os agentes autônomos - A arquitetura utilizada para comunicação
entre os agentes, servidor fornecedor de dados do Facebook e
o módulo de mineração de dados do WEKA pode ser melhor
visualizada na Figura 1, na qual se pode notar a interação
entres os módulos. Após toda comunicação entre os agentes
autônomos (marcados de amarelo na Figura 1), tomadas de
decisões e processamento o servidor central retornará para o
usuário o nível de vulnerabilidade e exposição ao qual a criança está sujeita.
Os agentes autônomos interagem entre si recolhendo
dados provenientes do servidor do Facebook, por meio do
framework Facebook4j. Arquivos no formato JSON são solicitados e lidos pelos agentes autônomos. Estes filtram essas
informações e trabalham em conjunto até gerar um objeto que
seja possível de ser classificado pelo módulo de mineração, tal
objeto gerado possui referências a informações consideradas
relevantes para o modulo de mineração de dados, a seguir este
último tem por responsabilidade receber esse objeto por meio
de uma chamada de método e utilizar do algoritmo de classificação para categorizar essa instância através do modelo de
classificação do próprio sistema, após isso o nível de vulnerabilidade ao qual a criança está suscetível é retornado ao módulo central do servidor, e este expõe ao usuário o relatório obtido explicando os motivos pelos quais a criança foi ou não
classificada sob risco.
Após todo o processamento das informações o servidor central prepara os dados considerados suspeitos e retorna
em uma página HTML, como se pode ver na Figura 2, o que
foi considerado não seguro para a idade da criança.
As informações disponibilizadas no relatório geral
são: amigos considerados perigosos, postagens feitas pela
criança ou em alguma a qual ela foi marcada que possuem
conteúdo, descrições ou comentários de terceiros não aconselháveis para a pouca idade do usuário, quantidade de fotos em
alta exposição, livros, vídeos, canais de televisão, grupos e
músicas não recomendados, família cadastrada na rede social
ou não, quantidade de cutucadas recebidas na madrugada,
álbuns compartilhados com terceiros e que possuem algum
assunto não indicado para o menor e uma nota de privacidade
informando o grau de exposição geral da criança dentro da
rede social, ou seja, indicando o quão explícitos estão seus
dados para amigos, amigos de amigos, desconhecidos e jogos
ou aplicações que obtêm esses dados de forma não tão perceptiva aos olhos humanos.
FIGURA 1 - Arquitetura do sistema
FIGURA 2 – Página HTML com os resultados
A arquitetura utilizada não gerou problemas, a não
ser na parte de sincronização do servidor e o sistema Multiagente, para isso um controle de threads foi necessário para o
servidor esperar a resposta dos agentes autônomos e logo em
seguida prosseguir com a execução do código.
2.
Coleta dos dados da rede social Facebook- Para que haja um público a ser investigado se faz necessária a existência de conteúdo. Em virtude de que a rede social
Facebook possui um grande volume de dados e distintos tipos
de perfis de usuários alguns atributos desempenham papel
importante na interpretação de sentimentos, captura de costumes, gostos e entre outros. Em virtude disso algumas características são relevantes para análise e decisão dos possíveis
riscos oferecidos à conta da criança, entre esses atributos é
possível citar: feed de notícias, interesses, músicas, vídeos,
páginas, links curtidos ou compartilhados, data de nascimento,
inspirações, tipo de educação, conversações, postagens, datas
e horários impróprios de atividades registradas na rede social,
jogos, eventos, canais de televisão, família, álbuns compartilhados e com excesso de fotos, comentários maldosos em
fotos e postagens, mensagens privadas de amigos ou terceiros
que contenham conotação sexual, nota de privacidade que
informa o quão exposto as informações pessoais estão e amigos que possam representar uma ameaça.
3.
Tecnologias utilizadas - O sistema desenvolvido é constituído por Agentes Autônomos desenvolvidos
no framework Jade (Java Agent Development Framework), e
utiliza dos protocolos padrão FIPA (Foundation for Intelligent
Physical Agents), para comunicação entre os agentes.
A ferramenta de Mineração de Dados Weka foi escolhida por ser conhecida como uma das ferramentas “top 10
free” do mercado de Business Intelligence atual, de acordo
com o site da “Predicts Analytics Today” (NYCE, 2007). O
algoritmo de classificação utilizado neste trabalho foi Árvore
de Decisão (QUINLAN, 1986) implementado no Weka como
J48. A ideia básica do algoritmo de árvore de decisão é recursivamente escolher o melhor atributo para dividir os nós da
árvore. Após selecionar um atributo, os dados são divididos
em várias partições de acordo com o valor do atributo escolhido. Para cada partição é computado recursivamente o melhor
atributo para dividir os dados no nó corrente da árvore. As
regras de decisão são armazenadas e novas regras são geradas.
4.
Dados utilizados e Modelo de Classificação validado – Os dados para gerar o modelo de classificação
são obtidos a partir do Facebook e organizados em tuplas que
possuem as seguintes colunas: postagens, (se apresenta apenas álbuns privados), álbuns privado preferências sobre livros,
músicas, vídeos, se atualiza o feed de notícias, família cadastrada na conta ou não, jogos, vídeos com conotação não infantil em seus comentários ou descrições, cutucadas na madrugada e conversações com teor adulto, e uma última coluna responsável por classificar a tupla como “há risco” ou “não há
risco”. Os dados que irão preencher essas colunas são analisados pelos agentes inteligentes que atribuem valores prédefinidos, que servirão para o modelo classificatório, de acordo com o conteúdo averiguado. Os valores escolhidos pelos
agentes serão explicados mais adiante ao final desse tópico. O
modelo de Árvore de Decisão é apresentado na Figura 3, assim novas instâncias podem ser classificadas como “no”, não
corre risco, ou “yes” que adverte a criança a um possível perigo baseado nos caminhos da Árvore.
Foram separados cinco mil linhas criadas por um algoritmo randômico, obviamente com determinadas heurísticas
definidas, para gerar o modelo de classificação. O treino do
modelo ocorreu da seguinte maneira: As instâncias são geradas conforme os valores atribuídos aos campos da árvore na
Figura 3 e de acordo com esses valores ao final ela é classificada como “há risco” ou “não há risco”.
Com o intuito de refinar o modelo e aumentar sua
acurácia alguns testes foram executados para deixá-lo mais
apto à categorizar cada instância da forma menos incorreta
possível. Entre os testes utilizados fornecidos pelo Weka pode-se citar o Use training set, Supplied test set, Crossvalidation e o Percentage Split.
Dessas cinco mil linhas geradas 30% foram usadas
para o teste do modelo e 70% para treino. Após esse processo
o coeficiente de precisão do modelo foi encontrado, se aproximando a 87,3% (Gerado pela ferramenta WEKA), esse valor
é a média de precisão dos três percentuais para cada algoritmo
utilizado, levando em consideração que os três trabalham em
conjunto para retornar a resposta sobre o nível de vulnerabilidade, uma média aritmética foi feita baseando-se nos três
valores encontrados individualmente.
Os testes foram feitos por meio da ferramenta gráfica
oferecida pelo WEKA, dessa forma o upload do arquivo contendo o modelo, gerado pelo sistema previamente, poderia ser
analisado de forma eficiente e prática.
O modelo a princípio possuía uma alta taxa de acerto
para classificar as instâncias, não por estar correto mas sim
por estar sendo um modelo viciado, ou seja, apenas uma coluna com um valor oferecedor de risco o modelo gerado já classificaria essa instância como “há risco” e não se preocuparia
em ir mais além nas outras colunas visando gerar um resultado
fundamentado no máximo de colunas possíveis. Em virtude
disso a inevitabilidade de se adicionar outliers, identificação
de dados que deveriam seguir um padrão esperado mas não o
fazem (LIDIO, 2014), se tornou relevante para aprimorar o
modelo aos casos menos corriqueiros. Após uma sequência de
testes o arquivo composto pelos dados responsáveis em gerar
o modelo proporcionou um padrão apto para receber diferentes tipos de instâncias, ou seja, não mais fundamentado em
apenas uma coluna, e sim no máximo possível, como se pode
ver na Figura 3. Para gerar esses outliers um algoritmo capaz
de gerar instâncias com dados aleatórios e já classificados foi
elaborado com o intuito de criar cinco mil tuplas, em virtude
de que as tuplas abrangiam distintos casos de cada classe, o
gargalo para os outliers se expandiu e dessa forma o modelo
pôde deixar de ter um padrão viciado.
FIGURA 3 – Modelo gerado pelo algoritmo J48
Os campos dessa árvore são preenchidos com valores definidos pelos agentes autônomos, conforme mencionado anteriormente, de acordo com suas análises; O campo postagens
informa a segurança das postagens feitas pela criança e as
quais ela foi marcada. Qualquer valor acima de 3.0 já é considerado como não seguro, o valor é obtido por meio da seguinte fórmula: ((quantidade de datas perigosas) * 3 + (nota de
privacidade * 1) + (quantidade de mensagens perigosas * 2) +
(quantidade de amigos perigosos * 2) + (quantidade de descrições e comentários perigosos das postagens *2)) / 10.
O campo Álbuns é um booleano que recebe “Verdadeiro” ou “Falso”, caso seja verdadeiro a criança não corre
risco nas descrições, quantidade de fotos de seus álbuns e
alguns compartilhados com outros amigos, do contrário a
criança está sujeita a riscos. O campo Preferências é constituído por um conjunto de valores, notas nos itens: tipos de livros,
músicas, filmes, eventos (exemplo: festa, show, aniversário e
etc), canais de televisão e grupos vinculados a sua conta, após
uma média ponderada nesses itens o valor de preferências é
apontado como “Verde”, “Amarelo” ou “Vermelho” em ordem crescente de perigo. O Feed de notícias é um booleano
que recebe “Verdadeiro” ou “Falso”, caso palavras de teor
pejorativo e sexual ou conteúdos não indicados para o menor
sejam observados, por exemplo: violência, abuso sexual, safada, xvideo, RedTube, pelada, mande uma foto, transa, masturbação, erotismo, segredo, vou contar pra sua mãe, pornô,
carnaval, folia, dentre outras mais explícitas. O campo cutucadas é constituído de um valor numérico que informa a quantidade de cutucadas recebidas pela criança durante a madrugada
(00:00 até 06:00). O campo Família é um booleano que recebe
“Verdadeiro” ou “Falso” informando se a família da criança
está cadastrada na sua conta ou não, se estiver, o campo receberá “Verdadeiro”, do contrário receberá “Falso”. O campo
Jogos é um valor numérico que informa a quantidade de jogos
não aconselháveis utilizados frequentemente pela criança, por
exemplo, Tinder, Cupid, Interesting, Skout, Let’s date, Meetmoi e Catra. Qualquer valor acima de 5 já é considerado como
não seguro. O campo Vídeos é um valor numérico que informa a quantidade de vídeos não aconselháveis vistos pela criança. Os vídeos considerados como não aconselháveis são
identificados através do nome ou descrição, caso alguma palavra chave contenha termos pejorativos ou de contexto sexual o
vídeo é classificado como perigoso. O campo conversações é
um booleano que recebe “Verdadeiro” ou “Falso” informando
se as conversas privadas da criança possuem alguma palavra
torpe ou conteúdos impróprios. Essas conversações são extraídas do Facebook e posteriormente analisadas pelos agentes
que se referenciam em uma base de dados com palavras prédefinidas que possam representar um risco à criança.
V.
Resultados
Foi identificado e selecionado dois perfis infantis no
Facebook e, com permissão dos pais dos mesmos, utilizamos
seus dados para análise. Os perfis foram selecionados por
meio de conhecidos físicos que possuíam filhos. Ambos os
dois estudos de caso foram realizados de forma totalmente
automática pela ferramenta. As duas crianças possuem 12
anos e são do sexo feminino, a primeira criança é natural da
cidade de Floriano – PI e a segunda de Quixadá-CE.
TABELA 1 – Resultados
Criança
Criança
de Floriano
Criança
de Quixadá
Datas
Perigosas
Logada
224 vezes
pela
madrugada.
Nenhuma
Canais de
televisão
não aconselháveis
Malhação
Nenhum
Músicas não
aconselháveis
Família
Conversações privadas
6 diferentes
Nenhum
membro da
família está
cadastrado na
sua conta.
Porra, caralho, fdp,
safada e a
expressão
quero te ver
nua dita por
um amigo.
Nenhum membro da família
está cadastrado
na sua conta.
Nenhuma
cantores.
3 diferentes
cantores.
Os pais das crianças avaliadas em questão, forneceram a autorização para análise já tendo conhecimento que a
não divulgação das informações pessoais das crianças, como o
nome, perfil do Facebook ou qualquer dado que exponha suas
informações pessoais seriam reveladas. Todavia os resultados
são listados sobre o conteúdo encontrado nos perfis das crianças.
1.
Considerações sobre a Criança de Floriano: Todas as palavras da coluna “Conversações Privadas”
foram registradas em maior parte no período da noite, entre
19:00 horas até 02:00 horas do dia seguinte. A respeito dessa
mesma criança no período do carnaval de 2014 alguns amigos
perguntaram se a própria teria ido para festas de duas bandas
carnavalescas. Além disso ao final um amigo em específico a
chamou para uma festa em sua casa às 20:24 horas no dia 23
de agosto de 2013.
Se nota que apesar da conta do Facebook analisada
em questão ter ficado inativa no início do ano de 2014 até
Junho de 2015 ainda assim alguns dados puderam ser recuperados e identificados como não seguros para uma criança de
12 anos. O modelo de mineração de dados classificou essa
criança como sujeita à riscos.
2.
Considerações sobre a Criança de Quixadá: Não foram encontradas datas perigosas (00:00 até 06:00
horas) na conta da segunda criança, a mãe da mesma fez questão de destacar que não permite o uso da rede social durante
períodos tardios da noite.
Nenhum membro da família está cadastrado na sua
conta, o que pode representar um tipo de desproteção, dessa
forma pessoas desconhecidas podem se sentir mais livres para
se
Cutucadas
na madrugada
Nota de
Privacidade
Postagens da
criança
22
12,85
“E que se for
para ser sozinha
e feliz sem ele,
que minha vida
prossiga; D
#Happy #Funy
#Girl #Top
(08/abril/2014 às
12:31:57)”.
Nenhuma
1,86
Nenhuma
aproximarem
da
criança.
No entanto, a nota de privacidade da criança em
questão está baixa, 1.86, o que significa que os dados da criança estão “protegidos” e pouco acessíveis à aplicações ou
pessoas.
No quesito música três cantores com letras de canções não aconselháveis para crianças foram encontrados, o
que levou a ferramenta a classificá-los como irregulares para a
criança foram as seguintes frases postadas nas páginas dos
três:

Primeiro cantor: Vem cantar comigo meu
povo de Ouro Branco-MG... hoje tem muita música e alegria
no aquecimento do Escarpas Folia Sertaneja! Quero ver todo
mundo lá hein! A partir da 22h. #ourobranco #escarpasfolia
Foto: Flaney Gonzales.

Segundo cantor: Partiu Ponta Grossa-PR !
Hj a festa é lá ! Borá ! #vamoscomDeus #Turne2014.

Segundo cantor: E começa o batidão...Já
estava com saudades! Hj a festa será em Porangatu-GO. #vamoscomDeus #carnaval2014 #lepolepo #causadordeefeitos
#mausbocados #casoindefinido.

Terceiro cantor: Tá chegando! Com casa
cheia, vamo que vamo Thaeme e Thiago Victor Hugo e Americano e
toda
a
galera
deSP!! #AcabouSeOsIngressos#VaiVendoVillaCountry.

Terceiro cantor: E a festa continua, hoje é
dia de cantar e animar muito com a galera em Atlanta! Quem
ai vai? #TourUSA2k15
O modelo de mineração de dados classificou essa criança como não sujeita à riscos
O coeficiente de precisão do modelo se aproxima a
87,3% (Gerado pela ferramenta WEKA), esse valor é a média
de precisão dos três percentuais para cada algoritmo utilizado.
Os responsáveis da criança após o resultado consideraram não haver nenhum problema relacionado aos gosto
musical da mesma. Essa é uma dentre as vantagens que a
ferramenta oferece, identificar o possível perigo e oferecer aos
responsáveis da criança a oportunidade de considerar determinado gosto de música, livro, vídeo e entre outros nocivos ou
não à criança.
VI.
Conclusões e Trabalhos Futuros
Esse trabalho realizou o desenvolvimento de uma ferramenta inteligente capaz de analisar os dados provenientes do
Facebook de uma criança e informar seu possível nível de
vulnerabilidade à riscos.
Se nota que o aliciamento sexual infantil além de
estar presente na internet também ocupa espaço dentro das
redes socias, e que devido a ampla quantidade de informações
e recursos ofertados por esses serviços de interação social os
pais muitas vezes não conseguem monitorar ou rastrear os
riscos presentes nesse mundo virtual que tanto tende a crescer.
O software desenvolvido para combater esses riscos
utilizou da plataforma multiagente Jade (Java Agent
Development Framework) e da ferramenta de mineração de
dados WEKA (Machine learning). Além disso três novos
agentes foram inseridos (verificador de conversas privadas,
verificador de conversas externas e verificador do feed de
notícias) e um modelo classificatório mais abrangente para
aceitar distintos dados provenientes da conta da criança.
O algoritmo utilizado para classificação e aplicado
nos testes, o J48, foi elegido por representar os dados em uma
árvore binária, dessa forma a visualização e interpretação de
como o modelo trabalha ficou mais perceptível aos autores do
projeto.
Inicialmente o modelo utilizado para classificação
das instâncias provocava divergências nos resultados devido a
conflitos nas informações, isto é, instâncias com dados semelhantes categorizadas como classes distintas, após uma sequência de filtragens e escolha correta dos tipos de dados a
serem utilizados no modelo, o algoritmo de classificação começou a retornar resultados condizentes com a realidade.
REFERÊNCIAS
[1]
[2]
[3]
[4]
[5]
BELLONI, M.L. – O que é Mídia-educação. Campinas, Editora Autores
Associados, 2001a, vol. 30, n. 109, p. 1081-1102.
KIETZMANN, J.H., HERMKENS, K., McCarthy, I.P., & Silvestre, B.S.
Social media? Get serious! Understanding the functional building blocks
of social media. Business Horizons, Vol. 54(3), pp. 241-251. 2011. I. S.
Jacobs and C. P. Bean, “Fine particles, thin films and exchange
anisotropy,” in Magnetism, vol. III, G. T. Rado and H. Suhl, Eds. New
York: Academic, 1963, pp. 271–350.
LEMIEUX,VINCENT. MATHIEU OUIMET, Sérgio Pereira. Análise
Estrutural das Redes Sociais. 2008. R. Nicole, “Title of paper with only
first word capitalized,” J. Name Stand. Abbrev., in press.
BOMBONATTO, Q. - Associação Brasileira de Psicopedagogia. XVI
Encontro de Psicopedagogia do Ceará, na UNICHRISTUS. Fortaleza,
2012. M. Young, The Technical Writer’s Handbook. Mill Valley, CA:
University Science, 1989.
MAZMAN, Sacide Guzin & USLUEL, Yasemin Koçak; The Usage of
Social Networks in Educational Context, 2009.
[6]
PEREIRA, S. E. F. N. Redes sociais de adolescentes em contexto de
vulnerabilidade social e sua relação com os riscos de envolvimento com
o tráfico de drogas. Tese (Doutorado em Psicologia Clínica e Cultura) Instituto de Psicologia, Universidade de Brasília, Brasília, 2009.
[7] SILVIO, C. 38% das crianças no Facebook têm idade abaixo do
permitido, LeiaJá, v. 21, n.7, edição 344, p.18-22, São Paulo, 2012.
[8] BUCKINGHAM, D. After the Death of Childhood: Growing Up in the
Age of Electronic Media. Cambridge: Polity Press, 2000.
[9] HABIGZANG, K., A., Abuso Sexual Infantil e Dinâmica
Familiar:Aspectos Observados em Processos Jurídicos. Psicologia:
Teoria e Pesquisa, Vol. 21 n. 3, pp. 341-348, 2005.
[10] AMAZARRY, K., Alguns aspectos observados no desenvolvimento de
crianças vítimas de abuso sexual.Psicol. Reflex. Crit. v.11 n.3, Porto
Alegre 1998.
[11] ROSE, Classes de estímulos: Implicações para uma análise comportamental da cognição. Universidade Federal de São Carlos, N° 2, pp.
283-303, São Paulo 2012.
[12] REZENDE, S. O. Mineração de Dados. XXV Congresso da Sociedade
Brasileira de Computação, 2005.
[13] MALUCELLI, Andreia et al.Classificação de microáreas de risco com
uso de mineraçãode dados. Rev. Saúde Pública. vol.44, n.2, pp. 292300. ISSN 0034-8910, 2010.
[14] ELLIOTT, M., BROWNE, K., & KILCOYNE, J. Child sexual abuse
prevention: What offenders tell us.Child Abuse and Neglect, 19,579–
594, 1995.
[15] KENNY, M. C., & MCEACHERN, A. G. Racial, ethnic, and cultural
factors of childhood sexual abuse: A selected review of the literature.
Clinical Psychology Review, 20,905–922, 2000.
[16] SNOWDEN, L. Cultural factors in the intervention of child maltreatment.Child and Adolescent Social Work, 7,161–175. (1990).
[17] ALGERIS, SOUZA LM. Violence against children and adolescents: a
challenge in the daily work of the nursing team. Rev Latinoam Enferm.
2006.
[18] MIRANDA, A. O., & CORCORAN, C. L. Comparison of perpetration
characteristics between male juvenile and adult sexual offenders: Preliminary results. Sexual Abuse: Journal of Research and Treatment, 12,
179–188, 2000.
[29] WORTLEY, R. – Pornografia infantil na internet. Washington, Departamento de Justiça dos Estados Unidos, 2012.
[20] FAVERO, D. – Saiba como pedófilos buscam vítimas na internet. São
Paulo, ONG/Terre des Hommes, 2014.
[21] MARIETTO, M. G. B. ; Barbosa, G. C. O. ; Kobayashi, G. ; Franca, R.
S. (2009) “Multi-Agent Systems to Build a Computational Middleware:
A Chatterbot Case Study”, In: The 4th International Conference for Internet Technology and Secured Transactions, 2009, London. IEEE Proceedings the 4th International Conference for Internet Technology and
Secured Transactions, 2009.
[22] NYCE, Predictive Analytics White Paper, American Institute for Chartered Property Casualty Underwriters/Insurance Institute of America, p.
1, 2007.
[23] SANTIM, P. L. L., FREITAS, C. O. A.; PARAISO, E. C. Emerson
Cabrera Paraiso. Análise automática de textos de mensagens instantâneas para detecção de aliciamento sexual de crianças e adolescentes. V.
2, n. 2, p. 43-59, PUC - Paraná, 2011.
[24] FIRE, D. A. Y. Friend or Foe? Fake Profile Identification in Online
Social Networks. Ben gurion. Israel. Springer Journal of Social Network Analysis and Mining, (2012).
[25] FINKELHOR, D., MITCHELL, K. J., & WOLAK, .Online victimization: A report on the nation’s youth. Alexandria, VA: National Center
for Missing and Exploited Children, 2003.
[26] MISHNA, M. W., Family Chair in Child and Family, University of
Toronto, Factor-Inwentash Faculty of Social Work, 246 Bloor Street
West, Toronto, Ontario M5S 1A1, Canada. 2011.
[27] T. COELHO DA SILVA, C. DA SILVA, A. CAVALCANTE, A.
NETO, F. SOUSA, J. ANTÔNIO, F. DE MACÊDO e J. MACHADO.
Análise em Big Data e um Estudo de Caso utilizando Ambientes de
Computação em Nuvem. Quixadá. 2013.
[28] QUINLAN, J. R. Induction of decision trees. Machine
learning,
1(1):81– 106. 1986.[29] LIDIO M., Mineração de Dados com Detecção de Outliers em Tarefas de Predição de Séries Temporais, XI Simpósio de excelência em gestão e tecnologia. SEGET. 2014
Download