Capítulo 2 – Big Data – Exercícios 1. Como são os identificadores da Eduroam e da Federação CAFe - RNP ? Eduroam: É um serviço de mobilidade global desenvolvido para a comunidade de educação e pesquisa. Por meio do eduroam, estudantes, pesquisadores e equipe das instituições participantes obtêm acesso à Internet na rede sem fio de seu campus e também quando visitam as instituições parceiras no Brasil e no exterior, usando a mesma configuração em seu laptop, tablet ou smartphone. Seu identificadores são alfanuméricos, onde os primeiros dígitos são o RA do aluno seguido de a universidade onde realiza seus estúdios universitários, por exemplo: Unicamp : [email protected], University Cambridge: [email protected]. Federação CAFe - RNP No Brasil, os primeiros esforços para a construção de uma federação acadêmica estão resultando na criação da Federação CAFe (Comunidade Acadêmica Federada), cuja meta é congregar todas as universidades e instituições de pesquisa brasileiras. A metodologia adotada para a construção da infraestrutura básica da federação consiste da utilização de padrões e soluções de software já disponíveis e adotadas por outras federações, e da implementação e experimentação de ferramentas auxiliares para apoiar a implantação dos provedores de identidade e de serviço. O projeto de criação da Federação CAFe inclui ainda o estudo, a proposição, a análise e a validação de políticas para regular o funcionamento da federação (requisitos mínimos que provedores de identidade e de serviço deverão cumprir). Uma federação é constituída de dois componentes principais: Provedores de identidade – Armazenam e gerenciam as informações sobre pessoas. Provedores de serviço – Oferecem serviços restritos para grupos de usuários. Na arquitetura de uma federação, três atores podem ser distinguidos: Usuário – Pessoa vinculada a uma instituição e que deseja acessar um recurso protegido; Provedor do recurso – Aplicação associada ao componente provedor de serviço; Instituição do usuário – Instituição que mantém o componente provedor de identidade e estabelece um processo interno de autenticação das pessoas vinculadas a ela. O provedor de identidade por realizar a autenticação, armazena os atributos dos usuários e faz o controle destes atributos. Existem quatro componentes principais no provedor de identidade: o HS (Handle Service), o AA (Attribute Authority), o serviço de diretório e o mecanismo de autenticação. O HS realiza a autenticação dos usuários em conjunto com o mecanismo de autenticação e cria um handle. O AA verifica as políticas de privacidade sobre a liberação dos atributos e permite que o usuário especifique quais provedores de serviço podem acessá-los. Já o serviço de diretório é o local onde ficam armazenados os atributos dos usuários 2. Considere os exemplos de identificadores listados às fls. 19 do livro texto. Escolha uma das organizações e explique como são obtidos os identificadores e dê um exemplo de um identificador gerado. O “International Geo Sample Number or IGSN” é um código de identificação da amostra de normalmente de nove caracteres. Um identificador único para amostras e espécimes coletados de nosso ambiente natural. O sistema é usado na produção pelo Sistema de Registro de amostras de terra (System for Earth Sample Registration ,SESAR), outras organizações estão à preparação da introdução do IGSN. Ele objetivo do IGSN é implementar e promover métodos padrão para localizar, identificar e citar amostras físicas com confiança ao operar um serviço de registro IGSN internacional com uma infraestrutura distribuída para uso e benefício para seus membros. Alguns aspectos importantes: As amostras são coletadas ou armazenadas de forma muito diversificada e distribuída (repositórios para gavetas). Metadados de amostra são coletadas e armazenadas de forma inconsistente, muitas vezes incompleta e inacessível. Os dados da amostra são adquiridos e publicado de forma distribuída: o o o o As amostras são passadas entre laboratórios / pesquisadores. Diferentes laboratórios / pesquisadores analisam a mesma amostra ou subamostra dele. Diferentes dados para a mesma amostra são publicados em diferentes jornais. Os dados para a mesma amostra são mantidos em diferentes sistemas de dados. Requisitos fundamentais: As amostras devem ser identificadas de forma exclusiva. Amostras precisam ter representações virtuais. As representações virtuais precisam ser persistentemente acessíveis. As representações virtuais precisam de conteúdo e formato padronizado Uso do IGSN: Permitirá que você encontre todos os dados para uma amostra específica com uma busca simples. Vai inequivocamente relacionado dado de amostras individuais. Dará acesso persistente de metadados de amostra. Irá facilitar a colaboração e reuso de amostras para construir conjuntos de dados mais completos. Vai ajudá-lo a organizar as suas amostras. Sintaxe IGSN: Sequência de 9 caracteres (alfanuméricos): 3 dígitos NAME SPACE 6 dígitos NAME SPECIFIC STRIN o Permite 2,176’782,336 identificadores de amostra por name space. Example: IGSN:HRV003M16 (Objeto de registro: espécime malaquite de Angola, registrado pelo Museu Mineralógico da Universidade de Harvard) IGSN:WHO000BC7 (Objeto de registro: Dredge CADEIA 35-2 ST18 D18, registada pela Woods Hole Oceanographic Institution) O IGSN é um identificador "na maior parte inteligente": Os três primeiros dígitos do IGSN representam um espaço de nomes (um código de utilizador único) que identifica a pessoa ou instituição que registra a amostra. Os seis últimos dígitos do IGSN são uma sequência aleatória de caracteres alfanuméricos. O IGSN segue a sintaxe do URN (Uniform Resource Name) que é composto de um Namespace Identifier (NID), uma curta sequência única, o 'Namespace especialidade String "(NSS). 3. Comente possíveis métodos de “limpeza” de dados (data scrubbing). Auditoria de dados: os dados são examinados com o uso de métodos estatísticos e de base de dados para detectar anomalias e contradições: este, eventualmente, dá uma indicação das características de anomalias e as suas localizações. Vários pacotes de software comercial vai deixar você especificar restrições de vários tipos (usando uma gramática que está em conformidade com uma linguagem de programação padrão, por exemplo, JavaScript ou Visual Basic) e, em seguida, gerar o código que verifica os dados em caso de violação dessas restrições. Este processo é referido abaixo, as balas "especificação de fluxo de trabalho" e "execução de fluxo de trabalho." Para os usuários que não têm acesso a software de limpeza high-end, pacotes de banco de dados do microcomputador, como o Microsoft Access ou FileMaker Pro também permitirá que você execute essas verificações, com base em restrição a restrição, de forma interativa, com pouca ou nenhuma necessidade de programação em muitos casos. Especificação de fluxo de trabalho: A detecção e remoção de anomalias é realizado por uma sequência de operações sobre os dados conhecidos como o fluxo de trabalho. Ele é especificado após o processo de auditoria dos dados e é crucial para alcançar o produto final de dados de alta qualidade. A fim de atingir um fluxo de trabalho adequada, as causas das anomalias e erros nos dados têm de ser cuidadosamente considerado. Execução de fluxo de trabalho: Nesta etapa, o fluxo de trabalho é executado após sua especificação é completa e sua correção é verificada. A implantação do fluxo de trabalho deve ser eficiente, mesmo em grandes conjuntos de dados, o que, inevitavelmente, coloca um equilíbrio, porque a execução de uma operação de limpeza de dados pode ser computacionalmente caro. Pós-processamento e controle: Depois de executar o fluxo de trabalho de limpeza, os resultados são esperados para verificar a exatidão. Os dados que não poderiam ser corrigidos durante a execução do fluxo de trabalho é corrigida manualmente, se possível. O resultado é um novo ciclo no processo de limpeza de dados onde os dados são examinados novamente para permitir a especificação de um fluxo de trabalho adicional para limpar ainda mais os dados de processamento automático 4. Comente cada um dos itens da sessão “Lessons Learned” (fls. 32 do livro texto) e dê exemplo/s que contextualize/m sua resposta. Item 1: Todos os recursos de Big Data pode ser imaginado como um sistema identificador de objetos de dados e eventos relacionados a dados (ou seja, transações cronometrados). Os dados em um recurso de dados grande pode ser imaginado como sequências de caracteres que estão ligados ao identificadores Item 2: Sem um sistema de identificação adequada, um recurso Big Data não tem nenhum valor. Exemplo: Quando eu tenho o banco de dados que for de países do mundo e se não teria o identificador para poder diferenciar cidades entre países, eu não saberia se a cidade procurada por um usuário deu certo. Outro seria contabilizar quantos tenho registrados em mim banco de dados e saber se faltam algum pais ou cidade. Item 3: Um identificador é uma sequência alfanumérico exclusivo atribuído a um objeto de dados, exemplo: um ISBN que é o sistema identificador único para livros e publicações não-periódicas, A finalidade do sistema é a identificação numérica de um livro segundo seu título, autor, país (ou código de idioma) e a editora, individualizando inclusive edições diferentes. Assim eu posso usar como referencia bibliográfica para mim linha de pesquisa que pertence a mim área de trabalho. Item 4: Os objetos de dados devem ser associados a um identificador único, exemplo: se vou fazer um banco de dados com a classificação de animais, eu não inventaria nomes diferentes, isso causaria erros, porque ao criar meu BD posse outro nome. Item 5: Deidentification é o processo de remoção de informações a partir de um registro de dados que possam vincular o registro para o nome público do objeto do registro. Por exemplo: uma implementação é usado, por exemplo, no correio de Gmail.com, onde a pessoa pode escolher só um login que esteve procurando, de todo seus correios armazenados. Iitem 6: Deidentification, não deve ser confundido com o ato de desnudar o registro de uma identificador. Por exemplo, item 7: Onde não há identificação, não pode haver deidentification e não Reidentification. Item 8: Reidentification é a atribuição do nome pública associada a um registro de dados para o registro deidentified. Reidentification às vezes é necessário para verificar o conteúdo de um registro ou para fornecer informações que são necessárias para o bem-estar do sujeito de um registro de Dados de-identificados. Reidentification sempre requer a aprovação e supervisão. Item 9 Quando um conjunto de Dados deidentified não contém registros originais (ou seja, cada disco tem um ou mais registros de que ele não pode ser distinguido, além de sua sequência de identificador atribuído), então torna-se impossível descobrir maliciosamente a deidentified de nome público de registro. Item 10 Remover informações indesejadas de um registro de dados, incluindo informações de natureza pessoal, e qualquer informação que não está diretamente relacionada com a finalidade de registro de dados. Deidentification de dados é um processo pelo qual os links para o nome público do objeto do registro são removidos Item 11 O método mais rápido conhecido de data scrubbing envolve a preparação de uma lista de palavras e frases aprovados que podem ser retidos nos registros de dados e remoção de cada palavra ou frase que não é encontrado na lista de aprovados.