Alex-exercicio 3 - DCA

Capítulo 2 – Big Data – Exercícios
1. Como são os identificadores da Eduroam e da Federação CAFe - RNP ?
Eduroam: É um serviço de mobilidade global desenvolvido para a comunidade de
educação e pesquisa. Por meio do eduroam, estudantes, pesquisadores e equipe das
instituições participantes obtêm acesso à Internet na rede sem fio de seu campus e
também quando visitam as instituições parceiras no Brasil e no exterior, usando a
mesma configuração em seu laptop, tablet ou smartphone. Seu identificadores são
alfanuméricos, onde os primeiros dígitos são o RA do aluno seguido de a universidade
onde realiza seus estúdios universitários, por exemplo: Unicamp :
[email protected], University Cambridge: [email protected].
Federação CAFe - RNP No Brasil, os primeiros esforços para a construção de uma
federação acadêmica estão resultando na criação da Federação CAFe (Comunidade
Acadêmica Federada), cuja meta é congregar todas as universidades e instituições de
pesquisa brasileiras. A metodologia adotada para a construção da infraestrutura básica
da federação consiste da utilização de padrões e soluções de software já disponíveis e
adotadas por outras federações, e da implementação e experimentação de
ferramentas auxiliares para apoiar a implantação dos provedores de identidade e de
serviço. O projeto de criação da Federação CAFe inclui ainda o estudo, a proposição, a
análise e a validação de políticas para regular o funcionamento da federação
(requisitos mínimos que provedores de identidade e de serviço deverão cumprir).
Uma federação é constituída de dois componentes principais:


Provedores de identidade – Armazenam e gerenciam as informações sobre
pessoas.
Provedores de serviço – Oferecem serviços restritos para grupos de usuários.
Na arquitetura de uma federação, três atores podem ser distinguidos:



Usuário – Pessoa vinculada a uma instituição e que deseja acessar um recurso
protegido;
Provedor do recurso – Aplicação associada ao componente provedor de
serviço;
Instituição do usuário – Instituição que mantém o componente provedor de
identidade e estabelece um processo interno de autenticação das pessoas
vinculadas a ela.
O provedor de identidade por realizar a autenticação, armazena os atributos dos
usuários e faz o controle destes atributos. Existem quatro componentes principais no
provedor de identidade: o HS (Handle Service), o AA (Attribute Authority), o serviço de
diretório e o mecanismo de autenticação. O HS realiza a autenticação dos usuários em
conjunto com o mecanismo de autenticação e cria um handle. O AA verifica as políticas
de privacidade sobre a liberação dos atributos e permite que o usuário especifique
quais provedores de serviço podem acessá-los. Já o serviço de diretório é o local onde
ficam armazenados os atributos dos usuários
2. Considere os exemplos de identificadores listados às fls. 19 do livro texto. Escolha
uma das organizações e explique como são obtidos os identificadores e dê um
exemplo de um identificador gerado.
O “International Geo Sample Number or IGSN” é um código de identificação da
amostra de normalmente de nove caracteres. Um identificador único para amostras e
espécimes coletados de nosso ambiente natural. O sistema é usado na produção pelo
Sistema de Registro de amostras de terra (System for Earth Sample Registration
,SESAR), outras organizações estão à preparação da introdução do IGSN.
Ele objetivo do IGSN é implementar e promover métodos padrão para localizar,
identificar e citar amostras físicas com confiança ao operar um serviço de registro IGSN
internacional com uma infraestrutura distribuída para uso e benefício para seus
membros.
Alguns aspectos importantes:



As amostras são coletadas ou armazenadas de forma muito diversificada e
distribuída (repositórios para gavetas).
Metadados de amostra são coletadas e armazenadas de forma inconsistente,
muitas vezes incompleta e inacessível.
Os dados da amostra são adquiridos e publicado de forma distribuída:
o
o
o
o
As amostras são passadas entre laboratórios / pesquisadores.
Diferentes laboratórios / pesquisadores analisam a mesma amostra ou
subamostra dele.
Diferentes dados para a mesma amostra são publicados em diferentes
jornais.
Os dados para a mesma amostra são mantidos em diferentes sistemas
de dados.
Requisitos fundamentais:




As amostras devem ser identificadas de forma exclusiva.
Amostras precisam ter representações virtuais.
As representações virtuais precisam ser persistentemente acessíveis.
As representações virtuais precisam de conteúdo e formato padronizado
Uso do IGSN:



Permitirá que você encontre todos os dados para uma amostra específica com
uma busca simples.
Vai inequivocamente relacionado dado de amostras individuais.
Dará acesso persistente de metadados de amostra.


Irá facilitar a colaboração e reuso de amostras para construir conjuntos de
dados mais completos.
Vai ajudá-lo a organizar as suas amostras.
Sintaxe IGSN:
Sequência de 9 caracteres (alfanuméricos):
 3 dígitos NAME SPACE
 6 dígitos NAME SPECIFIC STRIN
o Permite 2,176’782,336 identificadores de amostra por name
space.
Example:


IGSN:HRV003M16 (Objeto de registro: espécime malaquite de Angola,
registrado pelo Museu Mineralógico da Universidade de Harvard)
IGSN:WHO000BC7 (Objeto de registro: Dredge CADEIA 35-2 ST18 D18,
registada pela Woods Hole Oceanographic Institution)
O IGSN é um identificador "na maior parte inteligente": Os três primeiros dígitos do
IGSN representam um espaço de nomes (um código de utilizador único) que identifica
a pessoa ou instituição que registra a amostra. Os seis últimos dígitos do IGSN são uma
sequência aleatória de caracteres alfanuméricos. O IGSN segue a sintaxe do URN
(Uniform Resource Name) que é composto de um Namespace Identifier (NID), uma
curta sequência única, o 'Namespace especialidade String "(NSS).
3. Comente possíveis métodos de “limpeza” de dados (data scrubbing).
Auditoria de dados: os dados são examinados com o uso de métodos estatísticos e de
base de dados para detectar anomalias e contradições: este, eventualmente, dá uma
indicação das características de anomalias e as suas localizações. Vários pacotes de
software comercial vai deixar você especificar restrições de vários tipos (usando uma
gramática que está em conformidade com uma linguagem de programação padrão,
por exemplo, JavaScript ou Visual Basic) e, em seguida, gerar o código que verifica os
dados em caso de violação dessas restrições. Este processo é referido abaixo, as balas
"especificação de fluxo de trabalho" e "execução de fluxo de trabalho." Para os
usuários que não têm acesso a software de limpeza high-end, pacotes de banco de
dados do microcomputador, como o Microsoft Access ou FileMaker Pro também
permitirá que você execute essas verificações, com base em restrição a restrição, de
forma interativa, com pouca ou nenhuma necessidade de programação em muitos
casos.
Especificação de fluxo de trabalho: A detecção e remoção de anomalias é realizado
por uma sequência de operações sobre os dados conhecidos como o fluxo de trabalho.
Ele é especificado após o processo de auditoria dos dados e é crucial para alcançar o
produto final de dados de alta qualidade. A fim de atingir um fluxo de trabalho
adequada, as causas das anomalias e erros nos dados têm de ser cuidadosamente
considerado.
Execução de fluxo de trabalho: Nesta etapa, o fluxo de trabalho é executado após sua
especificação é completa e sua correção é verificada. A implantação do fluxo de
trabalho deve ser eficiente, mesmo em grandes conjuntos de dados, o que,
inevitavelmente, coloca um equilíbrio, porque a execução de uma operação de
limpeza de dados pode ser computacionalmente caro.
Pós-processamento e controle: Depois de executar o fluxo de trabalho de limpeza, os
resultados são esperados para verificar a exatidão. Os dados que não poderiam ser
corrigidos durante a execução do fluxo de trabalho é corrigida manualmente, se
possível. O resultado é um novo ciclo no processo de limpeza de dados onde os dados
são examinados novamente para permitir a especificação de um fluxo de trabalho
adicional para limpar ainda mais os dados de processamento automático
4. Comente cada um dos itens da sessão “Lessons Learned” (fls. 32 do livro texto) e dê
exemplo/s que contextualize/m sua resposta.
Item 1:
Todos os recursos de Big Data pode ser imaginado como um sistema identificador de
objetos de dados e eventos relacionados a dados (ou seja, transações cronometrados). Os
dados em um recurso de dados grande pode ser imaginado como sequências de caracteres
que estão ligados ao identificadores
Item 2:
Sem um sistema de identificação adequada, um recurso Big Data não tem nenhum
valor. Exemplo: Quando eu tenho o banco de dados que for de países do mundo e se não
teria o identificador para poder diferenciar cidades entre países, eu não saberia se a cidade
procurada por um usuário deu certo. Outro seria contabilizar quantos tenho registrados
em mim banco de dados e saber se faltam algum pais ou cidade.
Item 3:
Um identificador é uma sequência alfanumérico exclusivo atribuído a um objeto de
dados, exemplo: um ISBN que é o sistema identificador único para livros e publicações
não-periódicas, A finalidade do sistema é a identificação numérica de um livro segundo
seu título, autor, país (ou código de idioma) e a editora, individualizando inclusive edições
diferentes. Assim eu posso usar como referencia bibliográfica para mim linha de pesquisa
que pertence a mim área de trabalho.
Item 4:
Os objetos de dados devem ser associados a um identificador único, exemplo: se vou
fazer um banco de dados com a classificação de animais, eu não inventaria nomes
diferentes, isso causaria erros, porque ao criar meu BD posse outro nome.
Item 5:
Deidentification é o processo de remoção de informações a partir de um registro de
dados que possam vincular o registro para o nome público do objeto do registro. Por
exemplo: uma implementação é usado, por exemplo, no correio de Gmail.com, onde a
pessoa pode escolher só um login que esteve procurando, de todo seus correios
armazenados.
Iitem 6:
Deidentification, não deve ser confundido com o ato de desnudar o registro de uma
identificador. Por exemplo,
item 7:
Onde não há identificação, não pode haver deidentification e não Reidentification.
Item 8:
Reidentification é a atribuição do nome pública associada a um registro de dados para o
registro deidentified. Reidentification às vezes é necessário para verificar o conteúdo de
um registro ou para fornecer informações que são necessárias para o bem-estar do sujeito
de um registro de Dados de-identificados. Reidentification sempre requer a aprovação e
supervisão.
Item 9
Quando um conjunto de Dados deidentified não contém registros originais (ou seja, cada
disco tem um ou mais registros de que ele não pode ser distinguido, além de sua
sequência de identificador atribuído), então torna-se impossível descobrir maliciosamente
a deidentified de nome público de registro.
Item 10
Remover informações indesejadas de um registro de dados, incluindo informações de
natureza pessoal, e qualquer informação que não está diretamente relacionada com a
finalidade de registro de dados. Deidentification de dados é um processo pelo qual os links
para o nome público do objeto do registro são removidos
Item 11
O método mais rápido conhecido de data scrubbing envolve a preparação de uma lista de
palavras e frases aprovados que podem ser retidos nos registros de dados e remoção de
cada palavra ou frase que não é encontrado na lista de aprovados.