Como desenvolver métricas de qualidade de dados

data warehouse e data mining ferramentas tornam fácil de extrair e analisar grandes volumes de informações, mas a qualidade da análise é apenas tão boa como a qualidade dos dados. O primeiro passo em qualquer projeto de armazenagem estudo de pesquisa ou dados deve ser uma avaliação da qualidade dos dados que entram no projeto. Medidas para a integridade, validade e consistência todos fator para essa avaliação. Para desenvolver métricas de qualidade de dados, você deve seguir alguns passos.

  • Desenvolver uma estrutura para medir a qualidade dos dados. Criar espaço em cada banco de dados onde os resultados dos controlos de qualidade podem ser armazenados. Desenvolver relatórios ou painéis de dados.

  • Medir a integridade dos mesmos. Escolha elementos-chave em cada banco de dados e contar o percentual de nulos, os campos vazios ou valores que representam dados indisponíveis ou desconhecidas.

  • Medir percentagens de valores permitidos. Quando um campo tem um número de valores de códigos predefinidos, medir a distribuição destes valores contra o número de valores incorrectos e ausentes. Analisar essas distribuições para determinar se certos códigos aparecem com muita freqüência. Em caso afirmativo, este valor pode precisar de ser subdivididas para proporcionar uma melhor descrição. Por exemplo, se as respostas são preto, branco e cor e 98% das respostas são de cor, pode fazer sentido para substituir cores com vermelho, azul ou verde.

  • Verifique para valores razoáveis. medições numéricos geralmente aparecem dentro de um intervalo permitido. Por exemplo, uma temperatura do tempo de medição diária Fahrenheit irão aparecer normalmente como um valor de cerca de -40 a 120. Qualquer valor fora da gama que provavelmente não é válida.



  • Comparar valores dentro do mesmo registro para a consistência. Se a temperatura foi de 90 e o valor Fahrenheit precipitação é neve, um dos dois valores é provavelmente incorrecta.

  • Verificar a consistência entre os registros relacionados. Use verificações de consistência semelhantes entre registros em relações pai-filho e dentro de múltiplas entradas filho. Pai e filho relacionamentos são ligações entre elementos do banco de dados. Por exemplo, num certo número de itens relacionados com o tempo, se um conjunto de medições de temperatura temperaturas lista de hora em hora sempre crescentes entre 50 e 70 graus ao longo da manhã, mas a leitura é 10:00 -20, este valor é provavelmente em erro.

  • Criar relatórios, painéis ou notificações com base nos dados coletados. Resumir por grupo organizacional, fornecedor ou tipo de cliente com habilidades para detalhar a elementos de dados específicos. Analisar os dados para determinar onde ocorrem os erros eo que pode ser feito para melhorar a qualidade dos dados.

  • Melhorar a qualidade dos dados. Rever as regras de negócio, software de reparação para rejeitar dados errados, notificar os clientes de problemas de dados e encontrar formas de recompensar iniciativas de qualidade. Monitorar estas medidas ao longo do tempo.

dicas & avisos

  • A maioria dos bancos de dados relacionais oferecem maneiras para rejeitar dados inválidos usando restrições e chaves estrangeiras. Use essas restrições para impor a qualidade dos dados.
De esta maneira? Compartilhar em redes sociais:

LiveInternet