mardi 16 octobre 2012
Nettoyage des données dans un entrepôt de données
Un entrepôt de données stocke d'énormes quantités de données historiques extraites de diverses bases de données individuelles. Les entrepôts de données sont principalement utilisées pour des décisions stratégiques, un exemple étant, la détermination des promotions d'offrir à des clients résidant dans un code postal donné.
En raison du fait que les données sont extraites de diverses bases de données, il doit y avoir une norme uniforme de représentation des données et la sémantique dans un entrepôt de données. En d'autres mots, "sales" les données de bases de données doit être "nettoyée" avant d'être regroupés dans un entrepôt de données.
Pour illustrer quelques exemples de données sales, permet de considérer les données stockées dans les bases de données Y et Z.
Normes multiples:
Y contient 1 centimètre. Z contient 0,3937 pouces.
S'il vous plaît noter 1 centimètre = 0.3937 pouces
Équivalence sémantique:
Y contient Philly. Z contient Philadelphie.
Y contient Robert. Z contient Bob.
Y contient Mumbai. Z contient Bombay.
Abréviations:
Y contient "lac Michigan Drive." Z contient "L. Michigan Dr"
L'utilisation incohérente des codes:
Y utilise "M" ou "F" pour désigner le sexe. Z utilise "0" ou "1".
Des informations incorrectes:
Y contient "Février 31" comme une date.
Comme noté dans les exemples ci-dessus, il ya un grand nombre de possibilités dans les données étant sale et il n'y a donc pas d'un nettoyeur de données unique qui peut être utilisé dans tous les scénarios. Nettoyeurs ne peut pas être entièrement automatisée car il n'est pas possible d'inclure toutes les possibilités. Prenez Mumbai ou Bombay comme exemple. Une personne chargée de superviser les activités de nettoyage doit être au courant des détails géographiques pertinents. Il n'ya tout simplement pas de solution one-size-fits-all.
La meilleure façon de créer un produit de nettoyage consiste à effectuer une analyse à savoir comprendre le contexte de données. Sur la base de l'analyse, les règles de transformation doivent être créés afin de transformer les données sales pour nettoyer les données. Ces règles de transformation doivent ensuite être vérifiées sur des données d'échantillonnage pour s'assurer que les règles fonctionnent comme prévu.
Après le nettoyage final est effectué, l'intervention humaine est toujours recommandé de s'assurer qu'aucun données modifiées a été copié à l'entrepôt de données....
Inscription à :
Publier les commentaires (Atom)
Aucun commentaire:
Enregistrer un commentaire