Accueil | English English
Accueil arrow SPAD DQM : Data Quality Management - Gestion de la qualité des données arrow Data Dédoublonnage

Dédoublonnage de fichiers avec le module Data Dédoublonnage de la suite SPAD DQM 

Suppression des doublons au sein d'un même fichier. Le processus de dédoublonnage fait appel à des types de procédures distincts :

La première travaille sur l’unicité totale entre différents champs, quelques soient les champs choisis, ils doivent être impérativement identiques pour être considérés comme étant un doublon.

Une seconde procédure prend ensuite le relais, en intégrant cette fois-ci la possibilité de reconnaître des termes équivalents, mais, qui ne sont pas représentés exactement de la même façon (fautes d’orthographe, de frappe ou d’abréviation).

Nous mettons à disposition 5 algorithmes qui s’adaptent au type de données à analyser. Des fonctions de distance ou de profondeur permettront d’affiner les résultats en terme de pourcentage de ressemblance les uns par rapport aux autres.

 

Image