Dédoublonnage de fichiers avec le module Data Dédoublonnage de la suite SPAD DQMSuppression des doublons au sein d'un même fichier. Le processus de dédoublonnage fait appel à des types de procédures distincts : La première travaille sur l’unicité totale entre différents champs, quelques soient les champs choisis, ils doivent être impérativement identiques pour être considérés comme étant un doublon. Une seconde procédure prend ensuite le relais, en intégrant cette fois-ci la possibilité de reconnaître des termes équivalents, mais, qui ne sont pas représentés exactement de la même façon (fautes d’orthographe, de frappe ou d’abréviation). Nous mettons à disposition 5 algorithmes qui s’adaptent au type de données à analyser. Des fonctions de distance ou de profondeur permettront d’affiner les résultats en terme de pourcentage de ressemblance les uns par rapport aux autres.
|