Déduplication de fichiers avec le module Data Déduplication de la suite SPAD DQM Les procédés de déduplication consistent à identifier des
enregistrements comme étant ressemblants ou identiques au sein d’un ou
plusieurs fichiers et d’en permettre ainsi la suppression.
La déduplication est le plus souvent réalisée après un dédoublonnage.
Cette opération consiste à repérer les enregistrements communs à
plusieurs fichiers (Excel, Access, html…) grâce à la combinaison de
divers champs, (exemple: nom; adresse; clé; identifiant etc.) et par
l’utilisation d’un ensemble d'algorithmes de rapprochement sémantique
et phonétique. |