Startseite Adressenerfassung Dubletten-Bearbeitung

Bearbeitung von Adreß-Dubletten


Adreß-Dubletten stören immer. Teils entstehen sie durch unabsichtliche Doppel-Meldungen, teils absichtlich, um zu ärgern oder um bei Gewinnspielen bessere Chancen zu haben. Besonders die letztere Spezies ist dabei recht findig und versucht, durch kleine Änderungen an Namen und Anschrift die Dubletten-Suchprogramme zu überlisten.

Bei der Dublettensuche müssen einerseits echte Dubletten auch dann gefunden werden, wenn sie Abweichungen enthalten, andererseits sollen z.B. Familienmitglieder nicht als Dubletten abgestraft werden. Auch hier glauben wir nicht an die vollautomatische Lösung per Programm, sondern gehen den halbautomatischen Weg, der zwar etwas aufwendiger, dafür aber sicherer ist:

  1. Als wichtigste Voraussetzung für eine sichere Dubletten-Erkennung verwenden wir nur Adressen, die wir entweder selbst erfaßt oder optimiert haben (mehr zur Optimierung) . Nur dann haben wir eine zuverlässige Standardisierung, die eine hohe Erkennungsquote garantiert.

  2. Im automatischen Durchlauf werden die Anschriften aller Adressen miteinander verglichen. Bei gleicher Anschrift werden auch die Namen verglichen und die Levenshtein-Distanz ermittelt. Vollkommen identische Adressen werden als Dubletten markiert bzw. ausgeschieden.

  3. Zweifelhafte Adreß-Paare werden optisch kontrolliert und wahlweise manuell als Dubletten, als "verschieden" oder als "unklar" eingeordnet.
Dieses Verfahren ist zwar aufwendiger, als die vollautomatische Dublettensuche, aber es scheint wenig sinnvoll, durch billigeres Vorgehen teuer generierte Adressen zu vernichten, bzw. durch Dubletten zu entwerten.

Da wir die Dublettensuche selbst entwickelt haben, können wir auf Wunsch individuelle Zusatzleistungen einbauen (z.B. markieren von Familienmitgliedern oder feststellen von "Massentätern").