| |
Adreß-Dubletten stören immer. Teils entstehen sie durch unabsichtliche
Doppel-Meldungen, teils absichtlich, um zu ärgern oder um bei Gewinnspielen
bessere Chancen zu haben. Besonders die letztere Spezies ist dabei recht findig
und versucht, durch kleine Änderungen an Namen und Anschrift die Dubletten-Suchprogramme
zu überlisten.
Bei der Dublettensuche müssen einerseits echte Dubletten auch dann gefunden werden,
wenn sie Abweichungen enthalten, andererseits sollen z.B. Familienmitglieder nicht
als Dubletten abgestraft werden. Auch hier glauben wir nicht an die vollautomatische
Lösung per Programm, sondern gehen den halbautomatischen Weg, der zwar etwas aufwendiger,
dafür aber sicherer ist:
- Als wichtigste Voraussetzung für eine sichere Dubletten-Erkennung verwenden wir
nur Adressen, die wir entweder selbst erfaßt oder optimiert haben
(mehr zur Optimierung) . Nur dann haben wir eine zuverlässige
Standardisierung, die eine hohe Erkennungsquote garantiert.
- Im automatischen Durchlauf werden die Anschriften aller Adressen miteinander
verglichen. Bei gleicher Anschrift werden auch die Namen verglichen und die Levenshtein-Distanz
ermittelt. Vollkommen identische Adressen werden als Dubletten markiert bzw. ausgeschieden.
- Zweifelhafte Adreß-Paare werden optisch kontrolliert und wahlweise manuell als Dubletten,
als "verschieden" oder als "unklar" eingeordnet.
Dieses Verfahren ist zwar aufwendiger, als die vollautomatische Dublettensuche, aber es scheint
wenig sinnvoll, durch billigeres Vorgehen teuer generierte Adressen zu vernichten, bzw. durch Dubletten zu entwerten.
Da wir die Dublettensuche selbst entwickelt haben, können wir auf Wunsch individuelle
Zusatzleistungen einbauen (z.B. markieren von Familienmitgliedern oder feststellen von
"Massentätern").
|
|