Dublettensuche

Bedienung

Die Suche nach mehrfach erfaßten Personen erfolgt über den Menüpunkt Funktionen | Dublettensuche.

Verfahren

Das Programm prüft dabei anhand eines heuristischen Verfahrens, ob es Paare von Karteikarten findet, die sich hinsichtlich Namen, Lebensdaten, Orten, Eltern und Ehepartnern derart ähnlich sind, daß es sich dabei um Doppelerfassungen derselben Person handeln könnte. Das Verfahren verwendet dabei nicht die exakten Namen der in die Prüfung einbezogenen Personen sondern deren phonetisches Äquivalent, um so auch SCHMITT Francisca und SCHMIDT Franziska als mögliche Dubletten zu erkennen.

Auswertung der Ergebnisse

Als Ergebnis der Dublettensuche wird zum einen ein Personenverzeichnis namens Dubletten erstellt, das alle Personen, zu denen mindestens eine hinreichend ähnliche weitere Person im Karteikasten existiert, verzeichnet. Für einen Dublettenfund werden somit zwei, für einen Triplettenfund drei Personen verzeichnet, usw.

Parallel dazu wird als Auswertung eine CSV-Datei (Vorgabename DUBLETT) generiert, die in der Reihenfolge ihres Auffindens jeweils die beiden ähnlichen Personen hintereinander aufführt. Die Datei enthält durch Semikolons getrennt folgende Felder:

  1. Laufende Nummer des Dublettenpaares in der Reihenfolge des Auffindens,
  2. Bewertungszahl: je höher die Bewertungszahl, desto ähnlicher sind sich beide Personen,
  3. Name der Person,
  4. Vater der Person,
  5. Mutter der Person,
  6. Ehepartner der Person.
Um das Protokoll effizient auszuwerten, gehen Sie bitte wie folgt vor: Öffnen Sie das Protokoll mit Ihrem Tabellenkalkulationsprogramm (z.B. Microsoft Excel oder OpenOffice Calc). Sortieren Sie darin die Tabelle absteigend nach der Spalte 2 (Bewertungszahl). Die Liste ist daraufhin nach absteigender Wahrscheinlichkeit für eine tatsächliche Doppelerfassung sortiert. Sie können jetzt die Liste abarbeiten und durch Nachprüfen der Karteikarten feststellen, ob es sich um Dubletten handelt, die Sie dann eliminieren sollten, oder ob es sich nur um sehr ähnliche Personen handelt. In jedem Fall sollten Sie in der Liste Bearbeitungsvermerke anbringen. Dadurch können Sie im Falle einer späteren erneuten Dublettenprüfung diejenigen Fälle gleich ausscheiden, die Sie bereits in diesem Durchgang als tatsächlich nicht identisch identifiziert haben.