next up previous contents
Next: Lokale Kontextanalyse und Betragsfeld-Behandlung Up: Automatisierte Belegverarbeitung Previous: Schrifterkennung

Datenbank-Abgleich

Nachdem ein Schriftstück, z. B. ein Bankformular, durch den Schrifterkenner ausgewertet wurde, liegt meist immer noch keine eindeutige Interpretation der Zeichen vor. Es hat sich als unerläßlich heraus gestellt, die Ergebnisse von maschinellen Schriftenerkennungssystemen durch Einsatz von großen Erfahrungsdatenbanken auf Kontextzusammenhänge zu prüfen und gegebenenfalls zu korrigieren. Der nächste Schritt unserer Arbeit war daher die Entwicklung der assoziativen Datenbank ,,DACCORD``, die diese Aufgabe erfüllt. Um einen möglichst hohen Datendurchsatz zu erzielen, werden die Daten komprimiert im Hauptspeicher abgelegt, wobei ein Kompromiß zwischen Kompressionsfaktor und schnellem Datenzugriff gefunden werden mußte. Der eigentliche Abgleich zwischen dem Ergebnis der Schrifterkennung und den in der Datenbank vorhanden Einträgen (z. B. den Adressen der Bankkunden) wird über die sogenannte Levenshteindistanz gesteuert. Diese ermittelt einen Wert für die ,,Ähnlichkeit`` zweier Zeichenfolgen. Die Levenshteindistanz wird wortweise berechnet und wurde außerdem dahingehend modifiziert, daß für einzelne Zeichen gewisse Wahrscheinlichkeiten berücksichtigt werden können. Ein großer Satz von Parametern erlaubt es, das Verhalten der Datenbank auf die Wünsche der einzelnen Kreditinstitute individuell anzupassen. Auf unserem Teststapel konnte die Fehlerrate pro Feld von 15.3 % auf unter 0.1 % gesenkt werden wobei die Zurückweisungsrate allerdings auf 23.3 % ansteigt. Die Durchsatzrate von ,,DACCORD`` selbst bei Datenbankgrößen von mehreren 100 MByte liegt bei über 50 Formularen pro Sekunde.


next up previous contents
Next: Lokale Kontextanalyse und Betragsfeld-Behandlung Up: Automatisierte Belegverarbeitung Previous: Schrifterkennung
Webmaster<www@zpr.uni-koeln.de>
1999-07-28