Forensic IDP
Identifizierung von Fälschungen bei der automatisierten Verarbeitung von Dokumenten
Um die Digitalisierung der deutschen Wirtschaft durch webbasierte Kunden- und Bürgerservices voranzutreiben, werden immer mehr Dokumente mittels Intelligent Document Processing (IDP) voll- oder teilautomatisiert verarbeitet. Dies beschleunigt und vereinfacht die Prozesse, jedoch öffnet die geringe menschliche Beteiligung das Tor für Fälschungen, da Dokumente in der Regel keine Sicherheitsmerkmale wie Wasserzeichen enthalten, Unterschriften meist nicht abgleichbar sind oder Dokumente nach Unterzeichnung manipuliert werden können.
Ziel des Forschungsprojektes
Ziel des Vorhabens ist es, die erste „Intelligent Document Processing“ Lösung (IDP) zu entwickeln, welche nicht nur alle relevanten Informationen aus Dokumenten extrahiert, sondern zusätzlich einschätzt, ob das Dokument manipuliert wurde.
Dies ermöglicht es Unternehmen, ihre Prozesse zu automatisieren, ohne wirtschaftlichen Schaden durch Fälschungen zu erleiden.
Dies ermöglicht es Unternehmen, ihre Prozesse zu automatisieren, ohne wirtschaftlichen Schaden durch Fälschungen zu erleiden.
Hintergrund
Vor der automatisierten Verarbeitung von Dokumenten lag der Fokus der Betrüger darauf, Dokumente so zu fälschen, dass dies menschlichen Prüfern nicht auffiel.
Durch die automatisierten Lösungen liegt der Fokus heute jedoch auf Fälschungen, die für digitale forensische Analysen unsichtbar sind und somit einen Cyberangriff darstellen. Hierbei erleichtern moderne Bildbearbeitungsprogramme wie Adobe Photoshop durch eine Vielzahl von Werkzeugen das Fälschen. Beispielsweise können Zahlen und Buchstaben einfach innerhalb von oder über Dokumente hinweg kopiert, Inhalte gelöscht und entstandene Lücken aufgefüllt, oder neuer Text in entsprechender Optik eingefügt werden. In der Folge können Angreifer Beträge erhöhen, um eine höhere Rückerstattung zu erhalten, Datumsangaben fälschen, um Rechnungen erneut einzureichen, oder Verkäuferdaten (Name/Adresse) und Leistungsbeschreibungen so abändern, dass diese den Erstattungskriterien entsprechen.
Durch die automatisierten Lösungen liegt der Fokus heute jedoch auf Fälschungen, die für digitale forensische Analysen unsichtbar sind und somit einen Cyberangriff darstellen. Hierbei erleichtern moderne Bildbearbeitungsprogramme wie Adobe Photoshop durch eine Vielzahl von Werkzeugen das Fälschen. Beispielsweise können Zahlen und Buchstaben einfach innerhalb von oder über Dokumente hinweg kopiert, Inhalte gelöscht und entstandene Lücken aufgefüllt, oder neuer Text in entsprechender Optik eingefügt werden. In der Folge können Angreifer Beträge erhöhen, um eine höhere Rückerstattung zu erhalten, Datumsangaben fälschen, um Rechnungen erneut einzureichen, oder Verkäuferdaten (Name/Adresse) und Leistungsbeschreibungen so abändern, dass diese den Erstattungskriterien entsprechen.
Dokumentenfälschungserkennung von natif.ai
Im Gegensatz zu existierenden Methoden der Fälschungserkennung können wir auf eine vollfunktionsfähige Dokumentenextraktion zurückgreifen, die flexibel an neue Dokumentenformate angepasst werden kann.
Zur Umsetzung wird eine Betrugserkennungskomponente in jeden Schritt unserer Dokumentenanalyse-Pipeline integriert, sodass die Fälschungserkennung direkt vom gelernten Wissen über den Dokumentinhalt profitiert. Wir nennen das Gesamtsystem daher ForensicIDP. Das Vorhaben fällt somit in das hochaktuelle Forschungsgebiet der Absicherung KI-basierter Prozesse.
Zur Umsetzung wird eine Betrugserkennungskomponente in jeden Schritt unserer Dokumentenanalyse-Pipeline integriert, sodass die Fälschungserkennung direkt vom gelernten Wissen über den Dokumentinhalt profitiert. Wir nennen das Gesamtsystem daher ForensicIDP. Das Vorhaben fällt somit in das hochaktuelle Forschungsgebiet der Absicherung KI-basierter Prozesse.
Wir bauen eine Fälschungserkennung direkt in unsere eigene Optical Character Recognition (OCR) ein, indem wir die Optimierungsfunktion des Deep Learning Modells vom reinen Lesen auf das gleichzeitige Lesen und Erkennen von Fälschungen ändern. Neben der OCR fügen wir ebenfalls eine Fälschungserkennung in unsere Named Entity Recognition (NER) ein, um zu lernen, gleichzeitig manipulierte Entitäten zu klassifizieren und Fälschungen zu identifizieren.
Unsere Technologie führt darüber hinaus Plausibilitätschecks durch und kann bildbearbeitungstechnisch perfekt ausgeführte Fälschungen inhaltlich erkennen, beispielsweise wenn Artikel zu teuer sind, die Summe nicht der Summe der Einzelartikel entspricht, oder ein Händler laut Datenbank einen anderen Firmensitz hat.
Ebenso erkennt sie auffällige Pixelmuster, welche auf eine Fälschung hinweisen. Dabei geht es nicht nur um das Erkennen von Auffälligkeiten an Stellen, an denen Text steht (z. B., weil der Text minimal versetzt ist), sondern auch um die Detektion von Stellen, an denen kein Text steht (z. B., weil der Angreifer Hintergrund über Text kopiert hat, um diesen zu löschen).
Ebenso erkennt sie auffällige Pixelmuster, welche auf eine Fälschung hinweisen. Dabei geht es nicht nur um das Erkennen von Auffälligkeiten an Stellen, an denen Text steht (z. B., weil der Text minimal versetzt ist), sondern auch um die Detektion von Stellen, an denen kein Text steht (z. B., weil der Angreifer Hintergrund über Text kopiert hat, um diesen zu löschen).
Inhaltsprüfung
Die angegebene Summe stimmt nicht mit der Summe der einzelnen Artikel inkl. Steuer überein.
Pixelprüfung
Die markierten Stellen weisen auffällige Pixelmuster auf, die auf eine Manipulation hindeuten.
Aktueller Stand
Die Einzelmodule wurden bereits entwickelt und werden derzeit integriert. Die Technologie durchläuft aktuell interne Tests, welche sehr vielversprechende Ergebnisse aufweisen.
Auch testen erste Pilotkunden die neue Technologie und geben natif.ai Feedback dazu.
Auch testen erste Pilotkunden die neue Technologie und geben natif.ai Feedback dazu.
Ansprechpartner bei Fragen rund um das Forschungsprojekt: