Auf unserer Plattform finden Sie bereits ein ausgezeichnetes
Rechnungsextraktionsmodell, welches alle relevanten Informationen aus Ihren Rechnungen extrahiert. Diese Informationen können Sie für Ihre nachgelagerten Analysen verwenden. Ebenso haben Sie die Möglichkeit, unser generisches Rechnungsmodell speziell auf Ihre Rechnungen zu
optimieren, sodass Sie noch bessere Ergebnisse erreichen können.
Unser generisches Rechnungsmodell wurde so trainiert, dass es so viele Informationen wie möglich extrahiert. Uns ist aber klar, dass es nie das perfekte Modell geben wird, welches auf jeder einzelnen Rechnung wirklich alle Informationen extrahiert. Demnach kann es vorkommen, dass Ihre Rechnungen Inhalte enthalten, auf die unser Modell nicht explizit trainiert wurde.
Auch ist uns durchaus klar, dass es für Sie sehr wichtig ist, wirklich
alle für Sie notwendigen Informationen zu extrahieren. Deshalb läge die optimale Lösung darin, dass Sie das Modell weiter trainieren können, um auch diese Informationen zu extrahieren.
Da das aber aktuell noch nicht möglich ist, zeigen wir Ihnen in diesem Beitrag eine vorläufige Lösung, wie Sie dieses Ziel dennoch erreichen können.
Dazu kombinieren wir unser
Rechnungsextraktionsmodell sowie unser
individuelles Extraktionsmodell. So können wir für die Informationen, die unser generisches Rechnungsmodell nicht extrahiert, ein eigenes Extraktionsmodell trainieren. Kombinieren wir anschließend beide Extraktionen, haben wir
alle Inhalte aus dem Dokument ausgelesen.
Betrachten wir das ganze nun Schritt für Schritt in einem Beispiel.
Inhalte über generisches Modell extrahieren
Im ersten Schritt laden wir unsere Rechnung in dem generischen Rechnungsextraktionsmodell hoch und rufen damit die Informationen ab, auf die das Modell trainiert wurde. Darunter fallen gängige Inhalte wie beispielsweise Angaben zum Rechnungsaussteller, Kunden, Artikel oder den Positionsdaten. Alternativ können Sie hierfür auch Ihr individuell
optimiertes Rechnungsmodell nutzen, falls Sie dieses trainiert haben (ein detailliertes Tutorial finden Sie in
diesem Blogbeitrag).
Fehlende Informationen identifizieren
Wie auf dem Screenshot zu sehen ist, wurde bereits der Großteil der Rechnungsinhalte erkannt. Die zwei Angaben „Vendor Contact“ und „Communication ID“ (rot gekennzeichnet) wurden von dem Modell allerdings nicht erfasst.
Eigenes Extraktionsmodell trainieren
Um nun auch diese beiden Informationen zu erhalten, trainieren wir uns ein eigenes Extraktionsmodell. Dieses soll uns die Felder „Vendor Contact“ und „Communication ID“ extrahieren.
Das Modell ist in den vier folgenden Schritten erstellt:
- Zu extrahierende Felder definieren.
- Trainingsdokumente hochladen.
- Dokumente auf die Felder annotieren.
- Training des Modells starten.
Eine detaillierte Anleitung zur Erstellung Ihres individuellen Extraktionsmodells finden Sie
hier.
Fehlende Informationen ergänzen
Ist das Modell fertig trainiert, nutzen wir es anschließend, um auch die beiden fehlenden Felder zu extrahieren.
Ihr Rechnungsdokument wird also den folgenden Workflow durchlaufen:
Ein Beispiel für die Anwendung des Outputs der beiden Modelle sieht dann wie folgt aus:
That’s it! So können Sie unser generisches Rechnungsmodell erweitern, um wirklich alle Informationen aus Ihren Rechnungen zu erhalten – selbst die, auf die das Modell nicht trainiert wurde!