PDF Scans durchsuchen? OCR PDF Texterkennung automatisieren mit synOCR auf Synology NAS

preview_player
Показать описание
synOCR:
OCRmyPDF:
Reclabox:
00:00 Intro
01:37 OCRmyPDF erkennt Text in Scans
03:08 Texterkennung auf dem NAS
03:55 Canon kann nur SMBv1 und NTLMv1
06:13 Probleme mit inotify während dem Scan
10:32 Verschlüsselte Ordner machen Probleme
11:29 Drei Probleme
12:23 Outro

SynoOCR Beschreibung:
synOCR macht deine Synology DiskStation zum papierlosen Büro

Damit kannst du einfach OCR auf PDF-Dokumente anwenden. synOCR kann anschließend nach Tags und Datum in den Dokumenten suchen, diese nach einem individuellen Muster umbenennen und nach Kategorien in Unterordner einsortieren. Durch Verwendung von Hardlinks entsteht kein erhöhter Speicherplatzbedarf, wenn ein Dokument in mehrere Kategorieordner einsortiert werden muss.

Alle Dokumente verbleiben im Benutzerdateisystem und du bist mit der Nutzung von synOCR nicht an eine propitäre Datenbank für deine Dokumente gebunden.
Hauptfunktionen:

konvertiert Bilder nach PDF
macht PDF-Scans mit der Texterkennung von OCRmyPDF durchsuchbar
teilt Dokumente mit Hilfe von Trennblättern auf
sucht nach Datum im Text und passt den Dateinamen nach eigenen Muster an
es sind einfache Regeln in der GUI und sogar komplexe YAML-Regeln (auf Wunsch auch als RegEx) definierbar
Sortierung der Dokumente in Regel basierte Ordner oder nach Datum
und so manches mehr …
Рекомендации по теме
Комментарии
Автор

Interessante Umsetzung! Ich habe mich auch vor einigen Wochen mit einigen DMS-Lösungen auseinander gesetzt. Letztendlich bin ich bei der guten alten Nextcloud gelandet. Diese hat die Plugin-Sammlung rund um die "Fulltextsearch", bei der man z.B. Elasticsearch als Suchbackend nutzen kann. Zudem kann über das Tesseract-Plugin PDFs und Office-Dokumente durchsuchbar machen. Die Scans lasse ich allerdings immer auf einen USB Stick schreiben, da mein Drucker auch älter ist und entsprechende Implementationen für's Netzwerk nicht mehr zeitgemäß sind. Die PDFs vom Stick lade ich dann per Explorer-Integration in den entsprechenden Nextcloud-Ordner hoch.
Bin bis jetzt echt zufrieden damit.

MrSebaro
Автор

gute Umsetzung. Schau dir mal Papermerge an ist open source. Ist eine Pdf-Datenbank mit ocr.

Roger
Автор

Wir haben einen MB2050. Ich hatte schon MFCs und Drucker von allen möglichen Herstellern. Aber nur über Canon muss man sich ständig ärgern. Alleine der Tintenverbrauch kotzt einen komplett an. Immer um Mitternacht(!) reinigt das Ding seine Köpfe. Einmal schafften wir es, drei Seiten mit einer Patronenladung auszudrucken, bevor er die gesamt Tinte verbraucht hatte.
Ich vermisse meinen alten Brother MFC so hart ...

Hessi
Автор

So was gibt es doch als Android App, vielleicht kannst da auch ein Video zu machen.

rickydeldo