de.phhsnews.com


de.phhsnews.com / Extrahieren Sie Text aus PDF- und Bilddateien

Extrahieren Sie Text aus PDF- und Bilddateien


Haben Sie ein PDF-Dokument, aus dem Sie den gesamten Text extrahieren möchten? Was ist mit Bilddateien eines gescannten Dokuments, das Sie in bearbeitbaren Text konvertieren möchten? Dies sind einige der häufigsten Probleme, die ich am Arbeitsplatz bei der Arbeit mit Dateien gesehen habe.

In diesem Artikel werde ich über verschiedene Möglichkeiten sprechen, wie Sie versuchen können, Text aus einem PDF oder einem Bild zu extrahieren. Ihre Extraktionsergebnisse variieren je nach Art und Qualität des Texts in der PDF-Datei oder im Bild. Außerdem variieren die Ergebnisse je nach verwendetem Werkzeug. Probieren Sie daher möglichst viele der unten aufgeführten Optionen aus, um die besten Ergebnisse zu erzielen.

Extrahieren Sie Text aus Bild oder PDF

Der einfachste und schnellste Weg, um zu beginnen, ist einen Online-PDF-Text-Extraktor-Service zu versuchen. Diese sind normalerweise kostenlos und können Ihnen genau das geben, wonach Sie suchen, ohne etwas auf Ihrem Computer installieren zu müssen. Hier sind zwei, die ich mit sehr guten bis hervorragenden Ergebnissen verwendet habe:

AuszugPDF

ExtractPDF ist ein kostenloses Tool, um Bilder, Texte und Schriften aus einer PDF-Datei zu extrahieren. Die einzige Einschränkung ist, dass die maximale Größe für die PDF-Datei 10 MB beträgt. Das ist ein bisschen klein; Wenn Sie also eine größere Datei haben, probieren Sie einige der folgenden Methoden aus. Wählen Sie Ihre Datei und klicken Sie dann auf die Schaltfläche Datei senden . Die Ergebnisse sind normalerweise sehr schnell und Sie sollten eine Vorschau des Textes sehen, wenn Sie auf die Registerkarte Text klicken.

Es ist auch ein netter zusätzlicher Vorteil, dass es auch Bilder aus der PDF-Datei extrahiert, nur für den Fall, dass Sie diese benötigen! Alles in allem funktioniert das Online-Tool gut, aber ich habe ein paar PDF-Dokumente gefunden, die mir lustige Ergebnisse liefern. Der Text ist gut extrahiert, aber aus irgendeinem Grund wird es einen Zeilenumbruch nach jedem Wort haben! Kein großes Problem für eine kurze PDF-Datei, aber sicherlich ein Problem für Dateien mit viel Text. Wenn Ihnen das passiert, versuchen Sie das nächste Werkzeug.

Online-OCR

Online-OCR funktioniert in der Regel für Dokumente, die mit ExtractPDF nicht richtig konvertiert wurden. Daher ist es eine gute Idee, beide Dienste auszuprobieren, um festzustellen, welche die bessere Ausgabe liefert. Online-OCR hat auch einige schönere Funktionen, die für jeden mit einer großen PDF-Datei, die nur Text auf nur wenigen Seiten und nicht das gesamte Dokument konvertieren muss, nützlich sein können.

Das erste, was Sie tun möchten, ist weitermachen und ein kostenloses Konto erstellen. Es ist ein bisschen nervig, aber wenn Sie das kostenlose Konto nicht erstellen, konvertiert es nur teilweise Ihr PDF und nicht das gesamte Dokument. Anstatt nur ein 5-MB-Dokument hochladen zu können, können Sie bis zu 100 MB pro Datei mit einem Konto hochladen.

Wählen Sie zunächst eine Sprache und dann die Art der Ausgabeformate, die Sie für die konvertierte Datei wünschen. Sie haben ein paar Optionen und Sie können mehrere auswählen, wenn Sie möchten. Unter Mehrseitiges Dokument können Sie Seitenzahlen auswählen und dann nur die Seiten auswählen, die Sie konvertieren möchten. Dann wählen Sie die Datei aus und klicken auf Konvertieren !

Nach der Konvertierung gelangen Sie in den Bereich Dokumente (sofern Sie angemeldet sind), in dem Sie sehen können, wie viele freie Seiten Sie noch haben und Links zum Herunterladen Ihrer konvertierten Dateien. Es sieht so aus, als ob Sie nur 25 Seiten pro Tag kostenlos haben. Wenn Sie mehr brauchen, müssen Sie entweder etwas warten oder mehr Seiten kaufen.

Online-OCR hat meine PDF-Dateien hervorragend konvertiert, da das tatsächliche Layout des Textes beibehalten werden konnte. In meinem Test habe ich ein Word-Dokument verwendet, das Aufzählungszeichen, verschiedene Schriftgrößen usw. verwendet und es in ein PDF konvertiert hat. Dann habe ich Online-OCR verwendet, um es wieder in Word-Format zu konvertieren, und es war ungefähr 95% das gleiche wie das Original. Das ist ziemlich beeindruckend für mich.

Wenn Sie ein Bild in Text konvertieren möchten, kann Online OCR das ebenso einfach durchführen wie das Extrahieren von Text aus PDF-Dateien.

Kostenlose Online-OCR

Da wir über Bild-zu-Text-OCR gesprochen haben, möchte ich noch eine gute Webseite erwähnen, die wirklich gut auf Bildern funktioniert. Free Online OCR war sehr gut und sehr genau beim Extrahieren von Text aus meinen Testbildern. Ich habe ein paar Fotos von Seiten von Büchern, Broschüren usw. aus meinem iPhone gemacht und war überrascht, wie gut es den Text konvertieren konnte.

Wählen Sie Ihre Datei und klicken Sie dann auf die Schaltfläche Hochladen. Auf dem nächsten Bildschirm gibt es einige Optionen und eine Vorschau des Bildes. Sie können es zuschneiden, wenn Sie das ganze nicht OCR wollen. Klicken Sie dann einfach auf den OCR-Button und Ihr konvertierter Text erscheint unter der Bildvorschau. Es hat auch keine Einschränkungen, was wirklich nett ist.

Zusätzlich zu den Online-Diensten gibt es zwei Freeware-PDF-Konverter, die ich erwähnen möchte, falls Sie Software benötigen, die lokal auf Ihrem Computer ausgeführt wird, um die Konvertierungen durchzuführen. Bei Online-Diensten benötigen Sie immer eine Internetverbindung, und das ist möglicherweise nicht für alle möglich. Allerdings stellte ich fest, dass die Qualität der Conversions aus den Freeware-Programmen deutlich schlechter war als die der Websites.

A-PDF Text Extraktor

A-PDF Text Extractor ist eine Freeware, die ziemlich gut Text aus PDF-Dateien extrahiert. Sobald Sie es heruntergeladen und installiert haben, klicken Sie auf die Schaltfläche Öffnen, um Ihre PDF-Datei auszuwählen. Klicken Sie dann auf Text extrahieren, um den Prozess zu starten.

Sie werden nach einem Speicherort gefragt, an dem die Textausgabedatei gespeichert werden soll. Anschließend wird mit dem Extrahieren begonnen. Sie können auch auf die Schaltfläche Option klicken, mit der Sie nur bestimmte zu extrahierende Seiten und den Extraktionstyp auswählen können. Die zweite Option ist interessant, weil sie den Text in verschiedenen Layouts extrahiert und es lohnt sich, alle drei zu testen, um herauszufinden, welche die beste Ausgabe liefert.

PDF2Text Pilot

PDF2Text Pilot macht einen guten Job beim Extrahieren von Text. Es hat keine Optionen; Sie fügen einfach Dateien oder Ordner hinzu, konvertieren und hoffen auf das Beste. Es funktionierte gut auf einigen PDFs, aber für die Mehrheit von ihnen gab es zahlreiche Probleme.

Klicken Sie einfach auf Dateien hinzufügen und dann auf Konvertieren . Sobald die Konvertierung abgeschlossen ist, klicken Sie auf Durchsuchen, um die Datei zu öffnen. Ihr Kilometerstand variiert mit diesem Programm, also erwarten Sie nicht viel.

Es ist auch erwähnenswert, dass Sie, wenn Sie sich in einer Unternehmensumgebung befinden oder von der Arbeit eine Kopie von Adobe Acrobat erhalten, wirklich viel bessere Ergebnisse erzielen können. Acrobat ist natürlich nicht kostenlos, aber es gibt Optionen, um PDF in das Word-, Excel- und HTML-Format zu konvertieren. Es macht auch die beste Arbeit, die Struktur des Originaldokuments beizubehalten und komplizierten Text zu konvertieren.


Was ist der Unterschied zwischen BitLocker und EFS (Encrypting File System) unter Windows?

Was ist der Unterschied zwischen BitLocker und EFS (Encrypting File System) unter Windows?

Windows 10, 8.1, 8 und 7 enthalten BitLocker-Laufwerkverschlüsselung, aber das ist nicht die einzige Verschlüsselungslösung Angebot. Windows enthält außerdem eine Verschlüsselungsmethode namens "verschlüsselndes Dateisystem" oder EFS. Hier ist, wie es sich von BitLocker unterscheidet: Dies ist nur für Professional- und Enterprise-Editionen von Windows verfügbar.

(how-to)

Verhindern, dass Windows 10 Updates automatisch herunterlädt

Verhindern, dass Windows 10 Updates automatisch herunterlädt

Windows 10 PCs suchen automatisch nach Updates und installieren alle gefundenen Updates. Sie können die Kontrolle darüber übernehmen und Windows 10 Updates in Ihrem Zeitplan installieren, aber diese Optionen sind ausgeblendet. Windows Update möchte wirklich automatisch unter Windows 10 aktualisieren.

(how-to)

Interessante Artikel