Ανεβάστε αρχείο PDF
Μπορείτε να μετατρέψετε 3 αρχεία έως 5 MB το καθένα
Ανεβάστε αρχείο PDF
Εγγραφείτε και λάβετε 10 δωρεάν μετατροπές την ημέρα
Τι είναι η εξαγωγή κειμένου από PDF;
Η εξαγωγή κειμένου από PDF είναι η διαδικασία λήψης του κειμενικού περιεχομένου ενός εγγράφου σε καθαρή μορφή, χωρίς μορφοποίηση, γραφικά ή δομικά στοιχεία. Το αποτέλεσμα είναι ένα αρχείο TXT που περιέχει μόνο γράμματα, αριθμούς, σημεία στίξης και αλλαγές γραμμής. Αυτό το κείμενο μπορεί να ανοιχτεί σε οποιονδήποτε επεξεργαστή σε οποιαδήποτε συσκευή, να χρησιμοποιηθεί για ανάλυση, ευρετηρίαση ή περαιτέρω επεξεργασία.
Το PDF (Portable Document Format) αναπτύχθηκε από την Adobe το 1993 για την ανταλλαγή εγγράφων διατηρώντας την ακριβή τους εμφάνιση ανεξάρτητα από το λογισμικό και το λειτουργικό σύστημα. Η μορφή βασίζεται στη γλώσσα περιγραφής σελίδων PostScript και αποθηκεύει πληροφορίες για κάθε στοιχείο: συντεταγμένες χαρακτήρων, γραμματοσειρές, χρώματα, εικόνες, διανυσματικά αντικείμενα. Γι' αυτό το PDF φαίνεται το ίδιο σε οθόνες υπολογιστών, tablets, τηλέφωνα και κατά την εκτύπωση.
Το TXT (Plain Text) είναι μια απλή μορφή κειμένου χωρίς καμία μορφοποίηση. Το αρχείο περιέχει μόνο μια ακολουθία χαρακτήρων σε συγκεκριμένη κωδικοποίηση. Το TXT εμφανίστηκε στην αυγή της εποχής των υπολογιστών και παραμένει ένας καθολικός τρόπος αποθήκευσης κειμενικών πληροφοριών. Τα αρχεία κειμένου μπορούν να διαβαστούν παντού: σε γραμμές εντολών διακομιστών, στο Σημειωματάριο Windows, σε επεξεργαστές κειμένου macOS, σε smartphones. Το μέγεθος του αρχείου είναι ελάχιστο — μόνο οι χαρακτήρες χωρίς μεταδεδομένα.
Η υπηρεσία PEREFILE αναλύει τη δομή του εγγράφου PDF, εξάγει τα ρεύματα κειμένου και δημιουργεί ένα αρχείο κειμένου με σωστή κωδικοποίηση UTF-8 για σωστή εμφάνιση ελληνικών και άλλων γλωσσών. Υποστηρίζονται έγγραφα προστατευμένα με κωδικό — απλά δώστε τον κωδικό κατά τη μετατροπή.
Πώς λειτουργεί το PDF εσωτερικά
Η κατανόηση της εσωτερικής δομής του PDF βοηθά να εξηγηθεί γιατί η εξαγωγή κειμένου δεν είναι τετριμμένη εργασία. Το PDF σχεδιάστηκε όχι για επεξεργασία, αλλά για ακριβή αναπαραγωγή της εμφάνισης του εγγράφου.
Ρεύματα και αντικείμενα
Ένα αρχείο PDF είναι μια συλλογή αντικειμένων: γραμματοσειρές, εικόνες, ρεύματα κειμένου, γραφικά στοιχεία. Κάθε αντικείμενο έχει μοναδικό αριθμό και μπορεί να αναφέρεται σε άλλα αντικείμενα. Το κείμενο δεν αποθηκεύεται ως ακολουθία παραγράφων, αλλά ως σύνολο εντολών σχεδίασης: «τοποθέτησε τον χαρακτήρα X στη θέση Y χρησιμοποιώντας τη γραμματοσειρά Z».
Παράδειγμα του πώς η απλή λέξη «Γειά» μπορεί να φαίνεται μέσα σε ένα PDF:
- Ορισμός γραμματοσειράς Arial, μέγεθος 12
- Μετακίνηση δρομέα στις συντεταγμένες (100, 700)
- Σχεδίαση χαρακτήρα «Γ»
- Μετακίνηση δρομέα 8 σημεία δεξιά
- Σχεδίαση χαρακτήρα «ε»
- Και ούτω καθεξής για κάθε χαρακτήρα
Κωδικοποιήσεις και γραμματοσειρές
Επιπλέον πολυπλοκότητα δημιουργείται από το σύστημα κωδικοποίησης. Στο PDF, ο ίδιος χαρακτήρας μπορεί να έχει διαφορετικούς αριθμητικούς κωδικούς ανάλογα με την ενσωματωμένη γραμματοσειρά. Ορισμένα έγγραφα χρησιμοποιούν υποσύνολα γραμματοσειρών (μόνο χαρακτήρες που εμφανίζονται στο κείμενο), και οι κωδικοποιήσεις τους είναι μοναδικές για κάθε αρχείο. Το πρόγραμμα εξαγωγής κειμένου πρέπει να ερμηνεύει σωστά αυτές τις κωδικοποιήσεις.
Σε τι χρησιμεύει η μετατροπή PDF σε TXT
Προετοιμασία δεδομένων για μηχανική μάθηση
Εξαγωγή κειμένου από έγγραφα PDF για δημιουργία συνόλων δεδομένων εκπαίδευσης για νευρωνικά δίκτυα και γλωσσικά μοντέλα
Ευρετηρίαση εγγράφων για αναζήτηση
Δημιουργία ευρετηρίων πλήρους κειμένου σε αρχείο εγγράφων PDF για γρήγορη ανάκτηση πληροφοριών
Αυτόματη επεξεργασία εγγράφων
Εξαγωγή κειμένου για parsing δεδομένων, ανάλυση περιεχομένου και ενσωμάτωση με άλλα συστήματα
Μεταφορά περιεχομένου σε ιστοσελίδα
Προετοιμασία κειμένου από υλικά PDF για δημοσίευση CMS και δημιουργία ιστοσελίδων
Ανάλυση κειμένου και στατιστικά
Λήψη καθαρού κειμένου για μέτρηση λέξεων, ανάλυση συναισθημάτων και γλωσσολογική έρευνα
Αρχειοθέτηση σε μορφή κειμένου
Αποθήκευση περιεχομένου εγγράφων σε καθολική μορφή για μακροπρόθεσμη αποθήκευση
Συμβουλές για τη μετατροπή PDF σε TXT
Ελέγξτε ότι το PDF περιέχει κείμενο
Πριν τη μετατροπή, ανοίξτε το έγγραφο και προσπαθήστε να επιλέξετε κείμενο με το ποντίκι. Αν το κείμενο δεν επιλέγεται — είναι σαρωμένο έγγραφο, απαιτείται OCR
Χρησιμοποιήστε UTF-8 κατά το άνοιγμα του αρχείου
Αν βλέπετε περίεργους χαρακτήρες αντί για γράμματα, ελέγξτε τις ρυθμίσεις κωδικοποίησης στον επεξεργαστή κειμένου σας — πρέπει να επιλεγεί UTF-8
Διατηρήστε το αρχικό PDF
Η μετατροπή σε TXT είναι μη αναστρέψιμη. Διατηρείτε πάντα το αρχικό έγγραφο σε περίπτωση που χρειαστεί η μορφοποίηση ή επαναμετατροπή
Για πίνακες χρησιμοποιήστε εξειδικευμένες μορφές
Αν η δομή πινάκων από PDF είναι σημαντική, σκεφτείτε τη μετατροπή σε Word ή Excel αντί για TXT — αυτές οι μορφές διατηρούν την πινακοειδή δομή