PDF dosyası yükle
Her biri 5 MB'a kadar 3 dosya dönüştürebilirsiniz
PDF dosyası yükle
Kaydolun ve günde 10 ücretsiz dönüşüm alın
PDF'den Metin Çıkarma Nedir?
PDF'den metin çıkarma, bir belgenin metin içeriğini biçimlendirme, grafik veya yapısal öğeler olmadan saf haliyle elde etme işlemidir. Sonuç, yalnızca harfler, sayılar, noktalama işaretleri ve satır sonlarını içeren bir TXT dosyasıdır. Bu metin herhangi bir cihazda herhangi bir düzenleyicide açılabilir, analiz, dizinleme veya daha fazla işleme için kullanılabilir.
PDF (Portable Document Format), yazılım ve işletim sisteminden bağımsız olarak belgelerin tam görünümünü koruyarak değiş tokuş etmek için 1993'te Adobe tarafından geliştirildi. Format, PostScript sayfa tanımlama diline dayanır ve her öğe hakkında bilgi depolar: karakter koordinatları, yazı tipleri, renkler, görüntüler, vektör nesneleri. Bu nedenle PDF bilgisayar ekranlarında, tabletlerde, telefonlarda ve yazdırırken aynı görünür.
TXT (Plain Text), herhangi bir biçimlendirme içermeyen basit metin formatıdır. Dosya yalnızca belirli bir kodlamada bir karakter dizisi içerir. TXT, bilgisayar çağının şafağında ortaya çıktı ve metin bilgisi depolamanın evrensel bir yolu olmaya devam ediyor. Metin dosyaları her yerde okunabilir: sunucu komut satırlarında, Windows Not Defteri'nde, macOS metin düzenleyicilerinde, akıllı telefonlarda. Dosya boyutu minimum — yalnızca karakterlerin kendisi, meta veri yok.
PEREFILE hizmeti, PDF belge yapısını analiz eder, metin akışlarını çıkarır ve Türkçe ve diğer dillerin doğru görüntülenmesi için uygun UTF-8 kodlamasıyla bir metin dosyası oluşturur. Parola korumalı belgeler desteklenir — dönüştürme sırasında parolayı belirtmeniz yeterlidir.
PDF İçeride Nasıl Çalışır
PDF'nin iç yapısını anlamak, metin çıkarmanın neden önemsiz bir görev olmadığını açıklamaya yardımcı olur. PDF düzenleme için değil, belge görünümünün doğru yeniden üretimi için tasarlandı.
Akışlar ve Nesneler
Bir PDF dosyası, nesnelerin bir koleksiyonudur: yazı tipleri, görüntüler, metin akışları, grafik öğeleri. Her nesnenin benzersiz bir numarası vardır ve diğer nesnelere başvurabilir. Metin bir paragraf dizisi olarak değil, çizim komutları seti olarak depolanır: "X karakterini Z yazı tipini kullanarak Y konumuna yerleştir."
Basit "Merhaba" kelimesinin bir PDF içinde nasıl görünebileceğine örnek:
- Arial yazı tipi, boyut 12 ayarla
- İmleci (100, 700) koordinatlarına taşı
- "M" karakterini çiz
- İmleci 8 punto sağa taşı
- "e" karakterini çiz
- Ve her karakter için böyle devam
Kodlamalar ve Yazı Tipleri
Kodlama sistemi tarafından ek karmaşıklık yaratılır. PDF'de aynı karakter, gömülü yazı tipine bağlı olarak farklı sayısal kodlara sahip olabilir. Bazı belgeler yazı tipi alt kümeleri kullanır (yalnızca metinde görünen karakterler) ve bunların kodlamaları her dosya için benzersizdir. Metin çıkarma programı bu kodlamaları doğru yorumlamalıdır.
PDF'dan TXT'a dönüştürme ne için kullanılır
Makine öğrenimi için veri hazırlama
Sinir ağları ve dil modelleri için eğitim veri setleri oluşturmak üzere PDF belgelerinden metin çıkarma
Arama için belge dizinleme
Hızlı bilgi erişimi için PDF belge arşivi üzerinde tam metin dizinleri oluşturma
Otomatik belge işleme
Veri ayrıştırma, içerik analizi ve diğer sistemlerle entegrasyon için metin çıkarma
Web sitesine içerik aktarma
CMS yayını ve web sayfası oluşturma için PDF materyallerinden metin hazırlama
Metin analizi ve istatistikler
Kelime sayımı, duygu analizi ve dilbilimsel araştırma için temiz metin elde etme
Metin formatında arşivleme
Uzun vadeli depolama için evrensel formatta belge içeriğini kaydetme
PDF'dan TXT'a dönüştürme ipuçları
PDF'nin metin içerdiğini kontrol edin
Dönüştürmeden önce belgeyi açın ve fareyle metin seçmeyi deneyin. Metin seçilemiyorsa — bu taranmış bir belgedir, OCR gereklidir
Dosyayı açarken UTF-8 kullanın
Harfler yerine garip karakterler görüyorsanız, metin düzenleyicinizdeki kodlama ayarlarını kontrol edin — UTF-8 seçili olmalıdır
Orijinal PDF'yi saklayın
TXT'ye dönüştürme geri döndürülemez. Biçimlendirme veya yeniden dönüştürme gerekebileceği durumlarda kaynak belgeyi her zaman saklayın
Tablolar için özel formatlar kullanın
PDF'deki tablo yapısı önemliyse, TXT yerine Word veya Excel'e dönüştürmeyi düşünün — bu formatlar tablo yapısını korur