PDF TXT Dönüştürücü

PDF belgelerinden biçimlendirme olmadan düz metin çıkararak daha fazla işleme için

Yazılım kurulumu yok • Hızlı dönüştürme • Özel ve güvenli

Adım 1

PDF dosyası yükle

Her biri 5 MB'a kadar 3 dosya dönüştürebilirsiniz

Adım 1

PDF dosyası yükle

Kaydolun ve günde 10 ücretsiz dönüşüm alın

PDF'den Metin Çıkarma Nedir?

PDF'den metin çıkarma, bir belgenin metin içeriğini biçimlendirme, grafik veya yapısal öğeler olmadan saf haliyle elde etme işlemidir. Sonuç, yalnızca harfler, sayılar, noktalama işaretleri ve satır sonlarını içeren bir TXT dosyasıdır. Bu metin herhangi bir cihazda herhangi bir düzenleyicide açılabilir, analiz, dizinleme veya daha fazla işleme için kullanılabilir.

PDF (Portable Document Format), yazılım ve işletim sisteminden bağımsız olarak belgelerin tam görünümünü koruyarak değiş tokuş etmek için 1993'te Adobe tarafından geliştirildi. Format, PostScript sayfa tanımlama diline dayanır ve her öğe hakkında bilgi depolar: karakter koordinatları, yazı tipleri, renkler, görüntüler, vektör nesneleri. Bu nedenle PDF bilgisayar ekranlarında, tabletlerde, telefonlarda ve yazdırırken aynı görünür.

TXT (Plain Text), herhangi bir biçimlendirme içermeyen basit metin formatıdır. Dosya yalnızca belirli bir kodlamada bir karakter dizisi içerir. TXT, bilgisayar çağının şafağında ortaya çıktı ve metin bilgisi depolamanın evrensel bir yolu olmaya devam ediyor. Metin dosyaları her yerde okunabilir: sunucu komut satırlarında, Windows Not Defteri'nde, macOS metin düzenleyicilerinde, akıllı telefonlarda. Dosya boyutu minimum — yalnızca karakterlerin kendisi, meta veri yok.

PEREFILE hizmeti, PDF belge yapısını analiz eder, metin akışlarını çıkarır ve Türkçe ve diğer dillerin doğru görüntülenmesi için uygun UTF-8 kodlamasıyla bir metin dosyası oluşturur. Parola korumalı belgeler desteklenir — dönüştürme sırasında parolayı belirtmeniz yeterlidir.

PDF İçeride Nasıl Çalışır

PDF'nin iç yapısını anlamak, metin çıkarmanın neden önemsiz bir görev olmadığını açıklamaya yardımcı olur. PDF düzenleme için değil, belge görünümünün doğru yeniden üretimi için tasarlandı.

Akışlar ve Nesneler

Bir PDF dosyası, nesnelerin bir koleksiyonudur: yazı tipleri, görüntüler, metin akışları, grafik öğeleri. Her nesnenin benzersiz bir numarası vardır ve diğer nesnelere başvurabilir. Metin bir paragraf dizisi olarak değil, çizim komutları seti olarak depolanır: "X karakterini Z yazı tipini kullanarak Y konumuna yerleştir."

Basit "Merhaba" kelimesinin bir PDF içinde nasıl görünebileceğine örnek:

  • Arial yazı tipi, boyut 12 ayarla
  • İmleci (100, 700) koordinatlarına taşı
  • "M" karakterini çiz
  • İmleci 8 punto sağa taşı
  • "e" karakterini çiz
  • Ve her karakter için böyle devam

Kodlamalar ve Yazı Tipleri

Kodlama sistemi tarafından ek karmaşıklık yaratılır. PDF'de aynı karakter, gömülü yazı tipine bağlı olarak farklı sayısal kodlara sahip olabilir. Bazı belgeler yazı tipi alt kümeleri kullanır (yalnızca metinde görünen karakterler) ve bunların kodlamaları her dosya için benzersizdir. Metin çıkarma programı bu kodlamaları doğru yorumlamalıdır.

PDF'dan TXT'a dönüştürme ne için kullanılır

Makine öğrenimi için veri hazırlama

Sinir ağları ve dil modelleri için eğitim veri setleri oluşturmak üzere PDF belgelerinden metin çıkarma

Arama için belge dizinleme

Hızlı bilgi erişimi için PDF belge arşivi üzerinde tam metin dizinleri oluşturma

Otomatik belge işleme

Veri ayrıştırma, içerik analizi ve diğer sistemlerle entegrasyon için metin çıkarma

Web sitesine içerik aktarma

CMS yayını ve web sayfası oluşturma için PDF materyallerinden metin hazırlama

Metin analizi ve istatistikler

Kelime sayımı, duygu analizi ve dilbilimsel araştırma için temiz metin elde etme

Metin formatında arşivleme

Uzun vadeli depolama için evrensel formatta belge içeriğini kaydetme

PDF'dan TXT'a dönüştürme ipuçları

1

PDF'nin metin içerdiğini kontrol edin

Dönüştürmeden önce belgeyi açın ve fareyle metin seçmeyi deneyin. Metin seçilemiyorsa — bu taranmış bir belgedir, OCR gereklidir

2

Dosyayı açarken UTF-8 kullanın

Harfler yerine garip karakterler görüyorsanız, metin düzenleyicinizdeki kodlama ayarlarını kontrol edin — UTF-8 seçili olmalıdır

3

Orijinal PDF'yi saklayın

TXT'ye dönüştürme geri döndürülemez. Biçimlendirme veya yeniden dönüştürme gerekebileceği durumlarda kaynak belgeyi her zaman saklayın

4

Tablolar için özel formatlar kullanın

PDF'deki tablo yapısı önemliyse, TXT yerine Word veya Excel'e dönüştürmeyi düşünün — bu formatlar tablo yapısını korur

Sık Sorulan Sorular

PDF'den TXT'ye dönüştürürken biçimlendirme korunur mu?
Hayır, TXT formatı biçimlendirmeyi desteklemez. Tüm yazı tipleri, vurgular, renkler kaldırılır. Yalnızca paragraf ve satır sonlarıyla temiz metin korunur. Bu TXT formatının bir özelliğidir — yalnızca karakterleri depolar.
PDF'imden neden metin çıkmıyor?
Büyük olasılıkla, PDF'niz kağıt bir belgeyi tarayarak oluşturuldu. Böyle bir dosyada sayfalar metin olarak değil, görüntü olarak depolanır. Taranmış belgelerle çalışmak için metin tanıma (OCR) gerekir — bu ayrı bir işlemdir.
Sonuç hangi kodlamada kaydedilir?
Metin dosyası, tüm dilleri ve dünya alfabelerini destekleyen UTF-8 kodlamasında kaydedilir. Metin yanlış görüntüleniyorsa, metin düzenleyicinizdeki kodlama ayarlarını kontrol edin.
Parola korumalı PDF'den metin çıkarabilir miyim?
Evet, parolayı biliyorsanız. Korumalı bir belgeyi yüklerken, hizmet parolayı girmenizi isteyecektir. Şifre çözüldükten sonra metin normal şekilde çıkarılacaktır. Parola olmadan dönüştürme imkansızdır.
Belgedeki tablolara ne olur?
Tablo hücrelerindeki metin çıkarılır, ancak tablo yapısı (kenarlıklar, hizalama, sütun genişlikleri) korunmaz. Hücre içerikleri boşluklar veya satır sonlarıyla ayrılmış düz metin haline gelir.
PDF'deki görüntüler nereye gider?
Görüntüler metin dosyasına dahil edilmez. TXT formatı yalnızca metin karakterlerini destekler. Belgeden görüntülere ihtiyacınız varsa, bunları ayrı olarak çıkarın veya başka bir formata dönüştürme kullanın.
TXT'den biçimlendirme kurtarılabilir mi?
Hayır, TXT'ye dönüştürme geri döndürülemez. Metin dosyası, orijinal belgenin nasıl biçimlendirildiği hakkında bilgi içermez. Biçimlendirme veya yeniden dönüştürme gerekebileceği durumlarda her zaman orijinal PDF'yi saklayın.
Metin çıkarma ile OCR arasındaki fark nedir?
Metin çıkarma, metnin dijital olarak depolandığı PDF'lerle çalışır — görüntüleyicide fareyle seçilebilir. OCR, sayfaların görüntü olduğu taranmış belgelerle çalışır. OCR resmi 'okur' ve karakterleri tanır, metin çıkarma dosyadan sadece veri okur.