上传PDF文件
您可以转换 3 个文件,每个最大 5 MB
上传PDF文件
注册即可获得每天10次免费转换
什么是从PDF提取文本?
从PDF提取文本是获取文档文本内容的纯粹形式的过程,没有格式、图形或结构元素。结果是一个TXT文件,只包含字母、数字、标点符号和换行符。这种文本可以在任何设备上的任何编辑器中打开,用于分析、索引或进一步处理。
PDF(便携式文档格式)由Adobe于1993年开发,用于交换文档,同时保持其精确外观,不受软件和操作系统的影响。该格式基于PostScript页面描述语言,存储每个元素的信息:字符坐标、字体、颜色、图像、矢量对象。这就是为什么PDF在计算机屏幕、平板电脑、手机和打印时看起来相同的原因。
TXT(纯文本)是一种简单的文本格式,没有任何格式。文件只包含特定编码的字符序列。TXT出现在计算机时代的黎明,至今仍是存储文本信息的通用方式。文本文件可以在任何地方读取:服务器命令行、Windows记事本、macOS文本编辑器、智能手机。文件大小最小——只有字符本身,没有元数据。
PEREFILE服务分析PDF文档结构,提取文本流,并创建具有适当UTF-8编码的文本文件,以正确显示中文和其他语言。支持密码保护的文档——只需在转换期间提供密码。
PDF内部如何工作
了解PDF的内部结构有助于解释为什么文本提取不是一项简单的任务。PDF不是为编辑而设计的,而是为准确再现文档外观而设计的。
流和对象
PDF文件是对象的集合:字体、图像、文本流、图形元素。每个对象都有唯一的编号,可以引用其他对象。文本不是作为段落序列存储的,而是作为一组绘图命令存储的:"使用字体Z在位置Y放置字符X"。
简单单词"你好"在PDF内部可能看起来的示例:
- 设置Arial字体,大小12
- 将光标移动到坐标(100, 700)
- 绘制字符"你"
- 将光标向右移动8点
- 绘制字符"好"
- 对每个字符依此类推
编码和字体
编码系统造成了额外的复杂性。在PDF中,相同的字符可能根据嵌入的字体具有不同的数字代码。一些文档使用字体子集(只有文本中出现的字符),它们的编码对每个文件都是唯一的。文本提取程序必须正确解释这些编码。
PDF转TXT的用途
为机器学习准备数据
从PDF文档提取文本,为神经网络和语言模型创建训练数据集
为搜索建立文档索引
在PDF文档存档上创建全文索引,以快速检索信息
自动文档处理
提取文本用于数据解析、内容分析和与其他系统集成
将内容转移到网站
从PDF材料准备文本,用于CMS发布和网页创建
文本分析和统计
获取纯文本用于字数统计、情感分析和语言学研究
以文本格式存档
以通用格式保存文档内容,用于长期存储
PDF转TXT的技巧
检查PDF是否包含文本
转换前,打开文档并尝试用鼠标选择文本。如果文本无法选择——这是扫描文档,需要OCR
打开文件时使用UTF-8
如果您看到奇怪的字符而不是字母,请检查文本编辑器中的编码设置——应该选择UTF-8
保存原始PDF
转换为TXT是不可逆的。如果需要格式或重新转换,请始终保存源文档
对于表格使用专用格式
如果PDF的表格结构很重要,请考虑转换为Word或Excel而不是TXT——这些格式保留表格结构