PDF 转 TXT 文件转换器
需要从 PDF 获取 .txt 文件?上传您的文档,即可获得纯净的纯文本输出 — 无 Markdown、无 HTML、无格式标签。只有原始文本内容,您可以将其保存为 .txt 文件、通过管道传输到脚本中,或导入到任何接受纯文本输入的系统。
拖放文件到此处或 浏览
支持PDF文件
免费 — 每天3次请求,无需注册。 获取每月300个免费额度。
工作原理
上传您的 PDF
将 PDF 文件拖放到上方区域或点击浏览。适用于任何 PDF — 基于文本、扫描或混合内容。
提取为纯文本
ParseJet 会剥离所有格式 — 粗体、斜体、颜色、字体、页眉、页脚、页码 — 并按阅读顺序返回纯文本内容。
保存为 .txt
复制输出内容并在本地保存为 .txt 文件。或者使用 API 以编程方式批量转换整个 PDF 文件夹为 .txt 文件。
主要特性
这款pdf to txt脱颖而出的原因。
纯净 .txt 输出
无 Markdown 语法、无 HTML 标签、无格式残留。只有原始文本 — 正是 grep、awk 和 sed 等工具期望的输入格式。
UTF-8 编码
输出始终采用 UTF-8 编码,能在生成的 .txt 文件中正确处理国际字符、中日韩文本和特殊符号。
扫描 PDF 转 TXT
纯图像 PDF 会自动进行 OCR 处理。扫描页面将变为 .txt 输出中的真实文本。
支持批量转换
使用 API 通过单个脚本将整个 PDF 目录转换为 .txt 文件。请参阅下方的 Python 和 Node.js 示例。
噪音去除
自动去除会污染 .txt 文件的页眉、页脚、页码和水印。
使用场景
此工具能为您节省时间的常见场景。
数据管道输入
将 PDF 转换为 .txt 文件,以便摄取到 ETL 管道、Apache Spark、pandas DataFrames 或数据仓库中。纯文本是通用的输入格式。
搜索引擎索引
将 PDF 档案批量转换为 .txt 文件,以便在 Elasticsearch、Solr、Meilisearch 或任何读取纯文本的全文搜索引擎中建立索引。
ML/AI 训练数据
从 PDF 文档集合构建文本语料库。将每个 PDF 保存为 .txt 文件,为语言模型、分类器或 NER 系统创建干净的训练数据集。
遗留系统导入
许多旧系统、数据库和大型机应用程序只接受 .txt 或 CSV 输入。将 PDF 转换为 .txt 以便导入这些系统,无需手动重新输入。
通过API自动化
以编程方式使用相同的工具。适用于任何语言——仅需HTTP。
# Convert a single PDF to .txt curl -X POST https://api.parsejet.com/v1/parse/auto/file \ -H "Authorization: Bearer YOUR_API_KEY" \ -F "[email protected]" \ | jq -r '.text' > output.txt
import httpx
from pathlib import Path
# Batch-convert all PDFs in a folder to .txt files
pdf_dir = Path("pdfs/")
txt_dir = Path("txt_output/")
txt_dir.mkdir(exist_ok=True)
for pdf_file in pdf_dir.glob("*.pdf"):
resp = httpx.post(
"https://api.parsejet.com/v1/parse/auto/file",
headers={"Authorization": "Bearer YOUR_API_KEY"},
files={"file": (pdf_file.name, pdf_file.read_bytes(), "application/pdf")},
)
txt_path = txt_dir / pdf_file.with_suffix(".txt").name
txt_path.write_text(resp.json()["text"], encoding="utf-8")
print(f"Saved {txt_path}") import { readdir, readFile, writeFile } from "fs/promises";
import { join, basename } from "path";
// Batch-convert all PDFs in a folder to .txt files
const pdfDir = "./pdfs";
const outDir = "./txt_output";
for (const file of await readdir(pdfDir)) {
if (!file.endsWith(".pdf")) continue;
const formData = new FormData();
formData.append("file", new Blob([await readFile(join(pdfDir, file))]));
const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
method: "POST",
headers: { Authorization: "Bearer YOUR_API_KEY" },
body: formData,
});
const { text } = await res.json();
await writeFile(join(outDir, basename(file, ".pdf") + ".txt"), text);
} 常见问题
如何将 PDF 转换为 .txt 文件?
在上方上传您的 PDF — ParseJet 提取所有文本并返回干净的纯文本输出。复制它并保存为 .txt 文件,或者使用 API 配合输出重定向(参见 cURL 示例)直接保存。
PDF 转 TXT 和 PDF 转 Markdown 有什么区别?
PDF 转 TXT 提供无格式的原始纯文本 — 非常适合数据处理、搜索索引和脚本。PDF 转 Markdown 使用 Markdown 语法保留结构(标题、表格、列表) — 更适合文档和内容迁移。
我可以批量转换多个 PDF 为 .txt 文件吗?
可以。使用 ParseJet API 遍历 PDF 文件夹并将每个文件保存为 .txt 文件。请参阅上方的 Python 和 JavaScript 批量转换示例。
我可以将扫描的 PDF 转换为 TXT 吗?
可以。ParseJet 使用 OCR 自动从扫描的 PDF 和基于图像的页面中提取文本。结果是同样干净的 .txt 输出。
.txt 输出使用什么编码?
ParseJet 返回 UTF-8 编码的文本,支持所有语言和特殊字符。保存为 .txt 文件时,请使用 UTF-8 编码以正确保留内容。
它是免费的吗?
是的。您每天可获得 3 次免费转换,无需注册。创建免费账户每月可获得 300 积分。付费计划起价为每月 19 美元,适用于批量转换工作流。
相关工具
PDF to Text Converter
Convert PDF to plain text online for free. Handles multi-page documents, scanned PDFs with OCR, and complex layouts. No signup required — use instantly or automate via API.
Extract Text from PDF
Extract text from PDF files online for free. Supports scanned documents, multi-page PDFs, and complex layouts. No installation needed — works in your browser.
PDF to Markdown Converter
Convert PDF to Markdown online for free. Preserves headings, lists, tables, and code blocks. No signup required — try it instantly or automate with the ParseJet API.