ParseJet

PDF 转 TXT 文件转换器

需要从 PDF 获取 .txt 文件?上传您的文档,即可获得纯净的纯文本输出 — 无 Markdown、无 HTML、无格式标签。只有原始文本内容,您可以将其保存为 .txt 文件、通过管道传输到脚本中,或导入到任何接受纯文本输入的系统。

拖放文件到此处或 浏览

支持PDF文件

免费 — 每天3次请求,无需注册。 获取每月300个免费额度。

工作原理

1

上传您的 PDF

将 PDF 文件拖放到上方区域或点击浏览。适用于任何 PDF — 基于文本、扫描或混合内容。

2

提取为纯文本

ParseJet 会剥离所有格式 — 粗体、斜体、颜色、字体、页眉、页脚、页码 — 并按阅读顺序返回纯文本内容。

3

保存为 .txt

复制输出内容并在本地保存为 .txt 文件。或者使用 API 以编程方式批量转换整个 PDF 文件夹为 .txt 文件。

主要特性

这款pdf to txt脱颖而出的原因。

纯净 .txt 输出

无 Markdown 语法、无 HTML 标签、无格式残留。只有原始文本 — 正是 grep、awk 和 sed 等工具期望的输入格式。

UTF-8 编码

输出始终采用 UTF-8 编码,能在生成的 .txt 文件中正确处理国际字符、中日韩文本和特殊符号。

扫描 PDF 转 TXT

纯图像 PDF 会自动进行 OCR 处理。扫描页面将变为 .txt 输出中的真实文本。

支持批量转换

使用 API 通过单个脚本将整个 PDF 目录转换为 .txt 文件。请参阅下方的 Python 和 Node.js 示例。

噪音去除

自动去除会污染 .txt 文件的页眉、页脚、页码和水印。

使用场景

此工具能为您节省时间的常见场景。

数据管道输入

将 PDF 转换为 .txt 文件,以便摄取到 ETL 管道、Apache Spark、pandas DataFrames 或数据仓库中。纯文本是通用的输入格式。

搜索引擎索引

将 PDF 档案批量转换为 .txt 文件,以便在 Elasticsearch、Solr、Meilisearch 或任何读取纯文本的全文搜索引擎中建立索引。

ML/AI 训练数据

从 PDF 文档集合构建文本语料库。将每个 PDF 保存为 .txt 文件,为语言模型、分类器或 NER 系统创建干净的训练数据集。

遗留系统导入

许多旧系统、数据库和大型机应用程序只接受 .txt 或 CSV 输入。将 PDF 转换为 .txt 以便导入这些系统,无需手动重新输入。

通过API自动化

以编程方式使用相同的工具。适用于任何语言——仅需HTTP。

cURL
# Convert a single PDF to .txt
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]" \
  | jq -r '.text' > output.txt
Python
import httpx
from pathlib import Path

# Batch-convert all PDFs in a folder to .txt files
pdf_dir = Path("pdfs/")
txt_dir = Path("txt_output/")
txt_dir.mkdir(exist_ok=True)

for pdf_file in pdf_dir.glob("*.pdf"):
    resp = httpx.post(
        "https://api.parsejet.com/v1/parse/auto/file",
        headers={"Authorization": "Bearer YOUR_API_KEY"},
        files={"file": (pdf_file.name, pdf_file.read_bytes(), "application/pdf")},
    )
    txt_path = txt_dir / pdf_file.with_suffix(".txt").name
    txt_path.write_text(resp.json()["text"], encoding="utf-8")
    print(f"Saved {txt_path}")
JavaScript
import { readdir, readFile, writeFile } from "fs/promises";
import { join, basename } from "path";

// Batch-convert all PDFs in a folder to .txt files
const pdfDir = "./pdfs";
const outDir = "./txt_output";

for (const file of await readdir(pdfDir)) {
  if (!file.endsWith(".pdf")) continue;
  const formData = new FormData();
  formData.append("file", new Blob([await readFile(join(pdfDir, file))]));

  const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
    method: "POST",
    headers: { Authorization: "Bearer YOUR_API_KEY" },
    body: formData,
  });
  const { text } = await res.json();
  await writeFile(join(outDir, basename(file, ".pdf") + ".txt"), text);
}

想自动化处理吗?

ParseJet API 通过一个 HTTP 端点提供相同的解析能力。无需 ffmpeg、poppler 或 tesseract — 只需一次 API 调用。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
查看 API 文档

常见问题

如何将 PDF 转换为 .txt 文件?

在上方上传您的 PDF — ParseJet 提取所有文本并返回干净的纯文本输出。复制它并保存为 .txt 文件,或者使用 API 配合输出重定向(参见 cURL 示例)直接保存。

PDF 转 TXT 和 PDF 转 Markdown 有什么区别?

PDF 转 TXT 提供无格式的原始纯文本 — 非常适合数据处理、搜索索引和脚本。PDF 转 Markdown 使用 Markdown 语法保留结构(标题、表格、列表) — 更适合文档和内容迁移。

我可以批量转换多个 PDF 为 .txt 文件吗?

可以。使用 ParseJet API 遍历 PDF 文件夹并将每个文件保存为 .txt 文件。请参阅上方的 Python 和 JavaScript 批量转换示例。

我可以将扫描的 PDF 转换为 TXT 吗?

可以。ParseJet 使用 OCR 自动从扫描的 PDF 和基于图像的页面中提取文本。结果是同样干净的 .txt 输出。

.txt 输出使用什么编码?

ParseJet 返回 UTF-8 编码的文本,支持所有语言和特殊字符。保存为 .txt 文件时,请使用 UTF-8 编码以正确保留内容。

它是免费的吗?

是的。您每天可获得 3 次免费转换,无需注册。创建免费账户每月可获得 300 积分。付费计划起价为每月 19 美元,适用于批量转换工作流。

免费开始提取文本

无需注册。几秒钟内解析您的第一个文件。

查看价格