ParseJet

PDF转文本转换器

几秒钟内从任何PDF文件中提取所有文本。ParseJet处理多页报告、扫描文档(通过OCR)和复杂布局 — 返回干净、结构化的纯文本,您可以复制、搜索或输入到您的AI流程中。

拖放文件到此处或 浏览

支持PDF文件

免费 — 每天3次请求,无需注册。 获取每月300个免费额度。

工作原理

1

上传PDF

拖放您的PDF或点击选择。适用于任何PDF — 数字版、扫描版或混合内容。

2

提取纯文本

ParseJet读取每一页,保留阅读顺序和段落结构。扫描页面会自动通过OCR处理。

3

复制或下载

将提取的文本复制到剪贴板。对于批量转换,请使用API以编程方式处理数百个PDF。

主要特性

这款pdf to text converter脱颖而出的原因。

保留阅读顺序

按照自然阅读顺序提取文本,即使是多栏布局和复杂页面设计。

自动OCR

检测基于图像的页面并透明地应用OCR — 无需额外配置。

多页提取

一次性处理整个文档。在单个响应中返回所有页面的所有文本。

布局处理

正确处理页眉、页脚、侧边栏和脚注,而不会将它们混入正文。

快速处理

大多数PDF在2秒内完成转换。大型文档(100页以上)通常在10秒内完成。

使用场景

此工具能为您节省时间的常见场景。

搜索和索引

将PDF档案转换为可搜索文本,用于全文搜索引擎,如Elasticsearch或Algolia。

数据提取

从发票、收据、合同和表格中提取文本,用于下游处理或数据录入自动化。

可访问性

通过转换为纯文本,使PDF内容可供屏幕阅读器和文本转语音工具访问。

AI和NLP输入

为情感分析、摘要、分类或任何NLP流程准备PDF内容。

通过API自动化

以编程方式使用相同的工具。适用于任何语言——仅需HTTP。

cURL
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Response: { "text": "Full extracted text...", "title": "...", "source_type": "pdf" }
Python
import httpx

# Convert a single PDF to text
resp = httpx.post(
    "https://api.parsejet.com/v1/parse/auto/file",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    files={"file": open("report.pdf", "rb")},
)
text = resp.json()["text"]
print(text)  # Plain text from all pages
JavaScript
const formData = new FormData();
formData.append("file", pdfFile);  // File object or Blob

const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
  method: "POST",
  headers: { Authorization: "Bearer YOUR_API_KEY" },
  body: formData,
});
const { text, title, source_type } = await res.json();
console.log(text);  // Full plain text

想自动化处理吗?

ParseJet API 通过一个 HTTP 端点提供相同的解析能力。无需 ffmpeg、poppler 或 tesseract — 只需一次 API 调用。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
查看 API 文档

常见问题

如何将PDF转换为文本?

在上方上传您的PDF或使用API:向 /v1/parse/auto/file 发送POST请求并附上您的PDF。ParseJet提取所有文本内容并将其作为纯文本返回,保留阅读顺序。

它适用于扫描的PDF吗?

是的。ParseJet自动检测基于图像的页面,并使用OCR从扫描的PDF、文档照片和嵌入图像中提取文本。

它如何处理多栏PDF?

ParseJet分析页面布局以确定阅读顺序。多栏文本从左到右逐栏提取,保留逻辑流程。

带有表格的PDF呢?

表格提取时会保留结构。ParseJet默认返回Markdown格式的输出,因此表格会呈现为正确的Markdown表格。

它是免费的吗?有什么限制?

是的。您每天可获得3次免费转换,无需注册。创建免费账户每月可获得300积分。付费计划起价为每月19美元,提供更大的文件大小限制(高达200 MB)和更高的配额。

免费开始提取文本

无需注册。几秒钟内解析您的第一个文件。

查看价格