ParseJet

从PDF提取文本

需要从PDF中提取文本吗?上传您的文件,ParseJet将提取每一个字 — 包括通过OCR从扫描页面中提取。非常适合研究、数据提取、内容迁移以及将文档输入AI模型。

拖放文件到此处或 浏览

支持PDF文件

免费 — 每天3次请求,无需注册。 获取每月300个免费额度。

工作原理

1

选择您的PDF

从您的计算机上传PDF文件。支持基于文本的PDF、扫描文档和混合内容文件,最大200 MB。

2

文本提取

ParseJet处理每一页 — 数字文本直接提取,而扫描页面则通过OCR处理。全文按阅读顺序组装。

3

使用您的文本

复制提取的文本,粘贴到任何地方,或集成API以在您的应用程序中从PDF提取文本。

主要特性

这款extract text from pdf脱颖而出的原因。

优于复制粘贴

与手动复制粘贴不同,ParseJet保留换行符,处理多列布局,并且不会打乱文本顺序。

支持扫描文档

来自扫描仪或相机的纯图像PDF通过OCR处理,以提取所有可见文本。

元数据提取

返回文档标题、作者、页数和创建日期,以及提取的文本。

无需安装

在线工具完全在您的浏览器中运行,或通过HTTP API进行程序化访问 — 无需安装任何软件。

隐私优先

文件处理后立即丢弃。提取后,我们的服务器上不存储任何内容。

使用场景

此工具能为您节省时间的常见场景。

学术研究

从研究论文和期刊文章中提取文本,用于引用、注释或文献综述工具。

法律文件处理

从合同、法庭文件和法律简报中提取文本,用于审查、比较或电子取证工作流。

内容迁移

通过提取文本并重新格式化,将仅PDF的内容迁移到CMS、知识库或维基中。

训练数据准备

从文档PDF中提取文本,为机器学习模型构建训练数据集。

通过API自动化

以编程方式使用相同的工具。适用于任何语言——仅需HTTP。

cURL
# Extract text from a local PDF file
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Extract text from a PDF URL
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/report.pdf"}'
Python
import httpx

# Extract text from a local PDF
with open("contract.pdf", "rb") as f:
    resp = httpx.post(
        "https://api.parsejet.com/v1/parse/auto/file",
        headers={"Authorization": "Bearer YOUR_API_KEY"},
        files={"file": ("contract.pdf", f, "application/pdf")},
    )
data = resp.json()
print(data["text"])      # Extracted text
print(data["title"])     # Document title
print(data["metadata"])  # Page count, author, etc.
JavaScript
// Extract text from a PDF URL
const res = await fetch("https://api.parsejet.com/v1/parse/auto/url", {
  method: "POST",
  headers: {
    Authorization: "Bearer YOUR_API_KEY",
    "Content-Type": "application/json",
  },
  body: JSON.stringify({ url: "https://example.com/report.pdf" }),
});
const { text, title, metadata } = await res.json();

想自动化处理吗?

ParseJet API 通过一个 HTTP 端点提供相同的解析能力。无需 ffmpeg、poppler 或 tesseract — 只需一次 API 调用。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
查看 API 文档

常见问题

如何从PDF文件中提取文本?

使用上面的工具上传您的PDF。ParseJet会立即处理并返回所有提取的文本。您也可以使用API:POST /v1/parse/auto/file。

我可以从受密码保护的PDF中提取文本吗?

ParseJet可以从允许文本复制的PDF中提取文本。完全加密、限制所有访问的PDF无法处理。

这与复制粘贴有何不同?

从PDF复制粘贴通常会破坏格式、丢失换行符并打乱列顺序。ParseJet保留阅读顺序,处理多列布局,并从复制粘贴无法触及的扫描页面中提取文本。

我可以不先下载,直接从PDF URL提取文本吗?

可以。使用URL端点:POST /v1/parse/auto/url 并附上您的PDF URL。ParseJet会在服务器端下载并处理 — 您无需自己下载文件。

ParseJet返回什么输出格式?

ParseJet默认返回Markdown格式的文本,保留标题、列表和表格。这非常适合文档、AI管道以及任何读取Markdown的工具。

它是免费的吗?

是的。您每天可获得3次免费提取,无需注册。创建免费账户每月可获得300积分。付费计划起价为每月19美元,提供更大的文件大小限制和更高的配额。

免费开始提取文本

无需注册。几秒钟内解析您的第一个文件。

查看价格