ParseJet

PDF 解析器

ParseJet 是一个开发者友好的 PDF 解析器,通过一次 API 调用即可从任何 PDF 中提取文本、标题和元数据。无需安装依赖项 — 用一个 HTTP 端点即可替代 pdf-parse、pdfplumber 或 PyMuPDF。

拖放文件到此处或 浏览

支持PDF文件

免费 — 每天3次请求,无需注册。 获取每月300个免费额度。

工作原理

1

发送您的 PDF

使用上方工具上传文件,或通过 POST 请求发送至 API。ParseJet 会自动检测格式 — 无需配置。

2

解析与提取

ParseJet 提取文本、标题、作者、页数和内容结构。扫描页面会自动应用 OCR。

3

获取结构化 JSON

接收包含文本、标题、source_type 和元数据的简洁 JSON 响应 — 可直接在您的应用程序中使用。

主要特性

这款pdf parser脱颖而出的原因。

零依赖

无需安装 poppler、pdftotext 或任何原生库。ParseJet 是一个托管 API — 只需发起 HTTP 请求。

直接替代方案

用一个 API 调用即可替代 pdf-parse (Node.js)、pdfplumber (Python) 或 PyMuPDF。适用于任何编程语言。

丰富的元数据

返回文档标题、作者、创建日期、页数和检测到的内容类型 — 不仅仅是原始文本。

一致的 JSON 输出

每个响应都遵循相同的模式:{ text, title, source_type, metadata }。无需针对特定格式进行处理。

内置 OCR

扫描的 PDF 会自动进行 OCR 处理。无需单独的 OCR 步骤或配置。

表格检测

检测 PDF 中的表格数据。请求 Markdown 输出以获得格式正确的表格。

使用场景

此工具能为您节省时间的常见场景。

替代 Node.js 中的 pdf-parse

如果您正在使用 npm 的 pdf-parse 包,并遇到原生依赖项或维护问题,ParseJet 是一个通过 HTTP 的直接替代方案。

替代 Python 中的 pdfplumber

pdfplumber 需要 Python 和原生库。ParseJet 通过 API 提供相同的提取功能,因此您可以从任何语言或无服务器函数调用它。

文档处理流水线

构建自动化工作流,解析传入的 PDF(如发票、报告、表单),并将提取的数据路由到您的数据库或 CRM。

RAG 文档摄取

将 PDF 解析作为检索增强生成流水线的一部分。ParseJet 返回结构化文本,为 LLM 提供更好的上下文。

通过API自动化

以编程方式使用相同的工具。适用于任何语言——仅需HTTP。

cURL
# Parse a PDF and get text + metadata
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Response:
# {
#   "text": "Invoice #1234\nDate: 2026-03-15\n...",
#   "title": "Invoice #1234",
#   "source_type": "pdf",
#   "metadata": { "pages": 2, "author": "Acme Corp" }
# }
Python
import httpx

# Before (pdf-parse / pdfplumber):
#   import pdfplumber
#   with pdfplumber.open("invoice.pdf") as pdf:
#       text = "\n".join(p.extract_text() for p in pdf.pages)

# After (ParseJet — no dependencies):
resp = httpx.post(
    "https://api.parsejet.com/v1/parse/auto/file",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    files={"file": open("invoice.pdf", "rb")},
)
result = resp.json()
text = result["text"]          # All text, all pages
title = result["title"]        # Document title
pages = result["metadata"]["pages"]  # Page count
JavaScript
// Before (pdf-parse):
//   const pdfParse = require("pdf-parse");
//   const data = await pdfParse(buffer);

// After (ParseJet — no native dependencies):
const formData = new FormData();
formData.append("file", pdfBuffer, "invoice.pdf");

const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
  method: "POST",
  headers: { Authorization: "Bearer YOUR_API_KEY" },
  body: formData,
});
const { text, title, source_type, metadata } = await res.json();
// Works in Node.js, Deno, Bun, Cloudflare Workers — anywhere with fetch

想自动化处理吗?

ParseJet API 通过一个 HTTP 端点提供相同的解析能力。无需 ffmpeg、poppler 或 tesseract — 只需一次 API 调用。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
查看 API 文档

常见问题

ParseJet 与 pdf-parse (npm) 相比如何?

pdf-parse 是一个需要本地安装的 Node.js 库,仅处理基本文本提取。ParseJet 是一个托管 API,可以从任何 PDF(包括通过 OCR 处理的扫描文档)中提取文本、元数据和结构,且零依赖。

它与 pdfplumber (Python) 相比如何?

pdfplumber 在表格提取方面表现出色,但需要 Python 和本地处理。ParseJet 通过 HTTP 提供类似的功能,因此您可以从任何语言使用它,而无需安装 Python 或原生依赖项。

PDF 解析器提取哪些元数据?

ParseJet 提取文档标题、作者、创建日期、页数和检测到的内容类型。完整的文本和元数据以结构化 JSON 响应形式返回。

我可以在无服务器环境中使用它吗?

可以。由于 ParseJet 是一个 HTTP API,它可以在 AWS Lambda、Vercel Functions、Cloudflare Workers 以及任何无服务器平台上运行 — 无需捆绑原生二进制依赖项。

它支持 PDF 表格提取吗?

支持。ParseJet 检测并提取 PDF 中的表格,默认情况下以格式正确的 Markdown 表格形式返回。

它是免费的吗?

是的。您每天可以获得 3 次免费解析,无需注册。创建一个免费账户,每月可获得 300 积分。付费计划起价为每月 19 美元,提供更高的速率限制和文件大小配额。

免费开始提取文本

无需注册。几秒钟内解析您的第一个文件。

查看价格