ParseJet

PDF 解析器

ParseJet 是一個開發者友善的 PDF 解析器,透過單一 API 呼叫即可從任何 PDF 提取文字、標題與元資料。無需安裝任何相依套件 — 一個 HTTP 端點即可取代 pdf-parse、pdfplumber 或 PyMuPDF。

將檔案拖放到此處或 瀏覽

接受 PDF 檔案

免費 — 每日 3 次請求,無需註冊。 即可獲得每月 300 點免費額度。

運作原理

1

發送您的 PDF

使用上方工具上傳檔案,或透過 POST 發送至 API。ParseJet 會自動偵測格式 — 無需任何設定。

2

解析與提取

ParseJet 提取文字、標題、作者、頁數與內容結構。掃描頁面會自動套用 OCR。

3

取得結構化 JSON

接收乾淨的 JSON 回應,包含文字、標題、source_type 與元資料 — 可直接用於您的應用程式。

主要功能

這個 pdf parser 的突出之處。

零相依性

無需安裝 poppler、pdftotext 或任何原生函式庫。ParseJet 是一個託管 API — 只需發送 HTTP 請求。

直接替換方案

一個 API 呼叫即可取代 pdf-parse (Node.js)、pdfplumber (Python) 或 PyMuPDF。適用於任何程式語言。

豐富的元資料

回傳文件標題、作者、建立日期、頁數與偵測到的內容類型 — 不僅僅是原始文字。

一致的 JSON 輸出

每個回應都遵循相同結構:{ text, title, source_type, metadata }。無需針對特定格式進行處理。

內建 OCR

掃描的 PDF 會自動進行 OCR 處理。無需額外的 OCR 步驟或設定。

表格偵測

偵測 PDF 中的表格資料。可請求 Markdown 輸出以獲得格式正確的表格。

使用案例

此工具為您節省時間的常見情境。

在 Node.js 中取代 pdf-parse

如果您正在使用 npm 的 pdf-parse 套件,並遇到原生相依性或維護問題,ParseJet 是一個可透過 HTTP 直接替換的方案。

在 Python 中取代 pdfplumber

pdfplumber 需要 Python 與原生函式庫。ParseJet 透過 API 提供相同的提取功能,因此您可以從任何語言或無伺服器函式呼叫它。

文件處理流程

建立自動化工作流程,解析傳入的 PDF — 如發票、報告、表格 — 並將提取的資料傳送至您的資料庫或 CRM。

RAG 文件擷取

將 PDF 解析作為您檢索增強生成流程的一部分。ParseJet 回傳結構化文字,為 LLM 提供更好的上下文。

使用 API 自動化

以程式化方式使用相同工具。適用於任何語言 — 僅需 HTTP。

cURL
# Parse a PDF and get text + metadata
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Response:
# {
#   "text": "Invoice #1234\nDate: 2026-03-15\n...",
#   "title": "Invoice #1234",
#   "source_type": "pdf",
#   "metadata": { "pages": 2, "author": "Acme Corp" }
# }
Python
import httpx

# Before (pdf-parse / pdfplumber):
#   import pdfplumber
#   with pdfplumber.open("invoice.pdf") as pdf:
#       text = "\n".join(p.extract_text() for p in pdf.pages)

# After (ParseJet — no dependencies):
resp = httpx.post(
    "https://api.parsejet.com/v1/parse/auto/file",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    files={"file": open("invoice.pdf", "rb")},
)
result = resp.json()
text = result["text"]          # All text, all pages
title = result["title"]        # Document title
pages = result["metadata"]["pages"]  # Page count
JavaScript
// Before (pdf-parse):
//   const pdfParse = require("pdf-parse");
//   const data = await pdfParse(buffer);

// After (ParseJet — no native dependencies):
const formData = new FormData();
formData.append("file", pdfBuffer, "invoice.pdf");

const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
  method: "POST",
  headers: { Authorization: "Bearer YOUR_API_KEY" },
  body: formData,
});
const { text, title, source_type, metadata } = await res.json();
// Works in Node.js, Deno, Bun, Cloudflare Workers — anywhere with fetch

想要自動化處理嗎?

ParseJet API 透過單一 HTTP 端點提供相同的解析能力。無需 ffmpeg、poppler 或 tesseract — 只需一次 API 呼叫。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
閱讀 API 文件

常見問題

ParseJet 與 pdf-parse (npm) 相比如何?

pdf-parse 是一個需要本地安裝的 Node.js 函式庫,僅處理基本文字提取。ParseJet 是一個託管 API,可從任何 PDF 提取文字、元資料與結構 — 包括透過 OCR 處理掃描文件 — 且零相依性。

與 pdfplumber (Python) 相比如何?

pdfplumber 在表格提取方面表現出色,但需要 Python 與本地處理。ParseJet 透過 HTTP 提供類似的功能,因此您可以從任何語言使用它,無需安裝 Python 或原生相依性。

PDF 解析器提取哪些元資料?

ParseJet 提取文件標題、作者、建立日期、頁數與偵測到的內容類型。完整的文字與元資料會以結構化 JSON 回應回傳。

我可以在無伺服器環境中使用它嗎?

可以。由於 ParseJet 是一個 HTTP API,它適用於 AWS Lambda、Vercel Functions、Cloudflare Workers 以及任何無伺服器平台 — 無需捆綁原生二進位相依性。

它支援 PDF 表格提取嗎?

支援。ParseJet 會偵測並提取 PDF 中的表格,並預設以格式正確的 Markdown 表格回傳。

它是免費的嗎?

是的。您每天可獲得 3 次免費解析,無需註冊。建立免費帳戶可獲得每月 300 點額度。付費方案每月 $19 起,提供更高的速率限制與檔案大小配額。

免費開始提取文字

無需註冊。幾秒內解析您的第一個檔案。

查看定價