PDF 解析器
ParseJet 是一個開發者友善的 PDF 解析器,透過單一 API 呼叫即可從任何 PDF 提取文字、標題與元資料。無需安裝任何相依套件 — 一個 HTTP 端點即可取代 pdf-parse、pdfplumber 或 PyMuPDF。
將檔案拖放到此處或 瀏覽
接受 PDF 檔案
免費 — 每日 3 次請求,無需註冊。 即可獲得每月 300 點免費額度。
運作原理
發送您的 PDF
使用上方工具上傳檔案,或透過 POST 發送至 API。ParseJet 會自動偵測格式 — 無需任何設定。
解析與提取
ParseJet 提取文字、標題、作者、頁數與內容結構。掃描頁面會自動套用 OCR。
取得結構化 JSON
接收乾淨的 JSON 回應,包含文字、標題、source_type 與元資料 — 可直接用於您的應用程式。
主要功能
這個 pdf parser 的突出之處。
零相依性
無需安裝 poppler、pdftotext 或任何原生函式庫。ParseJet 是一個託管 API — 只需發送 HTTP 請求。
直接替換方案
一個 API 呼叫即可取代 pdf-parse (Node.js)、pdfplumber (Python) 或 PyMuPDF。適用於任何程式語言。
豐富的元資料
回傳文件標題、作者、建立日期、頁數與偵測到的內容類型 — 不僅僅是原始文字。
一致的 JSON 輸出
每個回應都遵循相同結構:{ text, title, source_type, metadata }。無需針對特定格式進行處理。
內建 OCR
掃描的 PDF 會自動進行 OCR 處理。無需額外的 OCR 步驟或設定。
表格偵測
偵測 PDF 中的表格資料。可請求 Markdown 輸出以獲得格式正確的表格。
使用案例
此工具為您節省時間的常見情境。
在 Node.js 中取代 pdf-parse
如果您正在使用 npm 的 pdf-parse 套件,並遇到原生相依性或維護問題,ParseJet 是一個可透過 HTTP 直接替換的方案。
在 Python 中取代 pdfplumber
pdfplumber 需要 Python 與原生函式庫。ParseJet 透過 API 提供相同的提取功能,因此您可以從任何語言或無伺服器函式呼叫它。
文件處理流程
建立自動化工作流程,解析傳入的 PDF — 如發票、報告、表格 — 並將提取的資料傳送至您的資料庫或 CRM。
RAG 文件擷取
將 PDF 解析作為您檢索增強生成流程的一部分。ParseJet 回傳結構化文字,為 LLM 提供更好的上下文。
使用 API 自動化
以程式化方式使用相同工具。適用於任何語言 — 僅需 HTTP。
# Parse a PDF and get text + metadata curl -X POST https://api.parsejet.com/v1/parse/auto/file \ -H "Authorization: Bearer YOUR_API_KEY" \ -F "[email protected]" # Response: # { # "text": "Invoice #1234\nDate: 2026-03-15\n...", # "title": "Invoice #1234", # "source_type": "pdf", # "metadata": { "pages": 2, "author": "Acme Corp" } # }
import httpx
# Before (pdf-parse / pdfplumber):
# import pdfplumber
# with pdfplumber.open("invoice.pdf") as pdf:
# text = "\n".join(p.extract_text() for p in pdf.pages)
# After (ParseJet — no dependencies):
resp = httpx.post(
"https://api.parsejet.com/v1/parse/auto/file",
headers={"Authorization": "Bearer YOUR_API_KEY"},
files={"file": open("invoice.pdf", "rb")},
)
result = resp.json()
text = result["text"] # All text, all pages
title = result["title"] # Document title
pages = result["metadata"]["pages"] # Page count // Before (pdf-parse):
// const pdfParse = require("pdf-parse");
// const data = await pdfParse(buffer);
// After (ParseJet — no native dependencies):
const formData = new FormData();
formData.append("file", pdfBuffer, "invoice.pdf");
const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
method: "POST",
headers: { Authorization: "Bearer YOUR_API_KEY" },
body: formData,
});
const { text, title, source_type, metadata } = await res.json();
// Works in Node.js, Deno, Bun, Cloudflare Workers — anywhere with fetch 常見問題
ParseJet 與 pdf-parse (npm) 相比如何?
pdf-parse 是一個需要本地安裝的 Node.js 函式庫,僅處理基本文字提取。ParseJet 是一個託管 API,可從任何 PDF 提取文字、元資料與結構 — 包括透過 OCR 處理掃描文件 — 且零相依性。
與 pdfplumber (Python) 相比如何?
pdfplumber 在表格提取方面表現出色,但需要 Python 與本地處理。ParseJet 透過 HTTP 提供類似的功能,因此您可以從任何語言使用它,無需安裝 Python 或原生相依性。
PDF 解析器提取哪些元資料?
ParseJet 提取文件標題、作者、建立日期、頁數與偵測到的內容類型。完整的文字與元資料會以結構化 JSON 回應回傳。
我可以在無伺服器環境中使用它嗎?
可以。由於 ParseJet 是一個 HTTP API,它適用於 AWS Lambda、Vercel Functions、Cloudflare Workers 以及任何無伺服器平台 — 無需捆綁原生二進位相依性。
它支援 PDF 表格提取嗎?
支援。ParseJet 會偵測並提取 PDF 中的表格,並預設以格式正確的 Markdown 表格回傳。
它是免費的嗎?
是的。您每天可獲得 3 次免費解析,無需註冊。建立免費帳戶可獲得每月 300 點額度。付費方案每月 $19 起,提供更高的速率限制與檔案大小配額。
相關工具
PDF to Text Converter
Convert PDF to plain text online for free. Handles multi-page documents, scanned PDFs with OCR, and complex layouts. No signup required — use instantly or automate via API.
PDF to Markdown Converter
Convert PDF to Markdown online for free. Preserves headings, lists, tables, and code blocks. No signup required — try it instantly or automate with the ParseJet API.
Extract Text from PDF
Extract text from PDF files online for free. Supports scanned documents, multi-page PDFs, and complex layouts. No installation needed — works in your browser.