ParseJet

從 PDF 擷取文字

需要從 PDF 中提取文字嗎?上傳您的檔案,ParseJet 將擷取每一個字 — 包含透過 OCR 處理掃描頁面。非常適合研究、資料擷取、內容遷移,以及將文件輸入 AI 模型。

將檔案拖放到此處或 瀏覽

接受 PDF 檔案

免費 — 每日 3 次請求,無需註冊。 即可獲得每月 300 點免費額度。

運作原理

1

選擇您的 PDF

從您的電腦上傳 PDF。支援文字型 PDF、掃描文件及混合內容檔案,最大 200 MB。

2

文字擷取

ParseJet 處理每一頁 — 數位文字直接擷取,而掃描頁面則透過 OCR 處理。全文會按照閱讀順序組裝。

3

使用您的文字

複製擷取出的文字、貼到任何地方,或整合 API 在您的應用程式中從 PDF 擷取文字。

主要功能

這個 extract text from pdf 的突出之處。

比複製貼上更好

與手動複製貼上不同,ParseJet 保留換行、處理多欄版面,且不會打亂文字順序。

支援掃描文件

來自掃描器或相機的純圖片 PDF 會透過 OCR 處理,以擷取所有可見文字。

擷取後設資料

除了擷取的文字外,還會回傳文件標題、作者、頁數及建立日期。

無需安裝

線上工具完全在您的瀏覽器中運作,或透過 HTTP API 進行程式化存取 — 無需安裝任何軟體。

隱私優先

檔案處理後會立即刪除。擷取後不會在我們的伺服器上儲存任何內容。

使用案例

此工具為您節省時間的常見情境。

學術研究

從研究論文和期刊文章中擷取文字,用於引用、註解或文獻回顧工具。

法律文件處理

從合約、法庭文件和法律摘要中提取文字,用於審查、比較或電子蒐證工作流程。

內容遷移

將僅有 PDF 的內容遷移到 CMS、知識庫或 Wiki,方法是擷取文字並重新格式化。

訓練資料準備

從文件 PDF 中擷取文字,以建立機器學習模型的訓練資料集。

使用 API 自動化

以程式化方式使用相同工具。適用於任何語言 — 僅需 HTTP。

cURL
# Extract text from a local PDF file
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Extract text from a PDF URL
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/report.pdf"}'
Python
import httpx

# Extract text from a local PDF
with open("contract.pdf", "rb") as f:
    resp = httpx.post(
        "https://api.parsejet.com/v1/parse/auto/file",
        headers={"Authorization": "Bearer YOUR_API_KEY"},
        files={"file": ("contract.pdf", f, "application/pdf")},
    )
data = resp.json()
print(data["text"])      # Extracted text
print(data["title"])     # Document title
print(data["metadata"])  # Page count, author, etc.
JavaScript
// Extract text from a PDF URL
const res = await fetch("https://api.parsejet.com/v1/parse/auto/url", {
  method: "POST",
  headers: {
    Authorization: "Bearer YOUR_API_KEY",
    "Content-Type": "application/json",
  },
  body: JSON.stringify({ url: "https://example.com/report.pdf" }),
});
const { text, title, metadata } = await res.json();

想要自動化處理嗎?

ParseJet API 透過單一 HTTP 端點提供相同的解析能力。無需 ffmpeg、poppler 或 tesseract — 只需一次 API 呼叫。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
閱讀 API 文件

常見問題

如何從 PDF 檔案擷取文字?

使用上方工具上傳您的 PDF。ParseJet 會立即處理並回傳所有擷取的文字。您也可以使用 API:POST /v1/parse/auto/file。

可以從受密碼保護的 PDF 擷取文字嗎?

ParseJet 可以從允許文字複製的 PDF 擷取文字。完全加密且限制所有存取的 PDF 無法處理。

這與複製貼上有何不同?

從 PDF 複製貼上經常會破壞格式、遺失換行,並打亂欄位順序。ParseJet 保留閱讀順序、處理多欄版面,並能擷取複製貼上無法處理的掃描頁面文字。

可以從 PDF URL 擷取文字而無需先下載嗎?

可以。使用 URL 端點:POST /v1/parse/auto/url 並附上您的 PDF URL。ParseJet 會在伺服器端下載並處理 — 您無需自行下載檔案。

ParseJet 回傳什麼輸出格式?

ParseJet 預設回傳 Markdown 格式的文字,保留標題、清單和表格。這非常適合文件、AI 流程以及任何讀取 Markdown 的工具。

是免費的嗎?

是的。您每天可獲得 3 次免費擷取,無需註冊。建立免費帳戶可獲得每月 300 點數。付費方案每月 19 美元起,提供更大的檔案大小限制和更高的配額。

免費開始提取文字

無需註冊。幾秒內解析您的第一個檔案。

查看定價