從 PDF 擷取文字

需要從 PDF 中提取文字嗎？上傳您的檔案，ParseJet 將擷取每一個字 — 包含透過 OCR 處理掃描頁面。非常適合研究、資料擷取、內容遷移，以及將文件輸入 AI 模型。

將檔案拖放到此處或瀏覽

接受 PDF 檔案

免費 — 每日 3 次請求，無需註冊。即可獲得每月 300 點免費額度。

運作原理

選擇您的 PDF

從您的電腦上傳 PDF。支援文字型 PDF、掃描文件及混合內容檔案，最大 200 MB。

文字擷取

ParseJet 處理每一頁 — 數位文字直接擷取，而掃描頁面則透過 OCR 處理。全文會按照閱讀順序組裝。

使用您的文字

複製擷取出的文字、貼到任何地方，或整合 API 在您的應用程式中從 PDF 擷取文字。

主要功能

這個 extract text from pdf 的突出之處。

比複製貼上更好

與手動複製貼上不同，ParseJet 保留換行、處理多欄版面，且不會打亂文字順序。

支援掃描文件

來自掃描器或相機的純圖片 PDF 會透過 OCR 處理，以擷取所有可見文字。

擷取後設資料

除了擷取的文字外，還會回傳文件標題、作者、頁數及建立日期。

無需安裝

線上工具完全在您的瀏覽器中運作，或透過 HTTP API 進行程式化存取 — 無需安裝任何軟體。

隱私優先

檔案處理後會立即刪除。擷取後不會在我們的伺服器上儲存任何內容。

使用案例

此工具為您節省時間的常見情境。

學術研究

從研究論文和期刊文章中擷取文字，用於引用、註解或文獻回顧工具。

法律文件處理

從合約、法庭文件和法律摘要中提取文字，用於審查、比較或電子蒐證工作流程。

內容遷移

將僅有 PDF 的內容遷移到 CMS、知識庫或 Wiki，方法是擷取文字並重新格式化。

訓練資料準備

從文件 PDF 中擷取文字，以建立機器學習模型的訓練資料集。

使用 API 自動化

以程式化方式使用相同工具。適用於任何語言 — 僅需 HTTP。

cURL

# Extract text from a local PDF file
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Extract text from a PDF URL
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/report.pdf"}'

Python

import httpx

# Extract text from a local PDF
with open("contract.pdf", "rb") as f:
    resp = httpx.post(
        "https://api.parsejet.com/v1/parse/auto/file",
        headers={"Authorization": "Bearer YOUR_API_KEY"},
        files={"file": ("contract.pdf", f, "application/pdf")},
    )
data = resp.json()
print(data["text"])      # Extracted text
print(data["title"])     # Document title
print(data["metadata"])  # Page count, author, etc.

JavaScript

// Extract text from a PDF URL
const res = await fetch("https://api.parsejet.com/v1/parse/auto/url", {
  method: "POST",
  headers: {
    Authorization: "Bearer YOUR_API_KEY",
    "Content-Type": "application/json",
  },
  body: JSON.stringify({ url: "https://example.com/report.pdf" }),
});
const { text, title, metadata } = await res.json();

想要自動化處理嗎？

ParseJet API 透過單一 HTTP 端點提供相同的解析能力。無需 ffmpeg、poppler 或 tesseract — 只需一次 API 呼叫。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url":"https://example.com"}'

閱讀 API 文件

常見問題

如何從 PDF 檔案擷取文字？

使用上方工具上傳您的 PDF。ParseJet 會立即處理並回傳所有擷取的文字。您也可以使用 API：POST /v1/parse/auto/file。

可以從受密碼保護的 PDF 擷取文字嗎？

ParseJet 可以從允許文字複製的 PDF 擷取文字。完全加密且限制所有存取的 PDF 無法處理。

這與複製貼上有何不同？

從 PDF 複製貼上經常會破壞格式、遺失換行，並打亂欄位順序。ParseJet 保留閱讀順序、處理多欄版面，並能擷取複製貼上無法處理的掃描頁面文字。

可以從 PDF URL 擷取文字而無需先下載嗎？

可以。使用 URL 端點：POST /v1/parse/auto/url 並附上您的 PDF URL。ParseJet 會在伺服器端下載並處理 — 您無需自行下載檔案。

ParseJet 回傳什麼輸出格式？

ParseJet 預設回傳 Markdown 格式的文字，保留標題、清單和表格。這非常適合文件、AI 流程以及任何讀取 Markdown 的工具。

是免費的嗎？

是的。您每天可獲得 3 次免費擷取，無需註冊。建立免費帳戶可獲得每月 300 點數。付費方案每月 19 美元起，提供更大的檔案大小限制和更高的配額。

免費開始提取文字

無需註冊。幾秒內解析您的第一個檔案。

查看定價