ParseJet

PDF 轉文字轉換器

在幾秒內從任何 PDF 檔案中擷取所有文字。ParseJet 處理多頁報告、掃描文件(透過 OCR)及複雜版面 — 返回乾淨、結構化的純文字,可供複製、搜尋或輸入您的 AI 流程。

將檔案拖放到此處或 瀏覽

接受 PDF 檔案

免費 — 每日 3 次請求,無需註冊。 即可獲得每月 300 點免費額度。

運作原理

1

上傳 PDF

拖放您的 PDF 或點擊選擇。適用於任何 PDF — 數位、掃描或混合內容。

2

擷取純文字

ParseJet 讀取每一頁,保留閱讀順序和段落結構。掃描頁面會自動透過 OCR 處理。

3

複製或下載

將擷取的文字複製到剪貼簿。對於批次轉換,請使用 API 以程式化方式處理數百個 PDF。

主要功能

這個 pdf to text converter 的突出之處。

保留閱讀順序

依照自然閱讀順序擷取文字,即使是多欄版面及複雜頁面設計。

自動 OCR

偵測基於圖像的頁面並透明地應用 OCR — 無需額外設定。

多頁擷取

一次處理整個文件。在單一回應中返回所有頁面的所有文字。

版面處理

正確處理頁首、頁尾、側邊欄及註腳,而不會將其混入正文。

快速處理

大多數 PDF 在 2 秒內完成轉換。大型文件(100+ 頁)通常在 10 秒內完成。

使用案例

此工具為您節省時間的常見情境。

搜尋與索引

將 PDF 檔案轉換為可搜尋文字,供全文搜尋引擎如 Elasticsearch 或 Algolia 使用。

資料擷取

從發票、收據、合約及表單中提取文字,用於後續處理或資料輸入自動化。

無障礙存取

透過轉換為純文字,使 PDF 內容可供螢幕閱讀器及文字轉語音工具存取。

AI 與 NLP 輸入

為情感分析、摘要、分類或任何 NLP 流程準備 PDF 內容。

使用 API 自動化

以程式化方式使用相同工具。適用於任何語言 — 僅需 HTTP。

cURL
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Response: { "text": "Full extracted text...", "title": "...", "source_type": "pdf" }
Python
import httpx

# Convert a single PDF to text
resp = httpx.post(
    "https://api.parsejet.com/v1/parse/auto/file",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    files={"file": open("report.pdf", "rb")},
)
text = resp.json()["text"]
print(text)  # Plain text from all pages
JavaScript
const formData = new FormData();
formData.append("file", pdfFile);  // File object or Blob

const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
  method: "POST",
  headers: { Authorization: "Bearer YOUR_API_KEY" },
  body: formData,
});
const { text, title, source_type } = await res.json();
console.log(text);  // Full plain text

想要自動化處理嗎?

ParseJet API 透過單一 HTTP 端點提供相同的解析能力。無需 ffmpeg、poppler 或 tesseract — 只需一次 API 呼叫。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
閱讀 API 文件

常見問題

如何將 PDF 轉換為文字?

在上方上傳您的 PDF 或使用 API:POST /v1/parse/auto/file 並附上您的 PDF。ParseJet 擷取所有文字內容並以純文字返回,保留閱讀順序。

它適用於掃描的 PDF 嗎?

是的。ParseJet 自動偵測基於圖像的頁面,並使用 OCR 從掃描 PDF、文件照片及內嵌圖像中擷取文字。

它如何處理多欄 PDF?

ParseJet 分析頁面版面以確定閱讀順序。多欄文字會從左到右逐欄擷取,保留邏輯流程。

帶有表格的 PDF 呢?

表格會以保留結構的方式擷取。ParseJet 預設返回 Markdown 格式的輸出,因此表格會呈現為適當的 Markdown 表格。

它是免費的嗎?有什麼限制?

是的。您每天可獲得 3 次免費轉換,無需註冊。建立免費帳戶可獲得每月 300 點額度。付費方案每月 19 美元起,提供更大的檔案大小限制(最高 200 MB)及更高的配額。

免費開始提取文字

無需註冊。幾秒內解析您的第一個檔案。

查看定價