ParseJet

文件

ParseJet 文件

ParseJet 能從任何檔案或 URL 提取文字。一個 API 呼叫即可處理 PDF、DOCX、YouTube、網頁、圖片、音訊、視訊等 25 種以上格式。

快速開始

在 60 秒內獲得您的第一個解析結果。無需註冊。

1

立即試用

將任何 URL 貼入 ParseJet — 每天前 3 次請求無需 API 金鑰。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
2

取得您的 API 金鑰

使用 Google 或 GitHub 登入以取得免費 API 金鑰。免費方案每月包含 300 次請求。

# Add your API key to requests
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
3

使用結果

無論輸入格式為何,每個回應都返回相同的 JSON 結構:

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "webpage",
  "metadata": { "url": "https://example.com" }
}

身份驗證

ParseJet 提供三種存取層級。您可以立即開始使用 API,無需任何身份驗證。

層級 存取方式 速率限制 最適合
匿名無標頭3次/天,2MB快速測試
工作階段登入 (Cookie)10次/天,5MB儀表板工具
API 金鑰Authorization: Bearer pj_xxx依方案正式環境

提示: 您不需要 API 金鑰即可開始。直接發送請求即可 — 每天前 3 次免費,無需註冊。

核心概念

支援的格式

ParseJet 會根據檔案副檔名或 URL 模式自動偵測格式。您無需指定格式 — 只需將檔案或 URL 傳送至 /v1/parse/auto,ParseJet 會處理其餘部分。

類別 格式 點數
文字TXT, MD, JSON, CSV, XML, HTML1
文件DOCX, PPTX, XLSX, EPUB2
複雜格式PDF, 網頁, 影片3
YouTubeYouTube 影片網址5
其他音訊 (MP3, WAV), 圖片 (JPG, PNG), RSS, OPML, 電子郵件, 筆記本1

點數

每個 API 請求會根據解析格式的複雜度消耗點數。簡單文字檔案花費 1 點數,而 YouTube 逐字稿則花費 5 點數。您的每月點數額度取決於您的方案。

輸出格式

預設情況下,ParseJet 會回傳原始擷取的文字。在任何請求中加入 ?output_format=markdown 即可取得經過後處理的輸出,包含偵測到的標題、清單、表格和程式碼區塊。

指南

解析 PDF

從任何 PDF 檔案擷取文字,包含掃描文件和多頁報告。

上傳 PDF 檔案

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

轉換為 Markdown

加入 output_format=markdown 以保留文件結構:

curl -X POST https://api.parsejet.com/v1/parse/auto/file?output_format=markdown \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

點數花費: 每個 PDF 3 點數。支援檔案大小上限為您方案的限制 (10MB-200MB)。

指南

YouTube 逐字稿

取得任何 YouTube 影片的完整逐字稿。支援 100 多種語言的自動生成字幕。

取得逐字稿

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID"}'

指定語言

針對非英文影片,使用 language 參數:

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "ja"}'

或使用自動偵測

/v1/parse/auto/url 端點會自動偵測 YouTube 網址:

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtu.be/VIDEO_ID"}'

點數花費: 每個 YouTube 影片 5 點數。元資料包含 video_id、頻道和持續時間。

指南

網頁擷取

從任何網頁擷取主要內容。ParseJet 會自動移除導覽列、廣告、側邊欄和樣板文字。

curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/blog/article"}'

點數消耗: 每個網頁 3 點數。回傳乾淨文字,並在元資料中包含標題和來源 URL。

指南

Office 文件

解析 Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX) 和 CSV 檔案。只需上傳檔案 — ParseJet 會自動偵測格式。

# Works with any Office format
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

# Also works with spreadsheets
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

點數消耗: 每個文件 2 點數。支援格式:DOCX, PPTX, XLSX, CSV。

API 參考

回應格式

所有端點都回傳相同的 JSON 結構:

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "pdf",
  "metadata": { "pages": 12, "author": "Jane Doe" }
}
欄位 類型 說明
textstring擷取出的文字內容
titlestring文件或頁面標題
source_typestring格式識別碼 (pdf, webpage, youtube 等)
metadataobject格式特定的元資料 (頁數、作者、時長等)
POST

/v1/parse/auto

推薦使用的端點。根據副檔名或 URL 類型自動偵測格式。接受 file (multipart) 或 url (表單欄位),兩者不可同時使用。

curl -X POST https://api.parsejet.com/v1/parse/auto \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/auto/url

解析任何 URL。自動區分 YouTube 影片與一般網頁。

參數類型必填描述
urlstring要解析的 URL
languagestringYouTube 字幕的 ISO 639-1 語言代碼
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
POST

/v1/parse/auto/file

解析任何上傳的檔案。根據副檔名偵測格式,若失敗則使用內容偵測。

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/webpage

從網頁擷取主要內容。移除導覽列、廣告和樣板文字。

參數類型必填描述
urlstring網頁 URL
curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'
POST

/v1/parse/youtube

從 YouTube 影片擷取字幕。元資料包含 video_id、頻道和時長。

參數類型必填描述
urlstringYouTube 影片 URL 或影片 ID
languagestringISO 639-1 語言代碼
curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "en"}'
POST

/v1/parse/audio

解析音訊檔案。支援 MP3, WAV, M4A, OGG, FLAC, WebM。最大 25MB。

欄位類型必填描述
filefile音訊檔案
languagestringISO 639-1 代碼
with_timestampsboolean包含詞級時間戳
curl -X POST https://api.parsejet.com/v1/parse/audio \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"
POST

/v1/parse/video

從影片擷取音訊以進行轉錄。支援 MP4, MKV, AVI, MOV, WebM。

curl -X POST https://api.parsejet.com/v1/parse/video \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"
POST

/v1/parse/epub

解析 EPUB 電子書。依章節擷取組織好的文字。

curl -X POST https://api.parsejet.com/v1/parse/epub \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/feed

解析 RSS 或 Atom 摘要。也支援透過 /v1/parse/opml 解析 OPML。

curl -X POST https://api.parsejet.com/v1/parse/feed \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/image

分析圖片。支援 JPG, PNG, GIF, BMP, WebP, TIFF。最大 20MB。

欄位類型必填描述
filefile圖片檔案
promptstring圖片分析的自訂提示
modelstring視覺模型覆寫
curl -X POST https://api.parsejet.com/v1/parse/image \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "prompt=Describe this image"
POST

/v1/parse/image/ocr

透過 OCR 從圖片擷取文字。

curl -X POST https://api.parsejet.com/v1/parse/image/ocr \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

SDKs

官方 SDKs

TypeScript / JavaScript

npm install parsejet
import { ParseJet } from "parsejet";

const client = new ParseJet({ apiKey: "pj_YOUR_KEY" });

// Parse a URL
const result = await client.parse.url("https://example.com");
console.log(result.text);

// Parse a file
const result = await client.parse.file(buffer, "report.pdf");
console.log(result.text);

Python

pip install parsejet
from parsejet import ParseJet

client = ParseJet(api_key="pj_YOUR_KEY")

# Parse a URL
result = client.parse.url("https://example.com")
print(result.text)

# Parse a file
with open("report.pdf", "rb") as f:
    result = client.parse.file(f, "report.pdf")
    print(result.text)

AI 代理

MCP 伺服器

將 ParseJet 作為 MCP (Model Context Protocol) 伺服器,與 Claude Code、Cursor 或任何 MCP 相容的 AI 代理一起使用。

安裝

npm install -g @parsejet/mcp-server

Claude Code

新增到您專案的 .claude/settings.json 中:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Cursor

前往 設定 → MCP Servers,新增一個伺服器:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Claude.ai (遠端)

對於 Claude.ai 網頁版,使用遠端 HTTP 端點 — 無需本地安裝:

Endpoint:  https://api.parsejet.com/mcp
Transport: Streamable HTTP
Auth:      Bearer pj_YOUR_KEY (in Authorization header)

前往 Claude.ai → 設定 → 整合 → 新增 MCP 伺服器 → 輸入上面的 URL。

可用工具

工具 描述
parse_url解析任何 URL (網頁、YouTube 等)
parse_file解析本地檔案 (PDF、DOCX、圖片等)
get_youtube_transcript取得 YouTube 影片字幕 (可選語言)

速率限制與定價

ParseJet 使用基於點數的系統。每個請求根據格式複雜度消耗點數。

方案 價格 點數/月 RPM 最大檔案
Free$0300510MB
Pro$19/mo3,0003050MB
Business$49/mo20,00060100MB
Scale$99/mo50,000200200MB
EnterpriseCustomCustomCustomCustom

回應標頭包含 X-RateLimit-LimitX-RateLimit-RemainingX-RateLimit-Reset,以及 429 回應時的 Retry-After

錯誤代碼

所有錯誤都會返回包含 errormessage 欄位的 JSON。

狀態代碼描述
400unsupported_format不支援的檔案類型
401invalid_api_keyAPI 金鑰缺失或無效
413file_too_large檔案超出方案限制
422parse_error檔案損毀或無法讀取
429rate_limit_exceeded達到 RPM 或每日/每月限制
502parser_unavailable解析器後端無法連線
504parser_timeout解析操作逾時