ParseJet

文档

ParseJet 文档

ParseJet 可从任何文件或 URL 提取文本。一次 API 调用即可处理 PDF、DOCX、YouTube、网页、图像、音频、视频等 25 种以上格式。

快速开始

在 60 秒内获得您的第一个解析结果。无需注册。

1

立即试用

将任何 URL 粘贴到 ParseJet — 每天前 3 次请求无需 API 密钥。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
2

获取您的 API 密钥

使用 Google 或 GitHub 登录以获取免费 API 密钥。免费套餐每月包含 300 次请求。

# Add your API key to requests
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
3

使用结果

无论输入格式如何,每个响应都返回相同的 JSON 结构:

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "webpage",
  "metadata": { "url": "https://example.com" }
}

身份验证

ParseJet 提供三个访问级别。您可以立即开始使用 API,无需任何身份验证。

级别 访问方式 速率限制 适用场景
匿名无请求头3次/天,2MB快速测试
会话登录(Cookie)10次/天,5MB仪表板工具
API 密钥Authorization: Bearer pj_xxx按套餐生产环境

提示: 您无需 API 密钥即可开始使用。直接发送请求即可 — 每天前 3 次免费,无需注册。

核心概念

支持格式

ParseJet 会根据文件扩展名或 URL 模式自动检测格式。您无需指定格式——只需将文件或 URL 发送到 /v1/parse/auto,ParseJet 会处理其余一切。

类别 格式 积分
文本TXT, MD, JSON, CSV, XML, HTML1
文档DOCX, PPTX, XLSX, EPUB2
复杂格式PDF, 网页, 视频3
YouTubeYouTube 视频 URL5
其他音频 (MP3, WAV), 图像 (JPG, PNG), RSS, OPML, 电子邮件, 笔记本1

积分

每个 API 请求根据所解析格式的复杂性消耗积分。简单文本文件消耗 1 积分,而 YouTube 转录消耗 5 积分。您的月度积分额度取决于您的订阅计划。

输出格式

默认情况下,ParseJet 返回原始提取的文本。在任何请求中添加 ?output_format=markdown 即可获得经过后处理的输出,包含检测到的标题、列表、表格和代码块。

指南

解析 PDF

从任何 PDF 文件中提取文本,包括扫描文档和多页报告。

上传 PDF 文件

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

转换为 Markdown

添加 output_format=markdown 以保留文档结构:

curl -X POST https://api.parsejet.com/v1/parse/auto/file?output_format=markdown \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

积分消耗: 每个 PDF 消耗 3 积分。支持文件大小上限为您的计划限制(10MB-200MB)。

指南

YouTube 转录

获取任何 YouTube 视频的完整转录。支持 100 多种语言的自动生成字幕。

获取转录

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID"}'

指定语言

对于非英语视频,使用 language 参数:

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "ja"}'

或使用自动检测

/v1/parse/auto/url 端点会自动检测 YouTube URL:

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtu.be/VIDEO_ID"}'

积分消耗: 每个 YouTube 视频消耗 5 积分。元数据包括 video_id、频道和时长。

指南

网页抓取

从任何网页提取主要内容。ParseJet 会自动移除导航、广告、侧边栏和样板内容。

curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/blog/article"}'

积分消耗: 每个网页 3 积分。返回干净的文本,元数据中包含标题和来源 URL。

指南

办公文档

解析 Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX) 和 CSV 文件。只需上传文件 — ParseJet 会自动检测格式。

# Works with any Office format
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

# Also works with spreadsheets
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

积分消耗: 每个文档 2 积分。支持:DOCX, PPTX, XLSX, CSV。

API 参考

响应格式

所有端点返回相同的 JSON 结构:

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "pdf",
  "metadata": { "pages": 12, "author": "Jane Doe" }
}
字段 类型 描述
textstring提取的文本内容
titlestring文档或页面标题
source_typestring格式标识符 (pdf, webpage, youtube 等)
metadataobject特定格式的元数据 (页数、作者、时长等)
POST

/v1/parse/auto

推荐端点。根据文件扩展名或 URL 类型自动检测格式。接受 file (multipart) 或 url (表单字段),不能同时使用。

curl -X POST https://api.parsejet.com/v1/parse/auto \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/auto/url

解析任何 URL。自动区分 YouTube 和常规网页。

参数类型必填描述
urlstring要解析的URL
languagestringYouTube字幕语言的ISO 639-1代码
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
POST

/v1/parse/auto/file

解析任何上传的文件。根据文件扩展名检测格式,回退到基于内容的检测。

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/webpage

从网页提取主要内容。移除导航、广告和样板内容。

参数类型必填描述
urlstring网页URL
curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'
POST

/v1/parse/youtube

从 YouTube 视频提取字幕。元数据包括 video_id、频道和时长。

参数类型必填描述
urlstringYouTube视频URL或视频ID
languagestringISO 639-1语言代码
curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "en"}'
POST

/v1/parse/audio

解析音频文件。支持 MP3, WAV, M4A, OGG, FLAC, WebM。最大 25MB。

字段类型必填描述
filefile音频文件
languagestringISO 639-1代码
with_timestampsboolean包含词级时间戳
curl -X POST https://api.parsejet.com/v1/parse/audio \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"
POST

/v1/parse/video

从视频中提取音频以进行转录。支持 MP4, MKV, AVI, MOV, WebM。

curl -X POST https://api.parsejet.com/v1/parse/video \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"
POST

/v1/parse/epub

解析 EPUB 电子书。按章节提取文本。

curl -X POST https://api.parsejet.com/v1/parse/epub \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/feed

解析 RSS 或 Atom 订阅源。也通过 /v1/parse/opml 支持 OPML。

curl -X POST https://api.parsejet.com/v1/parse/feed \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/image

分析图像。支持 JPG, PNG, GIF, BMP, WebP, TIFF。最大 20MB。

字段类型必填描述
filefile图像文件
promptstring图像分析的自定义提示词
modelstring视觉模型覆盖
curl -X POST https://api.parsejet.com/v1/parse/image \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "prompt=Describe this image"
POST

/v1/parse/image/ocr

通过 OCR 从图像中提取文本。

curl -X POST https://api.parsejet.com/v1/parse/image/ocr \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

SDK

官方SDK

TypeScript / JavaScript

npm install parsejet
import { ParseJet } from "parsejet";

const client = new ParseJet({ apiKey: "pj_YOUR_KEY" });

// Parse a URL
const result = await client.parse.url("https://example.com");
console.log(result.text);

// Parse a file
const result = await client.parse.file(buffer, "report.pdf");
console.log(result.text);

Python

pip install parsejet
from parsejet import ParseJet

client = ParseJet(api_key="pj_YOUR_KEY")

# Parse a URL
result = client.parse.url("https://example.com")
print(result.text)

# Parse a file
with open("report.pdf", "rb") as f:
    result = client.parse.file(f, "report.pdf")
    print(result.text)

AI代理

MCP服务器

将ParseJet作为MCP(模型上下文协议)服务器与Claude Code、Cursor或任何MCP兼容的AI代理一起使用。

安装

npm install -g @parsejet/mcp-server

Claude Code

添加到您项目的.claude/settings.json中:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Cursor

转到设置 → MCP服务器,添加新服务器:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Claude.ai(远程)

对于Claude.ai网页版,使用远程HTTP端点 — 无需本地安装:

Endpoint:  https://api.parsejet.com/mcp
Transport: Streamable HTTP
Auth:      Bearer pj_YOUR_KEY (in Authorization header)

转到Claude.ai → 设置 → 集成 → 添加MCP服务器 → 输入上面的URL。

可用工具

工具 描述
parse_url解析任何URL(网页、YouTube等)
parse_file解析本地文件(PDF、DOCX、图像等)
get_youtube_transcript获取YouTube视频字幕(可选语言)

速率限制与定价

ParseJet采用基于积分的系统。每个请求根据格式复杂度消耗积分。

套餐 价格 积分/月 RPM 最大文件
Free$0300510MB
Pro$19/mo3,0003050MB
Business$49/mo20,00060100MB
Scale$99/mo50,000200200MB
EnterpriseCustomCustomCustomCustom

响应头包含X-RateLimit-LimitX-RateLimit-RemainingX-RateLimit-Reset,以及429响应时的Retry-After

错误代码

所有错误均返回包含 errormessage 字段的 JSON。

状态代码描述
400unsupported_format不支持的文件类型
401invalid_api_keyAPI 密钥缺失或无效
413file_too_large文件超出套餐限制
422parse_error文件损坏或无法读取
429rate_limit_exceeded达到 RPM 或每日/每月限制
502parser_unavailable解析器后端不可达
504parser_timeout解析操作超时