文档
ParseJet 文档
ParseJet 可从任何文件或 URL 提取文本。一次 API 调用即可处理 PDF、DOCX、YouTube、网页、图像、音频、视频等 25 种以上格式。
快速开始
在 60 秒内获得您的第一个解析结果。无需注册。
1
立即试用
将任何 URL 粘贴到 ParseJet — 每天前 3 次请求无需 API 密钥。
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com"}' 2
获取您的 API 密钥
使用 Google 或 GitHub 登录以获取免费 API 密钥。免费套餐每月包含 300 次请求。
# Add your API key to requests
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
-H "Authorization: Bearer pj_YOUR_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com"}' 3
使用结果
无论输入格式如何,每个响应都返回相同的 JSON 结构:
{
"text": "Extracted text content...",
"title": "Document Title",
"source_type": "webpage",
"metadata": { "url": "https://example.com" }
} 身份验证
ParseJet 提供三个访问级别。您可以立即开始使用 API,无需任何身份验证。
提示: 您无需 API 密钥即可开始使用。直接发送请求即可 — 每天前 3 次免费,无需注册。
核心概念
支持格式
ParseJet 会根据文件扩展名或 URL 模式自动检测格式。您无需指定格式——只需将文件或 URL 发送到 /v1/parse/auto,ParseJet 会处理其余一切。
积分
每个 API 请求根据所解析格式的复杂性消耗积分。简单文本文件消耗 1 积分,而 YouTube 转录消耗 5 积分。您的月度积分额度取决于您的订阅计划。
输出格式
默认情况下,ParseJet 返回原始提取的文本。在任何请求中添加 ?output_format=markdown 即可获得经过后处理的输出,包含检测到的标题、列表、表格和代码块。
指南
解析 PDF
从任何 PDF 文件中提取文本,包括扫描文档和多页报告。
上传 PDF 文件
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
-H "Authorization: Bearer pj_YOUR_KEY" \
-F "[email protected]"
转换为 Markdown
添加 output_format=markdown 以保留文档结构:
curl -X POST https://api.parsejet.com/v1/parse/auto/file?output_format=markdown \
-H "Authorization: Bearer pj_YOUR_KEY" \
-F "[email protected]"
积分消耗: 每个 PDF 消耗 3 积分。支持文件大小上限为您的计划限制(10MB-200MB)。
指南
YouTube 转录
获取任何 YouTube 视频的完整转录。支持 100 多种语言的自动生成字幕。
获取转录
curl -X POST https://api.parsejet.com/v1/parse/youtube \
-H "Content-Type: application/json" \
-d '{"url": "https://youtube.com/watch?v=VIDEO_ID"}' 指定语言
对于非英语视频,使用 language 参数:
curl -X POST https://api.parsejet.com/v1/parse/youtube \
-H "Content-Type: application/json" \
-d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "ja"}' 或使用自动检测
/v1/parse/auto/url 端点会自动检测 YouTube URL:
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
-H "Content-Type: application/json" \
-d '{"url": "https://youtu.be/VIDEO_ID"}' 积分消耗: 每个 YouTube 视频消耗 5 积分。元数据包括 video_id、频道和时长。
指南
网页抓取
从任何网页提取主要内容。ParseJet 会自动移除导航、广告、侧边栏和样板内容。
curl -X POST https://api.parsejet.com/v1/parse/webpage \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/blog/article"}' 积分消耗: 每个网页 3 积分。返回干净的文本,元数据中包含标题和来源 URL。
指南
办公文档
解析 Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX) 和 CSV 文件。只需上传文件 — ParseJet 会自动检测格式。
# Works with any Office format
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
-H "Authorization: Bearer pj_YOUR_KEY" \
-F "[email protected]"
# Also works with spreadsheets
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
-H "Authorization: Bearer pj_YOUR_KEY" \
-F "[email protected]"
积分消耗: 每个文档 2 积分。支持:DOCX, PPTX, XLSX, CSV。
POST
/v1/parse/auto
推荐端点。根据文件扩展名或 URL 类型自动检测格式。接受 file (multipart) 或 url (表单字段),不能同时使用。
curl -X POST https://api.parsejet.com/v1/parse/auto \
-H "Authorization: Bearer pj_YOUR_KEY" \
-F "[email protected]"
POST
/v1/parse/auto/url
解析任何 URL。自动区分 YouTube 和常规网页。
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
-H "Authorization: Bearer pj_YOUR_KEY" \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com"}' POST
/v1/parse/auto/file
解析任何上传的文件。根据文件扩展名检测格式,回退到基于内容的检测。
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
-H "Authorization: Bearer pj_YOUR_KEY" \
-F "[email protected]"
POST
/v1/parse/webpage
从网页提取主要内容。移除导航、广告和样板内容。
curl -X POST https://api.parsejet.com/v1/parse/webpage \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}' POST
/v1/parse/youtube
从 YouTube 视频提取字幕。元数据包括 video_id、频道和时长。
curl -X POST https://api.parsejet.com/v1/parse/youtube \
-H "Content-Type: application/json" \
-d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "en"}' POST
/v1/parse/audio
解析音频文件。支持 MP3, WAV, M4A, OGG, FLAC, WebM。最大 25MB。
curl -X POST https://api.parsejet.com/v1/parse/audio \
-H "Authorization: Bearer pj_YOUR_KEY" \
-F "[email protected]" -F "language=en"
POST
/v1/parse/video
从视频中提取音频以进行转录。支持 MP4, MKV, AVI, MOV, WebM。
curl -X POST https://api.parsejet.com/v1/parse/video \
-H "Authorization: Bearer pj_YOUR_KEY" \
-F "[email protected]" -F "language=en"
POST
/v1/parse/epub
解析 EPUB 电子书。按章节提取文本。
curl -X POST https://api.parsejet.com/v1/parse/epub \
-H "Authorization: Bearer pj_YOUR_KEY" \
-F "[email protected]"
POST
/v1/parse/feed
解析 RSS 或 Atom 订阅源。也通过 /v1/parse/opml 支持 OPML。
curl -X POST https://api.parsejet.com/v1/parse/feed \
-H "Authorization: Bearer pj_YOUR_KEY" \
-F "[email protected]"
POST
/v1/parse/image
分析图像。支持 JPG, PNG, GIF, BMP, WebP, TIFF。最大 20MB。
curl -X POST https://api.parsejet.com/v1/parse/image \
-H "Authorization: Bearer pj_YOUR_KEY" \
-F "[email protected]" -F "prompt=Describe this image"
POST
/v1/parse/image/ocr
通过 OCR 从图像中提取文本。
curl -X POST https://api.parsejet.com/v1/parse/image/ocr \
-H "Authorization: Bearer pj_YOUR_KEY" \
-F "[email protected]"
SDK
官方SDK
TypeScript / JavaScript
import { ParseJet } from "parsejet";
const client = new ParseJet({ apiKey: "pj_YOUR_KEY" });
// Parse a URL
const result = await client.parse.url("https://example.com");
console.log(result.text);
// Parse a file
const result = await client.parse.file(buffer, "report.pdf");
console.log(result.text); Python
from parsejet import ParseJet
client = ParseJet(api_key="pj_YOUR_KEY")
# Parse a URL
result = client.parse.url("https://example.com")
print(result.text)
# Parse a file
with open("report.pdf", "rb") as f:
result = client.parse.file(f, "report.pdf")
print(result.text) AI代理
MCP服务器
将ParseJet作为MCP(模型上下文协议)服务器与Claude Code、Cursor或任何MCP兼容的AI代理一起使用。
安装
npm install -g @parsejet/mcp-server
Claude Code
添加到您项目的.claude/settings.json中:
{
"mcpServers": {
"parsejet": {
"command": "npx",
"args": ["-y", "@parsejet/mcp-server"],
"env": {
"PARSEJET_API_KEY": "pj_YOUR_KEY"
}
}
}
} Cursor
转到设置 → MCP服务器,添加新服务器:
{
"mcpServers": {
"parsejet": {
"command": "npx",
"args": ["-y", "@parsejet/mcp-server"],
"env": {
"PARSEJET_API_KEY": "pj_YOUR_KEY"
}
}
}
} Claude.ai(远程)
对于Claude.ai网页版,使用远程HTTP端点 — 无需本地安装:
Endpoint: https://api.parsejet.com/mcp
Transport: Streamable HTTP
Auth: Bearer pj_YOUR_KEY (in Authorization header)
转到Claude.ai → 设置 → 集成 → 添加MCP服务器 → 输入上面的URL。
可用工具
速率限制与定价
ParseJet采用基于积分的系统。每个请求根据格式复杂度消耗积分。
响应头包含X-RateLimit-Limit、X-RateLimit-Remaining、X-RateLimit-Reset,以及429响应时的Retry-After。
错误代码
所有错误均返回包含 error 和 message 字段的 JSON。