文档

ParseJet 文档

Name: ParseJet
Author: ParseJet

ParseJet 可从任何文件或 URL 提取文本。一次 API 调用即可处理 PDF、DOCX、YouTube、网页、图像、音频、视频等 25 种以上格式。

快速开始

在 60 秒内获得您的第一个解析结果。无需注册。

立即试用

将任何 URL 粘贴到 ParseJet — 每天前 3 次请求无需 API 密钥。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'

获取您的 API 密钥

使用 Google 或 GitHub 登录以获取免费 API 密钥。免费套餐每月包含 300 次请求。

# Add your API key to requests
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'

使用结果

无论输入格式如何，每个响应都返回相同的 JSON 结构：

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "webpage",
  "metadata": { "url": "https://example.com" }
}

身份验证

ParseJet 提供三个访问级别。您可以立即开始使用 API，无需任何身份验证。

级别	访问方式	速率限制	适用场景
匿名	无请求头	3次/天，2MB	快速测试
会话	登录（Cookie）	10次/天，5MB	仪表板工具
API 密钥	`Authorization: Bearer pj_xxx`	按套餐	生产环境

提示： 您无需 API 密钥即可开始使用。直接发送请求即可 — 每天前 3 次免费，无需注册。

核心概念

支持格式

ParseJet 会根据文件扩展名或 URL 模式自动检测格式。您无需指定格式——只需将文件或 URL 发送到 /v1/parse/auto，ParseJet 会处理其余一切。

类别	格式	积分
文本	TXT, MD, JSON, CSV, XML, HTML	1
文档	DOCX, PPTX, XLSX, EPUB	2
复杂格式	PDF, 网页, 视频	3
YouTube	YouTube 视频 URL	5
其他	音频 (MP3, WAV), 图像 (JPG, PNG), RSS, OPML, 电子邮件, 笔记本	1

积分

每个 API 请求根据所解析格式的复杂性消耗积分。简单文本文件消耗 1 积分，而 YouTube 转录消耗 5 积分。您的月度积分额度取决于您的订阅计划。

输出格式

默认情况下，ParseJet 返回原始提取的文本。在任何请求中添加 ?output_format=markdown 即可获得经过后处理的输出，包含检测到的标题、列表、表格和代码块。

指南

解析 PDF

从任何 PDF 文件中提取文本，包括扫描文档和多页报告。

上传 PDF 文件

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

转换为 Markdown

添加 output_format=markdown 以保留文档结构：

curl -X POST https://api.parsejet.com/v1/parse/auto/file?output_format=markdown \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

积分消耗： 每个 PDF 消耗 3 积分。支持文件大小上限为您的计划限制（10MB-200MB）。

指南

YouTube 转录

获取任何 YouTube 视频的完整转录。支持 100 多种语言的自动生成字幕。

获取转录

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID"}'

指定语言

对于非英语视频，使用 language 参数：

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "ja"}'

或使用自动检测

/v1/parse/auto/url 端点会自动检测 YouTube URL：

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtu.be/VIDEO_ID"}'

积分消耗： 每个 YouTube 视频消耗 5 积分。元数据包括 video_id、频道和时长。

指南

网页抓取

从任何网页提取主要内容。ParseJet 会自动移除导航、广告、侧边栏和样板内容。

curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/blog/article"}'

积分消耗： 每个网页 3 积分。返回干净的文本，元数据中包含标题和来源 URL。

指南

办公文档

解析 Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX) 和 CSV 文件。只需上传文件 — ParseJet 会自动检测格式。

# Works with any Office format
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

# Also works with spreadsheets
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

积分消耗： 每个文档 2 积分。支持：DOCX, PPTX, XLSX, CSV。

API 参考

响应格式

所有端点返回相同的 JSON 结构：

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "pdf",
  "metadata": { "pages": 12, "author": "Jane Doe" }
}

字段	类型	描述
text	string	提取的文本内容
title	string	文档或页面标题
source_type	string	格式标识符 (pdf, webpage, youtube 等)
metadata	object	特定格式的元数据 (页数、作者、时长等)

POST

/v1/parse/auto

推荐端点。根据文件扩展名或 URL 类型自动检测格式。接受 file (multipart) 或 url (表单字段)，不能同时使用。

curl -X POST https://api.parsejet.com/v1/parse/auto \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

POST

/v1/parse/auto/url

解析任何 URL。自动区分 YouTube 和常规网页。

参数	类型	必填	描述
url	string	是	要解析的URL
language	string	否	YouTube字幕语言的ISO 639-1代码

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'

POST

/v1/parse/auto/file

解析任何上传的文件。根据文件扩展名检测格式，回退到基于内容的检测。

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

POST

/v1/parse/webpage

从网页提取主要内容。移除导航、广告和样板内容。

参数	类型	必填	描述
url	string	是	网页URL

curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

POST

/v1/parse/youtube

从 YouTube 视频提取字幕。元数据包括 video_id、频道和时长。

参数	类型	必填	描述
url	string	是	YouTube视频URL或视频ID
language	string	否	ISO 639-1语言代码

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "en"}'

POST

/v1/parse/audio

解析音频文件。支持 MP3, WAV, M4A, OGG, FLAC, WebM。最大 25MB。

字段	类型	必填	描述
file	file	是	音频文件
language	string	否	ISO 639-1代码
with_timestamps	boolean	否	包含词级时间戳

curl -X POST https://api.parsejet.com/v1/parse/audio \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"

POST

/v1/parse/video

从视频中提取音频以进行转录。支持 MP4, MKV, AVI, MOV, WebM。

curl -X POST https://api.parsejet.com/v1/parse/video \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"

POST

/v1/parse/epub

解析 EPUB 电子书。按章节提取文本。

curl -X POST https://api.parsejet.com/v1/parse/epub \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

POST

/v1/parse/feed

解析 RSS 或 Atom 订阅源。也通过 /v1/parse/opml 支持 OPML。

curl -X POST https://api.parsejet.com/v1/parse/feed \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

POST

/v1/parse/image

分析图像。支持 JPG, PNG, GIF, BMP, WebP, TIFF。最大 20MB。

字段	类型	必填	描述
file	file	是	图像文件
prompt	string	否	图像分析的自定义提示词
model	string	否	视觉模型覆盖

curl -X POST https://api.parsejet.com/v1/parse/image \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "prompt=Describe this image"

POST

/v1/parse/image/ocr

通过 OCR 从图像中提取文本。

curl -X POST https://api.parsejet.com/v1/parse/image/ocr \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

SDK

官方SDK

TypeScript / JavaScript

npm install parsejet

import { ParseJet } from "parsejet";

const client = new ParseJet({ apiKey: "pj_YOUR_KEY" });

// Parse a URL
const result = await client.parse.url("https://example.com");
console.log(result.text);

// Parse a file
const result = await client.parse.file(buffer, "report.pdf");
console.log(result.text);

Python

pip install parsejet

from parsejet import ParseJet

client = ParseJet(api_key="pj_YOUR_KEY")

# Parse a URL
result = client.parse.url("https://example.com")
print(result.text)

# Parse a file
with open("report.pdf", "rb") as f:
    result = client.parse.file(f, "report.pdf")
    print(result.text)

AI代理

MCP服务器

将ParseJet作为MCP（模型上下文协议）服务器与Claude Code、Cursor或任何MCP兼容的AI代理一起使用。

安装

npm install -g @parsejet/mcp-server

Claude Code

添加到您项目的.claude/settings.json中：

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Cursor

转到设置 → MCP服务器，添加新服务器：

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Claude.ai（远程）

对于Claude.ai网页版，使用远程HTTP端点 — 无需本地安装：

Endpoint:  https://api.parsejet.com/mcp
Transport: Streamable HTTP
Auth:      Bearer pj_YOUR_KEY (in Authorization header)

转到Claude.ai → 设置 → 集成 → 添加MCP服务器 → 输入上面的URL。

可用工具

工具	描述
parse_url	解析任何URL（网页、YouTube等）
parse_file	解析本地文件（PDF、DOCX、图像等）
get_youtube_transcript	获取YouTube视频字幕（可选语言）

速率限制与定价

ParseJet采用基于积分的系统。每个请求根据格式复杂度消耗积分。

套餐	价格	积分/月	RPM	最大文件
Free	$0	300	5	10MB
Pro	$19/mo	3,000	30	50MB
Business	$49/mo	20,000	60	100MB
Scale	$99/mo	50,000	200	200MB
Enterprise	Custom	Custom	Custom	Custom

响应头包含X-RateLimit-Limit、X-RateLimit-Remaining、X-RateLimit-Reset，以及429响应时的Retry-After。

错误代码

所有错误均返回包含 error 和 message 字段的 JSON。

状态	代码	描述
400	unsupported_format	不支持的文件类型
401	invalid_api_key	API 密钥缺失或无效
413	file_too_large	文件超出套餐限制
422	parse_error	文件损坏或无法读取
429	rate_limit_exceeded	达到 RPM 或每日/每月限制
502	parser_unavailable	解析器后端不可达
504	parser_timeout	解析操作超时