ParseJet

从任意文件或
URL中提取文本

免费在线工具,可将PDF转为文本、获取YouTube字幕、抓取网页内容。一个API支持25+种格式——为您的AI智能体提供动力或直接使用。包含免费API密钥。

拖放文件到此处或 浏览

PDF、DOCX、XLSX、图像、音频、视频等

免费 — 每天3次请求,无需注册。 获取每月300个免费额度。

一个工具,满足所有文本提取需求

无需为每种格式安装单独的库。ParseJet 一网打尽。

PDF 转文本转换器

即时从 PDF 文件中提取文本。处理扫描文档、多页报告和复杂布局。一键将 PDF 转换为纯文本或 Markdown。

YouTube 字幕生成器

获取任何 YouTube 视频的完整字幕。支持所有语言、自动生成和手动添加的字幕。非常适合内容再利用、研究和笔记。

网页抓取器

从任何网页 URL 提取主要内容。自动移除导航、广告和样板内容。从任何网站返回干净、可读的文本。

文档解析器

解析 Word 文档 (DOCX)、Excel 电子表格 (XLSX)、PowerPoint 演示文稿 (PPTX) 和 CSV 文件。从任何 Office 文档格式提取结构化文本。

图片转文本 (OCR)

使用 OCR 从图片中提取文本。支持 JPG、PNG、GIF、WebP 和 TIFF 格式。从截图、文档照片和扫描页面中读取文本。

音频与视频转录

转录音频文件 (MP3, WAV, M4A) 并从视频文件 (MP4, MKV, AVI) 中提取音频进行转录。将口语内容转换为可搜索的文本。

支持 25+ 种格式

一个端点。所有文件类型。结构化文本输出。

PDF
DOCX
XLSX
PPTX
CSV
TXT
HTML
Markdown
JSON
XML
EPUB
YouTube
Web Pages
MP3 / Audio
MP4 / Video
JPG / Images
RSS / Atom
OPML
Notebooks
Email

工作原理

1

粘贴或上传

输入URL或上传文件。ParseJet会自动检测格式——PDF、DOCX、YouTube链接、网页、图像、音频或25种以上支持的类型。

2

提取

文本、标题和元数据会被自动提取。无论输入格式如何,都能获得干净、结构化的输出。

3

使用文本

为您的项目复制结果,或通过ParseJet API集成,以实现大规模自动化文本提取。

为什么选择ParseJet?

对比自行构建解析管道与使用ParseJet。

自行构建

  • 安装5-10个独立的库(pdfplumber, yt-dlp, trafilatura, python-docx...)
  • 处理二进制依赖(ffmpeg, poppler, tesseract)
  • 编写格式检测和路由逻辑
  • 处理版本冲突和平台问题
  • 单独维护和更新每个解析器
  • 每种格式需要50-200行代码

使用ParseJet

  • 一个HTTP端点支持所有25+种格式
  • 零依赖安装
  • 自动检测——只需发送文件或URL
  • 始终为您维护最新的解析器
  • 每种格式都返回一致的JSON响应
  • 总共只需3-5行代码

几分钟内完成集成

支持任何语言。无需 SDK —— 仅需 HTTP。

cURL
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
Python
import httpx

resp = httpx.post(
    "https://api.parsejet.com/v1/parse/auto/url",
    json={"url": "https://youtube.com/watch?v=dQw4w9WgXcQ"}
)
print(resp.json()["text"])  # Full transcript
JavaScript
const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
  method: "POST",
  body: formData, // FormData with your PDF
});
const { text, title, source_type } = await res.json();

专为AI智能体打造

赋予您的AI读取任何文档或URL的能力。一次API调用,输出结构化文本。

Claude & Claude Code

将ParseJet用作MCP服务器或HTTP工具。让Claude在对话中从PDF、网页和文档提取文本。

ChatGPT & GPT智能体

将ParseJet添加为GPTs中的自定义操作。您的智能体可以解析任何文件或URL,并对提取的文本进行推理。

Gemini & Google AI

通过函数调用集成。ParseJet负责解析,让Gemini专注于理解内容。

LangChain & LlamaIndex

将ParseJet用作文档加载器。一个端点即可替代RAG管道中数十种特定格式的加载器。

OpenClaw & 开源智能体

任何能发起HTTP请求的AI智能体都可以使用ParseJet。支持机器支付协议(MPP),实现按请求自主付费。

自定义AI工作流

使用n8n、Make或Zapier构建自动化管道。ParseJet提取文本,您的AI进行处理。无需编写代码。

想自动化处理吗?

ParseJet API 通过一个 HTTP 端点提供相同的解析能力。无需 ffmpeg、poppler 或 tesseract — 只需一次 API 调用。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
查看 API 文档

常见问题

如何从PDF文件中提取文本?

将您的PDF上传到ParseJet或使用API:向 /v1/parse/auto/file 发送POST请求并附上您的PDF。ParseJet会提取所有文本内容,保留结构并处理多页文档。也通过OCR支持扫描的PDF。

如何获取YouTube视频的字幕?

将YouTube URL粘贴到ParseJet中,或调用 POST /v1/parse/youtube 并附上视频URL。ParseJet会返回带时间戳的完整字幕。支持100多种语言的自动生成字幕。

可以将PDF转换为Markdown吗?

可以。在您的请求中添加 ?output_format=markdown。ParseJet会检测PDF中的标题、列表、表格和代码块,并将其转换为干净的Markdown语法。

ParseJet可以免费使用吗?

可以。您每天有3次免费请求,无需注册。创建一个免费账户,每月可获得300次请求。付费计划起价为每月19美元,包含3,000次请求。

ParseJet支持哪些文件格式?

ParseJet支持25种以上格式:PDF、DOCX、XLSX、PPTX、CSV、TXT、HTML、Markdown、JSON、XML、EPUB、YouTube视频、网页、MP3、WAV、M4A(音频)、MP4、MKV、AVI(视频)、JPG、PNG、GIF(图像)、RSS、Atom、OPML订阅源、Jupyter笔记本和电子邮件文件。

我需要API密钥吗?

不需要。匿名访问可用于测试(每天3次请求)。用于生产环境时,请在 parsejet.com 创建一个免费的API密钥——您每月可获得300次免费请求。

ParseJet与pdfplumber或trafilatura相比如何?

ParseJet用一个API取代了多个库。您无需为PDF安装pdfplumber、为网页安装trafilatura、为YouTube安装yt-dlp、为Word文件安装python-docx,只需向ParseJet发起一次HTTP调用,它就能处理所有事情。

AI代理可以使用ParseJet吗?

可以。ParseJet支持机器支付协议(MPP),用于无需账户的按请求付费访问。AI代理也可以使用匿名访问(每天3次)或API密钥以获得更高的限制。

免费开始提取文本

无需注册。几秒钟内解析您的第一个文件。

查看价格