从任意文件或
URL中提取文本

Name: ParseJet
Author: ParseJet

免费在线工具，可将PDF转为文本、获取YouTube字幕、抓取网页内容。一个API支持25+种格式——为您的AI智能体提供动力或直接使用。包含免费API密钥。

拖放文件到此处或浏览

PDF、DOCX、XLSX、图像、音频、视频等

免费 — 每天3次请求，无需注册。获取每月300个免费额度。

一个工具，满足所有文本提取需求

无需为每种格式安装单独的库。ParseJet 一网打尽。

PDF 转文本转换器

即时从 PDF 文件中提取文本。处理扫描文档、多页报告和复杂布局。一键将 PDF 转换为纯文本或 Markdown。

YouTube 字幕生成器

获取任何 YouTube 视频的完整字幕。支持所有语言、自动生成和手动添加的字幕。非常适合内容再利用、研究和笔记。

网页抓取器

从任何网页 URL 提取主要内容。自动移除导航、广告和样板内容。从任何网站返回干净、可读的文本。

文档解析器

解析 Word 文档 (DOCX)、Excel 电子表格 (XLSX)、PowerPoint 演示文稿 (PPTX) 和 CSV 文件。从任何 Office 文档格式提取结构化文本。

图片转文本 (OCR)

使用 OCR 从图片中提取文本。支持 JPG、PNG、GIF、WebP 和 TIFF 格式。从截图、文档照片和扫描页面中读取文本。

音频与视频转录

转录音频文件 (MP3, WAV, M4A) 并从视频文件 (MP4, MKV, AVI) 中提取音频进行转录。将口语内容转换为可搜索的文本。

支持 25+ 种格式

一个端点。所有文件类型。结构化文本输出。

PDF

DOCX

XLSX

PPTX

CSV

TXT

HTML

Markdown

JSON

XML

EPUB

YouTube

Web Pages

MP3 / Audio

MP4 / Video

JPG / Images

RSS / Atom

OPML

Notebooks

工作原理

粘贴或上传

输入URL或上传文件。ParseJet会自动检测格式——PDF、DOCX、YouTube链接、网页、图像、音频或25种以上支持的类型。

提取

文本、标题和元数据会被自动提取。无论输入格式如何，都能获得干净、结构化的输出。

使用文本

为您的项目复制结果，或通过ParseJet API集成，以实现大规模自动化文本提取。

为什么选择ParseJet？

对比自行构建解析管道与使用ParseJet。

自行构建

✗ 安装5-10个独立的库（pdfplumber, yt-dlp, trafilatura, python-docx...）
✗ 处理二进制依赖（ffmpeg, poppler, tesseract）
✗ 编写格式检测和路由逻辑
✗ 处理版本冲突和平台问题
✗ 单独维护和更新每个解析器
✗ 每种格式需要50-200行代码

使用ParseJet

✓ 一个HTTP端点支持所有25+种格式
✓ 零依赖安装
✓ 自动检测——只需发送文件或URL
✓ 始终为您维护最新的解析器
✓ 每种格式都返回一致的JSON响应
✓ 总共只需3-5行代码

几分钟内完成集成

支持任何语言。无需 SDK —— 仅需 HTTP。

cURL

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'

Python

import httpx

resp = httpx.post(
    "https://api.parsejet.com/v1/parse/auto/url",
    json={"url": "https://youtube.com/watch?v=dQw4w9WgXcQ"}
)
print(resp.json()["text"])  # Full transcript

JavaScript

const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
  method: "POST",
  body: formData, // FormData with your PDF
});
const { text, title, source_type } = await res.json();

专为AI智能体打造

赋予您的AI读取任何文档或URL的能力。一次API调用，输出结构化文本。

Claude & Claude Code

将ParseJet用作MCP服务器或HTTP工具。让Claude在对话中从PDF、网页和文档提取文本。

ChatGPT & GPT智能体

将ParseJet添加为GPTs中的自定义操作。您的智能体可以解析任何文件或URL，并对提取的文本进行推理。

Gemini & Google AI

通过函数调用集成。ParseJet负责解析，让Gemini专注于理解内容。

LangChain & LlamaIndex

将ParseJet用作文档加载器。一个端点即可替代RAG管道中数十种特定格式的加载器。

OpenClaw & 开源智能体

任何能发起HTTP请求的AI智能体都可以使用ParseJet。支持机器支付协议（MPP），实现按请求自主付费。

自定义AI工作流

使用n8n、Make或Zapier构建自动化管道。ParseJet提取文本，您的AI进行处理。无需编写代码。

想自动化处理吗？

ParseJet API 通过一个 HTTP 端点提供相同的解析能力。无需 ffmpeg、poppler 或 tesseract — 只需一次 API 调用。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url":"https://example.com"}'

查看 API 文档

常见问题

如何从PDF文件中提取文本？

将您的PDF上传到ParseJet或使用API：向 /v1/parse/auto/file 发送POST请求并附上您的PDF。ParseJet会提取所有文本内容，保留结构并处理多页文档。也通过OCR支持扫描的PDF。

如何获取YouTube视频的字幕？

将YouTube URL粘贴到ParseJet中，或调用 POST /v1/parse/youtube 并附上视频URL。ParseJet会返回带时间戳的完整字幕。支持100多种语言的自动生成字幕。

可以将PDF转换为Markdown吗？

可以。在您的请求中添加 ?output_format=markdown。ParseJet会检测PDF中的标题、列表、表格和代码块，并将其转换为干净的Markdown语法。

ParseJet可以免费使用吗？

可以。您每天有3次免费请求，无需注册。创建一个免费账户，每月可获得300次请求。付费计划起价为每月19美元，包含3,000次请求。

ParseJet支持哪些文件格式？

ParseJet支持25种以上格式：PDF、DOCX、XLSX、PPTX、CSV、TXT、HTML、Markdown、JSON、XML、EPUB、YouTube视频、网页、MP3、WAV、M4A（音频）、MP4、MKV、AVI（视频）、JPG、PNG、GIF（图像）、RSS、Atom、OPML订阅源、Jupyter笔记本和电子邮件文件。

我需要API密钥吗？

不需要。匿名访问可用于测试（每天3次请求）。用于生产环境时，请在 parsejet.com 创建一个免费的API密钥——您每月可获得300次免费请求。

ParseJet与pdfplumber或trafilatura相比如何？

ParseJet用一个API取代了多个库。您无需为PDF安装pdfplumber、为网页安装trafilatura、为YouTube安装yt-dlp、为Word文件安装python-docx，只需向ParseJet发起一次HTTP调用，它就能处理所有事情。

AI代理可以使用ParseJet吗？

可以。ParseJet支持机器支付协议（MPP），用于无需账户的按请求付费访问。AI代理也可以使用匿名访问（每天3次）或API密钥以获得更高的限制。

免费开始提取文本

无需注册。几秒钟内解析您的第一个文件。

查看价格

从任意文件或 URL中提取文本