ParseJet

PDF 转 Markdown 转换器

上传 PDF,即刻获得干净的 Markdown 输出。ParseJet 检测 PDF 中的标题、列表、表格和代码块,并将其转换为格式正确的 Markdown — 非常适合文档、README 文件和 RAG 管道。

拖放文件到此处或 浏览

支持PDF文件

免费 — 每天3次请求,无需注册。 获取每月300个免费额度。

工作原理

1

上传您的 PDF

将 PDF 文件拖放到上方或点击浏览。支持任何 PDF — 基于文本、扫描件或混合内容。

2

转换为 Markdown

ParseJet 检测文档结构 — 标题、列表、表格、代码块 — 并将每个元素映射到 Markdown 语法。

3

复制或使用 API

直接复制 Markdown 输出,或使用 ParseJet API 实现批量 PDF 转换自动化。

主要特性

这款pdf to markdown converter脱颖而出的原因。

结构感知转换

检测标题 (H1–H6)、有序和无序列表、引用块和代码块 — 不仅仅是原始文本。

表格保留

将 PDF 表格转换为格式正确的 Markdown 表格语法,包含对齐的列和标题。

扫描 PDF 支持

自动对基于图像的页面应用 OCR,然后将提取的文本结构化为 Markdown。

多页文档处理

处理整本书籍、报告和手册 — 无页面限制。返回一个连续的 Markdown 文档。

干净输出

去除页眉、页脚、页码和水印。您获得的是内容,而非噪音。

使用场景

此工具能为您节省时间的常见场景。

文档迁移

将遗留的 PDF 文档转换为 Markdown,以便用于 GitBook、Docusaurus 或您的文档即代码工作流。

RAG 管道数据摄取

将干净的 Markdown 输入到您的检索增强生成管道中。结构化的 Markdown 比原始文本能为 LLM 提供更好的上下文。

内容再利用

将 PDF 白皮书、研究论文或电子书转换为博客文章、Wiki 页面或 Notion 文档。

GitHub README 创建

将产品规格或设计文档 PDF 转换为 README.md,无需手动格式化。

通过API自动化

以编程方式使用相同的工具。适用于任何语言——仅需HTTP。

cURL
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Response includes Markdown-formatted text with headings, tables, etc.
Python
import httpx

resp = httpx.post(
    "https://api.parsejet.com/v1/parse/auto/file",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    files={"file": open("document.pdf", "rb")},
)
print(resp.json()["text"])  # Markdown with headings, tables, etc.
JavaScript
const formData = new FormData();
formData.append("file", pdfFile);

const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
  method: "POST",
  headers: { Authorization: "Bearer YOUR_API_KEY" },
  body: formData,
});
const { text } = await res.json(); // Markdown-formatted string

想自动化处理吗?

ParseJet API 通过一个 HTTP 端点提供相同的解析能力。无需 ffmpeg、poppler 或 tesseract — 只需一次 API 调用。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
查看 API 文档

常见问题

如何将 PDF 转换为 Markdown?

在上方上传您的 PDF 或使用 API:POST /v1/parse/auto/file。ParseJet 自动提取文档结构,并返回保留标题、列表、表格和代码块的干净 Markdown。

它会保留表格和标题吗?

是的。ParseJet 检测 PDF 中的标题 (H1–H6)、有序/无序列表、表格和代码块,并将它们映射到相应的 Markdown 语法。

可以将扫描的 PDF 转换为 Markdown 吗?

是的。ParseJet 使用 OCR 从扫描的 PDF 和基于图像的页面中提取文本,然后将结果结构化为 Markdown。

它是免费的吗?有什么限制?

是的。您每天可获得 3 次免费转换,无需注册。创建一个免费账户,每月可获得 300 积分。付费计划起价为每月 19 美元,提供更大的文件大小限制(高达 200 MB)和更高的配额。

我可以自动化 PDF 到 Markdown 的转换吗?

是的。使用 ParseJet API 以编程方式将 PDF 转换为 Markdown。支持 Python、JavaScript、cURL 或任何支持 HTTP 请求的语言。

免费开始提取文本

无需注册。几秒钟内解析您的第一个文件。

查看价格