ParseJet

PDF Parser

ParseJet — это удобный для разработчиков PDF-парсер, который извлекает текст, заголовок и метаданные из любого PDF-файла с помощью одного вызова API. Никаких зависимостей для установки — замените pdf-parse, pdfplumber или PyMuPDF одним HTTP-эндпоинтом.

Перетащите файл сюда или выберите

Принимает файлы PDF

Бесплатно — 3 запроса/день, без регистрации. для 300 кредитов/месяц бесплатно.

Как это работает

1

Отправьте ваш PDF

Загрузите файл в инструменте выше или отправьте его через POST-запрос к API. ParseJet автоматически определит формат — конфигурация не требуется.

2

Парсинг и извлечение

ParseJet извлекает текст, заголовок, автора, количество страниц и структуру содержимого. OCR применяется автоматически к отсканированным страницам.

3

Получите структурированный JSON

Получите чистый JSON-ответ с текстом, заголовком, source_type и метаданными — готовый к использованию в вашем приложении.

Ключевые особенности

Что отличает этот pdf parser.

Нет зависимостей

Не нужно устанавливать poppler, pdftotext или какие-либо нативные библиотеки. ParseJet — это хостируемый API — просто выполните HTTP-запрос.

Прямая замена

Замените pdf-parse (Node.js), pdfplumber (Python) или PyMuPDF одним вызовом API. Работает из любого языка программирования.

Богатые метаданные

Возвращает заголовок документа, автора, дату создания, количество страниц и обнаруженный тип содержимого — не только сырой текст.

Единый формат JSON

Каждый ответ следует одной схеме: { text, title, source_type, metadata }. Не требуется обработка под конкретный формат.

Встроенный OCR

Отсканированные PDF обрабатываются с помощью OCR автоматически. Не требуется отдельный шаг OCR или конфигурация.

Обнаружение таблиц

Обнаруживает табличные данные в PDF. Запросите вывод в Markdown для получения правильно отформатированных таблиц.

Примеры использования

Типичные сценарии, где этот инструмент экономит ваше время.

Замените pdf-parse в Node.js

Если вы используете npm-пакет pdf-parse и сталкиваетесь с проблемами нативных зависимостей или поддержки, ParseJet — это прямая замена через HTTP.

Замените pdfplumber в Python

pdfplumber требует Python и нативные библиотеки. ParseJet предоставляет такое же извлечение через API, поэтому вы можете вызывать его из любого языка или serverless-функции.

Конвейеры обработки документов

Создавайте автоматизированные рабочие процессы, которые парсят входящие PDF — счета, отчеты, формы — и направляют извлеченные данные в вашу базу данных или CRM.

Ингestion документов для RAG

Парсите PDF как часть вашего конвейера retrieval-augmented generation. ParseJet возвращает структурированный текст, который дает LLM лучший контекст.

Автоматизируйте с помощью API

Используйте тот же инструмент программно. Работает с любым языком — только HTTP.

cURL
# Parse a PDF and get text + metadata
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Response:
# {
#   "text": "Invoice #1234\nDate: 2026-03-15\n...",
#   "title": "Invoice #1234",
#   "source_type": "pdf",
#   "metadata": { "pages": 2, "author": "Acme Corp" }
# }
Python
import httpx

# Before (pdf-parse / pdfplumber):
#   import pdfplumber
#   with pdfplumber.open("invoice.pdf") as pdf:
#       text = "\n".join(p.extract_text() for p in pdf.pages)

# After (ParseJet — no dependencies):
resp = httpx.post(
    "https://api.parsejet.com/v1/parse/auto/file",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    files={"file": open("invoice.pdf", "rb")},
)
result = resp.json()
text = result["text"]          # All text, all pages
title = result["title"]        # Document title
pages = result["metadata"]["pages"]  # Page count
JavaScript
// Before (pdf-parse):
//   const pdfParse = require("pdf-parse");
//   const data = await pdfParse(buffer);

// After (ParseJet — no native dependencies):
const formData = new FormData();
formData.append("file", pdfBuffer, "invoice.pdf");

const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
  method: "POST",
  headers: { Authorization: "Bearer YOUR_API_KEY" },
  body: formData,
});
const { text, title, source_type, metadata } = await res.json();
// Works in Node.js, Deno, Bun, Cloudflare Workers — anywhere with fetch

Хотите автоматизировать это?

ParseJet API предоставляет те же возможности парсинга через один HTTP-эндпоинт. Никакого ffmpeg, poppler или tesseract — всего один вызов API.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
Читать документацию API

Часто задаваемые вопросы

Чем ParseJet отличается от pdf-parse (npm)?

pdf-parse — это библиотека для Node.js, требующая локальной установки и обрабатывающая только базовое извлечение текста. ParseJet — это хостируемый API, который извлекает текст, метаданные и структуру из любого PDF — включая отсканированные документы через OCR — без каких-либо зависимостей.

Как он сравнивается с pdfplumber (Python)?

pdfplumber отлично подходит для извлечения таблиц, но требует Python и локальной обработки. ParseJet предлагает аналогичные возможности через HTTP, поэтому вы можете использовать его из любого языка без установки Python или нативных зависимостей.

Какие метаданные извлекает PDF-парсер?

ParseJet извлекает заголовок документа, автора, дату создания, количество страниц и обнаруженный тип содержимого. Полный текст и метаданные возвращаются в структурированном JSON-ответе.

Можно ли использовать его в serverless-среде?

Да. Поскольку ParseJet — это HTTP API, он работает в AWS Lambda, Vercel Functions, Cloudflare Workers и на любой serverless-платформе — не нужно бандлить нативные бинарные зависимости.

Поддерживает ли он извлечение таблиц из PDF?

Да. ParseJet обнаруживает и извлекает таблицы из PDF и по умолчанию возвращает их в виде правильно отформатированных таблиц Markdown.

Это бесплатно?

Да. Вы получаете 3 бесплатных парсинга в день без регистрации. Создайте бесплатный аккаунт для получения 300 кредитов в месяц. Платные тарифы начинаются от $19/месяц с более высокими лимитами запросов и квотами на размер файлов.

Начните извлекать текст бесплатно

Регистрация не требуется. Обработайте первый файл за секунды.

Посмотреть тарифы