ParseJet

Документация

Документация ParseJet

ParseJet извлекает текст из любого файла или URL. Один вызов API обрабатывает PDF, DOCX, YouTube, веб-страницы, изображения, аудио, видео и более 25 других форматов.

Быстрый старт

Получите первый результат парсинга менее чем за 60 секунд. Регистрация не требуется.

1

Попробуйте мгновенно

Вставьте любой URL в ParseJet — API-ключ не требуется для первых 3 запросов в день.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
2

Получите API-ключ

Войдите через Google или GitHub, чтобы получить бесплатный API-ключ. Бесплатный тариф включает 300 запросов в месяц.

# Add your API key to requests
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
3

Используйте результат

Каждый ответ возвращает одну и ту же структуру JSON независимо от формата входных данных:

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "webpage",
  "metadata": { "url": "https://example.com" }
}

Аутентификация

ParseJet предлагает три уровня доступа. Вы можете начать использовать API немедленно без какой-либо аутентификации.

Уровень Как получить доступ Лимит запросов Лучше всего для
АнонимныйБез заголовков3/день, 2 МББыстрое тестирование
СессияВход (cookie)10/день, 5 МБИнструмент в панели управления
API-ключAuthorization: Bearer pj_xxxПо тарифуПродакшен

Совет: Для начала работы вам не нужен API-ключ. Просто отправляйте запросы напрямую — первые 3 в день бесплатны и не требуют регистрации.

Основные концепции

Поддерживаемые форматы

ParseJet автоматически определяет формат по расширению файла или шаблону URL. Вам не нужно указывать формат — просто отправьте файл или URL на /v1/parse/auto, и ParseJet сделает всё остальное.

Категория Форматы Кредиты
ТекстTXT, MD, JSON, CSV, XML, HTML1
ДокументыDOCX, PPTX, XLSX, EPUB2
СложныеPDF, веб-страницы, видео3
YouTubeURL видео YouTube5
ДругиеАудио (MP3, WAV), изображения (JPG, PNG), RSS, OPML, email, блокноты1

Кредиты

Каждый API-запрос расходует кредиты в зависимости от сложности разбираемого формата. Простые текстовые файлы стоят 1 кредит, а расшифровки YouTube — 5. Ваш ежемесячный лимит кредитов зависит от вашего тарифного плана.

Формат вывода

По умолчанию ParseJet возвращает извлечённый сырой текст. Добавьте ?output_format=markdown к любому запросу, чтобы получить обработанный вывод с обнаруженными заголовками, списками, таблицами и блоками кода.

Руководство

Разбор PDF

Извлеките текст из любого PDF-файла, включая сканированные документы и многостраничные отчёты.

Загрузите PDF-файл

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Конвертировать в Markdown

Добавьте output_format=markdown, чтобы сохранить структуру документа:

curl -X POST https://api.parsejet.com/v1/parse/auto/file?output_format=markdown \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Стоимость в кредитах: 3 кредита за PDF. Поддерживаются файлы до лимита размера вашего тарифа (10MB-200MB).

Руководство

Расшифровки YouTube

Получите полную расшифровку любого видео на YouTube. Поддерживает автоматически сгенерированные субтитры на 100+ языках.

Получить расшифровку

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID"}'

Указать язык

Используйте параметр language для видео не на английском:

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "ja"}'

Или используйте автоопределение

Эндпоинт /v1/parse/auto/url автоматически определяет URL YouTube:

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtu.be/VIDEO_ID"}'

Стоимость в кредитах: 5 кредитов за видео YouTube. Метаданные включают video_id, канал и длительность.

Руководство

Веб-скрапинг

Извлекайте основной контент с любой веб-страницы. ParseJet автоматически удаляет навигацию, рекламу, боковые панели и шаблонные элементы.

curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/blog/article"}'

Стоимость в кредитах: 3 кредита за веб-страницу. Возвращает чистый текст с заголовком и исходным URL в метаданных.

Руководство

Офисные документы

Парсите файлы Word (DOCX), Excel (XLSX), PowerPoint (PPTX) и CSV. Просто загрузите файл — ParseJet автоматически определит формат.

# Works with any Office format
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

# Also works with spreadsheets
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Стоимость в кредитах: 2 кредита за документ. Поддерживаются: DOCX, PPTX, XLSX, CSV.

Справочник API

Формат ответа

Все конечные точки возвращают одинаковую структуру JSON:

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "pdf",
  "metadata": { "pages": 12, "author": "Jane Doe" }
}
Поле Тип Описание
textstringИзвлеченное текстовое содержимое
titlestringЗаголовок документа или страницы
source_typestringИдентификатор формата (pdf, webpage, youtube и т.д.)
metadataobjectМетаданные, специфичные для формата (количество страниц, автор, длительность и т.д.)
POST

/v1/parse/auto

Рекомендуемая конечная точка. Автоматически определяет формат по расширению файла или типу URL. Принимает file (multipart) или url (поле формы), но не оба одновременно.

curl -X POST https://api.parsejet.com/v1/parse/auto \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/auto/url

Парсинг любого URL. Автоматически отличает YouTube от обычных веб-страниц.

ПараметрТипОбязательныйОписание
urlstringдаURL для парсинга
languagestringнетКод ISO 639-1 для языка субтитров YouTube
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
POST

/v1/parse/auto/file

Парсинг любого загруженного файла. Определяет формат по расширению файла, при неудаче — по содержимому.

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/webpage

Извлечение основного контента с веб-страницы. Удаляет навигацию, рекламу и шаблонные элементы.

ПараметрТипОбязательныйОписание
urlstringдаURL веб-страницы
curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'
POST

/v1/parse/youtube

Извлечение транскрипта из видео YouTube. Метаданные включают video_id, канал и длительность.

ПараметрТипОбязательныйОписание
urlstringдаURL видео YouTube или ID видео
languagestringнетКод языка ISO 639-1
curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "en"}'
POST

/v1/parse/audio

Парсинг аудиофайлов. Поддерживает MP3, WAV, M4A, OGG, FLAC, WebM. Макс. 25 МБ.

ПолеТипОбязательныйОписание
filefileдаАудиофайл
languagestringнетКод ISO 639-1
with_timestampsbooleanнетВключить таймкоды на уровне слов
curl -X POST https://api.parsejet.com/v1/parse/audio \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"
POST

/v1/parse/video

Извлечение аудио из видео для транскрипции. Поддерживает MP4, MKV, AVI, MOV, WebM.

curl -X POST https://api.parsejet.com/v1/parse/video \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"
POST

/v1/parse/epub

Парсинг EPUB-книги. Извлекает текст, организованный по главам.

curl -X POST https://api.parsejet.com/v1/parse/epub \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/feed

Парсинг RSS или Atom-ленты. Также поддерживает OPML через /v1/parse/opml.

curl -X POST https://api.parsejet.com/v1/parse/feed \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/image

Анализ изображения. Поддерживает JPG, PNG, GIF, BMP, WebP, TIFF. Макс. 20 МБ.

ПолеТипОбязательныйОписание
filefileдаИзображение
promptstringнетПользовательский промпт для анализа изображения
modelstringнетПереопределение модели зрения
curl -X POST https://api.parsejet.com/v1/parse/image \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "prompt=Describe this image"
POST

/v1/parse/image/ocr

Извлечение текста из изображения с помощью OCR.

curl -X POST https://api.parsejet.com/v1/parse/image/ocr \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

SDK

Официальные SDK

TypeScript / JavaScript

npm install parsejet
import { ParseJet } from "parsejet";

const client = new ParseJet({ apiKey: "pj_YOUR_KEY" });

// Parse a URL
const result = await client.parse.url("https://example.com");
console.log(result.text);

// Parse a file
const result = await client.parse.file(buffer, "report.pdf");
console.log(result.text);

Python

pip install parsejet
from parsejet import ParseJet

client = ParseJet(api_key="pj_YOUR_KEY")

# Parse a URL
result = client.parse.url("https://example.com")
print(result.text)

# Parse a file
with open("report.pdf", "rb") as f:
    result = client.parse.file(f, "report.pdf")
    print(result.text)

AI-агенты

MCP сервер

Используйте ParseJet как MCP (Model Context Protocol) сервер с Claude Code, Cursor или любым совместимым с MCP AI-агентом.

Установка

npm install -g @parsejet/mcp-server

Claude Code

Добавьте в .claude/settings.json вашего проекта:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Cursor

Перейдите в Настройки → MCP серверы, добавьте новый сервер:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Claude.ai (Удалённый)

Для Claude.ai в браузере используйте удалённый HTTP endpoint — локальная установка не требуется:

Endpoint:  https://api.parsejet.com/mcp
Transport: Streamable HTTP
Auth:      Bearer pj_YOUR_KEY (in Authorization header)

Перейдите в Claude.ai → Настройки → Интеграции → Добавить MCP сервер → Введите URL выше.

Доступные инструменты

Инструмент Описание
parse_urlРаспарсить любой URL (веб-страницу, YouTube и т.д.)
parse_fileРаспарсить локальный файл (PDF, DOCX, изображения и т.д.)
get_youtube_transcriptПолучить транскрипт видео YouTube с выбором языка

Лимиты запросов и цены

ParseJet использует систему кредитов. Каждый запрос расходует кредиты в зависимости от сложности формата.

Тариф Цена Кредитов/мес RPM Макс. файл
Free$0300510MB
Pro$19/mo3,0003050MB
Business$49/mo20,00060100MB
Scale$99/mo50,000200200MB
EnterpriseCustomCustomCustomCustom

Заголовки ответа включают X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset и Retry-After при ответах 429.

Коды ошибок

Все ошибки возвращают JSON с полями error и message.

СтатусКодОписание
400unsupported_formatТип файла не поддерживается
401invalid_api_keyОтсутствует или недействителен API-ключ
413file_too_largeФайл превышает лимит тарифа
422parse_errorФайл повреждён или нечитаем
429rate_limit_exceededПревышен RPM или дневной/месячный лимит
502parser_unavailableСервер парсера недоступен
504parser_timeoutПревышено время ожидания операции парсинга