ParseJet

Конвертер файлов PDF в TXT

Нужен файл .txt из вашего PDF? Загрузите документ и получите чистый текстовый вывод — без Markdown, HTML или тегов форматирования. Только исходное текстовое содержимое, которое можно сохранить как файл .txt, передать в скрипт или импортировать в любую систему, принимающую простой текст.

Перетащите файл сюда или выберите

Принимает файлы PDF

Бесплатно — 3 запроса/день, без регистрации. для 300 кредитов/месяц бесплатно.

Как это работает

1

Загрузите ваш PDF

Перетащите PDF-файл выше или нажмите для выбора. Работает с любым PDF — текстовым, сканированным или со смешанным содержимым.

2

Извлеките как простой текст

ParseJet удаляет всё форматирование — жирный шрифт, курсив, цвета, шрифты, заголовки, колонтитулы, номера страниц — и возвращает чистый текст в порядке чтения.

3

Сохраните как .txt

Скопируйте вывод и сохраните его локально как файл .txt. Или используйте API для программного пакетного преобразования целых папок с PDF в файлы .txt.

Ключевые особенности

Что отличает этот pdf to txt.

Чистый вывод .txt

Никакого синтаксиса Markdown, тегов HTML или артефактов форматирования. Только исходный текст — именно то, что ожидают на входе инструменты вроде grep, awk и sed.

Кодировка UTF-8

Вывод всегда в кодировке UTF-8, корректно обрабатывая международные символы, текст CJK и специальные символы в итоговом файле .txt.

Сканированный PDF → TXT

PDF, состоящие только из изображений, автоматически обрабатываются с помощью OCR. Отсканированные страницы становятся реальным текстом в вашем выводе .txt.

Готово к пакетному преобразованию

Используйте API для преобразования целого каталога PDF в файлы .txt одним скриптом. Смотрите примеры на Python и Node.js ниже.

Удаление шума

Автоматически удаляет заголовки, колонтитулы, номера страниц и водяные знаки, которые могут загромождать файл .txt.

Примеры использования

Типичные сценарии, где этот инструмент экономит ваше время.

Вход для конвейера данных

Конвертируйте PDF в файлы .txt для загрузки в ETL-конвейеры, Apache Spark, pandas DataFrames или хранилища данных. Простой текст — универсальный формат ввода.

Индексация для поисковых систем

Пакетно конвертируйте архив PDF в файлы .txt для индексации в Elasticsearch, Solr, Meilisearch или любой полнотекстовой поисковой системе, читающей простой текст.

Данные для обучения ML/AI

Создавайте текстовые корпуса из коллекций PDF-документов. Сохраняйте каждый PDF как файл .txt, чтобы создавать чистые наборы данных для обучения языковых моделей, классификаторов или систем NER.

Импорт в устаревшие системы

Многие старые системы, базы данных и мейнфрейм-приложения принимают только ввод в формате .txt или CSV. Конвертируйте PDF в .txt для импорта в такие системы без ручного перепечатывания.

Автоматизируйте с помощью API

Используйте тот же инструмент программно. Работает с любым языком — только HTTP.

cURL
# Convert a single PDF to .txt
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]" \
  | jq -r '.text' > output.txt
Python
import httpx
from pathlib import Path

# Batch-convert all PDFs in a folder to .txt files
pdf_dir = Path("pdfs/")
txt_dir = Path("txt_output/")
txt_dir.mkdir(exist_ok=True)

for pdf_file in pdf_dir.glob("*.pdf"):
    resp = httpx.post(
        "https://api.parsejet.com/v1/parse/auto/file",
        headers={"Authorization": "Bearer YOUR_API_KEY"},
        files={"file": (pdf_file.name, pdf_file.read_bytes(), "application/pdf")},
    )
    txt_path = txt_dir / pdf_file.with_suffix(".txt").name
    txt_path.write_text(resp.json()["text"], encoding="utf-8")
    print(f"Saved {txt_path}")
JavaScript
import { readdir, readFile, writeFile } from "fs/promises";
import { join, basename } from "path";

// Batch-convert all PDFs in a folder to .txt files
const pdfDir = "./pdfs";
const outDir = "./txt_output";

for (const file of await readdir(pdfDir)) {
  if (!file.endsWith(".pdf")) continue;
  const formData = new FormData();
  formData.append("file", new Blob([await readFile(join(pdfDir, file))]));

  const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
    method: "POST",
    headers: { Authorization: "Bearer YOUR_API_KEY" },
    body: formData,
  });
  const { text } = await res.json();
  await writeFile(join(outDir, basename(file, ".pdf") + ".txt"), text);
}

Хотите автоматизировать это?

ParseJet API предоставляет те же возможности парсинга через один HTTP-эндпоинт. Никакого ffmpeg, poppler или tesseract — всего один вызов API.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
Читать документацию API

Часто задаваемые вопросы

Как конвертировать PDF в файл .txt?

Загрузите ваш PDF выше — ParseJet извлечёт весь текст и вернёт чистый текстовый вывод. Скопируйте его и сохраните как файл .txt или используйте API с перенаправлением вывода (см. пример cURL) для прямого сохранения.

В чём разница между PDF в TXT и PDF в Markdown?

PDF в TXT даёт вам исходный простой текст без форматирования — идеально для обработки данных, поисковой индексации и скриптов. PDF в Markdown сохраняет структуру (заголовки, таблицы, списки) с использованием синтаксиса Markdown — лучше для документации и миграции контента.

Можно ли пакетно конвертировать несколько PDF в файлы .txt?

Да. Используйте API ParseJet для перебора папки с PDF и сохранения каждого как файла .txt. Смотрите примеры пакетного преобразования на Python и JavaScript выше.

Можно ли конвертировать сканированный PDF в TXT?

Да. ParseJet использует OCR для автоматического извлечения текста из сканированных PDF и страниц на основе изображений. Результат — такой же чистый вывод .txt.

Какую кодировку использует вывод .txt?

ParseJet возвращает текст в кодировке UTF-8, которая поддерживает все языки и специальные символы. При сохранении в файл .txt используйте кодировку UTF-8 для корректного сохранения содержимого.

Это бесплатно?

Да. Вы получаете 3 бесплатных преобразования в день без регистрации. Создайте бесплатный аккаунт на 300 кредитов в месяц. Платные тарифы начинаются от $19/мес. для рабочих процессов пакетного преобразования.

Начните извлекать текст бесплатно

Регистрация не требуется. Обработайте первый файл за секунды.

Посмотреть тарифы