ParseJet

Konwerter plików PDF na TXT

Potrzebujesz pliku .txt z PDF-a? Prześlij dokument i otrzymaj czysty tekst — bez Markdown, HTML ani tagów formatowania. Tylko surowa treść tekstowa, którą możesz zapisać jako plik .txt, przekazać do skryptu lub zaimportować do dowolnego systemu akceptującego zwykły tekst.

Upuść plik tutaj lub przeglądaj

Akceptuje pliki PDF

Darmowe — 3 żądania/dzień, bez rejestracji. za 300 kredytów/miesiąc za darmo.

Jak to działa

1

Prześlij swój PDF

Upuść plik PDF powyżej lub kliknij, aby przeglądać. Działa z każdym PDF-em — tekstowym, zeskanowanym lub o mieszanej zawartości.

2

Wyodrębnij jako zwykły tekst

ParseJet usuwa całe formatowanie — pogrubienie, kursywa, kolory, czcionki, nagłówki, stopki, numery stron — i zwraca czystą treść tekstową w kolejności czytania.

3

Zapisz jako .txt

Skopiuj wynik i zapisz go lokalnie jako plik .txt. Lub użyj API, aby programowo zbiorczo konwertować całe foldery PDF na pliki .txt.

Kluczowe funkcje

Co wyróżnia to pdf to txt.

Czysty wynik .txt

Brak składni Markdown, tagów HTML ani artefaktów formatowania. Tylko surowy tekst — dokładnie to, czego oczekują narzędzia takie jak grep, awk i sed jako wejście.

Kodowanie UTF-8

Wynik jest zawsze kodowany w UTF-8, poprawnie obsługując znaki międzynarodowe, tekst CJK i specjalne symbole w wynikowym pliku .txt.

Skanowany PDF → TXT

PDF-y zawierające tylko obrazy są automatycznie przetwarzane przez OCR. Zeskanowane strony stają się prawdziwym tekstem w Twoim wyniku .txt.

Gotowe do konwersji zbiorczej

Użyj API, aby przekonwertować cały katalog PDF-ów na pliki .txt w jednym skrypcie. Zobacz przykłady w Pythonie i Node.js poniżej.

Usuwanie szumu

Automatycznie usuwa nagłówki, stopki, numery stron i znaki wodne, które zaśmieciłyby plik .txt.

Przykłady zastosowań

Typowe scenariusze, w których to narzędzie oszczędza czas.

Wejście do potoku danych

Konwertuj PDF-y na pliki .txt do wczytania do potoków ETL, Apache Spark, pandas DataFrames lub hurtowni danych. Zwykły tekst to uniwersalny format wejściowy.

Indeksowanie w wyszukiwarkach

Zbiorczo konwertuj archiwum PDF na pliki .txt do indeksowania w Elasticsearch, Solr, Meilisearch lub dowolnej wyszukiwarce pełnotekstowej czytającej zwykły tekst.

Dane treningowe dla ML/AI

Buduj korpusy tekstowe z kolekcji dokumentów PDF. Zapisz każdy PDF jako plik .txt, aby stworzyć czyste zbiory danych treningowych dla modeli językowych, klasyfikatorów lub systemów NER.

Import do systemów legacy

Wiele starszych systemów, baz danych i aplikacji mainframe akceptuje tylko dane wejściowe w formacie .txt lub CSV. Konwertuj PDF-y na .txt, aby zaimportować je do tych systemów bez ręcznego przepisywania.

Automatyzuj za pomocą API

Użyj tego samego narzędzia programistycznie. Działa z dowolnym językiem — wystarczy HTTP.

cURL
# Convert a single PDF to .txt
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]" \
  | jq -r '.text' > output.txt
Python
import httpx
from pathlib import Path

# Batch-convert all PDFs in a folder to .txt files
pdf_dir = Path("pdfs/")
txt_dir = Path("txt_output/")
txt_dir.mkdir(exist_ok=True)

for pdf_file in pdf_dir.glob("*.pdf"):
    resp = httpx.post(
        "https://api.parsejet.com/v1/parse/auto/file",
        headers={"Authorization": "Bearer YOUR_API_KEY"},
        files={"file": (pdf_file.name, pdf_file.read_bytes(), "application/pdf")},
    )
    txt_path = txt_dir / pdf_file.with_suffix(".txt").name
    txt_path.write_text(resp.json()["text"], encoding="utf-8")
    print(f"Saved {txt_path}")
JavaScript
import { readdir, readFile, writeFile } from "fs/promises";
import { join, basename } from "path";

// Batch-convert all PDFs in a folder to .txt files
const pdfDir = "./pdfs";
const outDir = "./txt_output";

for (const file of await readdir(pdfDir)) {
  if (!file.endsWith(".pdf")) continue;
  const formData = new FormData();
  formData.append("file", new Blob([await readFile(join(pdfDir, file))]));

  const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
    method: "POST",
    headers: { Authorization: "Bearer YOUR_API_KEY" },
    body: formData,
  });
  const { text } = await res.json();
  await writeFile(join(outDir, basename(file, ".pdf") + ".txt"), text);
}

Chcesz to zautomatyzować?

ParseJet API daje Ci tę samą moc parsowania przez jeden punkt końcowy HTTP. Bez ffmpeg, bez poppler, bez tesseract — tylko jedno wywołanie API.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
Przeczytaj dokumentację API

Często zadawane pytania

Jak przekonwertować PDF na plik .txt?

Prześlij swój PDF powyżej — ParseJet wyodrębnia cały tekst i zwraca czysty wynik w postaci zwykłego tekstu. Skopiuj go i zapisz jako plik .txt lub użyj API z przekierowaniem wyjścia (zobacz przykład cURL), aby zapisać bezpośrednio.

Jaka jest różnica między PDF na TXT a PDF na Markdown?

PDF na TXT daje surowy tekst bez formatowania — idealny do przetwarzania danych, indeksowania w wyszukiwarkach i skryptów. PDF na Markdown zachowuje strukturę (nagłówki, tabele, listy) przy użyciu składni Markdown — lepsze do dokumentacji i migracji treści.

Czy mogę zbiorczo konwertować wiele plików PDF na pliki .txt?

Tak. Użyj API ParseJet, aby przejść przez folder PDF-ów i zapisać każdy jako plik .txt. Zobacz przykłady konwersji zbiorczej w Pythonie i JavaScript powyżej.

Czy mogę przekonwertować zeskanowany PDF na TXT?

Tak. ParseJet używa OCR do automatycznego wyodrębniania tekstu z zeskanowanych PDF-ów i stron opartych na obrazach. Wynikiem jest ten sam czysty wynik .txt.

Jakiego kodowania używa wynik .txt?

ParseJet zwraca tekst zakodowany w UTF-8, który obsługuje wszystkie języki i znaki specjalne. Podczas zapisywania jako plik .txt użyj kodowania UTF-8, aby poprawnie zachować treść.

Czy to jest darmowe?

Tak. Otrzymujesz 3 darmowe konwersje dziennie bez rejestracji. Utwórz darmowe konto, aby otrzymać 300 kredytów miesięcznie. Płatne plany zaczynają się od 19 USD/miesiąc dla przepływów pracy konwersji zbiorczej.

Zacznij bezpłatnie wyodrębniać tekst

Bez rejestracji. Przeanalizuj swój pierwszy plik w kilka sekund.

Zobacz cennik