ParseJet

Convertitore da PDF a File TXT

Hai bisogno di un file .txt dal tuo PDF? Carica il tuo documento e ottieni un output di testo puro — niente Markdown, niente HTML, niente tag di formattazione. Solo contenuto testuale grezzo che puoi salvare come file .txt, inviare a uno script o importare in qualsiasi sistema che accetta input di testo semplice.

Trascina un file qui o sfoglia

Accetta file PDF

Gratuito — 3 richieste/giorno, nessuna registrazione. per 300 crediti/mese gratuiti.

Come funziona

1

Carica il tuo PDF

Trascina un file PDF sopra o clicca per sfogliare. Funziona con qualsiasi PDF — basato su testo, scansionato o con contenuto misto.

2

Estrai come testo semplice

ParseJet rimuove tutta la formattazione — grassetto, corsivo, colori, font, intestazioni, piè di pagina, numeri di pagina — e restituisce contenuto testuale puro nell'ordine di lettura.

3

Salva come .txt

Copia l'output e salvalo come file .txt localmente. Oppure usa l'API per convertire in batch intere cartelle di PDF in file .txt in modo programmatico.

Funzionalità principali

Cosa rende questo pdf to txt unico.

Output .txt puro

Nessuna sintassi Markdown, nessun tag HTML, nessun artefatto di formattazione. Solo testo grezzo — esattamente ciò che strumenti come grep, awk e sed si aspettano come input.

Codifica UTF-8

L'output è sempre codificato in UTF-8, gestendo correttamente caratteri internazionali, testo CJK e simboli speciali nel file .txt risultante.

PDF scansionato → TXT

I PDF composti solo da immagini vengono elaborati automaticamente con OCR. Le pagine scansionate diventano testo reale nel tuo output .txt.

Pronto per conversione batch

Usa l'API per convertire un'intera directory di PDF in file .txt con un singolo script. Vedi gli esempi Python e Node.js qui sotto.

Rimozione del rumore

Rimuove automaticamente intestazioni, piè di pagina, numeri di pagina e filigrane che ingombrerebbero un file .txt.

Casi d'uso

Scenari comuni in cui questo strumento ti fa risparmiare tempo.

Input per pipeline di dati

Converti PDF in file .txt per l'ingestione in pipeline ETL, Apache Spark, DataFrame pandas o data warehouse. Il testo semplice è il formato di input universale.

Indicizzazione per motori di ricerca

Converti in batch un archivio PDF in file .txt per l'indicizzazione in Elasticsearch, Solr, Meilisearch o qualsiasi motore di ricerca full-text che legge testo semplice.

Dati di addestramento per ML/AI

Costruisci corpora testuali da collezioni di documenti PDF. Salva ogni PDF come file .txt per creare dataset di addestramento puliti per modelli linguistici, classificatori o sistemi NER.

Importazione in sistemi legacy

Molti sistemi, database e applicazioni mainframe più vecchi accettano solo input .txt o CSV. Converti i PDF in .txt per importarli in questi sistemi senza doverli riscrivere manualmente.

Automatizza con l'API

Usa lo stesso strumento in modo programmatico. Funziona con qualsiasi linguaggio — basta HTTP.

cURL
# Convert a single PDF to .txt
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]" \
  | jq -r '.text' > output.txt
Python
import httpx
from pathlib import Path

# Batch-convert all PDFs in a folder to .txt files
pdf_dir = Path("pdfs/")
txt_dir = Path("txt_output/")
txt_dir.mkdir(exist_ok=True)

for pdf_file in pdf_dir.glob("*.pdf"):
    resp = httpx.post(
        "https://api.parsejet.com/v1/parse/auto/file",
        headers={"Authorization": "Bearer YOUR_API_KEY"},
        files={"file": (pdf_file.name, pdf_file.read_bytes(), "application/pdf")},
    )
    txt_path = txt_dir / pdf_file.with_suffix(".txt").name
    txt_path.write_text(resp.json()["text"], encoding="utf-8")
    print(f"Saved {txt_path}")
JavaScript
import { readdir, readFile, writeFile } from "fs/promises";
import { join, basename } from "path";

// Batch-convert all PDFs in a folder to .txt files
const pdfDir = "./pdfs";
const outDir = "./txt_output";

for (const file of await readdir(pdfDir)) {
  if (!file.endsWith(".pdf")) continue;
  const formData = new FormData();
  formData.append("file", new Blob([await readFile(join(pdfDir, file))]));

  const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
    method: "POST",
    headers: { Authorization: "Bearer YOUR_API_KEY" },
    body: formData,
  });
  const { text } = await res.json();
  await writeFile(join(outDir, basename(file, ".pdf") + ".txt"), text);
}

Vuoi automatizzare questo processo?

L'API ParseJet ti offre la stessa potenza di analisi tramite un singolo endpoint HTTP. Niente ffmpeg, poppler o tesseract — basta una sola chiamata API.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
Leggi la Documentazione API

Domande frequenti

Come converto un PDF in un file .txt?

Carica il tuo PDF sopra — ParseJet estrae tutto il testo e restituisce un output di testo semplice e pulito. Copialo e salvalo come file .txt, oppure usa l'API con il reindirizzamento dell'output (vedi l'esempio cURL) per salvarlo direttamente.

Qual è la differenza tra PDF a TXT e PDF a Markdown?

PDF a TXT ti dà testo semplice grezzo senza formattazione — ideale per l'elaborazione dati, l'indicizzazione per la ricerca e gli script. PDF a Markdown preserva la struttura (titoli, tabelle, elenchi) usando la sintassi Markdown — migliore per la documentazione e la migrazione dei contenuti.

Posso convertire in batch più PDF in file .txt?

Sì. Usa l'API di ParseJet per scorrere una cartella di PDF e salvare ciascuno come file .txt. Vedi gli esempi di conversione batch in Python e JavaScript sopra.

Posso convertire un PDF scansionato in TXT?

Sì. ParseJet usa l'OCR per estrarre testo da PDF scansionati e pagine basate su immagini automaticamente. Il risultato è lo stesso output .txt pulito.

Quale codifica usa l'output .txt?

ParseJet restituisce testo codificato in UTF-8, che supporta tutte le lingue e i caratteri speciali. Quando salvi come file .txt, usa la codifica UTF-8 per preservare correttamente il contenuto.

È gratuito?

Sì. Ottieni 3 conversioni gratuite al giorno senza registrazione. Crea un account gratuito per 300 crediti al mese. I piani a pagamento partono da 19$/mese per flussi di lavoro di conversione batch.

Inizia a estrarre testo gratuitamente

Nessuna registrazione richiesta. Analizza il tuo primo file in pochi secondi.

Vedi i Prezzi