Analyseur PDF

ParseJet est un analyseur PDF convivial pour développeurs qui extrait le texte, le titre et les métadonnées de n'importe quel PDF via un simple appel API. Aucune dépendance à installer — remplacez pdf-parse, pdfplumber ou PyMuPDF par un seul endpoint HTTP.

Déposez un fichier ici ou parcourir

Accepte les fichiers PDF

Gratuit — 3 requêtes/jour, pas d'inscription. pour 300 crédits/mois gratuits.

Comment ça marche

Envoyez votre PDF

Téléversez un fichier dans l'outil ci-dessus, ou envoyez-le en POST à l'API. ParseJet détecte automatiquement le format — aucune configuration nécessaire.

Analyse et extraction

ParseJet extrait le texte, le titre, l'auteur, le nombre de pages et la structure du contenu. L'OCR est appliqué automatiquement aux pages scannées.

Obtenez un JSON structuré

Recevez une réponse JSON propre avec le texte, le titre, source_type et les métadonnées — prêt à être utilisé dans votre application.

Fonctionnalités clés

Ce qui distingue ce pdf parser.

Zéro dépendance

Pas besoin d'installer poppler, pdftotext ou des bibliothèques natives. ParseJet est une API hébergée — faites simplement une requête HTTP.

Remplacement direct

Remplacez pdf-parse (Node.js), pdfplumber (Python) ou PyMuPDF par un seul appel API. Fonctionne depuis n'importe quel langage.

Métadonnées riches

Retourne le titre du document, l'auteur, la date de création, le nombre de pages et le type de contenu détecté — pas seulement le texte brut.

Sortie JSON cohérente

Chaque réponse suit le même schéma : { text, title, source_type, metadata }. Aucune gestion spécifique au format nécessaire.

OCR intégré

Les PDF scannés sont traités avec OCR automatiquement. Aucune étape ou configuration OCR séparée requise.

Détection de tableaux

Détecte les données tabulaires dans les PDF. Demandez une sortie Markdown pour des tableaux correctement formatés.

Cas d'utilisation

Scénarios courants où cet outil vous fait gagner du temps.

Remplacer pdf-parse en Node.js

Si vous utilisez le package npm pdf-parse et rencontrez des problèmes avec les dépendances natives ou la maintenance, ParseJet est un remplacement direct via HTTP.

Remplacer pdfplumber en Python

pdfplumber nécessite Python et des bibliothèques natives. ParseJet fournit la même extraction via API, vous pouvez donc l'appeler depuis n'importe quel langage ou fonction serverless.

Pipelines de traitement de documents

Créez des flux de travail automatisés qui analysent les PDF entrants — factures, rapports, formulaires — et acheminent les données extraites vers votre base de données ou CRM.

Ingestion de documents pour RAG

Analysez les PDFs dans le cadre de votre pipeline de génération augmentée par récupération. ParseJet retourne un texte structuré qui donne un meilleur contexte aux LLMs.

Automatiser avec l'API

Utilisez le même outil de manière programmatique. Fonctionne avec n'importe quel langage — juste du HTTP.

cURL

# Parse a PDF and get text + metadata
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Response:
# {
#   "text": "Invoice #1234\nDate: 2026-03-15\n...",
#   "title": "Invoice #1234",
#   "source_type": "pdf",
#   "metadata": { "pages": 2, "author": "Acme Corp" }
# }

Python

import httpx

# Before (pdf-parse / pdfplumber):
#   import pdfplumber
#   with pdfplumber.open("invoice.pdf") as pdf:
#       text = "\n".join(p.extract_text() for p in pdf.pages)

# After (ParseJet — no dependencies):
resp = httpx.post(
    "https://api.parsejet.com/v1/parse/auto/file",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    files={"file": open("invoice.pdf", "rb")},
)
result = resp.json()
text = result["text"]          # All text, all pages
title = result["title"]        # Document title
pages = result["metadata"]["pages"]  # Page count

JavaScript

// Before (pdf-parse):
//   const pdfParse = require("pdf-parse");
//   const data = await pdfParse(buffer);

// After (ParseJet — no native dependencies):
const formData = new FormData();
formData.append("file", pdfBuffer, "invoice.pdf");

const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
  method: "POST",
  headers: { Authorization: "Bearer YOUR_API_KEY" },
  body: formData,
});
const { text, title, source_type, metadata } = await res.json();
// Works in Node.js, Deno, Bun, Cloudflare Workers — anywhere with fetch

Vous voulez automatiser cela ?

L'API ParseJet vous offre la même puissance d'analyse via un seul point de terminaison HTTP. Pas de ffmpeg, poppler ou tesseract — juste un appel API.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url":"https://example.com"}'

Lire la documentation API

Questions fréquentes

Comment ParseJet se compare-t-il à pdf-parse (npm) ?

pdf-parse est une bibliothèque Node.js qui nécessite une installation locale et ne gère que l'extraction de texte basique. ParseJet est une API hébergée qui extrait le texte, les métadonnées et la structure de n'importe quel PDF — y compris les documents scannés via OCR — avec zéro dépendance.

Comment se compare-t-il à pdfplumber (Python) ?

pdfplumber est excellent pour l'extraction de tableaux mais nécessite Python et un traitement local. ParseJet offre des capacités similaires via HTTP, vous pouvez donc l'utiliser depuis n'importe quel langage sans installer Python ou des dépendances natives.

Quelles métadonnées l'analyseur PDF extrait-il ?

ParseJet extrait le titre du document, l'auteur, la date de création, le nombre de pages et le type de contenu détecté. Le texte complet et les métadonnées sont retournés dans une réponse JSON structurée.

Puis-je l'utiliser dans un environnement serverless ?

Oui. Puisque ParseJet est une API HTTP, elle fonctionne avec AWS Lambda, Vercel Functions, Cloudflare Workers et toute plateforme serverless — aucune dépendance binaire native à empaqueter.

Prend-il en charge l'extraction de tableaux PDF ?

Oui. ParseJet détecte et extrait les tableaux des PDF et les retourne par défaut sous forme de tableaux Markdown correctement formatés.

Est-ce gratuit ?

Oui. Vous obtenez 3 analyses gratuites par jour sans inscription. Créez un compte gratuit pour 300 crédits par mois. Les plans payants commencent à 19 $/mois avec des limites de débit et des quotas de taille de fichier plus élevés.

Commencez à extraire du texte gratuitement

Aucune inscription requise. Analysez votre premier fichier en quelques secondes.

Voir les tarifs