ParseJet

Documentation

Documentation ParseJet

ParseJet extrait le texte de n'importe quel fichier ou URL. Un seul appel API gère le PDF, DOCX, YouTube, les pages web, les images, l'audio, la vidéo et 25+ autres formats.

Démarrage rapide

Obtenez votre premier résultat d'analyse en moins de 60 secondes. Aucune inscription requise.

1

Essayez instantanément

Collez n'importe quelle URL dans ParseJet — aucune clé API nécessaire pour vos 3 premières requêtes par jour.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
2

Obtenez votre clé API

Connectez-vous avec Google ou GitHub pour obtenir une clé API gratuite. Le plan gratuit inclut 300 requêtes par mois.

# Add your API key to requests
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
3

Utilisez le résultat

Chaque réponse renvoie la même structure JSON, quel que soit le format d'entrée :

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "webpage",
  "metadata": { "url": "https://example.com" }
}

Authentification

ParseJet propose trois niveaux d'accès. Vous pouvez commencer à utiliser l'API immédiatement sans aucune authentification.

Niveau Comment y accéder Limite de débit Idéal pour
AnonymeAucun en-tête3/jour, 2 MoTests rapides
SessionConnexion (cookie)10/jour, 5 MoOutil tableau de bord
Clé APIAuthorization: Bearer pj_xxxSelon le planProduction

Astuce : Vous n'avez pas besoin d'une clé API pour commencer. Envoyez simplement des requêtes directement — les 3 premières par jour sont gratuites sans inscription.

Concepts fondamentaux

Formats pris en charge

ParseJet détecte automatiquement le format à partir de l'extension du fichier ou du motif de l'URL. Vous n'avez pas besoin de spécifier le format — envoyez simplement le fichier ou l'URL à /v1/parse/auto et ParseJet s'occupe du reste.

Catégorie Formats Crédits
TexteTXT, MD, JSON, CSV, XML, HTML1
DocumentsDOCX, PPTX, XLSX, EPUB2
ComplexePDF, pages web, vidéo3
YouTubeURLs de vidéos YouTube5
AutreAudio (MP3, WAV), images (JPG, PNG), RSS, OPML, email, carnets1

Crédits

Chaque requête API consomme des crédits en fonction de la complexité du format analysé. Les fichiers texte simples coûtent 1 crédit, tandis que les transcriptions YouTube coûtent 5. Votre allocation mensuelle de crédits dépend de votre forfait.

Format de sortie

Par défaut, ParseJet renvoie le texte extrait brut. Ajoutez ?output_format=markdown à toute requête pour obtenir une sortie post-traitée avec les titres, listes, tableaux et blocs de code détectés.

Guide

Analyser un PDF

Extrayez le texte de n'importe quel fichier PDF, y compris les documents scannés et les rapports multipages.

Téléverser un fichier PDF

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Convertir en Markdown

Ajoutez output_format=markdown pour préserver la structure du document :

curl -X POST https://api.parsejet.com/v1/parse/auto/file?output_format=markdown \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Coût en crédits : 3 crédits par PDF. Prend en charge les fichiers jusqu'à la limite de taille de votre forfait (10 Mo-200 Mo).

Guide

Transcriptions YouTube

Obtenez la transcription complète de n'importe quelle vidéo YouTube. Prend en charge les sous-titres générés automatiquement dans plus de 100 langues.

Obtenir une transcription

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID"}'

Spécifier la langue

Utilisez le paramètre language pour les vidéos non anglaises :

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "ja"}'

Ou utilisez la détection automatique

Le point de terminaison /v1/parse/auto/url détecte automatiquement les URLs YouTube :

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtu.be/VIDEO_ID"}'

Coût en crédits : 5 crédits par vidéo YouTube. Les métadonnées incluent video_id, chaîne et durée.

Guide

Web Scraping

Extrayez le contenu principal de n'importe quelle page web. ParseJet supprime automatiquement la navigation, les publicités, les barres latérales et le contenu standard.

curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/blog/article"}'

Coût en crédits : 3 crédits par page web. Retourne un texte propre avec le titre et l'URL source dans les métadonnées.

Guide

Documents Office

Analysez les fichiers Word (DOCX), Excel (XLSX), PowerPoint (PPTX) et CSV. Téléchargez simplement le fichier — ParseJet détecte automatiquement le format.

# Works with any Office format
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

# Also works with spreadsheets
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Coût en crédits : 2 crédits par document. Formats pris en charge : DOCX, PPTX, XLSX, CSV.

Référence API

Format de réponse

Tous les endpoints renvoient la même structure JSON :

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "pdf",
  "metadata": { "pages": 12, "author": "Jane Doe" }
}
Champ Type Description
textstringLe contenu textuel extrait
titlestringTitre du document ou de la page
source_typestringIdentifiant de format (pdf, webpage, youtube, etc.)
metadataobjectMétadonnées spécifiques au format (nombre de pages, auteur, durée, etc.)
POST

/v1/parse/auto

L'endpoint recommandé. Détecte automatiquement le format à partir de l'extension du fichier ou du type d'URL. Accepte file (multipart) ou url (champ de formulaire), pas les deux.

curl -X POST https://api.parsejet.com/v1/parse/auto \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/auto/url

Analysez n'importe quelle URL. Distingue automatiquement YouTube des pages web classiques.

ParamètreTypeObligatoireDescription
urlstringouiURL à analyser
languagestringnonCode ISO 639-1 pour la langue des sous-titres YouTube
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
POST

/v1/parse/auto/file

Analysez n'importe quel fichier téléchargé. Détecte le format à partir de l'extension, sinon utilise une détection basée sur le contenu.

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/webpage

Extrayez le contenu principal d'une page web. Supprime la navigation, les publicités et le contenu standard.

ParamètreTypeObligatoireDescription
urlstringouiURL de page web
curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'
POST

/v1/parse/youtube

Extrayez la transcription d'une vidéo YouTube. Les métadonnées incluent video_id, chaîne et durée.

ParamètreTypeObligatoireDescription
urlstringouiURL ou ID de vidéo YouTube
languagestringnonCode de langue ISO 639-1
curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "en"}'
POST

/v1/parse/audio

Analysez les fichiers audio. Prend en charge MP3, WAV, M4A, OGG, FLAC, WebM. Max 25 Mo.

ChampTypeObligatoireDescription
filefileouiFichier audio
languagestringnonCode ISO 639-1
with_timestampsbooleannonInclure les horodatages au niveau des mots
curl -X POST https://api.parsejet.com/v1/parse/audio \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"
POST

/v1/parse/video

Extrayez l'audio d'une vidéo pour la transcription. Prend en charge MP4, MKV, AVI, MOV, WebM.

curl -X POST https://api.parsejet.com/v1/parse/video \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"
POST

/v1/parse/epub

Analysez un livre électronique EPUB. Extrait le texte organisé par chapitres.

curl -X POST https://api.parsejet.com/v1/parse/epub \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/feed

Analysez un flux RSS ou Atom. Prend également en charge OPML via /v1/parse/opml.

curl -X POST https://api.parsejet.com/v1/parse/feed \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/image

Analysez une image. Prend en charge JPG, PNG, GIF, BMP, WebP, TIFF. Max 20 Mo.

ChampTypeObligatoireDescription
filefileouiFichier image
promptstringnonInvite personnalisée pour l'analyse d'image
modelstringnonModèle de vision alternatif
curl -X POST https://api.parsejet.com/v1/parse/image \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "prompt=Describe this image"
POST

/v1/parse/image/ocr

Extrayez le texte d'une image via OCR.

curl -X POST https://api.parsejet.com/v1/parse/image/ocr \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

SDKs

SDKs officiels

TypeScript / JavaScript

npm install parsejet
import { ParseJet } from "parsejet";

const client = new ParseJet({ apiKey: "pj_YOUR_KEY" });

// Parse a URL
const result = await client.parse.url("https://example.com");
console.log(result.text);

// Parse a file
const result = await client.parse.file(buffer, "report.pdf");
console.log(result.text);

Python

pip install parsejet
from parsejet import ParseJet

client = ParseJet(api_key="pj_YOUR_KEY")

# Parse a URL
result = client.parse.url("https://example.com")
print(result.text)

# Parse a file
with open("report.pdf", "rb") as f:
    result = client.parse.file(f, "report.pdf")
    print(result.text)

Agents IA

Serveur MCP

Utilisez ParseJet comme serveur MCP (Model Context Protocol) avec Claude Code, Cursor, ou tout agent IA compatible MCP.

Installer

npm install -g @parsejet/mcp-server

Claude Code

Ajoutez à votre .claude/settings.json de projet :

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Cursor

Allez dans Paramètres → Serveurs MCP, ajoutez un nouveau serveur :

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Claude.ai (Distant)

Pour Claude.ai web, utilisez le point de terminaison HTTP distant — aucune installation locale requise :

Endpoint:  https://api.parsejet.com/mcp
Transport: Streamable HTTP
Auth:      Bearer pj_YOUR_KEY (in Authorization header)

Allez sur Claude.ai → Paramètres → Intégrations → Ajouter un serveur MCP → Saisissez l'URL ci-dessus.

Outils disponibles

Outil Description
parse_urlAnalyser n'importe quelle URL (page web, YouTube, etc.)
parse_fileAnalyser un fichier local (PDF, DOCX, images, etc.)
get_youtube_transcriptObtenir la transcription d'une vidéo YouTube avec langue optionnelle

Limites de débit & Tarification

ParseJet utilise un système basé sur des crédits. Chaque requête consomme des crédits selon la complexité du format.

Forfait Prix Crédits/mois RPM Fichier max
Free$0300510MB
Pro$19/mo3,0003050MB
Business$49/mo20,00060100MB
Scale$99/mo50,000200200MB
EnterpriseCustomCustomCustomCustom

Les en-têtes de réponse incluent X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset, et Retry-After sur les réponses 429.

Codes d'erreur

Toutes les erreurs renvoient un JSON avec les champs error et message.

StatutCodeDescription
400unsupported_formatType de fichier non pris en charge
401invalid_api_keyClé API manquante ou invalide
413file_too_largeFichier dépasse la limite du plan
422parse_errorFichier corrompu ou illisible
429rate_limit_exceededLimite RPM ou quotidienne/mensuelle atteinte
502parser_unavailableBackend de l'analyseur inaccessible
504parser_timeoutDélai d'analyse dépassé