ParseJet

Dokumentation

ParseJet-Dokumentation

ParseJet extrahiert Text aus beliebigen Dateien oder URLs. Ein API-Aufruf verarbeitet PDF, DOCX, YouTube, Webseiten, Bilder, Audio, Video und 25+ weitere Formate.

Schnellstart

Erhalten Sie Ihr erstes Parse-Ergebnis in unter 60 Sekunden. Keine Anmeldung erforderlich.

1

Sofort ausprobieren

Fügen Sie eine beliebige URL in ParseJet ein — für die ersten 3 Anfragen pro Tag ist kein API-Schlüssel nötig.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
2

API-Schlüssel erhalten

Melden Sie sich mit Google oder GitHub an, um einen kostenlosen API-Schlüssel zu erhalten. Der kostenlose Tarif umfasst 300 Anfragen pro Monat.

# Add your API key to requests
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
3

Ergebnis verwenden

Jede Antwort liefert die gleiche JSON-Struktur, unabhängig vom Eingabeformat:

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "webpage",
  "metadata": { "url": "https://example.com" }
}

Authentifizierung

ParseJet bietet drei Zugriffsebenen. Sie können die API sofort ohne Authentifizierung nutzen.

Ebene Zugriff Ratenlimit Ideal für
AnonymKeine Header3/Tag, 2MBSchnelles Testen
SitzungAnmelden (Cookie)10/Tag, 5MBDashboard-Tool
API-SchlüsselAuthorization: Bearer pj_xxxNach TarifProduktion

Tipp: Sie benötigen keinen API-Schlüssel, um loszulegen. Senden Sie einfach Anfragen direkt — die ersten 3 pro Tag sind kostenlos und ohne Anmeldung.

Kernkonzepte

Unterstützte Formate

ParseJet erkennt das Format automatisch anhand der Dateiendung oder des URL-Musters. Sie müssen das Format nicht angeben – senden Sie einfach die Datei oder URL an /v1/parse/auto und ParseJet erledigt den Rest.

Kategorie Formate Credits
TextTXT, MD, JSON, CSV, XML, HTML1
DokumenteDOCX, PPTX, XLSX, EPUB2
KomplexPDF, Webseiten, Video3
YouTubeYouTube-Video-URLs5
SonstigesAudio (MP3, WAV), Bilder (JPG, PNG), RSS, OPML, E-Mail, Notizbücher1

Credits

Jede API-Anfrage verbraucht Credits basierend auf der Komplexität des zu parsenden Formats. Einfache Textdateien kosten 1 Credit, YouTube-Transkripte kosten 5. Ihr monatliches Credit-Kontingent hängt von Ihrem Tarif ab.

Ausgabeformat

Standardmäßig gibt ParseJet den rohen extrahierten Text zurück. Fügen Sie ?output_format=markdown zu einer Anfrage hinzu, um nachbearbeitete Ausgabe mit erkannten Überschriften, Listen, Tabellen und Codeblöcken zu erhalten.

Anleitung

Eine PDF parsen

Extrahieren Sie Text aus jeder PDF-Datei, einschließlich gescannter Dokumente und mehrseitiger Berichte.

PDF-Datei hochladen

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

In Markdown konvertieren

Fügen Sie output_format=markdown hinzu, um die Dokumentstruktur zu erhalten:

curl -X POST https://api.parsejet.com/v1/parse/auto/file?output_format=markdown \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Credit-Kosten: 3 Credits pro PDF. Unterstützt Dateien bis zur Dateigrößenbeschränkung Ihres Tarifs (10MB-200MB).

Anleitung

YouTube-Transkripte

Erhalten Sie das vollständige Transkript eines beliebigen YouTube-Videos. Unterstützt automatisch generierte Untertitel in über 100 Sprachen.

Transkript abrufen

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID"}'

Sprache angeben

Verwenden Sie den language-Parameter für nicht-englische Videos:

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "ja"}'

Oder automatisch erkennen lassen

Der Endpunkt /v1/parse/auto/url erkennt YouTube-URLs automatisch:

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtu.be/VIDEO_ID"}'

Credit-Kosten: 5 Credits pro YouTube-Video. Metadaten enthalten video_id, Kanal und Dauer.

Anleitung

Web-Scraping

Extrahiere den Hauptinhalt von jeder Webseite. ParseJet entfernt automatisch Navigation, Werbung, Sidebars und Boilerplate.

curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/blog/article"}'

Credit-Kosten: 3 Credits pro Webseite. Liefert sauberen Text mit Titel und Quell-URL in den Metadaten.

Anleitung

Office-Dokumente

Parse Word (DOCX), Excel (XLSX), PowerPoint (PPTX) und CSV-Dateien. Lade einfach die Datei hoch — ParseJet erkennt das Format automatisch.

# Works with any Office format
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

# Also works with spreadsheets
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Credit-Kosten: 2 Credits pro Dokument. Unterstützt: DOCX, PPTX, XLSX, CSV.

API-Referenz

Antwortformat

Alle Endpunkte liefern die gleiche JSON-Struktur:

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "pdf",
  "metadata": { "pages": 12, "author": "Jane Doe" }
}
Feld Typ Beschreibung
textstringDer extrahierte Textinhalt
titlestringDokument- oder Seitentitel
source_typestringFormatkennung (pdf, webpage, youtube, etc.)
metadataobjectFormatspezifische Metadaten (Seitenzahl, Autor, Dauer, etc.)
POST

/v1/parse/auto

Der empfohlene Endpunkt. Erkennt das Format automatisch anhand der Dateiendung oder URL. Akzeptiert file (multipart) oder url (Formularfeld), nicht beides.

curl -X POST https://api.parsejet.com/v1/parse/auto \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/auto/url

Parse jede URL. Unterscheidet automatisch zwischen YouTube und regulären Webseiten.

ParameterTypErforderlichBeschreibung
urlstringjaZu parsende URL
languagestringneinISO 639-1-Code für YouTube-Transkriptsprache
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
POST

/v1/parse/auto/file

Parse jede hochgeladene Datei. Erkennt Format anhand der Dateiendung, greift auf inhaltsbasierte Erkennung zurück.

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/webpage

Extrahiere Hauptinhalt von einer Webseite. Entfernt Navigation, Werbung und Boilerplate.

ParameterTypErforderlichBeschreibung
urlstringjaWebseiten-URL
curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'
POST

/v1/parse/youtube

Extrahiere Transkript von einem YouTube-Video. Metadaten enthalten video_id, Kanal und Dauer.

ParameterTypErforderlichBeschreibung
urlstringjaYouTube-Video-URL oder Video-ID
languagestringneinISO 639-1-Sprachcode
curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "en"}'
POST

/v1/parse/audio

Parse Audio-Dateien. Unterstützt MP3, WAV, M4A, OGG, FLAC, WebM. Max. 25MB.

FeldTypErforderlichBeschreibung
filefilejaAudiodatei
languagestringneinISO 639-1-Code
with_timestampsbooleanneinWortweise Zeitstempel einbeziehen
curl -X POST https://api.parsejet.com/v1/parse/audio \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"
POST

/v1/parse/video

Extrahiere Audio aus Video zur Transkription. Unterstützt MP4, MKV, AVI, MOV, WebM.

curl -X POST https://api.parsejet.com/v1/parse/video \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"
POST

/v1/parse/epub

Parse EPUB-E-Book. Extrahiert nach Kapiteln organisierten Text.

curl -X POST https://api.parsejet.com/v1/parse/epub \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/feed

Parse RSS- oder Atom-Feed. Unterstützt auch OPML via /v1/parse/opml.

curl -X POST https://api.parsejet.com/v1/parse/feed \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/image

Analysiere Bild. Unterstützt JPG, PNG, GIF, BMP, WebP, TIFF. Max. 20MB.

FeldTypErforderlichBeschreibung
filefilejaBilddatei
promptstringneinBenutzerdefinierte Eingabeaufforderung für Bildanalyse
modelstringneinVision-Modell-Überschreibung
curl -X POST https://api.parsejet.com/v1/parse/image \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "prompt=Describe this image"
POST

/v1/parse/image/ocr

Extrahiere Text aus Bild via OCR.

curl -X POST https://api.parsejet.com/v1/parse/image/ocr \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

SDKs

Offizielle SDKs

TypeScript / JavaScript

npm install parsejet
import { ParseJet } from "parsejet";

const client = new ParseJet({ apiKey: "pj_YOUR_KEY" });

// Parse a URL
const result = await client.parse.url("https://example.com");
console.log(result.text);

// Parse a file
const result = await client.parse.file(buffer, "report.pdf");
console.log(result.text);

Python

pip install parsejet
from parsejet import ParseJet

client = ParseJet(api_key="pj_YOUR_KEY")

# Parse a URL
result = client.parse.url("https://example.com")
print(result.text)

# Parse a file
with open("report.pdf", "rb") as f:
    result = client.parse.file(f, "report.pdf")
    print(result.text)

KI-Agenten

MCP-Server

Verwende ParseJet als MCP (Model Context Protocol) Server mit Claude Code, Cursor oder jedem MCP-kompatiblen KI-Agenten.

Installieren

npm install -g @parsejet/mcp-server

Claude Code

Füge zu deiner Projektdatei .claude/settings.json hinzu:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Cursor

Gehe zu Einstellungen → MCP-Server, füge einen neuen Server hinzu:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Claude.ai (Remote)

Für Claude.ai Web, verwende den Remote-HTTP-Endpunkt — keine lokale Installation nötig:

Endpoint:  https://api.parsejet.com/mcp
Transport: Streamable HTTP
Auth:      Bearer pj_YOUR_KEY (in Authorization header)

Gehe zu Claude.ai → Einstellungen → Integrationen → MCP-Server hinzufügen → Gib die obige URL ein.

Verfügbare Tools

Tool Beschreibung
parse_urlBeliebige URL parsen (Webseite, YouTube, etc.)
parse_fileLokale Datei parsen (PDF, DOCX, Bilder, etc.)
get_youtube_transcriptYouTube-Videotranskript mit optionaler Sprache abrufen

Ratenbegrenzungen & Preise

ParseJet verwendet ein kreditbasiertes System. Jede Anfrage verbraucht Credits basierend auf der Formatkomplexität.

Tarif Preis Credits/Monat RPM Max. Datei
Free$0300510MB
Pro$19/mo3,0003050MB
Business$49/mo20,00060100MB
Scale$99/mo50,000200200MB
EnterpriseCustomCustomCustomCustom

Antwort-Header enthalten X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset und bei 429-Antworten Retry-After.

Fehlercodes

Alle Fehler geben JSON mit den Feldern error und message zurück.

StatusCodeBeschreibung
400unsupported_formatDateityp nicht unterstützt
401invalid_api_keyFehlender oder ungültiger API-Schlüssel
413file_too_largeDatei überschreitet Planlimit
422parse_errorDatei beschädigt oder nicht lesbar
429rate_limit_exceededRPM oder Tages-/Monatslimit erreicht
502parser_unavailableParser-Backend nicht erreichbar
504parser_timeoutParse-Vorgang abgelaufen