PDF Parser

ParseJet is een ontwikkelaarsvriendelijke PDF-parser die tekst, titel en metadata uit elke PDF extraheert via één enkele API-aanroep. Geen afhankelijkheden om te installeren — vervang pdf-parse, pdfplumber of PyMuPDF door één HTTP-endpoint.

Sleep een bestand hierheen of blader

Accepteert PDF bestanden

Gratis — 3 verzoeken/dag, geen aanmelding. voor 300 credits/maand gratis.

Hoe het werkt

Stuur je PDF

Upload een bestand in de tool hierboven, of POST het naar de API. ParseJet detecteert het formaat automatisch — geen configuratie nodig.

Parse en extraheer

ParseJet extraheert tekst, titel, auteur, aantal pagina's en inhoudsstructuur. OCR wordt automatisch toegepast op gescande pagina's.

Ontvang gestructureerde JSON

Ontvang een schone JSON-response met tekst, titel, source_type en metadata — klaar voor gebruik in je applicatie.

Belangrijkste kenmerken

Wat deze pdf parser onderscheidt.

Geen afhankelijkheden

Geen noodzaak om poppler, pdftotext of native bibliotheken te installeren. ParseJet is een gehoste API — doe gewoon een HTTP-verzoek.

Drop-in vervanging

Vervang pdf-parse (Node.js), pdfplumber (Python) of PyMuPDF door één enkele API-aanroep. Werkt vanuit elke programmeertaal.

Rijke metadata

Geeft documenttitel, auteur, aanmaakdatum, aantal pagina's en gedetecteerd inhoudstype terug — niet alleen ruwe tekst.

Consistente JSON-output

Elke response volgt hetzelfde schema: { text, title, source_type, metadata }. Geen formaatspecifieke afhandeling nodig.

Ingebouwde OCR

Gescande PDF's worden automatisch met OCR verwerkt. Geen aparte OCR-stap of configuratie vereist.

Tabeldetectie

Detecteert tabelgegevens in PDF's. Vraag Markdown-output aan voor correct opgemaakte tabellen.

Gebruiksscenario's

Veelvoorkomende situaties waarin deze tool je tijd bespaart.

Vervang pdf-parse in Node.js

Als je het npm-pakket pdf-parse gebruikt en problemen ondervindt met native afhankelijkheden of onderhoud, is ParseJet een drop-in vervanging via HTTP.

Vervang pdfplumber in Python

pdfplumber vereist Python en native bibliotheken. ParseJet biedt dezelfde extractie via API, zodat je het vanuit elke taal of serverloze functie kunt aanroepen.

Documentverwerkingspijplijnen

Bouw geautomatiseerde workflows die inkomende PDF's parsen — facturen, rapporten, formulieren — en de geëxtraheerde data naar je database of CRM routeren.

RAG-documentinname

Parse PDF's als onderdeel van je retrieval-augmented generation-pijplijn. ParseJet retourneert gestructureerde tekst die LLM's betere context geeft.

Automatiseer met de API

Gebruik dezelfde tool programmatisch. Werkt met elke taal — gewoon HTTP.

cURL

# Parse a PDF and get text + metadata
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Response:
# {
#   "text": "Invoice #1234\nDate: 2026-03-15\n...",
#   "title": "Invoice #1234",
#   "source_type": "pdf",
#   "metadata": { "pages": 2, "author": "Acme Corp" }
# }

Python

import httpx

# Before (pdf-parse / pdfplumber):
#   import pdfplumber
#   with pdfplumber.open("invoice.pdf") as pdf:
#       text = "\n".join(p.extract_text() for p in pdf.pages)

# After (ParseJet — no dependencies):
resp = httpx.post(
    "https://api.parsejet.com/v1/parse/auto/file",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    files={"file": open("invoice.pdf", "rb")},
)
result = resp.json()
text = result["text"]          # All text, all pages
title = result["title"]        # Document title
pages = result["metadata"]["pages"]  # Page count

JavaScript

// Before (pdf-parse):
//   const pdfParse = require("pdf-parse");
//   const data = await pdfParse(buffer);

// After (ParseJet — no native dependencies):
const formData = new FormData();
formData.append("file", pdfBuffer, "invoice.pdf");

const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
  method: "POST",
  headers: { Authorization: "Bearer YOUR_API_KEY" },
  body: formData,
});
const { text, title, source_type, metadata } = await res.json();
// Works in Node.js, Deno, Bun, Cloudflare Workers — anywhere with fetch

Wil je dit automatiseren?

ParseJet API geeft je dezelfde parsingkracht via één HTTP endpoint. Geen ffmpeg, geen poppler, geen tesseract — slechts één API-aanroep.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url":"https://example.com"}'

API-documentatie lezen

Veelgestelde vragen

Hoe verhoudt ParseJet zich tot pdf-parse (npm)?

pdf-parse is een Node.js-bibliotheek die lokale installatie vereist en alleen basis teksextractie afhandelt. ParseJet is een gehoste API die tekst, metadata en structuur uit elke PDF extraheert — inclusief gescande documenten via OCR — zonder afhankelijkheden.

Hoe verhoudt het zich tot pdfplumber (Python)?

pdfplumber is uitstekend voor tabelextractie maar vereist Python en lokale verwerking. ParseJet biedt vergelijkbare mogelijkheden via HTTP, zodat je het vanuit elke taal kunt gebruiken zonder Python of native afhankelijkheden te installeren.

Welke metadata extraheert de PDF-parser?

ParseJet extraheert de documenttitel, auteur, aanmaakdatum, aantal pagina's en gedetecteerd inhoudstype. De volledige tekst en metadata worden geretourneerd in een gestructureerde JSON-response.

Kan ik het gebruiken in een serverloze omgeving?

Ja. Omdat ParseJet een HTTP-API is, werkt het in AWS Lambda, Vercel Functions, Cloudflare Workers en elk serverloos platform — geen native binaire afhankelijkheden om te bundelen.

Ondersteunt het PDF-tabelextractie?

Ja. ParseJet detecteert en extraheert tabellen uit PDF's en retourneert ze standaard als correct opgemaakte Markdown-tabellen.

Is het gratis?

Ja. Je krijgt 3 gratis parses per dag zonder aanmelding. Maak een gratis account aan voor 300 credits per maand. Betaalde abonnementen beginnen vanaf $19/maand met hogere snelheidslimieten en bestandsgroottequota.

Start gratis met tekst extraheren

Geen aanmelding nodig. Parse je eerste bestand in seconden.

Bekijk Prijzen