ParseJet

PDF Parser

ParseJet adalah parser PDF ramah pengembang yang mengekstrak teks, judul, dan metadata dari PDF apa pun melalui satu panggilan API. Tidak perlu instal dependensi — ganti pdf-parse, pdfplumber, atau PyMuPDF dengan satu endpoint HTTP.

Letakkan file di sini atau telusuri

Menerima file PDF

Gratis — 3 permintaan/hari, tanpa pendaftaran. untuk 300 kredit/bulan gratis.

Cara kerjanya

1

Kirim PDF Anda

Unggah file di alat di atas, atau POST ke API. ParseJet mendeteksi format secara otomatis — tidak perlu konfigurasi.

2

Parse dan ekstrak

ParseJet mengekstrak teks, judul, penulis, jumlah halaman, dan struktur konten. OCR diterapkan otomatis untuk halaman yang discan.

3

Dapatkan JSON terstruktur

Terima respons JSON bersih dengan teks, judul, source_type, dan metadata — siap digunakan di aplikasi Anda.

Fitur utama

Apa yang membuat pdf parser ini menonjol.

Tanpa dependensi

Tidak perlu instal poppler, pdftotext, atau pustaka native apa pun. ParseJet adalah API terhosting — cukup lakukan permintaan HTTP.

Pengganti langsung

Ganti pdf-parse (Node.js), pdfplumber (Python), atau PyMuPDF dengan satu panggilan API. Berfungsi dari bahasa pemrograman apa pun.

Metadata lengkap

Mengembalikan judul dokumen, penulis, tanggal pembuatan, jumlah halaman, dan tipe konten yang terdeteksi — bukan hanya teks mentah.

Output JSON konsisten

Setiap respons mengikuti skema yang sama: { text, title, source_type, metadata }. Tidak perlu penanganan khusus format.

OCR bawaan

PDF yang discan diproses dengan OCR secara otomatis. Tidak perlu langkah atau konfigurasi OCR terpisah.

Deteksi tabel

Mendeteksi data tabel dalam PDF. Minta output Markdown untuk tabel yang diformat dengan benar.

Kasus penggunaan

Skenario umum di mana alat ini menghemat waktu Anda.

Ganti pdf-parse di Node.js

Jika Anda menggunakan paket npm pdf-parse dan mengalami masalah dengan dependensi native atau perawatan, ParseJet adalah pengganti langsung via HTTP.

Ganti pdfplumber di Python

pdfplumber memerlukan Python dan pustaka native. ParseJet menyediakan ekstraksi yang sama via API, sehingga dapat dipanggil dari bahasa atau fungsi serverless apa pun.

Pipelines pemrosesan dokumen

Bangun alur kerja otomatis yang mem-parse PDF masuk — faktur, laporan, formulir — dan arahkan data yang diekstrak ke database atau CRM Anda.

Ingesti dokumen RAG

Parse PDF sebagai bagian dari pipeline retrieval-augmented generation Anda. ParseJet mengembalikan teks terstruktur yang memberi konteks lebih baik untuk LLM.

Otomatisasi dengan API

Gunakan alat yang sama secara terprogram. Bekerja dengan bahasa apa pun — cukup HTTP.

cURL
# Parse a PDF and get text + metadata
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Response:
# {
#   "text": "Invoice #1234\nDate: 2026-03-15\n...",
#   "title": "Invoice #1234",
#   "source_type": "pdf",
#   "metadata": { "pages": 2, "author": "Acme Corp" }
# }
Python
import httpx

# Before (pdf-parse / pdfplumber):
#   import pdfplumber
#   with pdfplumber.open("invoice.pdf") as pdf:
#       text = "\n".join(p.extract_text() for p in pdf.pages)

# After (ParseJet — no dependencies):
resp = httpx.post(
    "https://api.parsejet.com/v1/parse/auto/file",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    files={"file": open("invoice.pdf", "rb")},
)
result = resp.json()
text = result["text"]          # All text, all pages
title = result["title"]        # Document title
pages = result["metadata"]["pages"]  # Page count
JavaScript
// Before (pdf-parse):
//   const pdfParse = require("pdf-parse");
//   const data = await pdfParse(buffer);

// After (ParseJet — no native dependencies):
const formData = new FormData();
formData.append("file", pdfBuffer, "invoice.pdf");

const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
  method: "POST",
  headers: { Authorization: "Bearer YOUR_API_KEY" },
  body: formData,
});
const { text, title, source_type, metadata } = await res.json();
// Works in Node.js, Deno, Bun, Cloudflare Workers — anywhere with fetch

Ingin mengotomatiskan ini?

ParseJet API memberikan kemampuan parsing yang sama melalui satu endpoint HTTP. Tanpa ffmpeg, tanpa poppler, tanpa tesseract — cukup satu panggilan API.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
Baca Dokumentasi API

Pertanyaan yang sering diajukan

Bagaimana ParseJet dibandingkan dengan pdf-parse (npm)?

pdf-parse adalah pustaka Node.js yang memerlukan instalasi lokal dan hanya menangani ekstraksi teks dasar. ParseJet adalah API terhosting yang mengekstrak teks, metadata, dan struktur dari PDF apa pun — termasuk dokumen yang discan via OCR — tanpa dependensi.

Bagaimana perbandingannya dengan pdfplumber (Python)?

pdfplumber sangat baik untuk ekstraksi tabel tetapi memerlukan Python dan pemrosesan lokal. ParseJet menawarkan kemampuan serupa via HTTP, sehingga dapat digunakan dari bahasa apa pun tanpa menginstal Python atau dependensi native.

Metadata apa yang diekstrak oleh parser PDF?

ParseJet mengekstrak judul dokumen, penulis, tanggal pembuatan, jumlah halaman, dan tipe konten yang terdeteksi. Teks lengkap dan metadata dikembalikan dalam respons JSON terstruktur.

Bisakah saya menggunakannya di lingkungan serverless?

Ya. Karena ParseJet adalah API HTTP, ia berfungsi di AWS Lambda, Vercel Functions, Cloudflare Workers, dan platform serverless apa pun — tidak ada dependensi biner native yang perlu dibundle.

Apakah mendukung ekstraksi tabel PDF?

Ya. ParseJet mendeteksi dan mengekstrak tabel dari PDF dan mengembalikannya sebagai tabel Markdown yang diformat dengan benar secara default.

Apakah gratis?

Ya. Anda mendapatkan 3 parse gratis per hari tanpa pendaftaran. Buat akun gratis untuk 300 kredit per bulan. Paket berbayar mulai dari $19/bulan dengan batas kecepatan dan kuota ukuran file yang lebih tinggi.

Mulai ekstraksi teks secara gratis

Tidak perlu mendaftar. Parse file pertama Anda dalam hitungan detik.

Lihat Harga