Ekstrak Teks dari PDF

Perlu menarik teks dari PDF? Unggah file Anda dan ParseJet mengekstrak setiap kata — termasuk dari halaman pindaian melalui OCR. Sempurna untuk penelitian, ekstraksi data, migrasi konten, dan memasukkan dokumen ke model AI.

Letakkan file di sini atau telusuri

Menerima file PDF

Gratis — 3 permintaan/hari, tanpa pendaftaran. untuk 300 kredit/bulan gratis.

Cara kerjanya

Pilih PDF Anda

Unggah PDF dari komputer Anda. Mendukung PDF berbasis teks, dokumen pindaian, dan file konten campuran hingga 200 MB.

Ekstraksi teks

ParseJet memproses setiap halaman — teks digital diekstrak langsung, sementara halaman pindaian melalui OCR. Teks lengkap disusun sesuai urutan baca.

Gunakan teks Anda

Salin teks yang diekstrak, tempel di mana saja, atau integrasikan dengan API untuk mengekstrak teks dari PDF di aplikasi Anda.

Fitur utama

Apa yang membuat extract text from pdf ini menonjol.

Lebih baik dari salin-tempel

Berbeda dengan salin-tempel manual, ParseJet mempertahankan jeda baris, menangani tata letak multi-kolom, dan tidak mengacaukan urutan teks.

Dukungan dokumen pindaian

PDF hanya gambar dari pemindai atau kamera diproses dengan OCR untuk mengekstrak semua teks yang terlihat.

Ekstraksi metadata

Mengembalikan judul dokumen, penulis, jumlah halaman, dan tanggal pembuatan bersama dengan teks yang diekstrak.

Tidak perlu instalasi

Berfungsi sepenuhnya di browser Anda untuk alat online, atau melalui HTTP API untuk akses terprogram — tidak ada perangkat lunak yang perlu diinstal.

Privasi diutamakan

File diproses dan segera dibuang. Tidak ada yang disimpan di server kami setelah ekstraksi.

Kasus penggunaan

Skenario umum di mana alat ini menghemat waktu Anda.

Penelitian akademik

Ekstrak teks dari makalah penelitian dan artikel jurnal untuk alat kutipan, anotasi, atau tinjauan literatur.

Pemrosesan dokumen hukum

Ambil teks dari kontrak, berkas pengadilan, dan ringkasan hukum untuk tinjauan, perbandingan, atau alur kerja e-discovery.

Migrasi konten

Migrasikan konten hanya-PDF ke CMS, basis pengetahuan, atau wiki dengan mengekstrak teks dan memformat ulang.

Persiapan data pelatihan

Ekstrak teks dari PDF dokumen untuk membangun kumpulan data pelatihan untuk model pembelajaran mesin.

Otomatisasi dengan API

Gunakan alat yang sama secara terprogram. Bekerja dengan bahasa apa pun — cukup HTTP.

cURL

# Extract text from a local PDF file
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Extract text from a PDF URL
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/report.pdf"}'

Python

import httpx

# Extract text from a local PDF
with open("contract.pdf", "rb") as f:
    resp = httpx.post(
        "https://api.parsejet.com/v1/parse/auto/file",
        headers={"Authorization": "Bearer YOUR_API_KEY"},
        files={"file": ("contract.pdf", f, "application/pdf")},
    )
data = resp.json()
print(data["text"])      # Extracted text
print(data["title"])     # Document title
print(data["metadata"])  # Page count, author, etc.

JavaScript

// Extract text from a PDF URL
const res = await fetch("https://api.parsejet.com/v1/parse/auto/url", {
  method: "POST",
  headers: {
    Authorization: "Bearer YOUR_API_KEY",
    "Content-Type": "application/json",
  },
  body: JSON.stringify({ url: "https://example.com/report.pdf" }),
});
const { text, title, metadata } = await res.json();

Ingin mengotomatiskan ini?

ParseJet API memberikan kemampuan parsing yang sama melalui satu endpoint HTTP. Tanpa ffmpeg, tanpa poppler, tanpa tesseract — cukup satu panggilan API.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url":"https://example.com"}'

Baca Dokumentasi API

Pertanyaan yang sering diajukan

Bagaimana cara mengekstrak teks dari file PDF?

Unggah PDF Anda menggunakan alat di atas. ParseJet memprosesnya secara instan dan mengembalikan semua teks yang diekstrak. Anda juga dapat menggunakan API: POST /v1/parse/auto/file.

Bisakah saya mengekstrak teks dari PDF yang dilindungi kata sandi?

ParseJet dapat mengekstrak teks dari PDF yang mengizinkan penyalinan teks. PDF yang sepenuhnya terenkripsi yang membatasi semua akses tidak dapat diproses.

Apa perbedaannya dengan salin-tempel?

Salin-tempel dari PDF sering merusak pemformatan, kehilangan jeda baris, dan mengacaukan kolom. ParseJet mempertahankan urutan baca, menangani tata letak multi-kolom, dan mengekstrak teks dari halaman pindaian yang tidak dapat dijangkau oleh salin-tempel.

Bisakah saya mengekstrak teks dari URL PDF tanpa mengunduhnya terlebih dahulu?

Ya. Gunakan endpoint URL: POST /v1/parse/auto/url dengan URL PDF Anda. ParseJet mengunduh dan memprosesnya di sisi server — tidak perlu mengunduh file sendiri.

Format keluaran apa yang dikembalikan ParseJet?

ParseJet mengembalikan teks yang diformat Markdown secara default, mempertahankan judul, daftar, dan tabel. Ini sangat cocok untuk dokumentasi, pipa AI, dan alat apa pun yang membaca Markdown.

Apakah ini gratis?

Ya. Anda mendapatkan 3 ekstraksi gratis per hari tanpa pendaftaran. Buat akun gratis untuk 300 kredit per bulan. Paket berbayar mulai dari $19/bulan dengan batas ukuran file lebih besar dan kuota lebih tinggi.

Mulai ekstraksi teks secara gratis

Tidak perlu mendaftar. Parse file pertama Anda dalam hitungan detik.

Lihat Harga