Ekstrak Teks dari PDF
Perlu menarik teks dari PDF? Unggah file Anda dan ParseJet mengekstrak setiap kata — termasuk dari halaman pindaian melalui OCR. Sempurna untuk penelitian, ekstraksi data, migrasi konten, dan memasukkan dokumen ke model AI.
Letakkan file di sini atau telusuri
Menerima file PDF
Gratis — 3 permintaan/hari, tanpa pendaftaran. untuk 300 kredit/bulan gratis.
Cara kerjanya
Pilih PDF Anda
Unggah PDF dari komputer Anda. Mendukung PDF berbasis teks, dokumen pindaian, dan file konten campuran hingga 200 MB.
Ekstraksi teks
ParseJet memproses setiap halaman — teks digital diekstrak langsung, sementara halaman pindaian melalui OCR. Teks lengkap disusun sesuai urutan baca.
Gunakan teks Anda
Salin teks yang diekstrak, tempel di mana saja, atau integrasikan dengan API untuk mengekstrak teks dari PDF di aplikasi Anda.
Fitur utama
Apa yang membuat extract text from pdf ini menonjol.
Lebih baik dari salin-tempel
Berbeda dengan salin-tempel manual, ParseJet mempertahankan jeda baris, menangani tata letak multi-kolom, dan tidak mengacaukan urutan teks.
Dukungan dokumen pindaian
PDF hanya gambar dari pemindai atau kamera diproses dengan OCR untuk mengekstrak semua teks yang terlihat.
Ekstraksi metadata
Mengembalikan judul dokumen, penulis, jumlah halaman, dan tanggal pembuatan bersama dengan teks yang diekstrak.
Tidak perlu instalasi
Berfungsi sepenuhnya di browser Anda untuk alat online, atau melalui HTTP API untuk akses terprogram — tidak ada perangkat lunak yang perlu diinstal.
Privasi diutamakan
File diproses dan segera dibuang. Tidak ada yang disimpan di server kami setelah ekstraksi.
Kasus penggunaan
Skenario umum di mana alat ini menghemat waktu Anda.
Penelitian akademik
Ekstrak teks dari makalah penelitian dan artikel jurnal untuk alat kutipan, anotasi, atau tinjauan literatur.
Pemrosesan dokumen hukum
Ambil teks dari kontrak, berkas pengadilan, dan ringkasan hukum untuk tinjauan, perbandingan, atau alur kerja e-discovery.
Migrasi konten
Migrasikan konten hanya-PDF ke CMS, basis pengetahuan, atau wiki dengan mengekstrak teks dan memformat ulang.
Persiapan data pelatihan
Ekstrak teks dari PDF dokumen untuk membangun kumpulan data pelatihan untuk model pembelajaran mesin.
Otomatisasi dengan API
Gunakan alat yang sama secara terprogram. Bekerja dengan bahasa apa pun — cukup HTTP.
# Extract text from a local PDF file curl -X POST https://api.parsejet.com/v1/parse/auto/file \ -H "Authorization: Bearer YOUR_API_KEY" \ -F "[email protected]" # Extract text from a PDF URL curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Authorization: Bearer YOUR_API_KEY" \ -H "Content-Type: application/json" \ -d '{"url": "https://example.com/report.pdf"}'
import httpx
# Extract text from a local PDF
with open("contract.pdf", "rb") as f:
resp = httpx.post(
"https://api.parsejet.com/v1/parse/auto/file",
headers={"Authorization": "Bearer YOUR_API_KEY"},
files={"file": ("contract.pdf", f, "application/pdf")},
)
data = resp.json()
print(data["text"]) # Extracted text
print(data["title"]) # Document title
print(data["metadata"]) # Page count, author, etc. // Extract text from a PDF URL
const res = await fetch("https://api.parsejet.com/v1/parse/auto/url", {
method: "POST",
headers: {
Authorization: "Bearer YOUR_API_KEY",
"Content-Type": "application/json",
},
body: JSON.stringify({ url: "https://example.com/report.pdf" }),
});
const { text, title, metadata } = await res.json(); Ingin mengotomatiskan ini?
ParseJet API memberikan kemampuan parsing yang sama melalui satu endpoint HTTP. Tanpa ffmpeg, tanpa poppler, tanpa tesseract — cukup satu panggilan API.
Pertanyaan yang sering diajukan
Bagaimana cara mengekstrak teks dari file PDF?
Unggah PDF Anda menggunakan alat di atas. ParseJet memprosesnya secara instan dan mengembalikan semua teks yang diekstrak. Anda juga dapat menggunakan API: POST /v1/parse/auto/file.
Bisakah saya mengekstrak teks dari PDF yang dilindungi kata sandi?
ParseJet dapat mengekstrak teks dari PDF yang mengizinkan penyalinan teks. PDF yang sepenuhnya terenkripsi yang membatasi semua akses tidak dapat diproses.
Apa perbedaannya dengan salin-tempel?
Salin-tempel dari PDF sering merusak pemformatan, kehilangan jeda baris, dan mengacaukan kolom. ParseJet mempertahankan urutan baca, menangani tata letak multi-kolom, dan mengekstrak teks dari halaman pindaian yang tidak dapat dijangkau oleh salin-tempel.
Bisakah saya mengekstrak teks dari URL PDF tanpa mengunduhnya terlebih dahulu?
Ya. Gunakan endpoint URL: POST /v1/parse/auto/url dengan URL PDF Anda. ParseJet mengunduh dan memprosesnya di sisi server — tidak perlu mengunduh file sendiri.
Format keluaran apa yang dikembalikan ParseJet?
ParseJet mengembalikan teks yang diformat Markdown secara default, mempertahankan judul, daftar, dan tabel. Ini sangat cocok untuk dokumentasi, pipa AI, dan alat apa pun yang membaca Markdown.
Apakah ini gratis?
Ya. Anda mendapatkan 3 ekstraksi gratis per hari tanpa pendaftaran. Buat akun gratis untuk 300 kredit per bulan. Paket berbayar mulai dari $19/bulan dengan batas ukuran file lebih besar dan kuota lebih tinggi.
Alat terkait
PDF to Text Converter
Convert PDF to plain text online for free. Handles multi-page documents, scanned PDFs with OCR, and complex layouts. No signup required — use instantly or automate via API.
PDF to Markdown Converter
Convert PDF to Markdown online for free. Preserves headings, lists, tables, and code blocks. No signup required — try it instantly or automate with the ParseJet API.
OCR — Extract Text from Images
Free online OCR tool to extract text from images. Supports JPG, PNG, GIF, WebP, and TIFF. Also available as a developer API for Python, JavaScript, and more.
Mulai ekstraksi teks secara gratis
Tidak perlu mendaftar. Parse file pertama Anda dalam hitungan detik.