ParseJet

محلل PDF

ParseJet هو محلل PDF صديق للمطورين يستخرج النص والعنوان والبيانات الوصفية من أي ملف PDF عبر استدعاء واحد لواجهة برمجة التطبيقات. لا حاجة لتثبيت تبعيات — استبدل pdf-parse أو pdfplumber أو PyMuPDF بنقطة نهاية HTTP واحدة.

أسقط ملفًا هنا أو تصفح

يقبل ملفات PDF

مجاني — 3 طلبات/يوم، بدون تسجيل. للحصول على 300 رصيد/شهر مجانًا.

كيف يعمل

1

أرسل ملف PDF الخاص بك

قم برفع ملف في الأداة أعلاه، أو أرسله عبر POST إلى واجهة برمجة التطبيقات. ParseJet يكتشف التنسيق تلقائيًا — لا حاجة لإعدادات.

2

حلل واستخرج

يستخرج ParseJet النص والعنوان والمؤلف وعدد الصفحات وهيكل المحتوى. يتم تطبيق OCR تلقائيًا على الصفحات الممسوحة ضوئيًا.

3

احصل على JSON منظم

استقبل استجابة JSON نظيفة تحتوي على النص والعنوان و source_type والبيانات الوصفية — جاهزة للاستخدام في تطبيقك.

الميزات الرئيسية

ما الذي يجعل pdf parser هذا مميزًا.

صفر تبعيات

لا حاجة لتثبيت poppler أو pdftotext أو أي مكتبات محلية. ParseJet هو واجهة برمجة تطبيقات مستضافة — فقط قم بإجراء طلب HTTP.

بديل مباشر

استبدل pdf-parse (Node.js) أو pdfplumber (Python) أو PyMuPDF باستدعاء واحد لواجهة برمجة التطبيقات. يعمل من أي لغة برمجة.

بيانات وصفية غنية

تُرجع عنوان المستند والمؤلف وتاريخ الإنشاء وعدد الصفحات ونوع المحتوى المكتشف — وليس فقط النص الخام.

مخرجات JSON متسقة

كل استجابة تتبع نفس المخطط: { text, title, source_type, metadata }. لا حاجة للتعامل مع تنسيقات محددة.

OCR مدمج

يتم معالجة ملفات PDF الممسوحة ضوئيًا باستخدام OCR تلقائيًا. لا حاجة لخطوة أو إعدادات منفصلة لـ OCR.

كشف الجداول

يكشف عن البيانات الجدولية في ملفات PDF. اطلب مخرجات Markdown للحصول على جداول منسقة بشكل صحيح.

حالات الاستخدام

سيناريوهات شائعة حيث يوفر لك هذا الأداة الوقت.

استبدل pdf-parse في Node.js

إذا كنت تستخدم حزمة npm pdf-parse وتواجه مشاكل مع التبعيات المحلية أو الصيانة، فإن ParseJet هو بديل مباشر عبر HTTP.

استبدل pdfplumber في Python

pdfplumber يتطلب Python ومكتبات محلية. ParseJet يوفر نفس الاستخراج عبر واجهة برمجة التطبيقات، لذا يمكنك استدعاؤه من أي لغة أو دالة serverless.

خطوط معالجة المستندات

أنشئ سير عمل آلي يحلل ملفات PDF الواردة — مثل الفواتير والتقارير والنماذج — ويوجه البيانات المستخرجة إلى قاعدة البيانات أو نظام CRM الخاص بك.

استيعاب المستندات لـ RAG

حلل ملفات PDF كجزء من خط أنابيب توليد المعزز بالاسترجاع. ParseJet يُرجع نصًا منظمًا يمنح نماذج LLM سياقًا أفضل.

أتمتة باستخدام الـ API

استخدم نفس الأداة برمجيًا. يعمل مع أي لغة — مجرد HTTP.

cURL
# Parse a PDF and get text + metadata
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Response:
# {
#   "text": "Invoice #1234\nDate: 2026-03-15\n...",
#   "title": "Invoice #1234",
#   "source_type": "pdf",
#   "metadata": { "pages": 2, "author": "Acme Corp" }
# }
Python
import httpx

# Before (pdf-parse / pdfplumber):
#   import pdfplumber
#   with pdfplumber.open("invoice.pdf") as pdf:
#       text = "\n".join(p.extract_text() for p in pdf.pages)

# After (ParseJet — no dependencies):
resp = httpx.post(
    "https://api.parsejet.com/v1/parse/auto/file",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    files={"file": open("invoice.pdf", "rb")},
)
result = resp.json()
text = result["text"]          # All text, all pages
title = result["title"]        # Document title
pages = result["metadata"]["pages"]  # Page count
JavaScript
// Before (pdf-parse):
//   const pdfParse = require("pdf-parse");
//   const data = await pdfParse(buffer);

// After (ParseJet — no native dependencies):
const formData = new FormData();
formData.append("file", pdfBuffer, "invoice.pdf");

const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
  method: "POST",
  headers: { Authorization: "Bearer YOUR_API_KEY" },
  body: formData,
});
const { text, title, source_type, metadata } = await res.json();
// Works in Node.js, Deno, Bun, Cloudflare Workers — anywhere with fetch

هل تريد أتمتة هذا؟

ParseJet API تمنحك نفس قوة التحليل عبر نقطة نهاية HTTP واحدة. لا ffmpeg، لا poppler، لا tesseract — مجرد استدعاء API واحد.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
اقرأ وثائق API

الأسئلة الشائعة

كيف يقارن ParseJet بـ pdf-parse (npm)؟

pdf-parse هي مكتبة Node.js تتطلب تثبيتًا محليًا وتتعامل فقط مع استخراج النص الأساسي. ParseJet هو واجهة برمجة تطبيقات مستضافة تستخرج النص والبيانات الوصفية والهيكل من أي ملف PDF — بما في ذلك المستندات الممسوحة ضوئيًا عبر OCR — بدون أي تبعيات.

كيف يقارن بـ pdfplumber (Python)؟

pdfplumber ممتاز لاستخراج الجداول ولكنه يتطلب Python ومعالجة محلية. ParseJet يوفر إمكانيات مشابهة عبر HTTP، لذا يمكنك استخدامه من أي لغة برمجة بدون تثبيت Python أو تبعيات محلية.

ما هي البيانات الوصفية التي يستخرجها محلل PDF؟

يستخرج ParseJet عنوان المستند والمؤلف وتاريخ الإنشاء وعدد الصفحات ونوع المحتوى المكتشف. يتم إرجاع النص الكامل والبيانات الوصفية في استجابة JSON منظمة.

هل يمكنني استخدامه في بيئة serverless؟

نعم. بما أن ParseJet هو واجهة برمجة تطبيقات HTTP، فهو يعمل في AWS Lambda و Vercel Functions و Cloudflare Workers وأي منصة serverless — بدون تبعيات ثنائية محلية للحزم.

هل يدعم استخراج الجداول من PDF؟

نعم. ParseJet يكتشف ويستخرج الجداول من ملفات PDF ويعيدها كجداول Markdown منسقة بشكل صحيح افتراضيًا.

هل هو مجاني؟

نعم. تحصل على 3 عمليات تحليل مجانية يوميًا بدون تسجيل. أنشئ حسابًا مجانيًا للحصول على 300 رصيد شهريًا. تبدأ الخطط المدفوعة من 19 دولارًا شهريًا مع حدود معدل أعلى وحصص حجم ملف أكبر.

ابدأ استخراج النص مجانًا

لا حاجة للتسجيل. قم بتحليل ملفك الأول في ثوانٍ.

عرض الأسعار