استخراج النص من ملف PDF

هل تحتاج إلى استخراج النص من ملف PDF؟ قم برفع ملفك وسيقوم ParseJet باستخراج كل كلمة — بما في ذلك من الصفحات الممسوحة ضوئيًا عبر OCR. مثالي للبحث، واستخراج البيانات، وترحيل المحتوى، وتغذية المستندات إلى نماذج الذكاء الاصطناعي.

أسقط ملفًا هنا أو تصفح

يقبل ملفات PDF

مجاني — 3 طلبات/يوم، بدون تسجيل. للحصول على 300 رصيد/شهر مجانًا.

كيف يعمل

اختر ملف PDF الخاص بك

ارفع ملف PDF من جهاز الكمبيوتر الخاص بك. يدعم ملفات PDF النصية، والمستندات الممسوحة ضوئيًا، وملفات المحتوى المختلط حتى 200 ميجابايت.

استخراج النص

يقوم ParseJet بمعالجة كل صفحة — يتم استخراج النص الرقمي مباشرة، بينما تمر الصفحات الممسوحة ضوئيًا عبر OCR. يتم تجميع النص الكامل بترتيب القراءة.

استخدم نصك

انسخ النص المستخرج، والصقه في أي مكان، أو قم بالتكامل مع API لاستخراج النص من ملفات PDF في تطبيقك.

الميزات الرئيسية

ما الذي يجعل extract text from pdf هذا مميزًا.

أفضل من النسخ واللصق

على عكس النسخ واللصق اليدوي، يحافظ ParseJet على فواصل الأسطر، ويتعامل مع التخطيطات متعددة الأعمدة، ولا يعبث بترتيب النص.

دعم المستندات الممسوحة ضوئيًا

يتم معالجة ملفات PDF التي تحتوي على صور فقط من الماسحات الضوئية أو الكاميرات باستخدام OCR لاستخراج كل النص المرئي.

استخراج البيانات الوصفية

يعيد عنوان المستند، والمؤلف، وعدد الصفحات، وتاريخ الإنشاء إلى جانب النص المستخرج.

لا حاجة للتثبيت

يعمل بالكامل في متصفحك للأداة عبر الإنترنت، أو عبر HTTP API للوصول البرمجي — لا حاجة لتثبيت أي برنامج.

الخصوصية أولاً

يتم معالجة الملفات والتخلص منها فورًا. لا يتم تخزين أي شيء على خوادمنا بعد الاستخراج.

حالات الاستخدام

سيناريوهات شائعة حيث يوفر لك هذا الأداة الوقت.

البحث الأكاديمي

استخرج النص من أوراق البحث والمقالات العلمية لأدوات الاقتباس، أو التعليق التوضيحي، أو مراجعة الأدبيات.

معالجة المستندات القانونية

اسحب النص من العقود، ومستندات المحكمة، والمذكرات القانونية لعمليات المراجعة، أو المقارنة، أو سير عمل الاكتشاف الإلكتروني.

ترحيل المحتوى

انقل المحتوى الموجود فقط في PDF إلى نظام إدارة المحتوى، أو قاعدة المعرفة، أو ويكي عن طريق استخراج النص وإعادة تنسيقه.

إعداد بيانات التدريب

استخرج النص من ملفات PDF للمستندات لبناء مجموعات بيانات تدريبية لنماذج التعلم الآلي.

أتمتة باستخدام الـ API

استخدم نفس الأداة برمجيًا. يعمل مع أي لغة — مجرد HTTP.

cURL

# Extract text from a local PDF file
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Extract text from a PDF URL
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/report.pdf"}'

Python

import httpx

# Extract text from a local PDF
with open("contract.pdf", "rb") as f:
    resp = httpx.post(
        "https://api.parsejet.com/v1/parse/auto/file",
        headers={"Authorization": "Bearer YOUR_API_KEY"},
        files={"file": ("contract.pdf", f, "application/pdf")},
    )
data = resp.json()
print(data["text"])      # Extracted text
print(data["title"])     # Document title
print(data["metadata"])  # Page count, author, etc.

JavaScript

// Extract text from a PDF URL
const res = await fetch("https://api.parsejet.com/v1/parse/auto/url", {
  method: "POST",
  headers: {
    Authorization: "Bearer YOUR_API_KEY",
    "Content-Type": "application/json",
  },
  body: JSON.stringify({ url: "https://example.com/report.pdf" }),
});
const { text, title, metadata } = await res.json();

هل تريد أتمتة هذا؟

ParseJet API تمنحك نفس قوة التحليل عبر نقطة نهاية HTTP واحدة. لا ffmpeg، لا poppler، لا tesseract — مجرد استدعاء API واحد.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url":"https://example.com"}'

اقرأ وثائق API

الأسئلة الشائعة

كيف يمكنني استخراج النص من ملف PDF؟

ارفع ملف PDF باستخدام الأداة أعلاه. يقوم ParseJet بمعالجته على الفور وإرجاع كل النص المستخرج. يمكنك أيضًا استخدام API: POST /v1/parse/auto/file.

هل يمكنني استخراج النص من ملف PDF محمي بكلمة مرور؟

يمكن لـ ParseJet استخراج النص من ملفات PDF التي تسمح بنسخ النص. لا يمكن معالجة ملفات PDF المشفرة بالكامل والتي تقيد جميع أنواع الوصول.

كيف يختلف هذا عن النسخ واللصق؟

غالبًا ما يؤدي النسخ واللصق من ملفات PDF إلى كسر التنسيق، وفقدان فواصل الأسطر، وخلط الأعمدة. يحافظ ParseJet على ترتيب القراءة، ويتعامل مع التخطيطات متعددة الأعمدة، ويستخرج النص من الصفحات الممسوحة ضوئيًا التي لا يمكن للنسخ واللصق الوصول إليها.

هل يمكنني استخراج النص من عنوان URL لملف PDF دون تنزيله أولاً؟

نعم. استخدم نقطة النهاية URL: POST /v1/parse/auto/url مع عنوان URL لملف PDF الخاص بك. يقوم ParseJet بتنزيله ومعالجته على الخادم — لا حاجة لتنزيل الملف بنفسك.

ما تنسيق الإخراج الذي يعيده ParseJet؟

يعيد ParseJet نصًا بتنسيق Markdown افتراضيًا، مع الحفاظ على العناوين، والقوائم، والجداول. يعمل هذا بشكل رائع للتوثيق، وخطوط أنابيب الذكاء الاصطناعي، وأي أداة تقرأ Markdown.

هل هي مجانية؟

نعم. تحصل على 3 عمليات استخراج مجانية يوميًا دون تسجيل. أنشئ حسابًا مجانيًا للحصول على 300 رصيد شهريًا. تبدأ الخطط المدفوعة من 19 دولارًا شهريًا مع حدود حجم ملف أكبر وحصص أعلى.

ابدأ استخراج النص مجانًا

لا حاجة للتسجيل. قم بتحليل ملفك الأول في ثوانٍ.

عرض الأسعار