ParseJet

كيفية نسخ النص من ملف PDF

يجب أن يكون نسخ النص من ملف PDF أمرًا بسيطًا — لكن أي شخص حاول يعرف أنه غالبًا ليس كذلك. يخرج النص مشوّشًا، أو تظهر فواصل الأسطر في أماكن خاطئة، أو ببساطة لا يسمح لك ملف PDF بتحديد أي شيء. يغطي هذا الدليل 4 طرق تعمل بالفعل، بدءًا من الخيارات المجانية الأبسط.

لماذا يعد نسخ النص من ملفات PDF صعبًا جدًا؟

صُممت ملفات PDF للطباعة، وليس للتحرير. على عكس مستند Word حيث يتدفق النص كتيار مستمر، يخزن ملف PDF كل حرف في إحداثيات x/y دقيقة على الصفحة — مثل مخطط تخطيط. عندما تحاول التحديد والنسخ، يتعين على عارض PDF الخاص بك عكس هندسة الأحرف التي تشكل الكلمات، والكلمات التي تشكل الأسطر، والأسطر التي تشكل الفقرات. وغالبًا ما يخطئ في التخمين.

يزداد هذا سوءًا مع التخطيطات متعددة الأعمدة (يختلط النص من العمود A مع العمود B)، والجداول (يتم لصق الخلايا كفوضى مشوشة)، والعناوين والتذييلات (يتم إدراجها في منتصف الفقرة). وهذا بافتراض أن ملف PDF يحتوي على نص قابل للتحديد من الأساس — فالمستندات الممسوحة ضوئيًا هي مجرد صور، لذا لا يوجد شيء لتحديده.

تعتمد الطريقة التي يجب أن تستخدمها على نوع ملف PDF الذي لديك. إليك 4 طرق، من الأبسط إلى الأقوى.

الطريقة 1: التحديد والنسخ في عارض PDF أو المتصفح الخاص بك (الأبسط)

ابدأ هنا — إنها أسرع طريقة ولا تتطلب أدوات إضافية. افتح ملف PDF في أي عارض: Adobe Acrobat Reader (مجاني)، أو Preview على Mac، أو ببساطة اسحب ملف PDF إلى Chrome أو Edge أو Firefox. تحتوي جميع المتصفحات الحديثة على عارض PDF مدمج يدعم تحديد النص.

انقر واسحب لتحديد النص الذي تريده، ثم اضغط على Ctrl+C (Windows/Linux) أو Cmd+C (Mac). الصقه في أي محرر نصوص أو بريد إلكتروني أو مستند.

نصيحة احترافية: في Adobe Acrobat Reader، استخدم Edit → Select All (Ctrl+A / Cmd+A) لتحديد كل النص في الصفحة الحالية. في Chrome، يمكنك أيضًا استخدام Ctrl+F للبحث داخل ملف PDF ثم نسخ النتائج المحددة.

عندما تعمل هذه الطريقة: ملفات PDF ذات تخطيطات بسيطة وعمود واحد ونص قابل للتحديد — مثل معظم خطابات الأعمال والفواتير والتقارير.

عندما تفشل هذه الطريقة: لا يمكن تحديد النص (ملف PDF ممسوح ضوئيًا أو محميًا من النسخ)، أو النص المنسوخ مشوّش (مشكلة في الترميز)، أو يختلط النص متعدد الأعمدة. إذا حدث أي من ذلك، جرب الطريقة 2.

الطريقة 2: افتح ملف PDF في Google Docs (مجاني، يتعامل مع ملفات PDF الممسوحة ضوئيًا)

يمكن لـ Google Docs تحويل ملفات PDF إلى نص قابل للتحرير، بما في ذلك المستندات الممسوحة ضوئيًا — وهو مجاني تمامًا.

الخطوة 1: حمّل ملف PDF إلى Google Drive (drive.google.com). الخطوة 2: انقر بزر الماوس الأيمن على الملف واختر "Open with → Google Docs." الخطوة 3: يحوّل Google ملف PDF إلى مستند قابل للتحرير. يمكنك الآن تحديد ونسخ أي نص.

خلف الكواليس، يطبق Google تقنية OCR (التعرف الضوئي على الحروف) على الصفحات القائمة على الصور، لذا تعمل هذه الطريقة حتى مع المستندات الممسوحة ضوئيًا. كما أنها تتعامل مع ملفات PDF المحمية من النسخ لأنها تعالج الملف من جانب الخادم.

القيود: يواجه Google Docs صعوبة في التنسيقات المعقدة. غالبًا ما تنهار التخطيطات متعددة الأعمدة إلى عمود واحد بترتيب خاطئ. قد تفقد الجداول هيكلها. وبالنسبة لملفات PDF الكبيرة (50+ صفحة)، قد يكون التحويل بطيئًا أو غير مكتمل. إذا كان التنسيق مهمًا، ففكر في الطريقة 3.

الطريقة 3: استخدم أداة استخراج نص مخصصة (الأفضل لملفات PDF المعقدة)

عندما تفشل الطريقتان 1 و 2 — أو عندما تحتاج إلى نص نظيف ومنسق بشكل صحيح من مستند معقد — تكون أداة الاستخراج المخصصة هي الخيار الأكثر موثوقية.

أدوات مثل ParseJet مبنية خصيصًا لهذه المشكلة. تقوم بتحليل الهيكل الداخلي لملف PDF (أو تطبيق OCR على الصفحات الممسوحة ضوئيًا) واستخراج النص بالترتيب الصحيح للقراءة، مع الحفاظ على فواصل الفقرات وفصل الأعمدة بشكل صحيح.

كيفية استخدام ParseJet: انتقل إلى parsejet.com/tools/extract-text-from-pdf → اسحب وأفلت ملف PDF الخاص بك → انسخ النص المستخرج. لا يلزم التسجيل أو التثبيت — تحصل على 3 عمليات استخراج مجانية يوميًا.

لماذا تعمل هذه الطريقة عندما تفشل الطرق الأخرى: تتعامل أدوات الاستخراج المخصصة مع جميع الحالات المتطرفة التي تعيق الطرق الأبسط — الصور الممسوحة ضوئيًا (OCR)، والحماية من النسخ (المعالجة من جانب الخادم)، وترميز الخطوط المخصص (حل تعيين الأحرف)، والتخطيطات متعددة الأعمدة (كشف ترتيب القراءة)، والجداول (الحفاظ على الهيكل).

هذه أيضًا الطريقة الوحيدة التي تمنحك نصًا نظيفًا على مستوى الفقرة بدلاً من إخراج سطرًا بسطر مع فواصل عشوائية في منتصف الجمل.

الطريقة 4: استخدم أداة سطر الأوامر (للمطورين والمعالجة المجمعة)

إذا كنت بحاجة إلى استخراج النص من العديد من ملفات PDF برمجيًا، فإن أدوات سطر الأوامر والمكتبات هي الطريقة المناسبة.

pdftotext (من poppler-utils) هي أداة Unix الكلاسيكية: قم بتثبيتها باستخدام "apt install poppler-utils" (Linux) أو "brew install poppler" (Mac)، ثم شغّل "pdftotext input.pdf output.txt". إنها سريعة ولكنها لا تدعم OCR وتتعامل مع التخطيطات المعقدة بشكل سيئ.

pdfplumber (Python) يمنحك تحكمًا أكبر: "pip install pdfplumber"، ثم استخدم واجهة برمجة تطبيقات Python لاستخراج النص صفحة بصفحة، مع كشف الجداول وتحليل التخطيط. رائع للمستندات المنظمة مثل الفواتير والنماذج.

pdf-parse (Node.js) هي حزمة npm الشهيرة: "npm install pdf-parse"، ثم استخرج النص ببضعة أسطر من JavaScript. لاحظ أنها تعتمد على ملفات ثنائية أصلية ولديها مشاكل في الصيانة.

للحصول على بديل لا يعتمد على أي مكتبات ويعمل من أي لغة، يمكنك استدعاء ParseJet API — طلب HTTP POST واحد لكل ملف، ولا حاجة لتثبيت مكتبات، ويتعامل مع OCR والتخطيطات المعقدة تلقائيًا. هذا مفيد بشكل خاص في بيئات serverless (Lambda, Vercel, Cloudflare Workers) حيث يكون تثبيت التبعيات الأصلية أمرًا صعبًا.

ماذا عن ملفات PDF الممسوحة ضوئيًا؟

إذا تم إنشاء ملف PDF الخاص بك عن طريق مسح مستند مادي أو التقاط صورة، فإن الصفحات هي صور — لا يوجد نص لتحديده، بغض النظر عن العارض الذي تستخدمه. تحتاج إلى OCR (التعرف الضوئي على الحروف) لتحويل الصورة إلى نص.

خياراتك لملفات PDF الممسوحة ضوئيًا: Google Docs (الطريقة 2) يطبق OCR مجانًا ولكن قد يعبث بالتخطيطات. ParseJet (الطريقة 3) يطبق OCR مع كشف تخطيط أفضل. Tesseract (أداة CLI مفتوحة المصدر) هو خيار مجاني آخر ولكنه يتطلب التثبيت والتكوين.

كيف تعرف إذا كان ملف PDF الخاص بك ممسوحًا ضوئيًا: حاول التكبير إلى 400%+. إذا بدا النص ضبابيًا قليلاً أو متبقعًا (مثل صورة)، فهو صورة. إذا كانت الأحرف حادة تمامًا عند أي مستوى تكبير، فهو ملف PDF قائم على النص.

مقارنة سريعة: أي طريقة يجب أن تستخدم؟

ملف PDF بسيط، عمود واحد: الطريقة 1 (التحديد والنسخ في عارضك). إنها فورية ومجانية.

ملف PDF ممسوح ضوئيًا أو محميًا من النسخ: الطريقة 2 (Google Docs) للحل المجاني، أو الطريقة 3 (ParseJet) للحصول على دقة أفضل مع التخطيطات المعقدة.

متعدد الأعمدة، أو جداول، أو نص مشوّش: الطريقة 3 (ParseJet) — إنها الطريقة الوحيدة التي تتعامل بشكل موثوق مع كشف التخطيط ومشاكل الترميز.

المعالجة المجمعة (10+ ملفات PDF): الطريقة 4 (أدوات سطر الأوامر أو ParseJet API) للأتمتة.

استخرج النص من ملف PDF الخاص بك الآن

حمّل ملف PDF واحصل على نص نظيف وجاهز للنسخ في ثوانٍ. يعمل مع المستندات الممسوحة ضوئيًا، والتخطيطات متعددة الأعمدة، والملفات المحمية.

جربه مجانًا — لا يلزم التسجيل

الأسئلة الشائعة

كيف أنسخ النص من ملف PDF لا يسمح لي بالتحديد؟

إذا كان ملف PDF محميًا من النسخ أو هو صورة ممسوحة ضوئيًا، فاستخدم أداة تعتمد على OCR مثل ParseJet. حمّل ملف PDF وسيستخرج كل النص بغض النظر عن الحماية أو التنسيق.

كيف أنسخ وألصق من ملف PDF دون فقدان التنسيق؟

استخدم أداة استخراج منظمة. يحافظ ParseJet على ترتيب القراءة، وفواصل الفقرات، وهيكل الجداول — على عكس النسخ واللصق اليدوي الذي غالبًا ما يعبث بالتخطيطات.

هل يمكنني نسخ النص من ملف PDF على هاتفي؟

نعم. يعمل ParseJet في أي متصفح محمول. انتقل إلى parsejet.com، حمّل ملف PDF الخاص بك، وانسخ النص المستخرج — لا حاجة لتثبيت تطبيق.

لماذا يحتوي نص PDF المنسوخ على فواصل أسطر غريبة؟

تخزن ملفات PDF النص بإحداثيات صفحة دقيقة، لذا يصبح كل سطر مرئي سطرًا منفصلًا عند النسخ. تعيد أدوات مثل ParseJet تجميع النص في فقرات صحيحة قبل إرجاعه.

هل توجد طريقة مجانية لنسخ النص من ملف PDF؟

نعم. يقدم ParseJet 3 عمليات استخراج مجانية يوميًا دون تسجيل. يمكنك أيضًا تجربة عارض PDF المدمج في متصفحك للمستندات البسيطة، أو Google Docs لملفات PDF الممسوحة ضوئيًا.

ابدأ استخراج النص مجانًا

لا حاجة للتسجيل. قم بتحليل ملفك الأول في ثوانٍ.

عرض الأسعار