ParseJet

محول ملفات PDF إلى TXT

هل تحتاج إلى ملف .txt من ملف PDF الخاص بك؟ قم برفع مستندك واحصل على نص عادي خالص — بدون Markdown، أو HTML، أو علامات تنسيق. مجرد محتوى نصي خام يمكنك حفظه كملف .txt، أو تمريره إلى سكريبت، أو استيراده إلى أي نظام يقبل إدخال النص العادي.

أسقط ملفًا هنا أو تصفح

يقبل ملفات PDF

مجاني — 3 طلبات/يوم، بدون تسجيل. للحصول على 300 رصيد/شهر مجانًا.

كيف يعمل

1

ارفع ملف PDF الخاص بك

أسقط ملف PDF أعلاه أو انقر للتصفح. يعمل مع أي ملف PDF — نصي، ممسوح ضوئيًا، أو محتوى مختلط.

2

استخراج كنص عادي

تقوم ParseJet بإزالة كل التنسيقات — العريض، المائل، الألوان، الخطوط، الرؤوس، التذييلات، أرقام الصفحات — وإرجاع محتوى نصي خالص بترتيب القراءة.

3

احفظ كـ .txt

انسخ الناتج واحفظه كملف .txt محليًا. أو استخدم الـ API لتحويل مجلدات PDF كاملة إلى ملفات .txt برمجيًا.

الميزات الرئيسية

ما الذي يجعل pdf to txt هذا مميزًا.

ناتج .txt خالص

لا تركيب Markdown، ولا علامات HTML، ولا بقايا تنسيق. مجرد نص خام — بالضبط ما تتوقعه أدوات مثل grep و awk و sed كإدخال.

مشفر بـ UTF-8

الناتج دائمًا مشفر بـ UTF-8، يتعامل مع الأحرف الدولية، والنصوص CJK، والرموز الخاصة بشكل صحيح في ملف .txt الناتج.

PDF ممسوح ضوئيًا → TXT

يتم معالجة ملفات PDF التي تحتوي على صور فقط باستخدام OCR تلقائيًا. تتحول الصفحات الممسوحة ضوئيًا إلى نص حقيقي في ناتج ملف .txt الخاص بك.

جاهز للتحويل المجمّع

استخدم الـ API لتحويل دليل كامل من ملفات PDF إلى ملفات .txt في سكريبت واحد. انظر إلى أمثلة Python و Node.js أدناه.

إزالة الضوضاء

يزيل تلقائيًا الرؤوس، والتذييلات، وأرقام الصفحات، والعلامات المائية التي قد تشوش ملف .txt.

حالات الاستخدام

سيناريوهات شائعة حيث يوفر لك هذا الأداة الوقت.

إدخال مسار البيانات

حوّل ملفات PDF إلى ملفات .txt لاستهلاكها في مسارات ETL، أو Apache Spark، أو pandas DataFrames، أو مستودعات البيانات. النص العادي هو تنسيق الإدخال العالمي.

فهرسة محرك البحث

حوّل مجموعة من ملفات PDF إلى ملفات .txt بشكل مجمّع لفهرستها في Elasticsearch، أو Solr، أو Meilisearch، أو أي محرك بحث نصي كامل يقرأ النص العادي.

بيانات تدريب لـ ML/AI

أنشئ مجموعات نصية من مجموعات مستندات PDF. احفظ كل ملف PDF كملف .txt لإنشاء مجموعات بيانات تدريب نظيفة لنماذج اللغة، أو المصنفات، أو أنظمة NER.

استيراد أنظمة قديمة

العديد من الأنظمة القديمة، وقواعد البيانات، وتطبيقات المينفريم تقبل فقط إدخال .txt أو CSV. حوّل ملفات PDF إلى .txt لاستيرادها إلى هذه الأنظمة دون إعادة كتابة يدوية.

أتمتة باستخدام الـ API

استخدم نفس الأداة برمجيًا. يعمل مع أي لغة — مجرد HTTP.

cURL
# Convert a single PDF to .txt
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]" \
  | jq -r '.text' > output.txt
Python
import httpx
from pathlib import Path

# Batch-convert all PDFs in a folder to .txt files
pdf_dir = Path("pdfs/")
txt_dir = Path("txt_output/")
txt_dir.mkdir(exist_ok=True)

for pdf_file in pdf_dir.glob("*.pdf"):
    resp = httpx.post(
        "https://api.parsejet.com/v1/parse/auto/file",
        headers={"Authorization": "Bearer YOUR_API_KEY"},
        files={"file": (pdf_file.name, pdf_file.read_bytes(), "application/pdf")},
    )
    txt_path = txt_dir / pdf_file.with_suffix(".txt").name
    txt_path.write_text(resp.json()["text"], encoding="utf-8")
    print(f"Saved {txt_path}")
JavaScript
import { readdir, readFile, writeFile } from "fs/promises";
import { join, basename } from "path";

// Batch-convert all PDFs in a folder to .txt files
const pdfDir = "./pdfs";
const outDir = "./txt_output";

for (const file of await readdir(pdfDir)) {
  if (!file.endsWith(".pdf")) continue;
  const formData = new FormData();
  formData.append("file", new Blob([await readFile(join(pdfDir, file))]));

  const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
    method: "POST",
    headers: { Authorization: "Bearer YOUR_API_KEY" },
    body: formData,
  });
  const { text } = await res.json();
  await writeFile(join(outDir, basename(file, ".pdf") + ".txt"), text);
}

هل تريد أتمتة هذا؟

ParseJet API تمنحك نفس قوة التحليل عبر نقطة نهاية HTTP واحدة. لا ffmpeg، لا poppler، لا tesseract — مجرد استدعاء API واحد.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
اقرأ وثائق API

الأسئلة الشائعة

كيف أحول ملف PDF إلى ملف .txt؟

ارفع ملف PDF أعلاه — تستخرج ParseJet كل النص وتعيد ناتج نص عادي نظيف. انسخه واحفظه كملف .txt، أو استخدم الـ API مع إعادة توجيه الناتج (انظر مثال cURL) للحفظ مباشرة.

ما الفرق بين PDF إلى TXT و PDF إلى Markdown؟

PDF إلى TXT يمنحك نصًا عاديًا خامًا بدون تنسيق — مثالي لمعالجة البيانات، وفهرسة البحث، والسكريبتات. PDF إلى Markdown يحافظ على الهيكل (العناوين، الجداول، القوائم) باستخدام تركيب Markdown — أفضل للتوثيق وترحيل المحتوى.

هل يمكنني تحويل عدة ملفات PDF إلى ملفات .txt بشكل مجمّع؟

نعم. استخدم ParseJet API للتكرار خلال مجلد من ملفات PDF وحفظ كل منها كملف .txt. انظر إلى أمثلة التحويل المجمّع بـ Python و JavaScript أعلاه.

هل يمكنني تحويل ملف PDF ممسوح ضوئيًا إلى TXT؟

نعم. تستخدم ParseJet OCR لاستخراج النص من ملفات PDF الممسوحة ضوئيًا والصفحات القائمة على الصور تلقائيًا. النتيجة هي نفس ناتج .txt النظيف.

ما الترميز الذي يستخدمه ناتج ملف .txt؟

ترجع ParseJet نصًا مشفرًا بـ UTF-8، والذي يدعم جميع اللغات والأحرف الخاصة. عند الحفظ كملف .txt، استخدم ترميز UTF-8 للحفاظ على المحتوى بشكل صحيح.

هل هي مجانية؟

نعم. تحصل على 3 تحويلات مجانية يوميًا بدون تسجيل. أنشئ حسابًا مجانيًا للحصول على 300 رصيد شهريًا. تبدأ الخطط المدفوعة من 19 دولارًا شهريًا لمسارات عمل التحويل المجمّع.

ابدأ استخراج النص مجانًا

لا حاجة للتسجيل. قم بتحليل ملفك الأول في ثوانٍ.

عرض الأسعار