ParseJet

PDF 轉 TXT 檔案轉換器

需要從 PDF 取得 .txt 檔案嗎?上傳您的文件,即可獲得純文字輸出 — 不含 Markdown、HTML 或格式標籤。只有原始文字內容,您可以將其儲存為 .txt 檔案、傳送至腳本,或匯入任何接受純文字輸入的系統。

將檔案拖放到此處或 瀏覽

接受 PDF 檔案

免費 — 每日 3 次請求,無需註冊。 即可獲得每月 300 點免費額度。

運作原理

1

上傳您的 PDF

將 PDF 檔案拖曳至上方面板或點擊瀏覽。適用於任何 PDF — 文字型、掃描型或混合內容。

2

提取為純文字

ParseJet 會移除所有格式 — 粗體、斜體、顏色、字體、頁首、頁尾、頁碼 — 並依照閱讀順序返回純文字內容。

3

儲存為 .txt

複製輸出內容並在本地儲存為 .txt 檔案。或使用 API 以程式化方式批次轉換整個 PDF 資料夾為 .txt 檔案。

主要功能

這個 pdf to txt 的突出之處。

純 .txt 輸出

沒有 Markdown 語法、沒有 HTML 標籤、沒有格式殘留。只有原始文字 — 正是 grep、awk 和 sed 等工具所期望的輸入格式。

UTF-8 編碼

輸出始終採用 UTF-8 編碼,能在產生的 .txt 檔案中正確處理國際字元、中日韓文字和特殊符號。

掃描 PDF → TXT

純圖像 PDF 會自動進行 OCR 處理。掃描的頁面將在您的 .txt 輸出中轉換為真實文字。

準備好批次轉換

使用 API 在單一腳本中將整個 PDF 目錄轉換為 .txt 檔案。請參閱下方的 Python 和 Node.js 範例。

雜訊移除

自動移除會使 .txt 檔案雜亂的頁首、頁尾、頁碼和水印。

使用案例

此工具為您節省時間的常見情境。

資料管線輸入

將 PDF 轉換為 .txt 檔案,以便擷取至 ETL 管線、Apache Spark、pandas DataFrames 或資料倉儲。純文字是通用的輸入格式。

搜尋引擎索引

將 PDF 檔案庫批次轉換為 .txt 檔案,以便在 Elasticsearch、Solr、Meilisearch 或任何讀取純文字的全文搜尋引擎中建立索引。

ML/AI 訓練資料

從 PDF 文件集合建立文字語料庫。將每個 PDF 儲存為 .txt 檔案,以建立用於語言模型、分類器或 NER 系統的乾淨訓練資料集。

舊系統匯入

許多舊系統、資料庫和大型主機應用程式僅接受 .txt 或 CSV 輸入。將 PDF 轉換為 .txt 以便匯入這些系統,無需手動重新輸入。

使用 API 自動化

以程式化方式使用相同工具。適用於任何語言 — 僅需 HTTP。

cURL
# Convert a single PDF to .txt
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]" \
  | jq -r '.text' > output.txt
Python
import httpx
from pathlib import Path

# Batch-convert all PDFs in a folder to .txt files
pdf_dir = Path("pdfs/")
txt_dir = Path("txt_output/")
txt_dir.mkdir(exist_ok=True)

for pdf_file in pdf_dir.glob("*.pdf"):
    resp = httpx.post(
        "https://api.parsejet.com/v1/parse/auto/file",
        headers={"Authorization": "Bearer YOUR_API_KEY"},
        files={"file": (pdf_file.name, pdf_file.read_bytes(), "application/pdf")},
    )
    txt_path = txt_dir / pdf_file.with_suffix(".txt").name
    txt_path.write_text(resp.json()["text"], encoding="utf-8")
    print(f"Saved {txt_path}")
JavaScript
import { readdir, readFile, writeFile } from "fs/promises";
import { join, basename } from "path";

// Batch-convert all PDFs in a folder to .txt files
const pdfDir = "./pdfs";
const outDir = "./txt_output";

for (const file of await readdir(pdfDir)) {
  if (!file.endsWith(".pdf")) continue;
  const formData = new FormData();
  formData.append("file", new Blob([await readFile(join(pdfDir, file))]));

  const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
    method: "POST",
    headers: { Authorization: "Bearer YOUR_API_KEY" },
    body: formData,
  });
  const { text } = await res.json();
  await writeFile(join(outDir, basename(file, ".pdf") + ".txt"), text);
}

想要自動化處理嗎?

ParseJet API 透過單一 HTTP 端點提供相同的解析能力。無需 ffmpeg、poppler 或 tesseract — 只需一次 API 呼叫。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
閱讀 API 文件

常見問題

如何將 PDF 轉換為 .txt 檔案?

在上方上傳您的 PDF — ParseJet 會提取所有文字並返回乾淨的純文字輸出。複製它並儲存為 .txt 檔案,或使用 API 搭配輸出重定向(請參閱 cURL 範例)直接儲存。

PDF 轉 TXT 和 PDF 轉 Markdown 有什麼區別?

PDF 轉 TXT 提供不含格式的原始純文字 — 適合資料處理、搜尋索引和腳本。PDF 轉 Markdown 使用 Markdown 語法保留結構(標題、表格、清單) — 更適合文件編寫和內容遷移。

我可以批次轉換多個 PDF 為 .txt 檔案嗎?

可以。使用 ParseJet API 遍歷 PDF 資料夾,並將每個檔案儲存為 .txt 檔案。請參閱上方的 Python 和 JavaScript 批次轉換範例。

我可以將掃描的 PDF 轉換為 TXT 嗎?

可以。ParseJet 會自動使用 OCR 從掃描的 PDF 和基於圖像的頁面中提取文字。結果是同樣乾淨的 .txt 輸出。

.txt 輸出使用什麼編碼?

ParseJet 返回 UTF-8 編碼的文字,支援所有語言和特殊字元。儲存為 .txt 檔案時,請使用 UTF-8 編碼以正確保留內容。

這是免費的嗎?

是的。您每天可獲得 3 次免費轉換,無需註冊。建立免費帳戶可獲得每月 300 點額度。付費方案每月 19 美元起,適用於批次轉換工作流程。

免費開始提取文字

無需註冊。幾秒內解析您的第一個檔案。

查看定價