PDF 轉 TXT 檔案轉換器
需要從 PDF 取得 .txt 檔案嗎?上傳您的文件,即可獲得純文字輸出 — 不含 Markdown、HTML 或格式標籤。只有原始文字內容,您可以將其儲存為 .txt 檔案、傳送至腳本,或匯入任何接受純文字輸入的系統。
將檔案拖放到此處或 瀏覽
接受 PDF 檔案
免費 — 每日 3 次請求,無需註冊。 即可獲得每月 300 點免費額度。
運作原理
上傳您的 PDF
將 PDF 檔案拖曳至上方面板或點擊瀏覽。適用於任何 PDF — 文字型、掃描型或混合內容。
提取為純文字
ParseJet 會移除所有格式 — 粗體、斜體、顏色、字體、頁首、頁尾、頁碼 — 並依照閱讀順序返回純文字內容。
儲存為 .txt
複製輸出內容並在本地儲存為 .txt 檔案。或使用 API 以程式化方式批次轉換整個 PDF 資料夾為 .txt 檔案。
主要功能
這個 pdf to txt 的突出之處。
純 .txt 輸出
沒有 Markdown 語法、沒有 HTML 標籤、沒有格式殘留。只有原始文字 — 正是 grep、awk 和 sed 等工具所期望的輸入格式。
UTF-8 編碼
輸出始終採用 UTF-8 編碼,能在產生的 .txt 檔案中正確處理國際字元、中日韓文字和特殊符號。
掃描 PDF → TXT
純圖像 PDF 會自動進行 OCR 處理。掃描的頁面將在您的 .txt 輸出中轉換為真實文字。
準備好批次轉換
使用 API 在單一腳本中將整個 PDF 目錄轉換為 .txt 檔案。請參閱下方的 Python 和 Node.js 範例。
雜訊移除
自動移除會使 .txt 檔案雜亂的頁首、頁尾、頁碼和水印。
使用案例
此工具為您節省時間的常見情境。
資料管線輸入
將 PDF 轉換為 .txt 檔案,以便擷取至 ETL 管線、Apache Spark、pandas DataFrames 或資料倉儲。純文字是通用的輸入格式。
搜尋引擎索引
將 PDF 檔案庫批次轉換為 .txt 檔案,以便在 Elasticsearch、Solr、Meilisearch 或任何讀取純文字的全文搜尋引擎中建立索引。
ML/AI 訓練資料
從 PDF 文件集合建立文字語料庫。將每個 PDF 儲存為 .txt 檔案,以建立用於語言模型、分類器或 NER 系統的乾淨訓練資料集。
舊系統匯入
許多舊系統、資料庫和大型主機應用程式僅接受 .txt 或 CSV 輸入。將 PDF 轉換為 .txt 以便匯入這些系統,無需手動重新輸入。
使用 API 自動化
以程式化方式使用相同工具。適用於任何語言 — 僅需 HTTP。
# Convert a single PDF to .txt curl -X POST https://api.parsejet.com/v1/parse/auto/file \ -H "Authorization: Bearer YOUR_API_KEY" \ -F "[email protected]" \ | jq -r '.text' > output.txt
import httpx
from pathlib import Path
# Batch-convert all PDFs in a folder to .txt files
pdf_dir = Path("pdfs/")
txt_dir = Path("txt_output/")
txt_dir.mkdir(exist_ok=True)
for pdf_file in pdf_dir.glob("*.pdf"):
resp = httpx.post(
"https://api.parsejet.com/v1/parse/auto/file",
headers={"Authorization": "Bearer YOUR_API_KEY"},
files={"file": (pdf_file.name, pdf_file.read_bytes(), "application/pdf")},
)
txt_path = txt_dir / pdf_file.with_suffix(".txt").name
txt_path.write_text(resp.json()["text"], encoding="utf-8")
print(f"Saved {txt_path}") import { readdir, readFile, writeFile } from "fs/promises";
import { join, basename } from "path";
// Batch-convert all PDFs in a folder to .txt files
const pdfDir = "./pdfs";
const outDir = "./txt_output";
for (const file of await readdir(pdfDir)) {
if (!file.endsWith(".pdf")) continue;
const formData = new FormData();
formData.append("file", new Blob([await readFile(join(pdfDir, file))]));
const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
method: "POST",
headers: { Authorization: "Bearer YOUR_API_KEY" },
body: formData,
});
const { text } = await res.json();
await writeFile(join(outDir, basename(file, ".pdf") + ".txt"), text);
} 常見問題
如何將 PDF 轉換為 .txt 檔案?
在上方上傳您的 PDF — ParseJet 會提取所有文字並返回乾淨的純文字輸出。複製它並儲存為 .txt 檔案,或使用 API 搭配輸出重定向(請參閱 cURL 範例)直接儲存。
PDF 轉 TXT 和 PDF 轉 Markdown 有什麼區別?
PDF 轉 TXT 提供不含格式的原始純文字 — 適合資料處理、搜尋索引和腳本。PDF 轉 Markdown 使用 Markdown 語法保留結構(標題、表格、清單) — 更適合文件編寫和內容遷移。
我可以批次轉換多個 PDF 為 .txt 檔案嗎?
可以。使用 ParseJet API 遍歷 PDF 資料夾,並將每個檔案儲存為 .txt 檔案。請參閱上方的 Python 和 JavaScript 批次轉換範例。
我可以將掃描的 PDF 轉換為 TXT 嗎?
可以。ParseJet 會自動使用 OCR 從掃描的 PDF 和基於圖像的頁面中提取文字。結果是同樣乾淨的 .txt 輸出。
.txt 輸出使用什麼編碼?
ParseJet 返回 UTF-8 編碼的文字,支援所有語言和特殊字元。儲存為 .txt 檔案時,請使用 UTF-8 編碼以正確保留內容。
這是免費的嗎?
是的。您每天可獲得 3 次免費轉換,無需註冊。建立免費帳戶可獲得每月 300 點額度。付費方案每月 19 美元起,適用於批次轉換工作流程。
相關工具
PDF to Text Converter
Convert PDF to plain text online for free. Handles multi-page documents, scanned PDFs with OCR, and complex layouts. No signup required — use instantly or automate via API.
Extract Text from PDF
Extract text from PDF files online for free. Supports scanned documents, multi-page PDFs, and complex layouts. No installation needed — works in your browser.
PDF to Markdown Converter
Convert PDF to Markdown online for free. Preserves headings, lists, tables, and code blocks. No signup required — try it instantly or automate with the ParseJet API.