ParseJet

PDFからTXTファイルへの変換

PDFから.txtファイルが必要ですか?ドキュメントをアップロードして、Markdown、HTML、書式タグなしの純粋なプレーンテキスト出力を取得できます。.txtファイルとして保存したり、スクリプトに渡したり、プレーンテキスト入力を受け付けるあらゆるシステムにインポートしたりできる生のテキストコンテンツです。

ここにファイルをドロップするか、 参照

PDFファイルを受け付けます

無料 — 1日3リクエスト、登録不要。 して月300クレジットを無料で。

仕組み

1

PDFをアップロード

上記にPDFファイルをドロップするか、クリックして参照します。テキストベース、スキャン済み、混合コンテンツなど、あらゆるPDFで動作します。

2

プレーンテキストとして抽出

ParseJetは太字、斜体、色、フォント、ヘッダー、フッター、ページ番号など、すべての書式を除去し、読み順に従った純粋なテキストコンテンツを返します。

3

.txtとして保存

出力をコピーしてローカルに.txtファイルとして保存します。または、APIを使用してPDFフォルダ全体をプログラムで.txtファイルに一括変換できます。

主な機能

このpdf to txtが際立つ理由。

純粋な.txt出力

Markdown構文、HTMLタグ、書式のアーティファクトはありません。grep、awk、sedなどのツールが入力として期待する生のテキストのみです。

UTF-8エンコード

出力は常にUTF-8エンコードされ、国際文字、CJKテキスト、特殊記号が結果の.txtファイルで正しく処理されます。

スキャンPDF → TXT

画像のみのPDFは自動的にOCRで処理されます。スキャンされたページが.txt出力で実際のテキストになります。

一括変換対応

APIを使用してPDFディレクトリ全体を単一のスクリプトで.txtファイルに変換できます。以下のPythonおよびNode.jsの例を参照してください。

ノイズ除去

.txtファイルを乱雑にするヘッダー、フッター、ページ番号、透かしを自動的に除去します。

ユースケース

このツールが時間を節約する一般的なシナリオ。

データパイプライン入力

ETLパイプライン、Apache Spark、pandas DataFrames、データウェアハウスへの取り込みのためにPDFを.txtファイルに変換します。プレーンテキストは普遍的な入力形式です。

検索エンジンインデックス作成

PDFアーカイブを.txtファイルに一括変換し、Elasticsearch、Solr、Meilisearch、またはプレーンテキストを読み取るあらゆる全文検索エンジンでインデックス作成します。

ML/AIのトレーニングデータ

PDFドキュメントコレクションからテキストコーパスを構築します。各PDFを.txtファイルとして保存し、言語モデル、分類器、NERシステム用のクリーンなトレーニングデータセットを作成します。

レガシーシステムへのインポート

多くの古いシステム、データベース、メインフレームアプリケーションは.txtまたはCSV入力のみを受け付けます。手動での再入力なしに、これらのシステムへのインポートのためにPDFを.txtに変換します。

APIで自動化

同じツールをプログラムで使用。HTTPのみで、あらゆる言語で動作します。

cURL
# Convert a single PDF to .txt
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]" \
  | jq -r '.text' > output.txt
Python
import httpx
from pathlib import Path

# Batch-convert all PDFs in a folder to .txt files
pdf_dir = Path("pdfs/")
txt_dir = Path("txt_output/")
txt_dir.mkdir(exist_ok=True)

for pdf_file in pdf_dir.glob("*.pdf"):
    resp = httpx.post(
        "https://api.parsejet.com/v1/parse/auto/file",
        headers={"Authorization": "Bearer YOUR_API_KEY"},
        files={"file": (pdf_file.name, pdf_file.read_bytes(), "application/pdf")},
    )
    txt_path = txt_dir / pdf_file.with_suffix(".txt").name
    txt_path.write_text(resp.json()["text"], encoding="utf-8")
    print(f"Saved {txt_path}")
JavaScript
import { readdir, readFile, writeFile } from "fs/promises";
import { join, basename } from "path";

// Batch-convert all PDFs in a folder to .txt files
const pdfDir = "./pdfs";
const outDir = "./txt_output";

for (const file of await readdir(pdfDir)) {
  if (!file.endsWith(".pdf")) continue;
  const formData = new FormData();
  formData.append("file", new Blob([await readFile(join(pdfDir, file))]));

  const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
    method: "POST",
    headers: { Authorization: "Bearer YOUR_API_KEY" },
    body: formData,
  });
  const { text } = await res.json();
  await writeFile(join(outDir, basename(file, ".pdf") + ".txt"), text);
}

自動化をお求めですか?

ParseJet APIは、単一のHTTPエンドポイントで同じ解析機能を提供します。ffmpeg、poppler、tesseractは不要。APIコール一つだけです。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
APIドキュメントを読む

よくある質問

PDFを.txtファイルに変換するにはどうすればよいですか?

上記にPDFをアップロードしてください — ParseJetがすべてのテキストを抽出し、クリーンなプレーンテキスト出力を返します。それをコピーして.txtファイルとして保存するか、APIを出力リダイレクションとともに使用して(cURLの例を参照)直接保存できます。

PDFからTXTとPDFからMarkdownの違いは何ですか?

PDFからTXTは書式なしの生のプレーンテキストを提供します — データ処理、検索インデックス作成、スクリプトに最適です。PDFからMarkdownはMarkdown構文を使用して構造(見出し、表、リスト)を保持します — ドキュメントやコンテンツ移行により適しています。

複数のPDFを.txtファイルに一括変換できますか?

はい。ParseJet APIを使用してPDFフォルダをループし、それぞれを.txtファイルとして保存できます。上記のPythonおよびJavaScriptの一括変換例を参照してください。

スキャンされたPDFをTXTに変換できますか?

はい。ParseJetはOCRを使用してスキャンされたPDFおよび画像ベースのページからテキストを自動的に抽出します。結果は同じクリーンな.txt出力です。

.txt出力はどのエンコーディングを使用しますか?

ParseJetはUTF-8エンコードされたテキストを返します。これはすべての言語と特殊文字をサポートします。.txtファイルとして保存する際は、コンテンツを正しく保存するためにUTF-8エンコーディングを使用してください。

無料ですか?

はい。サインアップなしで1日3回の無料変換が可能です。無料アカウントを作成すると、月300クレジットを利用できます。一括変換ワークフローのための有料プランは月額19ドルからです。

無料でテキスト抽出を始める

サインアップ不要。数秒で最初のファイルを解析。

料金を見る