ParseJet

PDFからテキストへの変換ツール

あらゆるPDFファイルから数秒で全テキストを抽出します。ParseJetは複数ページのレポート、スキャン文書(OCR経由)、複雑なレイアウトを処理し、コピー、検索、AIパイプラインへの入力に使用できるクリーンで構造化されたプレーンテキストを返します。

ここにファイルをドロップするか、 参照

PDFファイルを受け付けます

無料 — 1日3リクエスト、登録不要。 して月300クレジットを無料で。

仕組み

1

PDFをアップロード

PDFをドラッグ&ドロップするか、クリックして選択します。デジタル、スキャン、混合コンテンツなど、あらゆるPDFで動作します。

2

プレーンテキストを抽出

ParseJetはすべてのページを読み取り、読み順と段落構造を保持します。スキャンページは自動的にOCRで処理されます。

3

コピーまたはダウンロード

抽出したテキストをクリップボードにコピーします。一括変換には、APIを使用して数百のPDFをプログラムで処理できます。

主な機能

このpdf to text converterが際立つ理由。

読み順の保持

複数列レイアウトや複雑なページデザインからも、自然な読み順に従ってテキストを抽出します。

自動OCR

画像ベースのページを検出し、透過的にOCRを適用します。追加設定は不要です。

複数ページ抽出

文書全体を一度に処理します。すべてのページからの全テキストを単一のレスポンスで返します。

レイアウト処理

ヘッダー、フッター、サイドバー、脚注を本文テキストに混ぜることなく正しく処理します。

高速処理

ほとんどのPDFは2秒以内に変換されます。大規模な文書(100ページ以上)も通常10秒以内に完了します。

ユースケース

このツールが時間を節約する一般的なシナリオ。

検索とインデックス作成

PDFアーカイブをElasticsearchやAlgoliaなどの全文検索エンジン用の検索可能なテキストに変換します。

データ抽出

請求書、領収書、契約書、フォームからテキストを抽出し、下流処理やデータ入力自動化に使用します。

アクセシビリティ

PDFコンテンツをプレーンテキストに変換することで、スクリーンリーダーやテキスト読み上げツールでアクセス可能にします。

AIおよびNLP入力

感情分析、要約、分類、またはあらゆるNLPパイプラインのためにPDFコンテンツを準備します。

APIで自動化

同じツールをプログラムで使用。HTTPのみで、あらゆる言語で動作します。

cURL
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Response: { "text": "Full extracted text...", "title": "...", "source_type": "pdf" }
Python
import httpx

# Convert a single PDF to text
resp = httpx.post(
    "https://api.parsejet.com/v1/parse/auto/file",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    files={"file": open("report.pdf", "rb")},
)
text = resp.json()["text"]
print(text)  # Plain text from all pages
JavaScript
const formData = new FormData();
formData.append("file", pdfFile);  // File object or Blob

const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
  method: "POST",
  headers: { Authorization: "Bearer YOUR_API_KEY" },
  body: formData,
});
const { text, title, source_type } = await res.json();
console.log(text);  // Full plain text

自動化をお求めですか?

ParseJet APIは、単一のHTTPエンドポイントで同じ解析機能を提供します。ffmpeg、poppler、tesseractは不要。APIコール一つだけです。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
APIドキュメントを読む

よくある質問

PDFをテキストに変換するにはどうすればよいですか?

上記でPDFをアップロードするか、APIを使用します:PDFを指定してPOST /v1/parse/auto/fileを呼び出します。ParseJetはすべてのテキストコンテンツを抽出し、読み順を保持したプレーンテキストとして返します。

スキャンPDFでも動作しますか?

はい。ParseJetは画像ベースのページを自動検出し、OCRを使用してスキャンPDF、文書の写真、埋め込み画像からテキストを抽出します。

複数列PDFはどのように処理しますか?

ParseJetはページレイアウトを分析して読み順を決定します。複数列のテキストは左から右へ列ごとに抽出され、論理的な流れが保持されます。

表を含むPDFはどうなりますか?

表は構造を保持して抽出されます。ParseJetはデフォルトでMarkdown形式の出力を返すため、表は適切なMarkdownテーブルとしてレンダリングされます。

無料ですか?制限はありますか?

はい。サインアップなしで1日3回の無料変換が可能です。無料アカウントを作成すると、月300クレジットを利用できます。有料プランは月額19ドルからで、より大きなファイルサイズ制限(最大200 MB)と高いクォータが提供されます。

無料でテキスト抽出を始める

サインアップ不要。数秒で最初のファイルを解析。

料金を見る