ParseJet

PDFパーサー

ParseJetは、開発者に優しいPDFパーサーで、単一のAPI呼び出しで任意のPDFからテキスト、タイトル、メタデータを抽出します。依存関係のインストールは不要 — pdf-parse、pdfplumber、PyMuPDFを1つのHTTPエンドポイントに置き換えられます。

ここにファイルをドロップするか、 参照

PDFファイルを受け付けます

無料 — 1日3リクエスト、登録不要。 して月300クレジットを無料で。

仕組み

1

PDFを送信

上のツールでファイルをアップロードするか、APIにPOSTします。ParseJetはフォーマットを自動検出するため、設定は不要です。

2

解析と抽出

ParseJetはテキスト、タイトル、著者、ページ数、コンテンツ構造を抽出します。スキャンされたページには自動的にOCRが適用されます。

3

構造化JSONを取得

テキスト、タイトル、source_type、メタデータを含むクリーンなJSONレスポンスを受け取り、アプリケーションで即座に使用できます。

主な機能

このpdf parserが際立つ理由。

依存関係ゼロ

poppler、pdftotext、またはネイティブライブラリをインストールする必要はありません。ParseJetはホスト型API — HTTPリクエストを送信するだけです。

ドロップイン置換

pdf-parse (Node.js)、pdfplumber (Python)、PyMuPDFを単一のAPI呼び出しに置き換えられます。任意の言語から動作します。

豊富なメタデータ

ドキュメントタイトル、著者、作成日、ページ数、検出されたコンテンツタイプを返します — 生のテキストだけではありません。

一貫したJSON出力

すべてのレスポンスは同じスキーマに従います: { text, title, source_type, metadata }。フォーマット固有の処理は不要です。

組み込みOCR

スキャンされたPDFは自動的にOCRで処理されます。別途OCRステップや設定は必要ありません。

表検出

PDF内の表形式データを検出します。適切にフォーマットされた表を取得するには、Markdown出力をリクエストしてください。

ユースケース

このツールが時間を節約する一般的なシナリオ。

Node.jsのpdf-parseを置換

npmのpdf-parseパッケージを使用していて、ネイティブ依存関係やメンテナンスの問題に直面している場合、ParseJetはHTTP経由のドロップイン置換となります。

Pythonのpdfplumberを置換

pdfplumberはPythonとネイティブライブラリを必要とします。ParseJetはAPI経由で同じ抽出機能を提供するため、任意の言語やサーバーレス関数から呼び出せます。

ドキュメント処理パイプライン

受信PDF — 請求書、レポート、フォーム — を解析し、抽出したデータをデータベースやCRMにルーティングする自動化ワークフローを構築します。

RAGドキュメント取り込み

検索拡張生成パイプラインの一部としてPDFを解析します。ParseJetはLLMにより良いコンテキストを提供する構造化テキストを返します。

APIで自動化

同じツールをプログラムで使用。HTTPのみで、あらゆる言語で動作します。

cURL
# Parse a PDF and get text + metadata
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Response:
# {
#   "text": "Invoice #1234\nDate: 2026-03-15\n...",
#   "title": "Invoice #1234",
#   "source_type": "pdf",
#   "metadata": { "pages": 2, "author": "Acme Corp" }
# }
Python
import httpx

# Before (pdf-parse / pdfplumber):
#   import pdfplumber
#   with pdfplumber.open("invoice.pdf") as pdf:
#       text = "\n".join(p.extract_text() for p in pdf.pages)

# After (ParseJet — no dependencies):
resp = httpx.post(
    "https://api.parsejet.com/v1/parse/auto/file",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    files={"file": open("invoice.pdf", "rb")},
)
result = resp.json()
text = result["text"]          # All text, all pages
title = result["title"]        # Document title
pages = result["metadata"]["pages"]  # Page count
JavaScript
// Before (pdf-parse):
//   const pdfParse = require("pdf-parse");
//   const data = await pdfParse(buffer);

// After (ParseJet — no native dependencies):
const formData = new FormData();
formData.append("file", pdfBuffer, "invoice.pdf");

const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
  method: "POST",
  headers: { Authorization: "Bearer YOUR_API_KEY" },
  body: formData,
});
const { text, title, source_type, metadata } = await res.json();
// Works in Node.js, Deno, Bun, Cloudflare Workers — anywhere with fetch

自動化をお求めですか?

ParseJet APIは、単一のHTTPエンドポイントで同じ解析機能を提供します。ffmpeg、poppler、tesseractは不要。APIコール一つだけです。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
APIドキュメントを読む

よくある質問

ParseJetはpdf-parse (npm)とどう違いますか?

pdf-parseはローカルインストールが必要なNode.jsライブラリで、基本的なテキスト抽出のみを扱います。ParseJetはホスト型APIで、依存関係ゼロで任意のPDFからテキスト、メタデータ、構造を抽出します — OCRによるスキャン文書も含みます。

pdfplumber (Python)と比較してどうですか?

pdfplumberは表抽出に優れていますが、Pythonとローカル処理が必要です。ParseJetはHTTP経由で同様の機能を提供するため、Pythonやネイティブ依存関係をインストールせずに任意の言語から使用できます。

PDFパーサーはどのようなメタデータを抽出しますか?

ParseJetはドキュメントタイトル、著者、作成日、ページ数、検出されたコンテンツタイプを抽出します。全文とメタデータは構造化JSONレスポンスで返されます。

サーバーレス環境で使用できますか?

はい。ParseJetはHTTP APIであるため、AWS Lambda、Vercel Functions、Cloudflare Workers、および任意のサーバーレスプラットフォームで動作します — バンドルするネイティブバイナリ依存関係はありません。

PDFの表抽出はサポートしていますか?

はい。ParseJetはPDFから表を検出・抽出し、デフォルトで適切にフォーマットされたMarkdown表として返します。

無料ですか?

はい。サインアップなしで1日3回の無料解析が利用できます。無料アカウントを作成すると、月300クレジットを利用できます。有料プランは月$19からで、より高いレート制限とファイルサイズ制限が付きます。

無料でテキスト抽出を始める

サインアップ不要。数秒で最初のファイルを解析。

料金を見る