ParseJet

ドキュメント

ParseJet ドキュメント

ParseJet は、あらゆるファイルや URL からテキストを抽出します。1 回の API 呼び出しで、PDF、DOCX、YouTube、ウェブページ、画像、音声、動画、および 25 以上の形式を処理できます。

クイックスタート

60 秒以内に最初の解析結果を取得できます。サインアップは不要です。

1

すぐに試す

任意の URL を ParseJet に貼り付けてください — 最初の 1 日 3 リクエストまでは API キーは不要です。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
2

API キーを取得

Google または GitHub でサインインして、無料の API キーを取得してください。無料枠には月 300 リクエストが含まれます。

# Add your API key to requests
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
3

結果を使用

入力形式に関係なく、すべてのレスポンスは同じ JSON 構造を返します:

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "webpage",
  "metadata": { "url": "https://example.com" }
}

認証

ParseJet は 3 つのアクセスレベルを提供しています。認証なしですぐに API の使用を開始できます。

レベル アクセス方法 レート制限 最適な用途
匿名ヘッダーなし3/日, 2MB簡単なテスト
セッションサインイン (Cookie)10/日, 5MBダッシュボードツール
API キーAuthorization: Bearer pj_xxxプランによる本番環境

ヒント: 始めるのに API キーは必要ありません。リクエストを直接送信するだけです — 最初の 1 日 3 回はサインアップなしで無料です。

コアコンセプト

対応フォーマット

ParseJetはファイル拡張子またはURLパターンからフォーマットを自動検出します。フォーマットを指定する必要はありません。ファイルまたはURLを/v1/parse/autoに送信するだけで、残りはParseJetが処理します。

カテゴリ フォーマット クレジット
テキストTXT, MD, JSON, CSV, XML, HTML1
ドキュメントDOCX, PPTX, XLSX, EPUB2
複合PDF, ウェブページ, 動画3
YouTubeYouTube動画URL5
その他音声 (MP3, WAV), 画像 (JPG, PNG), RSS, OPML, メール, ノートブック1

クレジット

各APIリクエストは、解析されるフォーマットの複雑さに基づいてクレジットを消費します。シンプルなテキストファイルは1クレジット、YouTubeの文字起こしは5クレジットです。月間のクレジット割り当てはご利用のプランによって異なります。

出力フォーマット

デフォルトでは、ParseJetは抽出された生のテキストを返します。検出された見出し、リスト、表、コードブロックを含む後処理済みの出力を得るには、任意のリクエストに?output_format=markdownを追加してください。

ガイド

PDFを解析する

スキャンされた文書や複数ページのレポートを含む、あらゆるPDFファイルからテキストを抽出します。

PDFファイルをアップロード

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Markdownに変換

文書構造を保持するにはoutput_format=markdownを追加します:

curl -X POST https://api.parsejet.com/v1/parse/auto/file?output_format=markdown \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

クレジットコスト: PDFあたり3クレジット。ご利用プランのファイルサイズ制限(10MB-200MB)までのファイルをサポートします。

ガイド

YouTube文字起こし

あらゆるYouTube動画の完全な文字起こしを取得します。100以上の言語の自動生成キャプションをサポートします。

文字起こしを取得

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID"}'

言語を指定

英語以外の動画にはlanguageパラメータを使用します:

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "ja"}'

または自動検出を使用

/v1/parse/auto/urlエンドポイントはYouTube URLを自動検出します:

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtu.be/VIDEO_ID"}'

クレジットコスト: YouTube動画あたり5クレジット。メタデータにはvideo_id、チャンネル、再生時間が含まれます。

ガイド

Webスクレイピング

任意のWebページから主要なコンテンツを抽出します。ParseJetはナビゲーション、広告、サイドバー、定型文を自動的に除去します。

curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/blog/article"}'

クレジット消費: Webページあたり3クレジット。タイトルとソースURLを含むメタデータ付きのクリーンなテキストを返します。

ガイド

オフィス文書

Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、CSVファイルを解析します。ファイルをアップロードするだけで、ParseJetが自動的にフォーマットを検出します。

# Works with any Office format
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

# Also works with spreadsheets
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

クレジット消費: 文書あたり2クレジット。対応フォーマット: DOCX, PPTX, XLSX, CSV。

APIリファレンス

レスポンス形式

すべてのエンドポイントは同じJSON構造を返します:

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "pdf",
  "metadata": { "pages": 12, "author": "Jane Doe" }
}
フィールド タイプ 説明
textstring抽出されたテキストコンテンツ
titlestring文書またはページのタイトル
source_typestringフォーマット識別子 (pdf, webpage, youtube など)
metadataobjectフォーマット固有のメタデータ (ページ数、著者、長さなど)
POST

/v1/parse/auto

推奨エンドポイント。ファイル拡張子またはURLタイプからフォーマットを自動検出します。file (マルチパート) または url (フォームフィールド) のいずれかを受け付けます。両方は不可。

curl -X POST https://api.parsejet.com/v1/parse/auto \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/auto/url

任意のURLを解析します。YouTubeと通常のWebページを自動的に区別します。

パラメータタイプ必須説明
urlstringはい解析するURL
languagestringいいえYouTube字幕の言語のISO 639-1コード
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
POST

/v1/parse/auto/file

アップロードされた任意のファイルを解析します。ファイル拡張子からフォーマットを検出し、コンテンツベースの検出にフォールバックします。

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/webpage

Webページから主要なコンテンツを抽出します。ナビゲーション、広告、定型文を除去します。

パラメータタイプ必須説明
urlstringはいウェブページURL
curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'
POST

/v1/parse/youtube

YouTube動画からトランスクリプトを抽出します。メタデータには video_id、チャンネル、長さが含まれます。

パラメータタイプ必須説明
urlstringはいYouTube動画URLまたは動画ID
languagestringいいえISO 639-1言語コード
curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "en"}'
POST

/v1/parse/audio

音声ファイルを解析します。MP3, WAV, M4A, OGG, FLAC, WebM に対応。最大25MB。

フィールドタイプ必須説明
filefileはい音声ファイル
languagestringいいえISO 639-1コード
with_timestampsbooleanいいえ単語レベルのタイムスタンプを含める
curl -X POST https://api.parsejet.com/v1/parse/audio \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"
POST

/v1/parse/video

動画から音声を抽出して文字起こしします。MP4, MKV, AVI, MOV, WebM に対応。

curl -X POST https://api.parsejet.com/v1/parse/video \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"
POST

/v1/parse/epub

EPUB電子書籍を解析します。章ごとに整理されたテキストを抽出します。

curl -X POST https://api.parsejet.com/v1/parse/epub \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/feed

RSSまたはAtomフィードを解析します。/v1/parse/opml 経由でOPMLにも対応しています。

curl -X POST https://api.parsejet.com/v1/parse/feed \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/image

画像を解析します。JPG, PNG, GIF, BMP, WebP, TIFF に対応。最大20MB。

フィールドタイプ必須説明
filefileはい画像ファイル
promptstringいいえ画像分析用のカスタムプロンプト
modelstringいいえビジョンモデルの上書き
curl -X POST https://api.parsejet.com/v1/parse/image \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "prompt=Describe this image"
POST

/v1/parse/image/ocr

OCRを使用して画像からテキストを抽出します。

curl -X POST https://api.parsejet.com/v1/parse/image/ocr \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

SDK

公式SDK

TypeScript / JavaScript

npm install parsejet
import { ParseJet } from "parsejet";

const client = new ParseJet({ apiKey: "pj_YOUR_KEY" });

// Parse a URL
const result = await client.parse.url("https://example.com");
console.log(result.text);

// Parse a file
const result = await client.parse.file(buffer, "report.pdf");
console.log(result.text);

Python

pip install parsejet
from parsejet import ParseJet

client = ParseJet(api_key="pj_YOUR_KEY")

# Parse a URL
result = client.parse.url("https://example.com")
print(result.text)

# Parse a file
with open("report.pdf", "rb") as f:
    result = client.parse.file(f, "report.pdf")
    print(result.text)

AIエージェント

MCPサーバー

ParseJetをMCP(Model Context Protocol)サーバーとして、Claude Code、Cursor、またはMCP互換のAIエージェントで使用します。

インストール

npm install -g @parsejet/mcp-server

Claude Code

プロジェクトの.claude/settings.jsonに追加:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Cursor

設定 → MCPサーバーに移動し、新しいサーバーを追加:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Claude.ai (リモート)

Claude.aiウェブ版では、リモートHTTPエンドポイントを使用します — ローカルインストールは不要です:

Endpoint:  https://api.parsejet.com/mcp
Transport: Streamable HTTP
Auth:      Bearer pj_YOUR_KEY (in Authorization header)

Claude.ai → 設定 → 連携 → MCPサーバーを追加 → 上記のURLを入力。

利用可能なツール

ツール 説明
parse_url任意のURLを解析(ウェブページ、YouTubeなど)
parse_fileローカルファイルを解析(PDF、DOCX、画像など)
get_youtube_transcriptオプションの言語でYouTube動画の字幕を取得

レート制限と料金

ParseJetはクレジットベースのシステムを使用しています。各リクエストはフォーマットの複雑さに基づいてクレジットを消費します。

プラン 価格 クレジット/月 RPM 最大ファイル
Free$0300510MB
Pro$19/mo3,0003050MB
Business$49/mo20,00060100MB
Scale$99/mo50,000200200MB
EnterpriseCustomCustomCustomCustom

レスポンスヘッダーには、X-RateLimit-LimitX-RateLimit-RemainingX-RateLimit-Reset、および429レスポンス時のRetry-Afterが含まれます。

エラーコード

すべてのエラーは、errormessage フィールドを含むJSONを返します。

ステータスコード説明
400unsupported_formatサポートされていないファイル形式
401invalid_api_keyAPIキーが不足しているか無効です
413file_too_largeファイルがプランの制限を超えています
422parse_errorファイルが破損しているか読み取れません
429rate_limit_exceededRPMまたは日次/月次の制限に達しました
502parser_unavailableパーサーバックエンドに到達できません
504parser_timeout解析操作がタイムアウトしました