ドキュメント

ParseJet ドキュメント

Name: ParseJet
Author: ParseJet

ParseJet は、あらゆるファイルや URL からテキストを抽出します。1 回の API 呼び出しで、PDF、DOCX、YouTube、ウェブページ、画像、音声、動画、および 25 以上の形式を処理できます。

クイックスタート

60 秒以内に最初の解析結果を取得できます。サインアップは不要です。

すぐに試す

任意の URL を ParseJet に貼り付けてください — 最初の 1 日 3 リクエストまでは API キーは不要です。

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'

API キーを取得

Google または GitHub でサインインして、無料の API キーを取得してください。無料枠には月 300 リクエストが含まれます。

# Add your API key to requests
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'

結果を使用

入力形式に関係なく、すべてのレスポンスは同じ JSON 構造を返します：

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "webpage",
  "metadata": { "url": "https://example.com" }
}

認証

ParseJet は 3 つのアクセスレベルを提供しています。認証なしですぐに API の使用を開始できます。

レベル	アクセス方法	レート制限	最適な用途
匿名	ヘッダーなし	3/日, 2MB	簡単なテスト
セッション	サインイン (Cookie)	10/日, 5MB	ダッシュボードツール
API キー	`Authorization: Bearer pj_xxx`	プランによる	本番環境

ヒント: 始めるのに API キーは必要ありません。リクエストを直接送信するだけです — 最初の 1 日 3 回はサインアップなしで無料です。

コアコンセプト

対応フォーマット

ParseJetはファイル拡張子またはURLパターンからフォーマットを自動検出します。フォーマットを指定する必要はありません。ファイルまたはURLを/v1/parse/autoに送信するだけで、残りはParseJetが処理します。

カテゴリ	フォーマット	クレジット
テキスト	TXT, MD, JSON, CSV, XML, HTML	1
ドキュメント	DOCX, PPTX, XLSX, EPUB	2
複合	PDF, ウェブページ, 動画	3
YouTube	YouTube動画URL	5
その他	音声 (MP3, WAV), 画像 (JPG, PNG), RSS, OPML, メール, ノートブック	1

クレジット

各APIリクエストは、解析されるフォーマットの複雑さに基づいてクレジットを消費します。シンプルなテキストファイルは1クレジット、YouTubeの文字起こしは5クレジットです。月間のクレジット割り当てはご利用のプランによって異なります。

出力フォーマット

デフォルトでは、ParseJetは抽出された生のテキストを返します。検出された見出し、リスト、表、コードブロックを含む後処理済みの出力を得るには、任意のリクエストに?output_format=markdownを追加してください。

ガイド

PDFを解析する

スキャンされた文書や複数ページのレポートを含む、あらゆるPDFファイルからテキストを抽出します。

PDFファイルをアップロード

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Markdownに変換

文書構造を保持するにはoutput_format=markdownを追加します:

curl -X POST https://api.parsejet.com/v1/parse/auto/file?output_format=markdown \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

クレジットコスト: PDFあたり3クレジット。ご利用プランのファイルサイズ制限（10MB-200MB）までのファイルをサポートします。

ガイド

YouTube文字起こし

あらゆるYouTube動画の完全な文字起こしを取得します。100以上の言語の自動生成キャプションをサポートします。

文字起こしを取得

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID"}'

言語を指定

英語以外の動画にはlanguageパラメータを使用します:

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "ja"}'

または自動検出を使用

/v1/parse/auto/urlエンドポイントはYouTube URLを自動検出します:

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtu.be/VIDEO_ID"}'

クレジットコスト: YouTube動画あたり5クレジット。メタデータにはvideo_id、チャンネル、再生時間が含まれます。

ガイド

Webスクレイピング

任意のWebページから主要なコンテンツを抽出します。ParseJetはナビゲーション、広告、サイドバー、定型文を自動的に除去します。

curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/blog/article"}'

クレジット消費: Webページあたり3クレジット。タイトルとソースURLを含むメタデータ付きのクリーンなテキストを返します。

ガイド

オフィス文書

Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、CSVファイルを解析します。ファイルをアップロードするだけで、ParseJetが自動的にフォーマットを検出します。

# Works with any Office format
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

# Also works with spreadsheets
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

クレジット消費: 文書あたり2クレジット。対応フォーマット: DOCX, PPTX, XLSX, CSV。

APIリファレンス

レスポンス形式

すべてのエンドポイントは同じJSON構造を返します:

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "pdf",
  "metadata": { "pages": 12, "author": "Jane Doe" }
}

フィールド	タイプ	説明
text	string	抽出されたテキストコンテンツ
title	string	文書またはページのタイトル
source_type	string	フォーマット識別子 (pdf, webpage, youtube など)
metadata	object	フォーマット固有のメタデータ (ページ数、著者、長さなど)

POST

/v1/parse/auto

推奨エンドポイント。ファイル拡張子またはURLタイプからフォーマットを自動検出します。file (マルチパート) または url (フォームフィールド) のいずれかを受け付けます。両方は不可。

curl -X POST https://api.parsejet.com/v1/parse/auto \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

POST

/v1/parse/auto/url

任意のURLを解析します。YouTubeと通常のWebページを自動的に区別します。

パラメータ	タイプ	必須	説明
url	string	はい	解析するURL
language	string	いいえ	YouTube字幕の言語のISO 639-1コード

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'

POST

/v1/parse/auto/file

アップロードされた任意のファイルを解析します。ファイル拡張子からフォーマットを検出し、コンテンツベースの検出にフォールバックします。

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

POST

/v1/parse/webpage

Webページから主要なコンテンツを抽出します。ナビゲーション、広告、定型文を除去します。

パラメータ	タイプ	必須	説明
url	string	はい	ウェブページURL

curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

POST

/v1/parse/youtube

YouTube動画からトランスクリプトを抽出します。メタデータには video_id、チャンネル、長さが含まれます。

パラメータ	タイプ	必須	説明
url	string	はい	YouTube動画URLまたは動画ID
language	string	いいえ	ISO 639-1言語コード

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "en"}'

POST

/v1/parse/audio

音声ファイルを解析します。MP3, WAV, M4A, OGG, FLAC, WebM に対応。最大25MB。

フィールド	タイプ	必須	説明
file	file	はい	音声ファイル
language	string	いいえ	ISO 639-1コード
with_timestamps	boolean	いいえ	単語レベルのタイムスタンプを含める

curl -X POST https://api.parsejet.com/v1/parse/audio \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"

POST

/v1/parse/video

動画から音声を抽出して文字起こしします。MP4, MKV, AVI, MOV, WebM に対応。

curl -X POST https://api.parsejet.com/v1/parse/video \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"

POST

/v1/parse/epub

EPUB電子書籍を解析します。章ごとに整理されたテキストを抽出します。

curl -X POST https://api.parsejet.com/v1/parse/epub \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

POST

/v1/parse/feed

RSSまたはAtomフィードを解析します。/v1/parse/opml 経由でOPMLにも対応しています。

curl -X POST https://api.parsejet.com/v1/parse/feed \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

POST

/v1/parse/image

画像を解析します。JPG, PNG, GIF, BMP, WebP, TIFF に対応。最大20MB。

フィールド	タイプ	必須	説明
file	file	はい	画像ファイル
prompt	string	いいえ	画像分析用のカスタムプロンプト
model	string	いいえ	ビジョンモデルの上書き

curl -X POST https://api.parsejet.com/v1/parse/image \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "prompt=Describe this image"

POST

/v1/parse/image/ocr

OCRを使用して画像からテキストを抽出します。

curl -X POST https://api.parsejet.com/v1/parse/image/ocr \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

SDK

公式SDK

TypeScript / JavaScript

npm install parsejet

import { ParseJet } from "parsejet";

const client = new ParseJet({ apiKey: "pj_YOUR_KEY" });

// Parse a URL
const result = await client.parse.url("https://example.com");
console.log(result.text);

// Parse a file
const result = await client.parse.file(buffer, "report.pdf");
console.log(result.text);

Python

pip install parsejet

from parsejet import ParseJet

client = ParseJet(api_key="pj_YOUR_KEY")

# Parse a URL
result = client.parse.url("https://example.com")
print(result.text)

# Parse a file
with open("report.pdf", "rb") as f:
    result = client.parse.file(f, "report.pdf")
    print(result.text)

AIエージェント

MCPサーバー

ParseJetをMCP（Model Context Protocol）サーバーとして、Claude Code、Cursor、またはMCP互換のAIエージェントで使用します。

インストール

npm install -g @parsejet/mcp-server

Claude Code

プロジェクトの.claude/settings.jsonに追加:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Cursor

設定 → MCPサーバーに移動し、新しいサーバーを追加:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Claude.ai (リモート)

Claude.aiウェブ版では、リモートHTTPエンドポイントを使用します — ローカルインストールは不要です:

Endpoint:  https://api.parsejet.com/mcp
Transport: Streamable HTTP
Auth:      Bearer pj_YOUR_KEY (in Authorization header)

Claude.ai → 設定 → 連携 → MCPサーバーを追加 → 上記のURLを入力。

利用可能なツール

ツール	説明
parse_url	任意のURLを解析（ウェブページ、YouTubeなど）
parse_file	ローカルファイルを解析（PDF、DOCX、画像など）
get_youtube_transcript	オプションの言語でYouTube動画の字幕を取得

レート制限と料金

ParseJetはクレジットベースのシステムを使用しています。各リクエストはフォーマットの複雑さに基づいてクレジットを消費します。

プラン	価格	クレジット/月	RPM	最大ファイル
Free	$0	300	5	10MB
Pro	$19/mo	3,000	30	50MB
Business	$49/mo	20,000	60	100MB
Scale	$99/mo	50,000	200	200MB
Enterprise	Custom	Custom	Custom	Custom

レスポンスヘッダーには、X-RateLimit-Limit、X-RateLimit-Remaining、X-RateLimit-Reset、および429レスポンス時のRetry-Afterが含まれます。

エラーコード

すべてのエラーは、error と message フィールドを含むJSONを返します。

ステータス	コード	説明
400	unsupported_format	サポートされていないファイル形式
401	invalid_api_key	APIキーが不足しているか無効です
413	file_too_large	ファイルがプランの制限を超えています
422	parse_error	ファイルが破損しているか読み取れません
429	rate_limit_exceeded	RPMまたは日次/月次の制限に達しました
502	parser_unavailable	パーサーバックエンドに到達できません
504	parser_timeout	解析操作がタイムアウトしました