Documentação

Documentação do ParseJet

Name: ParseJet
Author: ParseJet

O ParseJet extrai texto de qualquer arquivo ou URL. Uma chamada de API lida com PDF, DOCX, YouTube, páginas web, imagens, áudio, vídeo e mais de 25 formatos.

Início Rápido

Obtenha seu primeiro resultado de análise em menos de 60 segundos. Sem necessidade de cadastro.

Teste instantaneamente

Cole qualquer URL no ParseJet — nenhuma chave de API é necessária para suas primeiras 3 requisições por dia.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'

Obtenha sua chave de API

Faça login com Google ou GitHub para obter uma chave de API gratuita. O plano gratuito inclui 300 requisições por mês.

# Add your API key to requests
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'

Use o resultado

Toda resposta retorna a mesma estrutura JSON, independentemente do formato de entrada:

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "webpage",
  "metadata": { "url": "https://example.com" }
}

Autenticação

O ParseJet oferece três níveis de acesso. Você pode começar a usar a API imediatamente sem qualquer autenticação.

Nível	Como acessar	Limite de taxa	Melhor para
Anônimo	Sem cabeçalhos	3/dia, 2MB	Testes rápidos
Sessão	Login (cookie)	10/dia, 5MB	Ferramenta do painel
Chave de API	`Authorization: Bearer pj_xxx`	Por plano	Produção

Dica: Você não precisa de uma chave de API para começar. Basta enviar requisições diretamente — as 3 primeiras por dia são gratuitas e sem cadastro.

Conceitos Fundamentais

Formatos suportados

O ParseJet detecta automaticamente o formato pela extensão do arquivo ou padrão da URL. Você não precisa especificar o formato — basta enviar o arquivo ou URL para /v1/parse/auto e o ParseJet cuida do resto.

Categoria	Formatos	Créditos
Texto	TXT, MD, JSON, CSV, XML, HTML	1
Documentos	DOCX, PPTX, XLSX, EPUB	2
Complexos	PDF, páginas web, vídeo	3
YouTube	URLs de vídeos do YouTube	5
Outros	Áudio (MP3, WAV), imagens (JPG, PNG), RSS, OPML, e-mail, notebooks	1

Créditos

Cada requisição à API consome créditos com base na complexidade do formato sendo analisado. Arquivos de texto simples custam 1 crédito, enquanto transcrições do YouTube custam 5. Sua cota mensal de créditos depende do seu plano.

Formato de saída

Por padrão, o ParseJet retorna o texto extraído bruto. Adicione ?output_format=markdown a qualquer requisição para obter uma saída pós-processada com títulos, listas, tabelas e blocos de código detectados.

Guia

Analisar um PDF

Extraia texto de qualquer arquivo PDF, incluindo documentos digitalizados e relatórios com várias páginas.

Enviar um arquivo PDF

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Converter para Markdown

Adicione output_format=markdown para preservar a estrutura do documento:

curl -X POST https://api.parsejet.com/v1/parse/auto/file?output_format=markdown \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Custo em créditos: 3 créditos por PDF. Suporta arquivos até o limite de tamanho do seu plano (10MB-200MB).

Guia

Transcrições do YouTube

Obtenha a transcrição completa de qualquer vídeo do YouTube. Suporta legendas geradas automaticamente em mais de 100 idiomas.

Obter uma transcrição

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID"}'

Especificar idioma

Use o parâmetro language para vídeos não em inglês:

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "ja"}'

Ou use detecção automática

O endpoint /v1/parse/auto/url detecta automaticamente URLs do YouTube:

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtu.be/VIDEO_ID"}'

Custo em créditos: 5 créditos por vídeo do YouTube. Os metadados incluem video_id, canal e duração.

Guia

Web Scraping

Extraia o conteúdo principal de qualquer página da web. O ParseJet remove automaticamente navegação, anúncios, barras laterais e conteúdo padrão.

curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/blog/article"}'

Custo em créditos: 3 créditos por página da web. Retorna texto limpo com título e URL de origem nos metadados.

Guia

Documentos de Escritório

Analise arquivos do Word (DOCX), Excel (XLSX), PowerPoint (PPTX) e CSV. Basta fazer o upload do arquivo — o ParseJet detecta o formato automaticamente.

# Works with any Office format
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

# Also works with spreadsheets
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Custo em créditos: 2 créditos por documento. Suportados: DOCX, PPTX, XLSX, CSV.

Referência da API

Formato da Resposta

Todos os endpoints retornam a mesma estrutura JSON:

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "pdf",
  "metadata": { "pages": 12, "author": "Jane Doe" }
}

Campo	Tipo	Descrição
text	string	O conteúdo de texto extraído
title	string	Título do documento ou página
source_type	string	Identificador de formato (pdf, webpage, youtube, etc.)
metadata	object	Metadados específicos do formato (número de páginas, autor, duração, etc.)

POST

/v1/parse/auto

O endpoint recomendado. Detecta automaticamente o formato pela extensão do arquivo ou tipo de URL. Aceita file (multipart) ou url (campo de formulário), não ambos.

curl -X POST https://api.parsejet.com/v1/parse/auto \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

POST

/v1/parse/auto/url

Analise qualquer URL. Distingue automaticamente YouTube de páginas da web regulares.

Parâmetro	Tipo	Obrigatório	Descrição
url	string	sim	URL para analisar
language	string	não	Código ISO 639-1 para o idioma da transcrição do YouTube

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'

POST

/v1/parse/auto/file

Analise qualquer arquivo enviado. Detecta o formato pela extensão do arquivo, com fallback para detecção baseada em conteúdo.

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

POST

/v1/parse/webpage

Extraia o conteúdo principal de uma página da web. Remove navegação, anúncios e conteúdo padrão.

Parâmetro	Tipo	Obrigatório	Descrição
url	string	sim	URL da página web

curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

POST

/v1/parse/youtube

Extraia a transcrição de um vídeo do YouTube. Os metadados incluem video_id, canal e duração.

Parâmetro	Tipo	Obrigatório	Descrição
url	string	sim	URL do vídeo do YouTube ou ID do vídeo
language	string	não	Código de idioma ISO 639-1

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "en"}'

POST

/v1/parse/audio

Analise arquivos de áudio. Suporta MP3, WAV, M4A, OGG, FLAC, WebM. Máx. 25MB.

Campo	Tipo	Obrigatório	Descrição
file	file	sim	Arquivo de áudio
language	string	não	Código ISO 639-1
with_timestamps	boolean	não	Incluir timestamps no nível da palavra

curl -X POST https://api.parsejet.com/v1/parse/audio \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"

POST

/v1/parse/video

Extraia áudio de vídeo para transcrição. Suporta MP4, MKV, AVI, MOV, WebM.

curl -X POST https://api.parsejet.com/v1/parse/video \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"

POST

/v1/parse/epub

Analise e-book EPUB. Extrai texto organizado por capítulos.

curl -X POST https://api.parsejet.com/v1/parse/epub \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

POST

/v1/parse/feed

Analise feed RSS ou Atom. Também suporta OPML via /v1/parse/opml.

curl -X POST https://api.parsejet.com/v1/parse/feed \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

POST

/v1/parse/image

Analise imagem. Suporta JPG, PNG, GIF, BMP, WebP, TIFF. Máx. 20MB.

Campo	Tipo	Obrigatório	Descrição
file	file	sim	Arquivo de imagem
prompt	string	não	Prompt personalizado para análise de imagem
model	string	não	Substituição do modelo de visão

curl -X POST https://api.parsejet.com/v1/parse/image \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "prompt=Describe this image"

POST

/v1/parse/image/ocr

Extraia texto de imagem via OCR.

curl -X POST https://api.parsejet.com/v1/parse/image/ocr \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

SDKs

SDKs Oficiais

TypeScript / JavaScript

npm install parsejet

import { ParseJet } from "parsejet";

const client = new ParseJet({ apiKey: "pj_YOUR_KEY" });

// Parse a URL
const result = await client.parse.url("https://example.com");
console.log(result.text);

// Parse a file
const result = await client.parse.file(buffer, "report.pdf");
console.log(result.text);

Python

pip install parsejet

from parsejet import ParseJet

client = ParseJet(api_key="pj_YOUR_KEY")

# Parse a URL
result = client.parse.url("https://example.com")
print(result.text)

# Parse a file
with open("report.pdf", "rb") as f:
    result = client.parse.file(f, "report.pdf")
    print(result.text)

Agentes de IA

Servidor MCP

Use o ParseJet como um servidor MCP (Model Context Protocol) com Claude Code, Cursor ou qualquer agente de IA compatível com MCP.

Instalar

npm install -g @parsejet/mcp-server

Claude Code

Adicione ao .claude/settings.json do seu projeto:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Cursor

Vá para Configurações → Servidores MCP, adicione um novo servidor:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Claude.ai (Remoto)

Para o Claude.ai web, use o endpoint HTTP remoto — nenhuma instalação local necessária:

Endpoint:  https://api.parsejet.com/mcp
Transport: Streamable HTTP
Auth:      Bearer pj_YOUR_KEY (in Authorization header)

Vá para Claude.ai → Configurações → Integrações → Adicionar Servidor MCP → Insira a URL acima.

Ferramentas disponíveis

Ferramenta	Descrição
parse_url	Analisar qualquer URL (página web, YouTube, etc.)
parse_file	Analisar um arquivo local (PDF, DOCX, imagens, etc.)
get_youtube_transcript	Obter transcrição de vídeo do YouTube com idioma opcional

Limites de Taxa e Preços

O ParseJet usa um sistema baseado em créditos. Cada requisição consome créditos com base na complexidade do formato.

Plano	Preço	Créditos/mês	RPM	Arquivo máx.
Free	$0	300	5	10MB
Pro	$19/mo	3,000	30	50MB
Business	$49/mo	20,000	60	100MB
Scale	$99/mo	50,000	200	200MB
Enterprise	Custom	Custom	Custom	Custom

Os cabeçalhos de resposta incluem X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset e Retry-After em respostas 429.

Códigos de Erro

Todos os erros retornam JSON com os campos error e message.

Status	Código	Descrição
400	unsupported_format	Tipo de arquivo não suportado
401	invalid_api_key	Chave da API ausente ou inválida
413	file_too_large	Arquivo excede o limite do plano
422	parse_error	Arquivo corrompido ou ilegível
429	rate_limit_exceeded	Limite de RPM ou diário/mensal atingido
502	parser_unavailable	Backend do parser inacessível
504	parser_timeout	Tempo limite da operação de parse excedido