ParseJet

Documentação

Documentação do ParseJet

O ParseJet extrai texto de qualquer arquivo ou URL. Uma chamada de API lida com PDF, DOCX, YouTube, páginas web, imagens, áudio, vídeo e mais de 25 formatos.

Início Rápido

Obtenha seu primeiro resultado de análise em menos de 60 segundos. Sem necessidade de cadastro.

1

Teste instantaneamente

Cole qualquer URL no ParseJet — nenhuma chave de API é necessária para suas primeiras 3 requisições por dia.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
2

Obtenha sua chave de API

Faça login com Google ou GitHub para obter uma chave de API gratuita. O plano gratuito inclui 300 requisições por mês.

# Add your API key to requests
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
3

Use o resultado

Toda resposta retorna a mesma estrutura JSON, independentemente do formato de entrada:

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "webpage",
  "metadata": { "url": "https://example.com" }
}

Autenticação

O ParseJet oferece três níveis de acesso. Você pode começar a usar a API imediatamente sem qualquer autenticação.

Nível Como acessar Limite de taxa Melhor para
AnônimoSem cabeçalhos3/dia, 2MBTestes rápidos
SessãoLogin (cookie)10/dia, 5MBFerramenta do painel
Chave de APIAuthorization: Bearer pj_xxxPor planoProdução

Dica: Você não precisa de uma chave de API para começar. Basta enviar requisições diretamente — as 3 primeiras por dia são gratuitas e sem cadastro.

Conceitos Fundamentais

Formatos suportados

O ParseJet detecta automaticamente o formato pela extensão do arquivo ou padrão da URL. Você não precisa especificar o formato — basta enviar o arquivo ou URL para /v1/parse/auto e o ParseJet cuida do resto.

Categoria Formatos Créditos
TextoTXT, MD, JSON, CSV, XML, HTML1
DocumentosDOCX, PPTX, XLSX, EPUB2
ComplexosPDF, páginas web, vídeo3
YouTubeURLs de vídeos do YouTube5
OutrosÁudio (MP3, WAV), imagens (JPG, PNG), RSS, OPML, e-mail, notebooks1

Créditos

Cada requisição à API consome créditos com base na complexidade do formato sendo analisado. Arquivos de texto simples custam 1 crédito, enquanto transcrições do YouTube custam 5. Sua cota mensal de créditos depende do seu plano.

Formato de saída

Por padrão, o ParseJet retorna o texto extraído bruto. Adicione ?output_format=markdown a qualquer requisição para obter uma saída pós-processada com títulos, listas, tabelas e blocos de código detectados.

Guia

Analisar um PDF

Extraia texto de qualquer arquivo PDF, incluindo documentos digitalizados e relatórios com várias páginas.

Enviar um arquivo PDF

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Converter para Markdown

Adicione output_format=markdown para preservar a estrutura do documento:

curl -X POST https://api.parsejet.com/v1/parse/auto/file?output_format=markdown \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Custo em créditos: 3 créditos por PDF. Suporta arquivos até o limite de tamanho do seu plano (10MB-200MB).

Guia

Transcrições do YouTube

Obtenha a transcrição completa de qualquer vídeo do YouTube. Suporta legendas geradas automaticamente em mais de 100 idiomas.

Obter uma transcrição

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID"}'

Especificar idioma

Use o parâmetro language para vídeos não em inglês:

curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "ja"}'

Ou use detecção automática

O endpoint /v1/parse/auto/url detecta automaticamente URLs do YouTube:

curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtu.be/VIDEO_ID"}'

Custo em créditos: 5 créditos por vídeo do YouTube. Os metadados incluem video_id, canal e duração.

Guia

Web Scraping

Extraia o conteúdo principal de qualquer página da web. O ParseJet remove automaticamente navegação, anúncios, barras laterais e conteúdo padrão.

curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/blog/article"}'

Custo em créditos: 3 créditos por página da web. Retorna texto limpo com título e URL de origem nos metadados.

Guia

Documentos de Escritório

Analise arquivos do Word (DOCX), Excel (XLSX), PowerPoint (PPTX) e CSV. Basta fazer o upload do arquivo — o ParseJet detecta o formato automaticamente.

# Works with any Office format
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

# Also works with spreadsheets
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

Custo em créditos: 2 créditos por documento. Suportados: DOCX, PPTX, XLSX, CSV.

Referência da API

Formato da Resposta

Todos os endpoints retornam a mesma estrutura JSON:

{
  "text": "Extracted text content...",
  "title": "Document Title",
  "source_type": "pdf",
  "metadata": { "pages": 12, "author": "Jane Doe" }
}
Campo Tipo Descrição
textstringO conteúdo de texto extraído
titlestringTítulo do documento ou página
source_typestringIdentificador de formato (pdf, webpage, youtube, etc.)
metadataobjectMetadados específicos do formato (número de páginas, autor, duração, etc.)
POST

/v1/parse/auto

O endpoint recomendado. Detecta automaticamente o formato pela extensão do arquivo ou tipo de URL. Aceita file (multipart) ou url (campo de formulário), não ambos.

curl -X POST https://api.parsejet.com/v1/parse/auto \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/auto/url

Analise qualquer URL. Distingue automaticamente YouTube de páginas da web regulares.

ParâmetroTipoObrigatórioDescrição
urlstringsimURL para analisar
languagestringnãoCódigo ISO 639-1 para o idioma da transcrição do YouTube
curl -X POST https://api.parsejet.com/v1/parse/auto/url \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'
POST

/v1/parse/auto/file

Analise qualquer arquivo enviado. Detecta o formato pela extensão do arquivo, com fallback para detecção baseada em conteúdo.

curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/webpage

Extraia o conteúdo principal de uma página da web. Remove navegação, anúncios e conteúdo padrão.

ParâmetroTipoObrigatórioDescrição
urlstringsimURL da página web
curl -X POST https://api.parsejet.com/v1/parse/webpage \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'
POST

/v1/parse/youtube

Extraia a transcrição de um vídeo do YouTube. Os metadados incluem video_id, canal e duração.

ParâmetroTipoObrigatórioDescrição
urlstringsimURL do vídeo do YouTube ou ID do vídeo
languagestringnãoCódigo de idioma ISO 639-1
curl -X POST https://api.parsejet.com/v1/parse/youtube \
  -H "Content-Type: application/json" \
  -d '{"url": "https://youtube.com/watch?v=VIDEO_ID", "language": "en"}'
POST

/v1/parse/audio

Analise arquivos de áudio. Suporta MP3, WAV, M4A, OGG, FLAC, WebM. Máx. 25MB.

CampoTipoObrigatórioDescrição
filefilesimArquivo de áudio
languagestringnãoCódigo ISO 639-1
with_timestampsbooleannãoIncluir timestamps no nível da palavra
curl -X POST https://api.parsejet.com/v1/parse/audio \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"
POST

/v1/parse/video

Extraia áudio de vídeo para transcrição. Suporta MP4, MKV, AVI, MOV, WebM.

curl -X POST https://api.parsejet.com/v1/parse/video \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "language=en"
POST

/v1/parse/epub

Analise e-book EPUB. Extrai texto organizado por capítulos.

curl -X POST https://api.parsejet.com/v1/parse/epub \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/feed

Analise feed RSS ou Atom. Também suporta OPML via /v1/parse/opml.

curl -X POST https://api.parsejet.com/v1/parse/feed \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"
POST

/v1/parse/image

Analise imagem. Suporta JPG, PNG, GIF, BMP, WebP, TIFF. Máx. 20MB.

CampoTipoObrigatórioDescrição
filefilesimArquivo de imagem
promptstringnãoPrompt personalizado para análise de imagem
modelstringnãoSubstituição do modelo de visão
curl -X POST https://api.parsejet.com/v1/parse/image \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]" -F "prompt=Describe this image"
POST

/v1/parse/image/ocr

Extraia texto de imagem via OCR.

curl -X POST https://api.parsejet.com/v1/parse/image/ocr \
  -H "Authorization: Bearer pj_YOUR_KEY" \
  -F "[email protected]"

SDKs

SDKs Oficiais

TypeScript / JavaScript

npm install parsejet
import { ParseJet } from "parsejet";

const client = new ParseJet({ apiKey: "pj_YOUR_KEY" });

// Parse a URL
const result = await client.parse.url("https://example.com");
console.log(result.text);

// Parse a file
const result = await client.parse.file(buffer, "report.pdf");
console.log(result.text);

Python

pip install parsejet
from parsejet import ParseJet

client = ParseJet(api_key="pj_YOUR_KEY")

# Parse a URL
result = client.parse.url("https://example.com")
print(result.text)

# Parse a file
with open("report.pdf", "rb") as f:
    result = client.parse.file(f, "report.pdf")
    print(result.text)

Agentes de IA

Servidor MCP

Use o ParseJet como um servidor MCP (Model Context Protocol) com Claude Code, Cursor ou qualquer agente de IA compatível com MCP.

Instalar

npm install -g @parsejet/mcp-server

Claude Code

Adicione ao .claude/settings.json do seu projeto:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Cursor

Vá para Configurações → Servidores MCP, adicione um novo servidor:

{
  "mcpServers": {
    "parsejet": {
      "command": "npx",
      "args": ["-y", "@parsejet/mcp-server"],
      "env": {
        "PARSEJET_API_KEY": "pj_YOUR_KEY"
      }
    }
  }
}

Claude.ai (Remoto)

Para o Claude.ai web, use o endpoint HTTP remoto — nenhuma instalação local necessária:

Endpoint:  https://api.parsejet.com/mcp
Transport: Streamable HTTP
Auth:      Bearer pj_YOUR_KEY (in Authorization header)

Vá para Claude.ai → Configurações → Integrações → Adicionar Servidor MCP → Insira a URL acima.

Ferramentas disponíveis

Ferramenta Descrição
parse_urlAnalisar qualquer URL (página web, YouTube, etc.)
parse_fileAnalisar um arquivo local (PDF, DOCX, imagens, etc.)
get_youtube_transcriptObter transcrição de vídeo do YouTube com idioma opcional

Limites de Taxa e Preços

O ParseJet usa um sistema baseado em créditos. Cada requisição consome créditos com base na complexidade do formato.

Plano Preço Créditos/mês RPM Arquivo máx.
Free$0300510MB
Pro$19/mo3,0003050MB
Business$49/mo20,00060100MB
Scale$99/mo50,000200200MB
EnterpriseCustomCustomCustomCustom

Os cabeçalhos de resposta incluem X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset e Retry-After em respostas 429.

Códigos de Erro

Todos os erros retornam JSON com os campos error e message.

StatusCódigoDescrição
400unsupported_formatTipo de arquivo não suportado
401invalid_api_keyChave da API ausente ou inválida
413file_too_largeArquivo excede o limite do plano
422parse_errorArquivo corrompido ou ilegível
429rate_limit_exceededLimite de RPM ou diário/mensal atingido
502parser_unavailableBackend do parser inacessível
504parser_timeoutTempo limite da operação de parse excedido