ParseJet

Analizador de PDF

ParseJet es un analizador de PDF amigable para desarrolladores que extrae texto, título y metadatos de cualquier PDF mediante una sola llamada API. Sin dependencias que instalar — reemplaza pdf-parse, pdfplumber o PyMuPDF con un solo endpoint HTTP.

Suelta un archivo aquí o explorar

Acepta archivos PDF

Gratis — 3 solicitudes/día, sin registro. para 300 créditos/mes gratis.

Cómo funciona

1

Envía tu PDF

Sube un archivo en la herramienta de arriba, o envíalo por POST a la API. ParseJet detecta el formato automáticamente — sin configuración necesaria.

2

Analiza y extrae

ParseJet extrae texto, título, autor, número de páginas y estructura del contenido. El OCR se aplica automáticamente a las páginas escaneadas.

3

Obtén JSON estructurado

Recibe una respuesta JSON limpia con texto, título, source_type y metadatos — lista para usar en tu aplicación.

Características principales

Lo que hace que este pdf parser destaque.

Cero dependencias

No necesitas instalar poppler, pdftotext o ninguna librería nativa. ParseJet es una API alojada — solo haz una petición HTTP.

Reemplazo directo

Reemplaza pdf-parse (Node.js), pdfplumber (Python) o PyMuPDF con una sola llamada API. Funciona desde cualquier lenguaje.

Metadatos enriquecidos

Devuelve título del documento, autor, fecha de creación, número de páginas y tipo de contenido detectado — no solo texto crudo.

Salida JSON consistente

Cada respuesta sigue el mismo esquema: { text, title, source_type, metadata }. No se necesita manejo específico de formato.

OCR incorporado

Los PDF escaneados se procesan con OCR automáticamente. No se requiere un paso de OCR separado ni configuración.

Detección de tablas

Detecta datos tabulares en PDFs. Solicita salida en Markdown para tablas correctamente formateadas.

Casos de uso

Escenarios comunes donde esta herramienta te ahorra tiempo.

Reemplazar pdf-parse en Node.js

Si usas el paquete npm pdf-parse y tienes problemas con dependencias nativas o mantenimiento, ParseJet es un reemplazo directo vía HTTP.

Reemplazar pdfplumber en Python

pdfplumber requiere Python y librerías nativas. ParseJet proporciona la misma extracción vía API, así que puedes llamarlo desde cualquier lenguaje o función serverless.

Canalizaciones de procesamiento de documentos

Construye flujos de trabajo automatizados que analicen PDFs entrantes — facturas, informes, formularios — y enruten los datos extraídos a tu base de datos o CRM.

Ingesta de documentos para RAG

Analiza PDFs como parte de tu canalización de generación aumentada por recuperación. ParseJet devuelve texto estructurado que da mejor contexto a los LLMs.

Automatiza con la API

Usa la misma herramienta de forma programática. Funciona con cualquier lenguaje — solo HTTP.

cURL
# Parse a PDF and get text + metadata
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]"

# Response:
# {
#   "text": "Invoice #1234\nDate: 2026-03-15\n...",
#   "title": "Invoice #1234",
#   "source_type": "pdf",
#   "metadata": { "pages": 2, "author": "Acme Corp" }
# }
Python
import httpx

# Before (pdf-parse / pdfplumber):
#   import pdfplumber
#   with pdfplumber.open("invoice.pdf") as pdf:
#       text = "\n".join(p.extract_text() for p in pdf.pages)

# After (ParseJet — no dependencies):
resp = httpx.post(
    "https://api.parsejet.com/v1/parse/auto/file",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    files={"file": open("invoice.pdf", "rb")},
)
result = resp.json()
text = result["text"]          # All text, all pages
title = result["title"]        # Document title
pages = result["metadata"]["pages"]  # Page count
JavaScript
// Before (pdf-parse):
//   const pdfParse = require("pdf-parse");
//   const data = await pdfParse(buffer);

// After (ParseJet — no native dependencies):
const formData = new FormData();
formData.append("file", pdfBuffer, "invoice.pdf");

const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
  method: "POST",
  headers: { Authorization: "Bearer YOUR_API_KEY" },
  body: formData,
});
const { text, title, source_type, metadata } = await res.json();
// Works in Node.js, Deno, Bun, Cloudflare Workers — anywhere with fetch

¿Quieres automatizar esto?

ParseJet API te ofrece el mismo poder de análisis a través de un único endpoint HTTP. Sin ffmpeg, sin poppler, sin tesseract — solo una llamada a la API.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
Leer Documentación de la API

Preguntas frecuentes

¿Cómo se compara ParseJet con pdf-parse (npm)?

pdf-parse es una librería de Node.js que requiere instalación local y solo maneja extracción básica de texto. ParseJet es una API alojada que extrae texto, metadatos y estructura de cualquier PDF — incluyendo documentos escaneados vía OCR — con cero dependencias.

¿Cómo se compara con pdfplumber (Python)?

pdfplumber es excelente para extracción de tablas pero requiere Python y procesamiento local. ParseJet ofrece capacidades similares vía HTTP, así que puedes usarlo desde cualquier lenguaje sin instalar Python o dependencias nativas.

¿Qué metadatos extrae el analizador de PDF?

ParseJet extrae el título del documento, autor, fecha de creación, número de páginas y tipo de contenido detectado. El texto completo y los metadatos se devuelven en una respuesta JSON estructurada.

¿Puedo usarlo en un entorno serverless?

Sí. Dado que ParseJet es una API HTTP, funciona en AWS Lambda, Vercel Functions, Cloudflare Workers y cualquier plataforma serverless — sin dependencias binarias nativas que empaquetar.

¿Soporta extracción de tablas de PDF?

Sí. ParseJet detecta y extrae tablas de PDFs y las devuelve como tablas Markdown correctamente formateadas por defecto.

¿Es gratuito?

Sí. Obtienes 3 análisis gratuitos al día sin registro. Crea una cuenta gratuita para 300 créditos al mes. Los planes de pago comienzan en $19/mes con límites de tasa y cuotas de tamaño de archivo más altos.

Comienza a extraer texto gratis

No requiere registro. Analiza tu primer archivo en segundos.

Ver Precios