ParseJet

PDF를 TXT 파일로 변환

PDF에서 .txt 파일이 필요하신가요? 문서를 업로드하면 Markdown, HTML, 서식 태그 없이 순수한 일반 텍스트 출력을 얻을 수 있습니다. .txt 파일로 저장하거나 스크립트에 연결하거나 일반 텍스트 입력을 허용하는 모든 시스템에 가져올 수 있는 원시 텍스트 콘텐츠입니다.

여기에 파일을 끌어다 놓거나 찾아보기

PDF 파일 지원

무료 — 하루 3회 요청, 가입 불필요. 하면 월 300 크레딧 무료.

작동 방식

1

PDF 업로드

위에 PDF 파일을 끌어다 놓거나 클릭하여 탐색하세요. 텍스트 기반, 스캔본 또는 혼합 콘텐츠 등 모든 PDF에서 작동합니다.

2

일반 텍스트로 추출

ParseJet는 굵게, 기울임꼴, 색상, 글꼴, 머리글, 바닥글, 페이지 번호 등 모든 서식을 제거하고 읽기 순서대로 순수 텍스트 콘텐츠를 반환합니다.

3

.txt로 저장

출력 결과를 복사하여 로컬에 .txt 파일로 저장하세요. 또는 API를 사용하여 전체 PDF 폴더를 프로그래밍 방식으로 .txt 파일로 일괄 변환할 수 있습니다.

주요 기능

이 pdf to txt가 돋보이는 이유.

순수 .txt 출력

Markdown 구문, HTML 태그, 서식 잔재물이 없습니다. grep, awk, sed와 같은 도구가 입력으로 기대하는 바로 그 원시 텍스트입니다.

UTF-8 인코딩

출력은 항상 UTF-8로 인코딩되어 결과 .txt 파일에서 국제 문자, CJK 텍스트 및 특수 기호를 올바르게 처리합니다.

스캔 PDF → TXT

이미지 전용 PDF는 자동으로 OCR로 처리됩니다. 스캔된 페이지가 .txt 출력에서 실제 텍스트로 변환됩니다.

일괄 변환 준비 완료

API를 사용하여 전체 PDF 디렉토리를 단일 스크립트로 .txt 파일로 변환하세요. 아래 Python 및 Node.js 예제를 참조하세요.

잡음 제거

.txt 파일을 어지럽히는 머리글, 바닥글, 페이지 번호 및 워터마크를 자동으로 제거합니다.

사용 사례

이 도구가 시간을 절약해주는 일반적인 시나리오.

데이터 파이프라인 입력

ETL 파이프라인, Apache Spark, pandas DataFrame 또는 데이터 웨어하우스에 수집하기 위해 PDF를 .txt 파일로 변환하세요. 일반 텍스트는 보편적인 입력 형식입니다.

검색 엔진 색인 생성

PDF 아카이브를 .txt 파일로 일괄 변환하여 Elasticsearch, Solr, Meilisearch 또는 일반 텍스트를 읽는 모든 전문 검색 엔진에서 색인을 생성하세요.

ML/AI용 학습 데이터

PDF 문서 컬렉션에서 텍스트 코퍼스를 구축하세요. 각 PDF를 .txt 파일로 저장하여 언어 모델, 분류기 또는 NER 시스템을 위한 깨끗한 학습 데이터 세트를 생성하세요.

레거시 시스템 가져오기

많은 오래된 시스템, 데이터베이스 및 메인프레임 애플리케이션은 .txt 또는 CSV 입력만 허용합니다. 수동 재입력 없이 이러한 시스템으로 가져오기 위해 PDF를 .txt로 변환하세요.

API로 자동화

동일한 도구를 프로그래밍 방식으로 사용하세요. 모든 언어와 호환 — 단순히 HTTP입니다.

cURL
# Convert a single PDF to .txt
curl -X POST https://api.parsejet.com/v1/parse/auto/file \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "[email protected]" \
  | jq -r '.text' > output.txt
Python
import httpx
from pathlib import Path

# Batch-convert all PDFs in a folder to .txt files
pdf_dir = Path("pdfs/")
txt_dir = Path("txt_output/")
txt_dir.mkdir(exist_ok=True)

for pdf_file in pdf_dir.glob("*.pdf"):
    resp = httpx.post(
        "https://api.parsejet.com/v1/parse/auto/file",
        headers={"Authorization": "Bearer YOUR_API_KEY"},
        files={"file": (pdf_file.name, pdf_file.read_bytes(), "application/pdf")},
    )
    txt_path = txt_dir / pdf_file.with_suffix(".txt").name
    txt_path.write_text(resp.json()["text"], encoding="utf-8")
    print(f"Saved {txt_path}")
JavaScript
import { readdir, readFile, writeFile } from "fs/promises";
import { join, basename } from "path";

// Batch-convert all PDFs in a folder to .txt files
const pdfDir = "./pdfs";
const outDir = "./txt_output";

for (const file of await readdir(pdfDir)) {
  if (!file.endsWith(".pdf")) continue;
  const formData = new FormData();
  formData.append("file", new Blob([await readFile(join(pdfDir, file))]));

  const res = await fetch("https://api.parsejet.com/v1/parse/auto/file", {
    method: "POST",
    headers: { Authorization: "Bearer YOUR_API_KEY" },
    body: formData,
  });
  const { text } = await res.json();
  await writeFile(join(outDir, basename(file, ".pdf") + ".txt"), text);
}

자동화하고 싶으신가요?

ParseJet API는 단일 HTTP 엔드포인트를 통해 동일한 파싱 기능을 제공합니다. ffmpeg, poppler, tesseract 없이 — 단 한 번의 API 호출만으로 가능합니다.

curl -X POST https://api.parsejet.com/v1/parse/auto/url \ -H "Content-Type: application/json" \ -d '{"url":"https://example.com"}'
API 문서 읽기

자주 묻는 질문

PDF를 .txt 파일로 어떻게 변환하나요?

위에서 PDF를 업로드하세요 — ParseJet가 모든 텍스트를 추출하고 깨끗한 일반 텍스트 출력을 반환합니다. 복사하여 .txt 파일로 저장하거나, 출력 리디렉션과 함께 API를 사용하여 직접 저장하세요(cURL 예제 참조).

PDF를 TXT로 변환하는 것과 PDF를 Markdown으로 변환하는 것의 차이점은 무엇인가요?

PDF를 TXT로 변환하면 서식 없는 원시 일반 텍스트를 제공합니다 — 데이터 처리, 검색 색인 생성 및 스크립트에 이상적입니다. PDF를 Markdown으로 변환하면 Markdown 구문을 사용하여 구조(제목, 표, 목록)를 보존합니다 — 문서화 및 콘텐츠 마이그레이션에 더 적합합니다.

여러 PDF를 .txt 파일로 일괄 변환할 수 있나요?

예. ParseJet API를 사용하여 PDF 폴더를 반복 처리하고 각각을 .txt 파일로 저장하세요. 위의 Python 및 JavaScript 일괄 변환 예제를 참조하세요.

스캔된 PDF를 TXT로 변환할 수 있나요?

예. ParseJet는 OCR을 사용하여 스캔된 PDF 및 이미지 기반 페이지에서 텍스트를 자동으로 추출합니다. 결과는 동일한 깨끗한 .txt 출력입니다.

.txt 출력은 어떤 인코딩을 사용하나요?

ParseJet는 모든 언어와 특수 문자를 지원하는 UTF-8 인코딩 텍스트를 반환합니다. .txt 파일로 저장할 때 콘텐츠를 올바르게 보존하려면 UTF-8 인코딩을 사용하세요.

무료인가요?

예. 가입 없이 하루에 3번 무료 변환을 이용할 수 있습니다. 무료 계정을 생성하면 월 300 크레딧을 받습니다. 일괄 변환 워크플로우를 위한 유료 플랜은 월 $19부터 시작합니다.

무료로 텍스트 추출 시작하기

가입 불필요. 몇 초 만에 첫 파일을 파싱하세요.

가격 보기