[인더스트리뉴스 최종윤 기자] 문서 AI 전문기업 이파피루스(대표 김정희)가 자사의 문서 데이터 추출 기술인 ‘파이뮤PDF 프로(PyMuPDF Pro)’를 국내에 정식으로 서비스한다고 19일 밝혔다.

‘파이뮤PDF 프로’는 이파피루스의 자회사인 미국 아티펙스 사(Artifex Inc., artifex.com)가 2005년 개발 및 출시한 C언어 기반 문서 데이터 추출 기술 ‘뮤PDF(MuPDF)’의 파이썬 바인딩 라이브러리다.
인공지능 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이썬 환경에서 빠르고 정확하게 구현할 수 있다.
2016년 첫 출시된 이래 누적 다운로드 약 9,000만건을 기록했으며 현재도 일간 다운로드 100만건 이상에 이를 정도로 높은 인기를 자랑한다.
‘파이뮤PDF 프로’가 이처럼 글로벌 개발자들로부터 오랜 사랑을 받아 온 이유는 어떤 형태의 문서 데이터도 정확하게 추출해 내는 뛰어난 성능 덕분이다.
‘파이뮤PDF 프로’는 문서 내 텍스트는 물론 이미지, 표, 리스트도 추출 가능하다. 읽기 순서에 기반해 문서 레이아웃을 구성하며, 문서 내 좌표 정보를 포함한 단어 단위 추출 방식을 통해 다단을 포함한 복잡한 문서 데이터도 원본 구조를 그대로 살려 추출할 수 있다.
추출한 데이터는 마크다운(Markdown) 형태로 제공되며 JSON, HTML, 텍스트 파일 등 사용자가 원하는 포맷으로 자유자재로 변환할 수 있다.
파이썬이 구동된다면 어떤 환경에서든 사용할 수 있는 것도 큰 장점이다.
특히 LLM(대규모 언어 모델, Large Language Models) 및 RAG(검색 증강 생성, Retrieval Augmented Generation) 특화 기능이 눈에 띈다.
‘파이뮤PDF 프로’는 추출한 문서 데이터를 LLM 및 RAG 친화적인 라마인덱스 리더(LlamaIndex Reader) 파일로 출력해 준다.
또한 문서 내 페이지와 위치 등의 메타 데이터를 포함한 청크(Chunk, 말뭉치)를 생성할 수 있어, 생성형 AI의 학습 효율을 높이는 것은 물론, 문서 기반 대화형 서비스를 개발하는 데도 유리하다.
PDF, MS오피스, 한글 문서, 이미지 외 다양한 문서 포맷을 지원한다.
이파피루스 김정아 부사장은 “‘파이뮤PDF 프로’는 이미 2023년부터 인공지능 챗봇 ‘챗GPT’의 학습 및 문서 처리를 위해 쓰이고 있다”며, “글로벌 시장에서 입증된 성능을 국내 고객들도 꼭 체험해 보시기 바란다”고 말했다.
한편 이파피루스는 문서 AI 기술 전문기업으로, 다양한 언어 모델과 데이터 추출 기술을 개발해 인공지능 훈련 및 활용에 필수적인 솔루션을 제공한다.
미국 및 유럽, 일본 등에 해외 자회사를 통해 글로벌 사업을 전개 중이며, 전체 매출의 절반 가량이 해외 고객이 차지하고 있다.