[인더스트리뉴스 조창현 기자] 문서 AI 전문기업 이파피루스(대표 김정희)가 AI 특화 문서 데이터 추출 기술로 글로벌 시장으로부터 주목받고 있는 가운데, 향후 시장 확대를 위한 전략을 발표했다고 15일 밝혔다.
이파피루스는 올해 1분기 글로벌 고객 문의 중 65%가 문서 AI 기술에 관련된 내용으로 지난해 같은 기간 대비 2배 이상 증가했다고 전했다. 특히 이파피루스는 지난해 말 오픈AI에서 개발한 챗GPT에 학습 및 문서 처리 서비스를 위한 PDF 기술을 공급한 바 있다. 이에 오픈AI가 보유 중인 기업 고객들까지 관련 기술을 사용하게 되면서 업계 내에서 이파피루스가 갖는 영향력이 한층 강화되게 됐다.
이파피루스 김정희 대표는 “텍스트 데이터를 AI가 이해할 수 있는 형태로 추출하는 기술은 LLM(대규모언어모델)이나 RAG(검색 증강 생성) 같은 자연어 처리 모델에 대한 훈련 및 활용에 필수적”이라며, “과거에는 텍스트 추출 기술에 대한 수요가 소수 LLM 훈련 기업에서만 있었다면 최근에는 LLM을 직접 활용하고자 하는 일반 기업까지 관심을 갖는 등 시장이 크게 확대됐다”고 말했다.
이어 김정희 대표는 “LLM 학습을 위한 텍스트 추출 기술 수요도 함께 증가했다”고 덧붙였다.
한편 지금까지 LLM을 활용한 AI 솔루션은 그럴듯한 오류나 거짓말을 결과로 도출하는 ‘AI 환각(할루시네이션)’이 문제로 지적돼 왔다. 이파피루스는 LLM에 대한 수요 증가는 LLM과 RAG간 결합을 통해 이뤄지게 됐다고 전했다. 구체적으로 학습 데이터에 없는 새로운 지식을 활용할 수 있는 RAG가 LLM과 결합하게 되면서 AI 환각 현상을 보완할 수 있게 됐으며, 관련 기술 발전은 LLM 사용 대중화로 이어지게 됐다는 게 이파피루스의 설명이다.
앞으로 이파피루스는 관련 수요 증가에 맞게 핵심 기술인 ‘LLM특화 텍스트 추출’로 사업을 확장해 나갈 계획이다. 관련 기술은 PDF 문서에서 안정적으로 텍스트를 추출하는 기술이다. 추출 내용에 대한 정확도와 함께 문서를 학습할 때 소모되는 LLM 토큰 사용 최소화를 지원한다. 이파피루스는 관련 기술에 대해 LLM 학습에 필요한 메타 데이터를 효과적으로 생성할 수 있는 기술이라고 부연했다. 이미 이파피루스는 PDF 처리 기술 ‘파이뮤PDF(PyMuPDF)’를 기반으로 텍스트 추출 분야를 선도하고 있지만, 사업 확장을 통해 시장 내에서 점유율을 확대할 수 있을 것으로 기대된다.
한편 이파피루스는 문서 AI 기술 전문기업으로 다양한 언어 모델과 데이터 추출 기술을 개발해 AI 훈련 및 활용에 필수적인 솔루션을 제공하고 있다. 이파피루스는 현재 미국 및 유럽, 일본 등 해외 자회사를 통해 글로벌 사업을 전개 중이며 전체 매출 중 절반가량은 해외 고객이 차지하고 있다고 전했다.