[인더스트리뉴스 박현우 기자] AI 테크 기업 크라우드웍스가 생성형AI를 넘어 피지컬AI 영역으로 사업 확장을 가속화하고 있다. ‘한국의 Scale AI’로 불리며 국내 AI 데이터 구축 시장을 선도해온 크라우드웍스는 휴머노이드 로봇 학습 데이터부터 시뮬레이션 툴 개발까지 피지컬AI 생태계 전반에 걸쳐 입지를 확대하고 있다. 다음은 크라우드웍스 전략기획실 김혜수 실장과의 일문일답.
크라우드웍스를 ‘한국의 Scale AI’라고 소개하고 있는데, 실제로 피지컬AI에 있어 귀사가 보유한 핵심 경쟁력은 무엇이라고 판단하는가?
크라우드웍스는 Scale AI와 마찬가지로 데이터 라벨링을 기반으로 사업을 개시해 현재는 생성형AI, 피지컬AI에 이르기까지 사업 영역을 확장했다. 데이터 라벨링은 데이터를 분류하는 기술로, 과거에는 고양이와 개의 이미지를 구분하는 기초적인 작업에 국한됐다.
그러나 LLM이 등장한 이후부터는 LLM 데이터 가공이 새롭게 대두되면서, 기업들이 LLM을 활용할 수 있도록 기업 보유 문서를 LLM과 연계 가능한 형태로 전처리하고 구조화하는 작업까지 데이터 라벨링의 범주에 포함되고 있다. 최근에는 인공지능 모델의 성능이 향상됨에 따라 요구되는 데이터 품질이 달라지고 있어, 데이터 라벨링의 난이도 또한 상승하고 있는 추세다.
크라우드웍스는 이러한 데이터 라벨링 분야에서 국내 어떤 기업보다도 풍부한 경험을 축적해왔다. 현재는 피지컬AI와 관련된 데이터 영역에도 진출하고 있는 단계로, 이 시장에서도 크라우드웍스가 선도적인 위치를 점할 수 있을 것이라 확신한다.
피지컬AI는 관점에 따라 다양하게 해석될 수 있는데, 로봇 청소기에 탑재되는 AI 모델 역시 일종의 피지컬AI라고 볼 수 있다. 크라우드웍스는 AI 자율제조 얼라이언스에 참여하고 있으며, 자율주행 모델에 필요한 데이터를 구축한 상당한 경험을 보유하고 있다. 휴머노이드 로봇에 필요한 데이터 작업은 아직 착수한 기업이 거의 없는 것으로 파악되는데, 저희는 현재 파트너사와 함께 구축을 진행하고 있어 연내 구체화가 가능할 것으로 전망한다.
피지컬AI 분야에서 크라우드웍스가 담당하는 역할은?
크게 두 가지 측면에서 접근하고 있다. 우선 로봇에 탑재될 VLA(Vision Language Action) 데이터 구축이다. 이를 쉽게 설명하면, VLA 모델 기반 피지컬AI는 언어 기반의 LLM(대형언어모델)과 달리, 물리적 환경에서 다음 행동(Action)을 판단하고 실행하는 인공지능이라고 설명할 수 있다. 예컨대 LLM은 “아침밥“이라는 단어 다음에 ”먹었다”를 예측하는 모델이라면, 피지컬 AI는 로봇팔이 어떤 물체를 잡은 뒤 “다음 동작“을 수행할지를 학습·판단하는 모델이다.
또 다른 하나는 실증 및 품질 검증이다. 저희는 로봇 학습 데이터를 구축할 뿐만 아니라, 특정 데이터가 학습 데이터로서의 적절성을 갖췄는지, 로봇이 해당 데이터로 학습을 제대로 수행했는지를 검증하고 실증하는 업무를 수행하고자 한다.
그렇다면 학습 데이터를 로봇에 주입하는 작업도 담당하는가?
그렇지 않다. 크라우드웍스는 파트너 생태계 확장에 주력하고 있다. 다양한 기업들과 MOU를 체결해 함께 시장을 확대해야 한다는 사명을 지니고 있기 때문에, 데이터와 관련된 모든 업무를 전담하지는 않는다. 저희는 로봇 학습에 필요한 데이터를 구축하고, 그렇게 구축된 데이터를 활용한 학습은 파트너사가 담당하는 구조로, 이렇게 함께 시장을 키우는 것이 국가 피지컬AI 생태계 확장에 필수라고 생각한다.
다만 로봇 학습에 필요한 시뮬레이션 기반 데이터 구축 툴 개발은 진행하고 있다. Robotics Data 구축방법은 여러개가 있는데, 가장 직관적이고 효과가 검증된 방법은 텔레오퍼레이션(Teleoperation)이다. 사람이 직접 장비를 착용하고 특정 활동을 반복해 로봇이 이를 모방하도록 해야 하는데, 이 경우 인건비 등 상당한 공수가 투입된다.
크라우드웍스가 채택한 주요 방법 중에 하나는 시뮬레이션 환경으로 디지털트윈을 구축해 이 안에서 사람이 특정 활동을 반복할 때 데이터가 축적될 수 있도록 함으로써 공수의 상당 부분을 절감할 수 있도록 했다.
피지컬AI의 성장에 있어 가장 큰 장애 요소는?
표준화가 이뤄지지 않은 것이 가장 큰 문제라고 본다. 로봇 팔에는 센서·관절·힘 데이터 등이 내장돼 있다. 그런데 A기업이 사용하는 데이터와 B기업이 사용하는 데이터가 상이하면, A기업은 B기업의 데이터를 구매해 활용할 수 없다. 데이터 표준이 중요한 이유는 표준이 확립돼야 데이터 공유가 가능하고, 그래야만 시장의 성장이 실현될 수 있기 때문이다.
미국의 경우 엔비디아·테슬라·구글·마이크로소프트 등 빅테크 기업들이 표준을 설정하고 프로젝트를 추진하고 있다. 그러나 한국에는 아직 어떤 기업이 표준을 확립하고 시장을 주도하는 움직임이 나타나지 않고 있다. 한국은 중국과 같이 공공 주도하에 표준 정립이 이뤄질 것으로 기대하고 있다.
![워크스테이지는 고품질 데이터 가공에 최적화된 솔루션으로, 효율적으로 데이터를 라벨링하고, 데이터 프로젝트 전 과정을 쉽고 편리하게 관리할 수 있는 환경을 제공한다. [사진=크라우드웍스]](https://cdn.industrynews.co.kr/news/photo/202510/72346_82828_42.png)
데이터 구축 솔루션에 대한 보다 구체적인 설명을 부탁한다.
국내에서 AI를 개발한다는 대부분의 기업들은 크라우드웍스를 통해 데이터를 공급받고 있다고 보면 된다. 워크스테이지(Workstage)와 알피 날리지 컴파일러(Alpy Knowledge Compiler)라는 2종의 데이터 솔루션을 보유하고 있다.
워크스테이지는 고품질 데이터 가공에 최적화된 솔루션으로, 효율적으로 데이터를 라벨링하고, 데이터 프로젝트 전 과정을 쉽고 편리하게 관리할 수 있는 환경을 제공한다.
데이터 전처리 솔루션 ‘알피 날리지 컴파일러’는 기업 내부의 다양한 비정형 데이터를 AI-Ready 데이터(AI가 읽을 수 있는 데이터)로 자동 변환하는 솔루션이다.
LLM으로 설명했지만, 로봇 데이터 처리 또한 워크스테이지를 통해 수행할 수 있다. 로봇을 원격조정한다고 가정할 때 초 단위로 데이터를 수집할 필요가 있다. 이러한 시계열 데이터를 동기화해 처리할 수 있는 작업 환경 등이 구축돼야 데이터 작업을 수행할 수 있는데, 크라우드웍스는 지금까지 자율주행 데이터, LLM 데이터 등을 다뤄온 경험을 토대로 VLA 데이터 구축을 위해 필요한 기능들을 워크스테이지에 순차적으로 반영하고 있다.
마지막으로 한국의 AI 생태계가 세계적 경쟁력을 확보하기 위해 반드시 해결해야 할 데이터 관련 과제는 무엇이라고 보는가?
데이터 표준화를 통해 데이터를 거래할 수 있는 환경을 구축하는 것이 핵심이라고 생각한다. 특히 한국은 제조업 강국인 만큼 제조업 분야에서 발생하는 데이터가 상당한 규모다. 그러한 데이터를 효과적으로 활용해 피지컬AI 모델을 성공적으로 개발할 수 있다면 그것이 또 다른 큰 경쟁력으로 작용할 수 있을 것이라 판단한다. 다만 제조기업들의 AI 도입률이 상당히 낮아 데이터를 확보하는 데 어려움이 있어서, 정부 지원 등을 통해 제조기업들의 AI 도입이 보다 활발해지기를 기대하고 있다.
- 크라우드웍스-마음AI 맞손… “피지컬AI 데이터 표준·생태계 조성 협력”
- 크라우드웍스, 일본 기업 대상 데이터 전처리·AI 평가 솔루션 본격 확산
- 크라우드웍스X크라우드아카데미, 국내 최초 AI 레드팀 강의 개설
- 크라우드아카데미, 한국산업지능화협회와 산업 맞춤형 AI 인재 양성 협력
- 클로봇–크라우드웍스, 피지컬 AI 로봇 서비스 고도화 위한 데이터 협력 MOU 체결
- 크라우드웍스, 메리츠화재 AI 에이전트 성능 평가 사업 수주… “성능 평가 및 고도화“
- 크라우드웍스, 피지컬AI 산업 발전 위한 ‘데이터 인프라’ 핵심 인사이트 공유
- 크라우드웍스·한림원, ‘AI 기반 데이터 분석·연구 기획 플랫폼’ 공동 개발 나서
- 크라우드웍스, M.AX 얼라이언스 참여… 제조AI 특화 데이터 구축 솔루션 제공
