엔비디아에 도전장 내민 그래프코어… IPU, 새로운 대안 메모리될까

AI 및 머신비전에 특화된 콜로서스 IPU 제공… “GPU가 구현 못하는 머신러닝의 한계 뛰어넘을 것”

[인더스트리뉴스 김관모 기자] AI 반도체 전문기업 그래프코어Graphcore)가 삼성과 구글, 마이크로소프트 등 거대 기업의 투자를 받고 전 세계 메모리시장에 발 빠르게 진입하고 있다. 특히 지난 2월 4일 한국지사 설립을 발표하면서 국내 메모리 시장을 석권하고 있는 엔비디아의 GPU 시장에 도전장을 내밀어 주목받고 있다.

그래프코어는 이날 오후 삼성동 그랜드 인터컨티넨탈 서울 파르나스 메이플룸에서 기자회견을 열고, 국내 AI반도체 시장 공략 강화 전략을 발표하는 시간을 가졌다. 이날 기자회견에는 강민우 한국지사장을 비롯해 그래프코어 본사 미국 영업 및 비즈니스 총괄 부사장을 맡고 있는 파브리스 모이잔(Fabrice Moizan)이 CEO 나이젤 툰(Nigel Toon)을 대신해 참석했다. 애당초 이번 기자회견에는 나이젤 툰 CEO가 세미콘 2020 기조연설도 겸하고 있어서 직접 참석할 예정이었으나, 우한폐렴(신종 코로나 바이러스) 여파로 세미콘 2020이 취소되면서 일정이 변경됐다.

그래프코어 강민우 한국지사장이 2월 4일 오후 삼성동 그랜드 인터컨티넨탈 서울 파르나스 메이플룸에서 열린 그래프코어 한국지사 창립 기자회견에서 인사말을 하고 있다. [사진=인더스트리뉴스]

업계 최초 메모리중심 아키텍처 IPU 개발… AI 머신러닝 특화된 플랫폼도 제공

그래프코어가 메모리 시장에서 가장 자신있게 내세우고 있는 제품은 ‘콜로서스(Colossus) IPU 지능처리장치, Intelligence Processing Unit)’라고 불리는 업계 최초의 메모리 중심 아키텍처다. 그래프코어가 독자 설계한 IPU는 1,200개 이상의 병렬 코어로 150W에서 125테라플롭스(TFLOPS)의 연산속도를 제공한다.

이 IPU를 활용한 첫 상용제품은 지난 2018년에 출시된 16나노미터 PCI 고속카드 ‘C2’다. 이 C2는 IPU 두 개가 상호연결돼 있으며, 각각 16코어팩과 236억개의 트랜지스터로 구성돼 있다.

그래프코어는 이 AI 머신러닝을 위해 고안한 소프트웨어 스텍 ‘포플러(Poplar)’와 함께 C2가 작동하도록 설계했다. 이 포플러는 텐서플로(TensorFlow), ONNX와 호환을 이루고 있으며, 페이스북 파이토치(PyTorch)와의 호환도 올해 초에는 완료할 계획이다.

그래프코어는 이 IPU가 기존보다 2배 이상의 연산 성능이 빠르며, 엣지에서의 전송속도 지연을 최소화하고, 기계 학습 소요시간을 줄이고 전력 효율성을 높일 수 있다고 설명했다. 아울러 학습과 추론에 동일한 하드웨어와 소프트웨어를 사용해 높은 유연성을 제공할 수 있다고 밝혔다. 또한, 엣지부터 클라우드에 이르기까지 다양한 솔루션에 적용할 수 있는 확장성도 지녔다고 강조했다.

특히 그래프코어는 이 아키텍처를 통해서 AI를 기반으로 하는 머신러닝과 딥러닝의 수준을 더욱 높일 수 있을 것이라고 강조했다. 이날 기조연설에 나선 파브리스 모이잔 부사장은 “머신러닝의 미래는 과거를 학습해서 미래를 예측하는 것으로 자율주행차가 대표적인 예가 된다”며, “주변 환경에서 어떤 일이 일어날지 마치 사람의 뇌처럼 생각하는 차원까지 다다르게 될 것”이라고 말했다. 그러면서 “IPU는 앞으로 딥러닝과 머신러닝이 겪게 될 문제들을 해결하기 위해 그래프 기반의 기술을 담은 아키텍처를 만들게 된 것”이라고 설명했다.

자연어와 비디오 작업에 특화된 IPU, “GPU가 가진 한계성 극복 가능”

그러면서 모이잔 부사장은 “머신러닝과 관련된 과정을 보면 CPU는 전력을 많이 잡아먹는 단점이 있으며, GPU는 그래픽적인 면에 많이 치우쳐있어서 인텔리전스 처리에 제한이 있다”면서 IPU가 지닌 장점이 무엇인지 설명했다.

먼저 그래프코어는 자연어 처리면에서 GPU보다 동급이거나 뛰어난 성능을 보이고 있다고 말했다. 그래프코어는 문장 간의 관계를 학습하는 언어모델 구글 버트(BERT)를 통해 IPU와 GPU의 성능을 비교하기 위해 56시간동안 훈련을 시켰다. 그 결과 IPU가 GPU(Pytorch)와는 성능이 비슷했으며, GPU(TensorFlow)보다 추론 처리량 3배, 대기시간 20% 이상 향상된 결과를 보였다.

또한, 페이스북 모듈형 ‘ResNeXt-101’ 아키텍처를 실해해본 결과 이미지 검색속도는 3.5배 빨랐다. 아울러 금융권의 예측이나 리스크 계산할 때 사용하는 MCMC(Markov Chain Monte Carlo) 기반 모델에서도 IPU가 기존 선도프로센서보다 26배나 빠른 것으로 나타났다.

모이잔 부사장은 “IPU는 GPU와 달리 그래프를 기반으로 하고 있어서 동시에 여러 문제를 해결할 수 있다”면서, “특히 HD이미지와 비디오 분석이 중요해지고 있는데 이런 새로운 모델에는 IPU가 강점을 보인다”고 말했다.

다만 모이잔 부사장은 IPU가 모든 면에서 GPU보다 우수한 제품인 것은 아니라고 덧붙였다. 그는 “큰 사이즈의 벡터로 구성된 이미지 관리에서는 GPU가 여전히 높은 성능을 보이고 있다”며, “이는 GPU가 이미징을 위해 설계됐기 때문인데 영상의학부분에서는 IPU보다 GPU가 더 유리하다”고 밝혔다. 그러면서 “반면 IPU는 배치사이즈가 작은 경우나 자연어 처리, 데이터가 멀리 분산돼있는 경우에 강점을 지닌다”고 강조했다. 강민우 한국지사장도 “고객사의 머신러닝과 딥러닝의 모델링이 무엇이냐에 따라서 만족도가 천지차이”라며, “이에 한국지사에서는 AI 머신러닝 랭귀지를 개발자 수준으로 할 수 있는 엔지니어를 모집해 아키텍처를 업그레이드시키려 하고 있다”고 말했다.

그래프코어는 이 AI 머신러닝을 위해 고안한 소프트웨어 스텍 ‘포플러(Poplar)’의 개요. 포플러는 텐서플로(TensorFlow), ONNX와 호환을 이루고 있으며, 페이스북 파이토치(PyTorch)와의 호환도 올해 초에는 완료할 계획이다. [그림=그래프코어] — 그래프코어는 이 AI 머신러닝을 위해 고안한 소프트웨어 스텍 ‘포플러(Poplar)’의 개요. 포플러는 텐서플로(TensorFlow), ONNX와 호환을 이루고 있으며, 페이스북 파이토치(PyTorch)와의 호환도 올해 초에는 완료할 계획이다. [자료=그래프코어]

MS 애저 및 포플러 개발 등의 성과로 3억 달러 유치

그래프코어는 IPU의 개발력을 다양한 IT 및 솔루션 기업들로부터 인정받고 있다. 가장 대표적으로 마이크로소프트가 2019년 10월부터 자신들의 클라우드 컴퓨팅 플랫폼 ‘애저(Azure)’에 이 IPU를 기반으로 하는 AI 개발 환경을 제공하고 있다는 점이다. 또한, 글로벌 컴퓨터 제조회사 델(Dell)에게도 투자를 받아서 서버 랙 기술과도 통합하고 있다.

또한, 보쉬 벤처캐피털과 삼성전자, 아마데우스 캐피털파트너스, C4 벤처스 등의 회사들로부터 총 3억 달러를 유치했으며, 현재 기업가치는 15억 달러로 평가받고 있다.

모이잔 부사장은 “AI업계에서 저명한 4명의 구루 중 한명이 토론토대학 제프리 힌턴(Geoffrey Everest Hinton) 교수를 만나 IPU를 소개한 바 있다”며, “힌턴 교수가 이 IPU를 본 뒤 ‘내 손안에 AI의 미래가 있다’고 극찬했었다”고 말했다.

한편, 모이잔 부사장은 “고객들은 AI에 대해 계속 새로운 것을 원하며, 또 예전에는 불가능했던 것을 가능하게 만들기를 원한다”며 “GPU가 과거에 제약이 많았다는 것을 말하려는 것은 아니지만, 새로운 제품과 시스템을 원하고 있고, 그런 차원에서 IPU로 돌파구를 마련할 수 있을 것”이라고 강조했다.

그래프코어의 IPU의 특징과 장점에 대해서 설명하고 있는 그래프코어 파브리스 모이잔 부사장 [사진=인더스트리뉴스]

<그래프코어 파브리스 모이잔 부사장과 기자단의 일문일답>

지금까지 AI를 GPU가 이끌어왔다는 점을 생각하면 GPU를 제외한 AI 앱이 어떤 것이 있는지 상상하기 어렵다. 자세한 예시를 들어달라.

-자연어 처리나 비디오 프로세싱을 처리하는 모델을 보면 그 크기가 점점 방대해지고 있다. 최근 자연어 처리와 관련해서 GPT-2라는 모델이 나왔다. 이 모델을 보면 60억 개의 파라미터를 사용하고 있다. 이런 모델을 트레이닝하려면 마치 사람의 뇌처럼 트레이닝해야 한다. 그래서 GPU를 보면 1천개의 GPU를 사용해야 겨우 하나의 모델을 트레이닝할 수 있는 경우도 있다. 따라서 그러다보면 점차 데이터셋이 많아지며 데이터센터도 커지고 있으며, 트레이닝 시간도 길어지고 있다. 어떤 경우에는 모델 하나를 트레이닝할 때 한 달의 시간이 걸리기도 한다. 그래프코어의 IPU를 제공하면 이런 트레이닝 시간을 3배 정도 단축할 수 있다. IPU는 이런 트레이닝을 빠르게 할 수 있다. 한 예로 MCMC의 모델의 레이턴시(Latency)에 대해서 소개하겠다. 일반적인 상황을 보면 레이턴시가 너무 길어지면서 트레이더들이 금융시장에 빠르게 개입하지 못하거나 즉각 반응하지 못하는 경우가 있다. 이는 GPU를 사용할 때 메모리가 칩 밖에 있어서 두 곳을 왔다갔다 하느라 시간이 오래 걸리기 때문이다. 반면 IPU는 메모리가 칩 안에 있기 때문에 빠르게 대응할 수 있고, 소위 말하는 레이턴시 보틀넥(Latency bottleneck) 현상을 없앨 수 있다.

그래프 기반의 아키텍처란 무슨 의미인가?

-우리는 GPU와는 전혀 다른 아키텍처를 사용하고 있다. 머신러닝은 상당히 방대한 병렬처리를 기반으로 하고 있다. GPU는 이미지 렌더링을 위해서 설계됐기 때문에 상당히 많은 양을 처리해야 한다. 하지만 그리고 우리는 스파스티(sparsity)라는 개념에도 잘 부합한다. 스파스티는 랜덤하게 메모리 엑세스를 하는 것을 말한다. 어떤 앱은 방대한 데이터가 필요없이 작은 데이터를 여기저기 끌어와 조합해서 AI를 구동하는 경우도 있다. 그런 경우에 IPU가 잘 들어맞는다.

이 칩이 가진 인프로세서 메모리 기능은 무엇인가. 자세한 스펙도 설명해달라.

칩 안에는 1,200개의 프로세서로 구성돼있는데 이는 S램으로 돼있다. 각각의 사용 사례에 따라서 차이가 있을 수 있지만 우리는 BSP(Bulk Synchronous Parallel)라는 개념을 사용해서 각각의 프로세서가 동시에 컴퓨테이션 작업을 할 수 있도록 하고 있다. 그런데 어떤 경우에는 프로세서가 작업을 중지하고 다른 프로세서와 동기화하거나 메모리를 교환하는 작업도 한다. 이게 스태틱(Static) 기반이기도 하지만, 동시에 디터미스틱(Deterministic)한 기반을 가지고 있다. 이런 것에 기반하는 것이 IPU 프로세서다.

언뜻 들으면 IPU라는 장치가 CPU나 GPU를 모두 대체할 수 있는 것처럼 들린다. 그럼 앞으로 IPU가 AI분야에서 100% 점유할 수 있다고 내다보는 것인가?

-100%가 되면 좋겠지만 그렇지는 않다. GPU가 IPU보다 월등한 영역이 있다. 예를 들어서 큰 이미지 관리에선 GPU가 유리하다. GPU는 상당히 큰 사이즈의 벡터로 구성돼있기 때문에 배치사이즈가 큰 경우, 예를 들어서 1,000개 정도의 배치사이즈도 관리할 수 있다. 또한, GPU는 이미징을 위해 설계됐기 때문에 영상의학부분에서는 유리하다. 반면 IPU는 배치사이즈가 1이나 4, 16처럼 작은 경우 더 유리하다. 또한 자연어 처리, 데이터가 멀리 분산돼있는 경우에도 유리하다.

그래프코어 파브리스 모이잔 부사장이 기자회견에서 기자들의 질의에 답하고 있다. [사진=인더스트리뉴스]

설명이 장황한 것 같다. 고객의 입장에서 GPU도 사고 IPU도 사야 하는지, 아니면 GPU만 사면 모두 해결할 수 있는 것인지 정확히 대답해달라.

-(강민우 한국지사장) 애플리케이션에 따라서 달라질 수 있다. GPU 빼고 IPU만 쓰면 되는 것은 절대 아니다. 고객사를 만나보니 머신러닝과 딥러닝의 모델링이 무엇이냐에 따라서 천지차이였다. 이미징에서 큰 사이즈에는 IPU가 맞지 않다. 성능치가 같거나 떨어진다. 하지만 모델링 중에서 자연어 등을 어떻게 구현하느냐에 따라서 다를 수 있다. 잘못 딜리버리가 된 고객들은 좋다고 사용했다가 실망하는 곳도 더러 있다. 그래서 한국에서도 엔지니어를 보유하려고 하는게 필드 엔지니어를 채용하는 게 아니라 AI 머신러닝 랭귀지를 정말 개발자 수준에서 할 수 있는 엔지니어를 원하고 있다.
-(모이잔 부사장) 창업자가 그래프코어의 비전을 마련할 때, 오늘날 존재하는 문제를 해결하는 게 아니라 향후 10년 간 발생할 수 있는 문제를 해결하는 기술을 개발하자고 잡았다. 그래서 핵심적인 인플루언스 업계 사람들을 만나면서 머신러닝이나 딥러닝에 어떤 문제가 있는지 이해했고, 오랫동안 존재할 수 있는 아키텍처를 구축하길 원했다. 그래서 그것을 기반한 온칩 메모리라는 아이디어를 낸 것이다. 2년전부터 시장이 빠르게 역동적으로 진화하면서 스킬아웃이라는 단어를 사용하고 있다. 8개의 IPU 16개의 IPU만 연결하는 것이 아니라 수천에서 수만개의 IPU를 연결할 수 있을 정도로 규모가 커졌다. 대체보다 새로운 것을 만들고자 하는 것이다. 예전과 다른 방식으로 접근하려는 것이다.

GPU와의 가격 경쟁력은?

-가격은 공개하기 힘들다. 하지만 가격 경쟁력이 뛰어나다는 점을 말할 수 있다. GPU와 비교해서 가격적으로 문제되지 않는다. 앤비디아의 PCI카드를 예로 들면, PCI카드에는 하나의 칩이 들어가지만, 그래프코어의 C2에는 두개의 칩이 들어가 있다. 같은 가격으로 앤비디아는 칩 하나, 우리는 칩 2개를 주는 셈이다.

그래프코어가 앤비디아에게 도전장을 낸 것으로 국내에 알려져있다. 그런데 국내에서 앤비디아는 국내 AI 스타트업에 투자하거나 대학에 센터를 세워서 협력하기도 한다. 게다가 국내 데이터센터나 AI기업들은 보수적인 편으로 알려져있다. 이런 국내 AI 시장에서 어떻게 진입할 것인지 궁금하다.

-이제 막 한국시장에 진출했으니 1년 안에 점유율을 높이기는 어려울 것이다. 강민욱 지사장과 산하의 팀이 대학이나 랩과의 관계 구축할 것이다. 한국은 일본과 비교할 때 혁신에 기반한 국가라고 본다. 특히 통신분야 5G를 비롯해 지구상에서 가장 빠른 인터넷 속도를 지니고 있다. 또한 이런 강점을 잘 활용하는 SK나 카카오, 삼성, 네이버 등이 포진해있다. 이런 기업들이 마켓을 선도하기 원한다면 IPU가 제공하는 혁신을 활용하면 도움이 될 것이다. 데이터센터가 보수적이라고 했는데 MS 애저가 IPU를 도입한 것을 생각하면 반대의 경우도 생각할 수 있다. 고객은 혁신을 원하고 있다.

자율차에도 관심있다고 했다. 그럼 앳지쪽일텐데 그쪽으로 내려오려면 준비가 필요할텐데 준비상황은?

-자율차는 2년만 해도 많은 분들이 인비어클 솔루션(in-vehicle solutions)을 많이 사용했다. 그리고 IPU는 너무 크다는 인식도 있었다. 우리는 현재 인비어클 솔루션에도 접근할 수 있는 시장이라고 본다. 추론도 할 수 있고 작은 규모도 할 수 있게 될 것이다. 다만 아직까지 IPU는 엣지컴퓨팅에 적용하기는 어렵다. 엣지 컴퓨팅의 경우에는 1~20와트(W) 정도의 낮은 전력이 알맞다. 반면 우리가 가진 솔루션의 사용 전력은 75와트(W)다. 하지만 엣지컴퓨팅에서도 향후 더 많은 연산을 원하는 모델이 나타날 것이다. 현재는 맞지 않는 시장이지만 미래에는 가능하리라 본다. 2년 정도가 지나면 되지 않을까 싶다.

삼성전자가 그래프코어의 지분을 가지고 있다고 하는데 지분율은 얼마나 되나?

-그건 공개하기 어렵다.

앞으로 새로운 제품 개발이나 출시에 대한 로드맵은 어떻게 되나

-새로운 개발 로드맵 있다. 앞으로 6개월동안 한국 고객들은 매일 그래프코어와 관련한 새로운 소식을 듣게 될 것이다.