전세계 슈퍼컴퓨팅 센터, ‘엔비디아 암페어 GPU’ 선호 확산세
  • 최정훈 기자
  • 승인 2020.11.23 12:43
  • 댓글 0
이 기사를 공유합니다

인공지능(AI) 탑재에 탄력

[인더스트리뉴스 최정훈 기자] 전세계 슈퍼컴퓨팅 센터들이 엔비디아(CEO 젠슨 황) 암페어(Ampere) GPU를 도입해 신약개발에서부터 에너지 연구에 이르는 분야의 인공지능(AI) 탑재에 속도를 높이고 있다.

후지쯔(Fujitsu)는 최근 일본의 ABCI(AI Bridging Cloud Infrastructure)을 위한 엑사스케일 시스템을 발표했다. 이는 일본 산업기술총합연구소(AIST)에 구축돼 600페타플롭(PF)의 성능을 제공하는 것으로 알려졌다. 해당 시스템은 지난 5년간 AI가 연구에 활용되는 사례가 늘면서, 모델 복잡성이 3만배 급증하는 상황에서 공개됐다. 과학적 애플리케이션을 사용하면 이와 같은 대규모 데이터세트를 메모리에 저장 가능해 배치처리(Batch Processing)를 최소화하고 처리량을 높일 수 있다.

전세계 슈퍼컴퓨팅 센터들이 엔비디아(CEO 젠슨 황) 암페어(Ampere) GPU를 도입해 신약개발에서부터 에너지 연구에 이르는 분야에 인공지능(AI) 탑재에 속도를 내고 있다. [사진=엔비디아]
전세계 슈퍼컴퓨팅 센터들이 엔비디아(CEO 젠슨 황) 암페어(Ampere) GPU를 도입해 신약개발에서부터 에너지 연구에 이르는 분야에 인공지능(AI) 탑재에 속도를 내고 있다. [사진=엔비디아]

엔비디아는 차세대 연구를 지원하고자 HBM2e 기술이 적용된 엔비디아 A100 80GB GPU를 출시했다. 이는 A100 40GB GPU의 고대역 메모리를 두 배인 80GB로 늘리고, 초당 2테라바이트(TB) 이상의 메모리 대역폭을 제공한다.

새로운 엔비디아 A100 80GB GPU를 사용하면 어떤 대규모의 모델과 데이터세트도 메모리내에서 실행할 수 있어 컴퓨팅 성능을 높이고 워크로드 결과를 더욱 빠르게 얻을 수 있다. 또한, 인터노드 통신을 줄여 GPU의 절반만으로도 AI 훈련 성능을 1.4배나 향상시킬 수 있다.

엔비디아는 또한 새로운 엔비디아 멜라녹스(Mellanox) 400G 인피니밴드(InfiniBand) 아키텍처를 도입해 데이터 처리량을 두 배로 늘리고, 가속화를 위한 새로운 네트워크내(in-network) 컴퓨팅 엔진을 제공한다.

유럽의 주요 슈퍼컴퓨터 센터도 엔비디아로 업무에 탄력이 붙었다. 이탈리아의 대학 간 컨소시엄 시네카(CINECA)는 세계에서 가장 빠른 AI 슈퍼컴퓨터인 레오나르도(Leonardo) 시스템을 구축한다고 발표했다. 이 시스템은 1만4,000개의 엔비디아 암페어 아키텍처 GPU와 엔비디아 멜라녹스 인피니밴드 네트워킹을 사용해 10엑사플롭의 AI 성능을 제공한다. 프랑스의 아토스(Atos)가 구축 작업을 맡을 예정이다.

유로HPC(EuroHPC) 이니셔티브의 지원을 받으며 엔비디아 AI 플랫폼을 도입하는 유럽 시스템이 늘어나고 있는 가운데 특히, 레오나르도도 이에 합류했다. 독일 율리히 슈퍼컴퓨터센터(Jülich Supercomputing Center)는 최근 유럽 최초로 엔비디아 GPU 기반 AI 엑사스케일 시스템을 출시해 유럽내에서 가장 강력한 AI 플랫폼을 제공하고 있다. 아토스가 새롭게 설계한 율리히 시스템인 쥬얼스(JUWELS)는 2.5엑사플롭 성능을 제공하는 AI 슈퍼컴퓨터로 상위 500대 슈퍼컴퓨터 리스트에서 7위를 차지했다.

룩셈부르크의 멜루시나(MeluXina) 슈퍼컴퓨터, 체코에서 가장 강력한 슈퍼컴퓨터인 IT4이노베이션스 국립 슈퍼컴퓨팅 센터(IT4Innovations National Supercomputing Center), 슬로베니아 마리보르 정보과학연구소(Institute of Information Science)의 베가(Vega) 슈퍼컴퓨터도 엔비디아 플랫폼을 도입하고 있다.

린셰핑대학교(Linköping University) 엔비디아 DGX 슈퍼POD(DGX SuperPOD) 인프라를 기반으로 스웨덴에서 가장 빠른 슈퍼컴퓨터인 베르셀리우스(BerzeLiUs)를 구축할 계획이다. 이는 최첨단 연구용으로 300페타플롭의 AI 성능을 제공할 전망이다. 

엔비디아는 400페타플롭의 AI 성능을 제공하는 80노드 DGX 슈퍼POD로 케임브리지-1(Cambridge-1)을 구축하고 있다. 이는 영국에서 가장 빠른 슈퍼컴퓨터가 될 전망이다. 영국의 AI와 헬스케어 관련 학계, 산업, 스타트업들의 연구에 쓰일 예정이다.

북아메리카도 엑사스케일 AI 슈퍼컴퓨팅 개발에 힘을 쏟고 있다. 미 국립에너지연구소 과학컴퓨팅센터(NERSC)는 펄머터(Perlmutter) 구축 프로그램에 엔비디아 AI를 도입하고 시스템 내에 6,200개의 엔비디아 A100 GPU를 장착할 계획이다. NERSC는 펄뮤터를 통해 3.9엑사플롭의 AI 성능을 제공하게 될 예정이다.

엔비디아 셀린(Selene)은 DGX 슈퍼POD 기반 클러스터 시스템으로 수 주일만에 구축이 가능한 대규모 GPU 클러스터용 공개 레퍼런스 아키텍처다. 엔비디아 DGX 수퍼POD 시스템은 와트당 26.2기가플롭의 전력효율이라는 세계 신기록을 달성하며 가장 효율적인 슈퍼컴퓨터를 선정하는 그린500 리스트에서 높은 순위를 차지한 바 있다. 또한 MLPerf 추론 테스트에서 8개의 신기록을 세우는 등 유명세를 떨치고 있다.

미 플로리다대와 엔비디아는 700페타플롭의 AI 성능 제공을 목표로 세계 학계에서 가장 빠른 AI 슈퍼컴퓨터를 구축하고 있다. 엔비디아와의 파트너십을 통해 플로리다대는 미국의 AI 분야의 대학들을 선도하고, 학문 연구의 발전과 더불어 플로리다의 가장 복잡한 문제들의 해결에도 기여하고 있다.

아르곤 국립 연구소(Argonne National Laboratory)의 연구자들은 엔비디아 DGX A100 시스템 24개로 구성된 클러스터를 통해 코로나19 치료법을 찾기 위해 수십억 개의 약물 스캔 작업을 진행하고 있다.

로스 앨러모스 국립연구소(Los Alamos National Laboratory), 휴렛팩커드 엔터프라이즈(Hewlett Packard Enterprise)와 엔비디아는 과학 컴퓨팅의 가속화를 위한 차세대 기술을 제공하기 위해 협력하고 있다.

아태지역(APAC)의 슈퍼컴퓨터 또한 엔비디아 암페어 아키텍처를 통해 발전하고 있다. 일본 국립 해양개발기구(JAMSTEC)는 엔비디아 A100 GPU와 엔비디아 멜라녹스 인피니밴드를 사용해 어스 시뮬레이터(Earth Simulator)를 업그레이드하고 있다. 해당 슈퍼컴퓨터는 최대 624페타플롭의 AI 성능과 최대 이론 성능인 19.5페타플롭의 HPC 성능을 달성할 것으로 예상되며, 이는 오늘날 상위 500대 슈퍼컴퓨터 리스트에 포함될 정도의 성능이다.

인도 고급 컴퓨팅 개발센터(C-DAC)는 인도에서 가장 빠르고 가장 큰 AI 슈퍼컴퓨터인 파람 시디-AI(PARAM Siddhi-AI)를 시범 운영하고 있다. 42개의 DGX A100 시스템으로 구성된 이 슈퍼컴퓨터는 200엑사플롭의 AI 성능을 제공하며 헬스케어, 교육, 에너지, 사이버보안, 우주, 자동차, 농업 분야의 문제들을 해결하는 데 기여할 전망이다.


관련기사

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.