엔비디아는 DGX A100 기반 AI 슈퍼컴퓨터를 통해 메타에 5 엑사플롭스(exaflops)급의 AI 성능을 제공한다고 밝혔다.
메타의 AI 슈퍼컴퓨터는 현재 760개의 엔비디아 DGX A100 시스템을 컴퓨팅 노드로 사용하고 있다. 엔비디아 퀀텀(Quantum) 200Gb/s 인피니밴드 네트워크에 연결된 총 6080개의 엔비디아 A100 GPU를 패키징해 1895 페타플롭스(petaflops)급 TF32 성능을 제공한다.
메타의 AI 리서치 슈퍼클러스터(RSC)는 수백 개의 엔비디아 DGX 시스템을 엔비디아 퀀텀 인피니밴드(Quantum InfiniBand) 네트워크에 연결해 AI 연구팀의 작업을 가속화한다. 메타는 RSC를 활용해 AI를 발전시키기 위한 새로운 모델을 훈련시키고 있는데, RSC가 완전히 구축되면 올해 말 이를 활용해 매개 변수가 1조 개가 넘는 AI 모델을 훈련하는 것을 목표로 하고 있다. 이는 실시간으로 유해한 내용을 파악하는 것과 같은 작업에 대한 자연어 처리와 같은 분야를 발전시킬 수 있다.

메타는 대규모 성능 외에도 신뢰성, 보안성, 프라이버시, 그리고 광범위한 AI 모델을 다룰 수 있는 유연성을 RSC의 핵심 기준으로 꼽았다. 메타는 “RSC가 서로 다른 언어를 사용하는 대규모 집단에게 실시간 음성 통역을 지원해 연구 프로젝트 협력을 원활히 하거나 AR 게임을 함께 할 수 있도록 하는 완전히 새로운 AI 시스템을 구축하는 데 도움이 되기를 바란다”고 밝혔다.
한편, 메타는 2017년에 하루 3만5000개의 AI 훈련 작업을 처리하는 엔비디아 V100 텐서 코어 GPU 2만2000개로 AI 연구용 1세대 인프라를 구축한 바 있다. 이번에 두 번째로 엔비디아 기술을 연구 인프라 기반으로 선택한 것이다. 메타의 초기 벤치마크에서는 RSC가 이전 시스템보다 대형 NLP 모델을 3배 더 빠르게 훈련하고 컴퓨터 비전 작업을 20배 더 빠르게 실행할 수 있음을 보여준다.
올해 말 두 번째 단계에서 RSC는 메타가 5 엑사플롭스(exaflops)급의 혼합 정밀 AI 성능을 제공할 것으로 보고 있는 1만 6000개의 GPU로 확대할 예정이다. 또한 메타는 RSC의 스토리지 시스템을 확장해 초당 16 테라바이트의 속도로 최대 1엑사바이트의 데이터를 제공하는 것을 목표로 하고 있다.
댓글 남기기