본문 바로가기
Tech

엔비디아 H100 GPU: AI 슈퍼컴퓨팅을 위한 최고의 선택

by 생각소년 2023. 9. 3.

AI는 현재 세계의 다양한 분야에서 혁신과 변화를 이끌고 있습니다. AI를 통해 우리는 더 나은 의료 서비스, 더 효율적인 에너지 관리, 더 정확한 예측과 추천, 더 인간적인 대화형 서비스 등을 제공할 수 있습니다.

 

하지만 AI의 가능성을 극대화하기 위해서는 AI 워크로드를 빠르고 안정적으로 처리할 수 있는 강력한 컴퓨팅 성능이 필요합니다. 그래서 오늘은 AI 슈퍼컴퓨팅을 위한 최고의 선택인 엔비디아 H100 GPU에 대해 소개하려고 합니다.

 

엔비디아 H100 GPU

H100 GPU란 무엇인가요?

H100 GPU는 엔비디아의 최신 데이터센터 플랫폼인 Nvidia Ampere 아키텍처를 기반으로 하는 GPU입니다.

H100 GPU는 4세대 Tensor 코어, 188GB의 고대역폭 메모리 (HBM3), 900GB/s의 GPU 간 상호연결 (NVLink), PCIe Gen5, 엔비디아 Magnum IO™ 소프트웨어 등의 혁신적인 기술을 탑재하고 있습니다.

 

이러한 기술들은 H100 GPU가 모든 데이터센터에서 엑사스케일 워크로드를 가속화하고 전용 트랜스포머 엔진으로 매개 변수가 조 단위인 언어 모델을 처리할 수 있게 해줍니다.

 

H100 GPU의 주요 특징은 무엇인가요?

H100 GPU는 다음과 같은 주요 특징을 가지고 있습니다.

 

전례 없는 성능

H100 GPU는 4세대 Tensor 코어와 FP8 정밀도의 트랜스포머 엔진을 탑재하여 전문가 혼합 (MoE) 모델을 이전 세대보다 최대 9배 더 빠르게 훈련합니다. 또한 H100 GPU는 배정밀도 Tensor 코어의 부동 소수점 연산 (FLOPS)을 3배로 증가시켜 HPC에 60테라플롭스의 FP64 컴퓨팅을 제공합니다.

AI 융합 HPC 애플리케이션은 H100 GPU의 TF32 정밀도를 활용하여 코드 변경 없이 단정밀도와 행렬 곱셈 연산에서 1페타플롭의 처리량을 달성할 수 있습니다.

H100 GPU는 또한 엔비디아 A100 Tensor 코어 GPU에 비해 7배 높은 성능과 더불어 DNA 서열 정렬을 위한 스미스-워터맨 등의 동적 프로그래밍 알고리즘에서 기존 듀얼 소켓 CPU 전용 서버에 비해 40배 더 빠른 속도를 제공하는 DPX 명령 기능이 있습니다.

 

뛰어난 확장성

H100 GPU는 4세대 NVLink, NVLink 스위치 시스템, PCIe Gen5, 엔비디아 Magnum IO™ 소프트웨어의 조합으로 소규모 엔터프라이즈에서 대규모의 통합 GPU 클러스터에 이르기까지 효율적인 확장성을 제공합니다.

Nvidia ® NVLink ® 스위치 시스템을 사용하면 최대 256개의 H100 GPU를 연결하여 엑사스케일 워크로드를 가속화할 수 있습니다. 또한 H100 GPU는 엔비디아 DGX™ H100 시스템과 엔비디아 DGX SuperPOD™ 솔루션을 통해 엔터프라이즈 AI를 간소화하고 최적화할 수 있습니다.

 

철저한 보안

H100 GPU는 엔비디아 BlueField® DPU와 함께 작동하여 데이터센터의 보안, 성능, 관리를 향상시킵니다. BlueField DPU는 서버의 CPU에서 네트워킹, 스토리지, 보안 기능을 분리하여 CPU의 오버헤드를 줄이고 보안 위협으로부터 데이터를 보호합니다.

또한 BlueField DPU는 엔비디아 Morpheus™ AI 프레임워크와 함께 사용하여 실시간으로 사이버 공격을 탐지하고 차단할 수 있습니다.

 

H100 GPU로 할 수 있는 일은 무엇인가요?

H100 GPU로 다양한 AI 워크로드를 처리할 수 있습니다. 예를 들어, 다음과 같은 분야에서 H100 GPU의 성능을 활용할 수 있습니다.

 

대화형 AI

H100 GPU는 초대형 언어 모델의 속도를 이전 세대에 비해 30배 더 향상하여 업계를 선도하는 대화형 AI를 제공할 수 있습니다. H100 GPU는 매개 변수가 조 단위인 언어 모델을 추론하는 데 필요한 메모리와 대역폭을 갖추고 있으며, 트랜스포머 엔진으로 FP8 정밀도를 지원하여 정확도를 유지하면서 성능을 향상시킵니다. H100 GPU로 AI 챗봇, 추천 엔진, 번역 서비스 등을 구축할 수 있습니다.

 

컴퓨터 비전

H100 GPU는 컴퓨터 비전 분야에서도 놀라운 성능을 발휘합니다. H100 GPU는 이미지 분류, 객체 탐지, 얼굴 인식, 자율 주행 등의 작업을 빠르고 정확하게 수행할 수 있습니다.

H100 GPU는 엔비디아 Jarvis™ 프레임워크와 함께 사용하여 멀티모달 AI 애플리케이션을 개발할 수 있습니다. Jarvis는 비전과 음성을 결합하여 자연스러운 인간과 기계 간 상호작용을 가능하게 합니다.

 

고성능 컴퓨팅

H100 GPU는 과학, 공학, 의료 등의 분야에서 고성능 컴퓨팅 (HPC)을 수행하는 데 필요한 컴퓨팅 파워와 메모리 용량을 제공합니다. H100 GPU는 배정밀도 Tensor 코어의 부동 소수점 연산 (FLOPS)을 3배로 증가시켜 HPC에 60테라플롭스의 FP64 컴퓨팅을 제공합니다.

H100 GPU는 또한 엔비디아 A100 Tensor 코어 GPU에 비해 7배 높은 성능과 더불어 DNA 서열 정렬을 위한 스미스-웨터맨 등의 동적 프로그래밍 알고리즘에서 기존 듀얼 소켓 CPU 전용 서버에 비해 40배 더 빠른 속도를 제공하는 DPX 명령 기능이 있습니다.

 

H100 GPU를 사용하는 대표적인 기관이나 회사는?

엔비디아 H100 GPU를 사용하는 대표적인 기관이나 회사는 다음과 같습니다.

 

엔비디아

엔비디아는 새로운 엔비디아 H100 Tensor Core GPU로 구축되는 세계 최초의 AI 플랫폼 4세대 엔비디아 DGX 시스템을 발표했습니다.

또한 엔비디아는 기후 과학, 디지털 생물학과 AI의 미래를 발전시키는 엔비디아 연구원의 작업을 지원하기 위해 획기적인 새로운 AI 아키텍처로 DGX SuperPOD를 최초로 구축할 예정입니다.

이 슈퍼컴퓨터는 "Eos"라는 이름을 가지고 있으며, 4,608개의 DGX H100 GPU와 함께 총 576개의 DGX H100 시스템을 갖췄습니다.

 

마이크로소프트 (MS), 구글, 아마존, 메타, 테슬라

이들 빅테크들은 대규모 언어 모델 (LLM)과 같은 생성 AI 기술 경쟁에 뛰어들었으며, 이를 위해 엔비디아 H100 GPU를 사용하고 있다고 알려져 있습니다. 이들은 LLM을 통해 챗봇, 번역, 음성 인식, 이미지 생성 등의 다양한 AI 서비스를 제공하고자 합니다.

 

H100 GPU의 단점은?

높은 가격

H100 GPU는 엔비디아의 최신 데이터센터 플랫폼인 Nvidia Ampere 아키텍처를 기반으로 하는 GPU로, AI 슈퍼컴퓨팅을 위한 최고의 선택이라고 소개되고 있습니다.

하지만 이러한 고성능과 혁신적인 기술은 높은 가격을 수반합니다. 이베이에서 판매되는 H100 GPU의 가격은 지난해 3만6000달러 (4700만원)에서 최근 4만56000달러 (6000만원)까지 치솟았다고 보도된 바 있습니다.

이는 올해 초 챗GPT 등장 후 가격이 28% 가량 오른 것입니다. H100 GPU는 일반적인 소비자가 구매하기에는 부담스러운 가격대에 속합니다.


전력 소비량

H100 GPU의 전력 소비량은 공식적으로 발표되지 않았습니다.하지만 H100 GPU의 전임자인 A100 GPU의 경우, 250W의 TDP (Thermal Design Power)를 가지고 있었습니다.

TDP는 시스템이 최대 부하 상태에서 소비하는 최대 전력을 나타내는 지표입니다. 따라서 H100 GPU의 전력 소비량은 A100 GPU와 비슷하거나 그보다 높을 것으로 추정할 수 있습니다. H100 GPU는 전력 제약이 있는 데이터센터 환경에서 사용하기에는 적합하지 않을 수 있습니다.


호환성 문제

H100 GPU는 Nvidia AI Enterprise 소프트웨어 제품군과 함께 제공되어, AI 채택을 간소화하고 최상의 성능으로 AI 워크로드를 가속화합니다. Nvidia AI Enterprise는 엔비디아 DGX™ H100 시스템과 엔비디아 DGX SuperPOD™ 솔루션과 같은 엔비디아 데이터센터 플랫폼에 최적화되어 있습니다.

하지만 Nvidia AI Enterprise는 다른 AI 라이브러리나 프레임워크와의 호환성 문제가 있을 수 있습니다.

예를 들어, Nvidia AI Enterprise는 쿠다(CUDA)라는 엔비디아만의 병렬 컴퓨팅 플랫폼을 기반으로 하고 있습니다. 쿠다는 엔비디아 GPU와 잘 작동하지만, 다른 벤더의 GPU나 CPU와는 호환되지 않습니다.

따라서 H100 GPU를 사용하려면 쿠다를 지원하는 환경이 필요합니다. 또한, 쿠다 대체 소프트웨어들이 발전하고 있지만, 아직까지는 쿠다와 비교할 수 있는 성능과 안정성을 보장하지 못합니다.

댓글