Multi GPU 시대
AI에 대한 폭발적 수요에 힘입어, 기업들은 고성능 연산처리를 할 수 있는 GPU를 탑재한 서버들을 구매하여 사용중이다. GPU에 대한 수요가 증가하고, LLM 학습&고성능 데이터 분석을 위해 여러개의 GPU를 함께 사용하게 되면서, GPU를 다중으로 연결해서 사용하는 Multi-GPU Technology이 등장하게 된다. Nvidia의 NVLink, AMD의 CrossFire, Intel의 Deep Link 등 다중 그래픽카드 연결기술이 존재한다.
NVLink란?
NVLink는 Nvidia에서 개발한 GPU와 GPU간의 고속 상호연결 기술로 기존 PCIe 보다 훨씬 높은 대역폭을 제공한다. NVLink 2.0은 한 링크당 최대 25GB/s의 대역폭을 제공하며 여러 링크를 병렬로 사용시 1.8TB/s까지 구현가능하다.
NVlink를 이용하게 되면 다수의 GPU들을 Hybrid Cube Mesh라고 불리는 형태로 상호 연결을 하여 다수의 GPU가 하나의 자원처럼 성능을 내는 역할을 하게된다.
NVLink Switch
NVLink Switch는 NVLink 연결을 더 확장하고 최적화하는 장치로 대규모 클러스터나 고성능 서버 인프라에 중요한 역할을 한다. NVLink Switch를 사용하게 되면, 여러GPU를 포함한 다중 노드간 NVLink 연결을 확장하여 원활하고 높은 대역폭의 멀티 노드 GPU Cluster를 생성함으로써 대규모 모델 병렬처리를 가능하도록 한다.
NVLink Switch를 사용하게 되면, 단일 NVlink와 달리 GPU사이에 별도의 Switch를 구성하여 네트워크 리소스를 효율적으로 관리하고, 최적화된 데이터 흐름을 보장할 수 있다.
NVlink 사양
구분 | 2세대 | 3세대 | 4세대 | 5세대 |
---|---|---|---|---|
GPU당 NVlink 대역폭 | 300GB/s | 600GB/s | 900GB/s | 1,800GB/s |
GPU별 최대 연결 수 | 6 | 12 | 18 | 18 |
지원되는 Nvidia 아키텍쳐 | Volta | Ampere | Hopper | Blackwell |
NVlink Switch 사양
구분 | 1세대 | 2세대 | 3세대 | NVlink Switch |
---|---|---|---|---|
NVLink 도메인 내 직접 연결을 지원하는 GPU 수량 | 최대 8개 | 최대 8개 | 최대 8개 | 최대 576개 |
NVSwitch GPU 간 대역폭 | 300GB/s | 600GB/s | 900GB/s | 1,800GB/s |
총 집계 대역폭 | 2.4TB/s | 4.8TB/s | 7.2TB/s | 130TB/s |
지원되는 Nvidia 아키텍쳐 | Volta | Ampere | Hopper | Blackwell |
#출처, 참고
SysAdmin 메모장📑
안녕하세요. System Engineer를 꿈꾸며 끄적이는 메모장입니다.