
Multi GPU 시대AI에 대한 폭발적 수요에 힘입어, 기업들은 고성능 연산처리를 할 수 있는 GPU를 탑재한 서버들을 구매하여 사용중이다. GPU에 대한 수요가 증가하고, LLM 학습&고성능 데이터 분석을 위해 여러개의 GPU를 함께 사용하게 되면서, GPU를 다중으로 연결해서 사용하는 Multi-GPU Technology이 등장하게 된다. Nvidia의 NVLink, AMD의 CrossFire, Intel의 Deep Link 등 다중 그래픽카드 연결기술이 존재한다.NVLink란?NVLink는 Nvidia에서 개발한 GPU와 GPU간의 고속 상호연결 기술로 기존 PCIe 보다 훨씬 높은 대역폭을 제공한다. NVLink 2.0은 한 링크당 최대 25GB/s의 대역폭을 제공하며 여러 링크를 병렬로 사용시..

증상(Symptoms) VxRail 플러그인 UI 기능을 통해 VxRail 호스트를 추가, 하지만 사전 검사가 노드 호환성을 확인하지 못하는 issue 발생 VxRail manager dayone.log 체크 2021-11-14-03:39:41 microservice.nano-service "2021-11-14 03:39:41,162 [INFO] node_add_radar_check.py run_script() (176): current radar state: /mystic/radar/venv/bin/python: error while loading shared libraries: libpython2.7.so.1.0: cannot open shared object file: No such file or ..

RASR(Rapid Appliance Self Recovery)은 운영 체제 드라이브와 데이터 드라이브를 사용하여 기본 장비 출하 시의 이미지를 재구축하는 운영 체제 미설치 복원 프로세스 예를 들어 기존 장비(VxRail)에 4.5.463 버전이 설치되어 있으며 해당 장비를 4.7.536 버전으로 업그레이드 하려고 할 때 RASR를 통해 공장초기화 후 OS를 설치함 (※보통 장비 업그레이드는 RASR을 이용해 그냥 진행하면 되지만 다운그레이드의 경우, Dell Case Open 이후 승인을 거쳐 가능 여부를 확인받아야 함. → 요청 시 평균 일주일 소요, 구매자 정보 파악 등.. ★ Dell에서는 기존 장비의 버전에 대해 업그레이드만을 권장함 RASR 사전준비 - 각 노드 별 iDRAC 접속 유무 확인(..