반응형
https://youtu.be/-nb_DZAH-TM?si=3_XeNywaGnXfq97-
돈은 맞지 않음. H100은 5000만원임.
이번 영상에서는 H100, 세계에서 가장 빠른 GPU의 성능을 테스트합니다. 이 카드의 가격이 120만 원에 달하는 만큼, 그 가치와 성능에 대한 깊은 이해를 제공하며, 과학 계산과 AI 특화된 작업에 최적화된 구조를 설명합니다. H100은 단순한 게임용 카드가 아닌, 데이터 센터와 슈퍼 컴퓨터에서의 활용을 목적으로 한 카드임을 강조합니다. 또한, AI와 HPC 분야에서의 효율적인 성능 차이를 짚어보며, 다양한 테스트 결과를 통해 실질적인 성능을 보여줍니다. 이 영상을 통해 최첨단 기술의 진화를 직접 체험하고, 새로운 가능성을 탐구할 수 있습니다.
핵심 용어
- H100: H100는 NVIDIA에서 제작한 세계에서 가장 빠른 GPU입니다. 이 카드는 데이터 센터와 슈퍼 컴퓨터에서 주로 사용됩니다. 과학 계산과 AI 작업에 최적화되어 있으며, ...
1. 🛠 H100: 세계 최고 성능의 GPU
- H100은 현재 세계에서 가장 빠른 GPU로, 총 네 장을 보유 중이다.
- 제재로 인해 국내에서 H100을 구하려면 한 장당 약 30만 원이 필요하며, 네 장의 가격은 120만 원으로 테슬라 차량보다 비싸다.
- 익명의 회사가 많은 수의 H100을 구매했으며, 이번에 네 장을 빌릴 수 있었다.
- H100은 금빛을 띠고 있어 조심스럽게 취급해야 하며, 네 장은 마치 금괴처럼 보인다.
- 이번 기회를 마련해준 극엔진에게 감사의 인사를 전해야 한다.
2. 🚀 H100 GPU의 특성과 성능
- H100는 NVidia의 계산 카드로, 초computing 및 데이터 센터에 주로 사용되는 제품이다.
- H100은 AI 중심으로 설계되었으며, 일반적인 게임에는 사용되지 않는 구조를 가지고 있어.
- H100은 Hopper 아키텍처를 채택하고 있으며, 기존의 게임 카드와는 달리 HBM 메모리와 다양한 FP64 계산 유닛을 가진다.
- 통합된 Tensor Core와 Transformer 엔진을 통해 H100은 AI 처리에 최적화되어 있으며, FP8 및 FP16 혼합 정밀도를 지원하여 성능을 크게 향상시킨다.
- H100은 80G HBM 메모리를 사용하고 있으며, 데이터 전송 속도는 PCIe 버전 2T/s, SXM 버전 3.35T/s에 이른다.
2.1. H100 GPU 개요
- H100은 NVIDIA의 계산 카드로, 기존에는 Tesla 제품군에 속해 있었던 제품이다.
- 이 제품은 GPU를 탑재하고 있지만, 일반적인 그래픽 카드가 아니라 주로 슈퍼컴퓨팅과 데이터 센터에서 사용된다.
- 전통적으로 이 카드는 과학 계산에 많이 사용되었으나, 최근 몇 년 동안 AI 중심으로 개발된 점이 특징이다.
- 일반적으로 H100은 게임용으로 사용되지 않지만, 특수한 상황에서는 다르게 활용될 수 있는 가능성이 있다.
2.2. ️ GPU 계산 카드의 특성 및 냉각 방식
- GPU 계산 카드는 일반적인 그래픽 카드와 달리 디스플레이 포트나 팬이 없는 외관을 가지고 있다.
- 이러한 계산 카드는 서버 랙에 장착되며, 서버 랙 내에서 강제 환기를 통해 냉각된다.
- 예를 들어, 테스트한 서버는 하이엔드 서버인 ASUS EPYC 플랫폼을 기반으로 하며, 4장의 H100 카드를 장착하고 5개의 고속 팬으로 열을 배출하는 구조이다.
- 냉각을 위한 추가적인 에어컨 순환 시스템이 병행되어 있어 열 문제는 발생하지 않는다.
- 사용자가 직접 장비를拆卡하기 어려운 경우가 많아, 기존의 이미지를 활용해 핵심 부품에 대해 설명하고 있다.
2.3. H100 GPU: Hopper 아키텍처의 장점
- H100은 Hopper 아키텍처를 사용하며, 일반적인 40시리즈 게임 카드와는 완전히 다른 구조이다.
- NVIDIA는 2017년 Volta 아키텍처부터 계산 카드를 위한 독자적인 아키텍처를 설계하여, 게임 카드와의 차별화를 꾀해왔다.
- H100은 HBM 메모리를 사용하고, 많은 FP64 이중 정밀 계산 유닛을 포함하나, 광추적 유닛은 없다.
- H100의 CUDA 계산 능력은 9.0으로, 이전 세대 모델보다 크게 향상되었으며, 이는 해당 아키텍처의 우수성을 드러낸다.
- GH100의 전체 사양은 강력하며, 18432개의 CUDA 코어, 60M의 L2 캐시를 포함하고 핵심 면적은 814 mm²에 달하여 규모가 크다.
2.4. GH100 GPU의 성능 및 구조 분석
- GH100은 AI 분야와 HPC 분야의 사용자 요구에 맞춰 설계되어 있지만, 이 두 분야의 성능 요구는 상이하다.
- AI 사용자는 낮은 정밀도의 성능을 필요로 하는 반면, HPC는 FP64 이중 정밀도 성능이 요구된다.
- GH100의 각 SM에는 64개의 FP64 코어가 포함되어 있어, AD102의 2개의 FP64 코어와 비교했을 때 성능 차이가 두드러진다.
- NVIDIA는 계산 유닛의 비율을 높이기 위해 GH100의 그래픽 처리 유닛 비중을 크게 낮췄다.
- GH100은 72개의 TPC 중 단 2개만 그래픽 처리 능력을 가지고 있으며, 결과적으로 576개의 스트리밍 프로세서와 8개의 ROPs 유닛을 갖춘다.
2.5. GH100 GPU의 혁신적 개선 사항
- GH100는 FP8 및 FP16 혼합 정밀도를 지원하여 Transformer 모델의 처리 속도를 크게 향상시키고, GA100에 비해 상당한 성능 개선을 가져온다.
- 새로운 Tensor Memory Accelerator (TMA) 유닛이 도입되어 데이터 전송을 효율적으로 처리하며, 비동기 실행을 통해 성능을 강화했다.
- GH100의 NVDEC와 NVJPG 디코더가 포함되어 있어, AI 훈련 과정에서의 비디오 및 이미지 디코딩 속도를 향상시켜 전체 계산 과정의 병목 현상을 방지한다.
- H100의 비디오 및 이미지 디코딩 능력은 A100에 비해 두 배 증가하였으며, AI 특화에 적합한 성능을 제공한다.
- GH100은 80GB의 HBM 메모리를 탑재하고 있지만, 실제로는 5개의 HBM이 활성화되어 있으며, 전체 버전인 H100 NVL은 94GB를 지원한다.
3. ⚙️ H100 GPU의 성능과 특징
- H100은 계산 카드로, 일반적인 그래픽 카드가 아닌, 두 가지 버전(SXM5 및 PCIE)으로 출시되었고, PCIE 버전을 사용해봤다.
- SXM5 버전은 더 고급 스펙을 가지고 있으며, 132개의 SM, 16,896개의 FP32 CUDA코어, 80GB의 HBM3 메모리, 3TB/s의 메모리 대역폭을 자랑하지만, TDP는 700W에 달한다.
- 반면 PCIE 버전은 사양이 축소되어 114개의 SM과 14,592개의 CUDA코어, 350W의 TDP를 가지며, 메모리는 HBM2e로 변경되었다.
- H100의 성능 시험 중 게임 실행을 시도하였으나, 초기에는 낮은 프레임 수를 기록했으며, 3DMark 성능 테스트에서 기대 이하의 결과를 보여주었다.
- 이전 세대 A100와 달리 H100은 그래픽 성능이 제한적이며, 게임 외의 용도에 더 최적화된 성격을 띄고 있다.
3.1. ️ H100 GPU의 사양과 구조
- H100은 계산 카드로, 일반적인 그래픽 카드가 아니라는 점에서 차별화된다.
- H100은 SXM5와 PCIE 두 가지 버전으로 제공되며, 오늘 소개된 것은 PCIE 버전이다.
- SXM5는 CPU와 유사한 구조의 특수 슬롯에 장착되어 사용되며, 상대적으로 고급형 사양을 가진다.
- SXM5 버전은 132개의 SM, 16896개의 FP32 CUDA 코어, 50MB의 L2 캐시를 포함하고 있으며, 80GB의 HBM3 메모리를 가진다.
- TDP는 700W에 달해 온도 관리가 도전적이며, PCIE 버전은 TDP가 350W로 줄어들어 사양이 축소되었다.
3.2. H100 GPU 설치 및 초점
- H100 GPU를 설치하기 위해 적절한 서버가 필요하다는 문제가 있으며, 작업 스테이션에서의 냉각 문제도 고려해야 한다.
- 3D 프린터 제조업체와 협력해 유도 덮개를 설계하고 제작하여 GPU 팬에 장착할 계획을 세웠다.
- 총 3시간 만에 정밀한 유도 덮개를 완성하였고, 두 개의 GPU를 밀어줄 수 있을 만큼 강력한 성능을 갖추었다.
- 설치 후 Windows에서 H100이 제대로 인식되는지 확인하였고, 드라이버 설치 후 H100 PCIE가 인식되었다.
- H100은 현재 가장 진보된 GPU로, 814 제곱밀리미터의 GH100 칩, 80개 이상의 CUDA 코어, 및 2천 G 이상의 메모리 대역폭을 자랑한다.
3.3. H100 GPU의 게임 성능 테스트
- H100 GPU를 게임에서 사용하기 위해 등록표를 수정하여 게임 카드로 변환할 수 있다.
- H100의 80GB 메모리가 활성화되어 있으며, 사용 가능한 상태다.
- 3DMark를 통해 H100의 성능을 테스트했으나 초기 프레임 수가 너무 낮아 문제가 발생했다.
- H100의 최대 전력 소비가 낮아서 제대로 성능을 활용하지 못하고 있는 상황이다.
- 해상도를 줄이고 DLSS를 활성화한 결과, 게임을 30프레임으로 즐길 수 있었지만 전력 소비는 여전히 낮은 상태이다.
3.4. H100의 그래픽 성능 제한
- A100까지의 GPU는 완전한 ROPs 스펙을 제공하여 게임 실행이 가능했으나, H100은 성능이 제한되었다.
- H100의 성능 제한은 게임에만 국한되지 않고, 3D 렌더링에도 영향을 미쳤다.
- Blender에서의 렌더링 테스트는 Optics 설정을 사용하여 진행되었고, 약 9초가 소요되었다.
- RTX 4090이 이 작업을 수행하는 데 소요된 시간과 비교했을 때, H100의 렌더링 속도는 기대 이하로 보인다.
4. 📊 H100 GPU 성능 테스트 결과
- H100 GPU는 stable diffusion을 이용한 이미지 생성에서 2.82초로 4090보다 느린 성능을 보였으나, 이는 xformers 미지원과 관련이 있어 보인다.
- H100은 Donut 모델 훈련에서 4090보다 45% 빠른 성능을 발휘하며, 24분 30초 소요된 4090에 비해 H100은 17분에 훈련을 완료한다.
- H100는 AI 작업에 적합하지만, HPC(고성능 컴퓨팅)에서는 FP32 및 FP64 성능이 요구되며, 두 분야는 각기 다른 방향으로 발전하고 있다.
- H100는 LAMPS와 같은 분자 동역학 테스트에서 A100 및 4090보다 빠른 성능을 보였지만, 일반적인 소프트웨어에서는 4090보다 성능이 떨어질 수 있다.
- CFD 분야에서는 H100의 성능이 4090보다 2배 이상 향상되었으나, 필요한 소프트웨어 범위가 좁아 H100을 사용하는 것이 경제적이지 않을 수 있다.
5. 🚀 H100 GPU의 성능 및 소개
- H100 GPU는 세계에서 가장 강력한 계산 카드로 평가되며, 그 성능 수준이 주목받고 있다.
- 영상에서는 네 개의 H100 GPU를 다룬다.
- 이 영상이 재미있다면, 구독과 좋아요를 눌러줄 것을 권장한다.
- 또한, 관련 T셔츠 구매를 홍보하는 내용이 포함되어 있다.
from lilysAI
반응형
'HJH IT Logs' 카테고리의 다른 글
공유경제와 자살방지 (0) | 2025.01.14 |
---|---|
공유경제용 차세대 CCTV 아이디어 (0) | 2025.01.14 |
windows에서 deepseek 돌려봄. (0) | 2025.01.13 |
llama and deepseek model download (0) | 2025.01.13 |
시장에서 필요한 기술스택 탐구 (0) | 2025.01.12 |
최근댓글