NVIDIA의 시가총액이 3조 달러를 넘었다. 반도체 기업이. 엔비디아가 AI 인프라의 중심으로 자리잡은 건 갑작스러운 일이 아니다. 2000년대 초반부터 쌓아온 기술 판단과 전략이 AI 붐을 만나 한꺼번에 터진 것이다. 어떻게 이게 가능했는지, 핵심만 짚어본다.
GPU가 AI 학습에 맞는 이유
CPU는 순차 처리에 강하다. 고성능 코어 8~64개가 복잡한 명령을 빠르게 처리하는 구조다. 반면 GPU는 코어 수가 수천 개다. 동시에 돌아간다. 행렬 곱셈, 벡터 연산 — 딥러닝 학습의 핵심 연산이 딱 이 구조에 맞아떨어진다.
- 병렬 처리의 위력: AI 모델은 수억~수십억 개의 매개변수를 한꺼번에 업데이트하며 학습한다. GPU는 이 계산을 동시에 처리해 학습 시간을 CPU 대비 수십 배 단축한다. 연구자 입장에서 이건 실험 사이클 전체가 달라지는 얘기다.
- 메모리 대역폭: 이미지, 영상, 텍스트 데이터를 쏟아붓는 현대 AI 모델은 메모리 대역폭이 병목이 된다. GPU의 높은 대역폭이 데이터를 빠르게 밀어 넣는 역할을 한다. H100 기준 3.35TB/s다.
- NVIDIA의 선견지명: 2000년대 초반부터 GPU를 범용 컴퓨팅에 쓸 수 있다는 비전으로 투자를 시작했다. 당시엔 뜬구름 잡는 소리처럼 들렸을 것이다. 결과적으로 이 판단이 지금의 독점적 지위를 만들었다.
이 구조적 이점 때문에 AI 연구자들이 딥러닝 모델 훈련에 GPU를 쓰기 시작했고, NVIDIA 수요는 폭발했다. 2022년 ChatGPT 이후로는 말할 것도 없다.
CUDA: 진짜 해자는 하드웨어가 아니다
경쟁사들도 GPU를 만든다. AMD, 인텔, 구글까지. 그런데도 NVIDIA가 흔들리지 않는 이유의 상당 부분은 CUDA(Compute Unified Device Architecture)에 있다. 하드웨어만 있다고 되는 게 아니다.
- 개발 환경: CUDA는 C/C++ 기반 프로그래밍 환경에 cuDNN, cuBLAS 같은 딥러닝 특화 라이브러리를 갖췄다. 연구자가 저수준 하드웨어 코딩 없이 GPU 성능을 끌어다 쓸 수 있는 구조다. PyTorch, TensorFlow의 기본 백엔드가 CUDA인 건 우연이 아니다.
- 커뮤니티와 문서: 2006년 CUDA 출시 이후 20년 가까이 쌓인 자료, 튜토리얼, 답변이 수십만 건이다. AMD의 ROCm이 기술적으로 나쁘지 않아도 생태계 격차를 좁히기 어려운 이유가 여기에 있다. 새 플랫폼으로 갈아타는 전환 비용이 너무 크다.
- 사실상의 표준: 대학 연구실, 스타트업, 빅테크 모두 CUDA로 훈련시킨다. 새 연구원을 채용하면 이미 CUDA 경험자다. 이 관성이 경쟁사가 따라오기 가장 어려운 부분이다.
CUDA 없이 NVIDIA의 GPU 독점을 설명하는 건 불가능하다. 하드웨어는 복사할 수 있어도, 20년 생태계는 복사가 안 된다.
A100, H100, Blackwell — 칩 진화의 속도
AI 모델 규모가 커질수록 NVIDIA의 데이터센터 GPU 스펙도 같이 올라갔다. GPT-3는 A100 수천 장으로 훈련됐다. GPT-4는 H100 클러스터였다. Blackwell 아키텍처는 그 다음 수순이다.
- 전문 AI 칩: H100은 80GB HBM3 메모리, 3.35TB/s 대역폭, FP8 정밀도 기준 최대 3,958 TFLOPS 성능을 낸다. 대규모 언어 모델 훈련에 수천 장이 동시에 돌아가는 게 지금의 AI 인프라 현실이다. 칩 하나가 수만 달러짜리 고가 제품이고, 수요가 공급을 초과하는 상황이 몇 년째 이어지고 있다.
- NVLink와 InfiniBand: 단일 GPU 한계를 넘는 기술이다. NVLink는 GPU 간 데이터 전송을 PCIe 대비 수배 빠르게 처리하고, InfiniBand 네트워크로 수백~수천 장을 하나의 클러스터처럼 묶는다. 이 구조 위에 AWS, Azure, Google Cloud의 AI 인프라가 올라가 있다.
- 클라우드 인프라 장악: 아마존, 마이크로소프트, 구글이 자체 AI 칩(Trainium2, Maia, TPU v5)을 개발 중이지만, 현재 클라우드 AI 워크로드의 대부분은 여전히 NVIDIA GPU에서 돈다. 이 현실이 바뀌려면 시간이 상당히 걸린다.
H100 납기가 수개월씩 밀렸던 게 불과 작년 얘기다. 공급 부족이 곧 가격 결정력이고, 그게 곧 이익률이다.
수백억 달러 스타트업 베팅의 구조
TechCrunch가 전한 바에 따르면 NVIDIA가 보유한 AI 스타트업 지분 총액이 수백억 달러에 달한다. 단순 재무 투자가 아니다. 구조적으로 설계된 생태계 확장이다.
- 수요 선순환: 투자를 받은 스타트업은 NVIDIA GPU와 CUDA 스택으로 제품을 만든다. 그 스타트업이 성장하면 GPU 수요도 같이 늘어난다. NVIDIA 매출이 자동으로 따라 올라오는 구조다. 스타트업의 성공이 곧 NVIDIA의 성공이다.
- 미래 시장 선점: 시드~시리즈A 단계에서 들어가면 기술 방향을 일찍 읽고, 유망 기업을 파트너로 묶어둔다. 경쟁자가 될 수 있는 기업을 생태계 안으로 끌어들이는 효과도 있다.
- 기술 지원과 혁신 촉진: 컴퓨팅 자원이 부족한 초기 AI 기업에 GPU 크레딧과 기술 지원을 제공한다. 이 기업들이 새로운 AI 활용 사례를 만들어내면, 결국 NVIDIA 하드웨어 수요로 돌아온다.
투자 포트폴리오가 AI 산업 지도와 거의 겹친다. 우연이 아니라 전략이다.
Clara, DRIVE, Omniverse — 소프트웨어 수직화
NVIDIA가 밀고 있는 방향은 하드웨어 위에 소프트웨어 레이어를 쌓는 수직 통합이다. GPU만 팔아서는 경기 사이클에 취약하다는 걸 알기 때문이다.
- 산업별 플랫폼: Clara(의료 영상 분석), DRIVE(자율주행), Omniverse(산업 디지털 트윈). 각 산업의 AI 워크플로에 특화된 소프트웨어 스택이다. 이게 자리를 잡으면 경쟁사 GPU로 갈아타는 게 훨씬 복잡해진다. 락인(lock-in) 효과가 하드웨어보다 강하다.
- DGX Cloud: 최신 AI 인프라를 클라우드 구독 형태로 제공한다. 수억 원짜리 H100 서버를 직접 사지 않아도 NVIDIA 성능을 쓸 수 있는 구조다. 칩 교체 주기와 무관하게 월정액 수익이 들어온다.
- 매출 다각화: 소프트웨어 라이선스, 구독, 클라우드 서비스는 하드웨어 사이클과 분리된 수익 흐름이다. 반도체 업황이 꺾여도 버퍼가 생긴다는 뜻이다. 이게 NVIDIA를 단순 칩 제조사와 다르게 보는 이유다.
이 전략이 성공하면 NVIDIA는 칩 제조사에서 AI 시대의 종합 인프라 기업으로 포지션이 달라진다. 실제로 그쪽으로 가고 있다.
남은 변수들
AMD MI300X, 구글 TPU v5, 아마존 Trainium2, 마이크로소프트 Maia — 경쟁은 현실이다. 빅테크들이 자체 칩에 수십억 달러를 쏟아붓고 있고, 성능도 빠르게 올라오고 있다. NVIDIA가 영원히 독주할 거라 보기엔 이르다.
- Blackwell의 기술 격차: NVIDIA는 Blackwell 아키텍처로 H100 대비 최대 30배 추론 성능 향상을 내세운다. 경쟁사들이 이 격차를 좁히려면 몇 세대를 더 거쳐야 한다. 그사이 NVIDIA는 또 다음 세대를 내놓는다.
- 지정학 리스크: 미국의 대중국 반도체 수출 규제는 NVIDIA에 직접적인 타격이다. H100 수출이 막히자 H800, A800 같은 다운그레이드 버전을 별도로 내놨지만, 규제가 강화되면서 이마저도 막혔다. 중국 시장 매출 비중이 상당했던 만큼 이 리스크는 현재진행형이다.
- 차세대 컴퓨팅: 양자 컴퓨팅, 뉴로모픽 칩이 GPU를 언제 대체할지는 아무도 모른다. NVIDIA도 이 분야 연구를 진행 중이지만, 지금 당장 사업에 미치는 파급은 미미하다. 10년 단위의 리스크다.
NVIDIA가 쌓아온 건 GPU 성능 하나가 아니다. 하드웨어, CUDA 생태계, 스타트업 네트워크, 소프트웨어 스택을 동시에 쥔 복합 구조다. 이걸 흔들려면 경쟁사 혼자로는 역부족이고, 산업 패러다임 자체가 바뀌어야 한다. 그 시간이 얼마나 걸릴지가 진짜 관전 포인트다.
출처: TechCrunch
