[백종민의 쇼크웨이브]"D램 10배 급등 뒤엔 낸드 쇼크가 온다"

글자 크기
[백종민의 쇼크웨이브]"D램 10배 급등 뒤엔 낸드 쇼크가 온다"

2026년 1월 라스베이거스에서 열린 세계 최대 전자·IT전시회 'CES 2026' 무대에서 젠슨 황 엔비디아 최고경영자(CEO)가 꺼내든 '베라 루빈(Vera Rubin)'은 단순한 차세대 그래픽처리장치(GPU)의 이름이 아니었다. 엔비디아가 던진 메시지는 명확했다. 인공지능(AI) 반도체의 병목은 더 이상 연산 성능이 아니라 메모리와 저장 구조라는 것이다. 베라 루빈은 이 판단을 단일 칩이 아닌 플랫폼과 아키텍처 전체로 구현한 결과물이다. 그리고 반도체 시장에도 새로운 방향을 제시한 방향타였다는 진단이 나온다.

베라 루빈은 엔비디아의 차세대 AI 플랫폼이다. GPU·중앙처리장치(CPU)·네트워크·데이터처리장치(DPU)·스토리지를 하나의 시스템으로 묶은 'AI 팩토리' 설계가 핵심이다. 엔비디아는 이를 통해 AI 성능 경쟁의 무게중심을 GPU 연산에서 데이터를 얼마나 효율적으로 저장하고 이동시키느냐의 문제로 전환했다. 이 변화는 이미 시장에서 가격, 수급, 기업들의 전략 변화로 나타나고 있다.


◆"D램이 10배 올랐다"… 현장이 먼저 보낸 경고= CES를 전후로 글로벌 서버·클라우드 업계에서는 "GPU가 부족하다"는 말보다 "메모리가 감당이 안 된다"는 말이 더 자주 나왔다. 유진투자증권이 집계한 메모리현물가격지표(DXI)는 주간 기준 7.2% 급등했고, 한 달 상승률은 33%를 넘겼다. DDR4 16Gb 서버 D램 가격은 주간 13% 이상, DDR5 역시 가파른 상승세를 보였다.


업계 관계자들은 "단순한 리스트 가격이 아니라 공급 리스크와 선점 비용까지 포함한 체감 가격이 8~10배 수준"이라고 말한다. 이는 단순한 가격 사이클로 설명하기 어렵다. AI 인프라가 요구하는 메모리 총량 자체가 구조적으로 늘어나고 있다는 신호다. 일각에서는 황 CEO가 지난해 10월 한국을 방문해 깐부회동을 하며 한국에 26만장의 GPU를 공급하기로 한 것도 메모리를 확보하기 위한 선제적인 행동이었다는 추측까지 나올 정도다.


유진투자증권은 CES 2026 이후 발간한 보고서에서 "AI 컨텍스트의 거대화는 고대역폭메모리(HBM)와 D램에 그치지 않고 낸드까지 추가적인 모멘텀을 창출할 것"이라고 진단했다. 메모리 시장의 파장이 연쇄적으로 확산할 수 있다는 의미다.


황 CEO는 CES 기조연설에서 "AI의 컨텍스트 윈도가 거대화하고 있다"고 강조했다. AI 모델이 단순 질의응답을 넘어 스스로 계획하고 판단하는 에이전트(Agent) 단계로 진입하면서 한 번의 추론 과정에서 생성되는 문맥 정보와 KV 캐시가 폭발적으로 늘어나고 있다는 설명이다.


문제는 이 데이터가 지금까지 HBM과 시스템 메모리인 D램에 집중돼 있었다는 점이다. AI 클러스터가 커질수록 메모리 용량은 빠르게 한계에 도달하고, GPU는 데이터를 기다리며 유휴 상태에 놓인다. 추론이 늘어날수록 비용이 오히려 증가하는 구조가 만들어진다. 메모리 병목이다.


엔비디아는 지금까지는 병목을 HBM을 개선해 해결해 왔다. 황 CEO도 기자회견에서 우리가 가장 먼저 HBM4를 사용했다고 강조했다. 아울러 이번에는 베라 루빈과 함께 새로운 메모리·스토리지 구조를 제시했다.


베라 루빈은 단일 GPU를 의미하지 않는다. 엔비디아는 GPU·CPU·네트워크·DPU·스토리지를 동시에 설계하는 '극단적 공동설계(extreme codesign)' 방식을 택했다. 목표는 단순하다. AI를 더 빠르게가 아니라 더 싸게 돌리는 구조를 만들기 위함이다.


베라 루빈은 TSMC 3㎚(1㎚=10억분의 1m) 공정과 차세대 패키징인 CoWoS-L을 적용해 트랜지스터 수를 전 세대 대비 약 1.6배 늘렸고, 학습 성능은 3배 이상, 추론 성능은 5배 수준으로 개선됐다. 다만 일각에서는 베라 루빈의 GPU 성능이 드라마틱하게 향상된 것 같지는 않다는 진단을 내놓는다.


김정호 카이스트(KAIST) 전기전자공학부 교수는 "과거와 비교해 성능 향상이 적다 보니 다른 분야로 눈을 돌린 것 같다"고 했다. 루빈 GPU와 함께 사용되는 베라 CPU의 성능도 크게 향상됐지만 진짜 변화는 연산 성능보다 메모리 계층에 있다. 엔비디아는 베라 루빈과 함께 루빈 CPX를 제시했다. 루빈 CPX는 HBM 대신 GDDR7을 탑재한 대규모 컨텍스트 추론(Prefill 단계) 전용 프로세서다. AI 에이전트가 요구하는 방대한 컨텍스트를 상대적으로 저렴한 메모리 구조로 처리해 전체 추론 비용을 낮추는 역할을 맡는다. 유진투자증권은 "루빈 CPX는 루빈 GPU와 함께 랙 시스템에 탑재돼 플랫폼 채택을 가속할 것"이라고 분석했다.


여기에 더해 엔비디아는 ICMS(Inference Context Memory Storage)라는 새로운 개념을 공개했다. ICMS는 GPU 메모리와 기존 스토리지 사이에 'G3.5'라는 새로운 계층을 추가하는 구조다. 이 계층은 KV 캐시 전용으로 설계됐으며 SSD, 즉 낸드(NAND) 기반 메모리에서 구동된다.


ICMS의 핵심 하드웨어는 블루필드(BlueField-4) DPU다. BlueField-4는 GPU와 스토리지 사이의 데이터 이동을 전담하며 KV 캐시 전송을 효율적으로 관리한다. 엔비디아가 '표준 스토리지 플랫폼'을 직접 제시한 것은 스토리지가 AI 성능과 비용을 좌우하는 핵심 요소로 올라섰다는 판단을 드러낸다. DPU 설계 업체인 김장우 망고부스트 CEO는 "엔비디아도 병목 해소가 필요한 지점에 DPU를 적용하기 시작한 것 같다"고 설명했다.


◆"GPU당 16TB"… 현실이 된 낸드 쇼크 가능성= 해외 IT 매체 WCCFTECH는 베라 루빈과 ICMS가 낸드플래시 시장에 새로운 공급 충격을 줄 수 있다고 분석했다. 이 매체는 시티(Citi) 증권의 분석을 인용해 베라 루빈 기반 시스템은 GPU당 약 16TB의 낸드플래시를 탑재할 수 있으며, NVL72 랙 기준으로는 1.1PB(페타바이트)에 달한다고 전했다. 더 주목할 부분은 물량이다.


시티는 베라 루빈 출하가 2027년 기준 10만대 수준으로 확대될 경우 엔비디아 한 회사만으로도 1억1000만TB 이상의 낸드 수요가 발생할 수 있다고 추산했다. 이는 향후 글로벌 낸드 총 수요의 약 9%에 해당하는 규모다.


WCCFTECH는 "엔비디아의 새로운 스토리지 전략만으로도 낸드 산업이 아직 반영하지 못한 공급 쇼크가 발생할 수 있다"고 진단했다. 이미 데이터센터 증설과 추론 수요 확대로 낸드 시장이 빠듯한 상황에서, AI 에이전트 시대를 겨냥한 KV 캐시 풀 확대는 낸드 수급을 한층 더 압박할 것이라는 전망이다. 이는 GPU용 HBM 제조를 위해 D램 생산이 줄어들며 D램 가격이 치솟은 현실에서 낸드 시장에서도 같은 현상이 벌어질 수 있다는 예고다.


유진투자증권은 "2026년 낸드 시장에 대해서도 기존 대비 더 높은 기대가 가능하다"고 분석했다. 메모리 시장의 중심이 D램에서 스토리지까지 확장될 가능성을 시사하는 대목이다.


김 교수는 "당분간은 현재와 같은 형태로 낸드플래시가 활용되겠지만 HBM과 같이 낸드플래시를 적층한 HBF의 연구가 이제 시작된 만큼 향후에는 HBF 쪽으로 방향이 전환될 것"이라고 전망했다.






라스베이거스(미국)=백종민 테크 스페셜리스트 cinqange@asiae.co.kr

▶ 2026년 사주·운세·토정비결·궁합 확인!
▶ 아는 만큼 돌려받는 '연말정산' OX 테스트 ▶ 하루 3분, 퀴즈 풀고 시사 만렙 달성하기!

HOT 포토

더보기