AI·반도체 패권, HBM 넘어 HBF·추론칩 전쟁으로…“진짜 승부는 전력과 자본”

챗GPT의 등장 이후 인공지능(AI)은 연구·문서 작성·검색·영상 제작 등 인간의 지적 노동 영역을 빠르게 잠식하고 있다. 그러나 생성형 AI가 일상적 협업 도구로 자리 잡은 현재, 산업 현장에서는 두 가지 한계가 분명하게 드러난다. 느린 처리 속도와 할루시네이션(환각) 문제다.

현재의 대규모언어모델(LLM)은 텍스트뿐 아니라 이미지·고화질 영상 생성까지 수행하면서 막대한 연산량과 메모리 대역폭을 요구한다. 특히 여러 AI 에이전트가 동시에 데이터를 검색·검증·추론하는 구조에서는 초당 수십~수백 기가바이트 규모의 데이터 이동이 발생한다. 업계에서는 “미래 AI 경쟁의 본질은 알고리즘보다 메모리 병목 해결”이라는 평가가 나온다.

이 과정에서 기존 HBM(고대역폭메모리)의 구조적 한계도 뚜렷해지고 있다. HBM은 D램을 TSV(실리콘관통전극) 방식으로 수직 적층해 GPU와 초고속 연결하는 구조다. 현재 엔비디아의 AI GPU와 AMD AI 가속기 대부분이 SK하이닉스·삼성전자·마이크론의 HBM을 핵심 부품으로 사용한다.

하지만 HBM은 구조적으로 용량 확장에 제약이 크다. D램 특성상 휘발성이며 가격과 소비전력도 높다. 최근 AI 모델들이 RAG(검색증강생성) 구조를 적극 도입하면서 방대한 외부 데이터를 실시간으로 불러와 장기 기억처럼 활용하기 시작하자 메모리 수요는 폭증하고 있다.

이 때문에 차세대 메모리 구조로 HBF(High Bandwidth Flash)가 부상하고 있다. HBF는 고속 HBM 옆에 대용량 낸드플래시를 3차원 적층해 연결하는 개념이다. HBM이 연산용 초고속 캐시라면 HBF는 AI의 장기 기억 저장소 역할을 수행하는 구조다.

낸드 기반 HBF는 HBM 대비 저장 용량을 최소 10배 이상 확대할 수 있다는 평가를 받는다. 특히 전원이 꺼져도 데이터가 유지되는 비휘발성 특성 때문에 사용자 행동 패턴·대화 기록·개인화 데이터 저장에 유리하다. 업계에서는 “에이전틱 AI와 멀티모달 AI 시대의 핵심 인프라가 될 가능성이 높다”는 분석이 나온다.

삼성전자와 SK hynix, Sandisk 등 글로벌 메모리 기업들은 이미 HBF 개념 연구에 착수한 상태다. 업계에서는 2027~2028년 초기 상용화 가능성을 거론한다. 차세대 HBM5와 HBF가 결합될 경우 현재보다 최대 4배 이상 향상된 AI 처리 성능이 가능할 것이라는 전망도 제기된다.

연산 반도체 시장도 ‘학습’ 중심에서 ‘추론’ 중심으로 무게추가 이동하고 있다.

지금까지 AI 산업을 지배한 것은 엔비디아 GPU였다. 원래 게임 그래픽 처리용으로 개발된 GPU는 범용 병렬 연산에 강점을 가지며 AI 학습 시장을 장악했다. 그러나 GPU는 AI에 필요 없는 기능까지 포함하고 있어 전력 소모와 발열이 매우 크다는 약점이 있다.

이 틈을 파고든 것이 TPU와 NPU다.

Google의 TPU(Tensor Processing Unit)는 AI 연산만을 위해 설계된 특화 반도체다. 데이터센터 내 AI 학습 효율 극대화를 목표로 개발됐다.

반면 NPU(신경망처리장치)는 이미 학습된 AI 모델을 실시간 서비스에 적용하는 ‘추론’ 작업에 최적화된다. 생성형 AI 산업이 확산될수록 수천만 명 사용자 요청을 24시간 처리해야 하기 때문에 시장 중심축이 학습에서 추론으로 이동하고 있다는 분석이다.

미국 AI 반도체 스타트업 Groq은 HBM 대신 초고속 SRAM 기반 구조를 채택해 초저지연 추론 시장에 도전하고 있다. 국내에서도 Rebellions, FuriosaAI, HyperAccel 등이 독자 NPU 개발에 뛰어들었다.

다만 TPU든 NPU든 결국 고성능 AI 시스템 구현에는 HBM 같은 초고속 메모리가 필수적이라는 점에서 한국 메모리 산업의 전략적 위상은 여전히 견고하다는 평가다.

최근에는 소프트웨어적으로 메모리 사용량을 줄이려는 시도도 이어지고 있다. 대표 사례가 구글이 공개한 ‘TurboQuant’ 계열 양자화 기술이다. AI 내부 데이터(KV 캐시)를 초저정밀도로 압축해 메모리 요구량을 줄이는 방식이다.

그러나 업계에서는 “정밀도 손실이 누적될 경우 장문 추론이나 이미지 생성에서 오류 가능성이 커질 수 있다”는 우려도 나온다. 특히 대형 상용 모델 환경에서는 하드웨어 자체의 대역폭·전력 한계를 소프트웨어만으로 해결하기 어렵다는 시각이 우세하다.

결국 미래 AI 산업의 핵심 과제는 전력과 발열이다.

현재 글로벌 빅테크들은 AI 데이터센터 확장 과정에서 막대한 전력난에 직면하고 있다. GPU 클러스터 하나가 중소 도시 수준의 전력을 소비하는 사례도 등장하고 있다. 이에 따라 업계에서는 MRAM·그래핀·초전도체·뉴로모픽 반도체·양자컴퓨팅(QPU) 같은 차세대 구조 연구가 동시에 진행 중이다.

Elon Musk가 거론한 ‘우주 데이터센터’ 구상 역시 냉각 비용 절감을 위한 극단적 접근으로 평가된다. 다만 위성 간 광통신과 전력 공급 문제 해결이 선행돼야 한다는 지적이 많다.

시장 일각에서는 AI 버블론도 제기된다. 그러나 전문가들은 기술 자체보다 인프라 비용 지속 가능성이 핵심 변수라고 본다.

현재 AI 산업은 천문학적 규모의 반도체·전력·데이터센터 투자를 요구한다. 결국 소비자와 기업이 AI 서비스에 얼마나 높은 비용을 지속적으로 지불할 수 있는지가 산업 생존의 기준이 될 전망이다.

업계 관계자는 “AI 산업의 최종 승자는 가장 뛰어난 알고리즘 개발 기업이 아니라 전력·발열·메모리 병목을 가장 먼저 해결하고 막대한 자본 투자를 버텨낸 기업이 될 가능성이 높다”고 말했다.