SK하이닉스, ‘슈퍼컴퓨팅 2024’에서 HPC와 AI 혁신 솔루션 공개하며 AI 시장 리더십 입증

진우영 기자
발행 2024-11-21 15:03

SK하이닉스가 17일부터 22일까지(미국시간) 미국 조지아주 조지아 월드 콩그레스 센터(Georgia World Congress Center)에서 열린 ‘슈퍼컴퓨팅 2024(Super Computing 2024, 이하 SC 2024)’에 참가해 HPC와 AI를 위한 최첨단 솔루션을 선보였다.

SC 2024는 1988년부터 매년 열리는 HPC 분야의 대표적 글로벌 콘퍼런스로, HPC와 AI 기술의 최신 동향을 공유하고 업계 전문가들이 교류하는 행사다.

올해 SK하이닉스는 ‘MEMORY, THE POWER OF AI’를 주제로 전시를 열어, HPC·AI 제품 시연과 함께 첨단 메모리와 스토리지 기술에 대한 발표를 진행했다. 회사는 이번 행사를 통해 SK하이닉스의 축적된 기술력을 선보이며 글로벌 시장에서의 AI 리더십을 입증했다.

AI 데이터센터 기술의 미래를 선도하는 솔루션
SK하이닉스는 글로벌 AI 메모리 시장에서의 기술 리더십을 보여주는 다양한 제품을 전시했다. 데이터센터 솔루션 섹션에서는 ▲HBM3E ▲DDR5 Server DIMM ▲Enterprise SSD 등 회사의 핵심 제품을 선보였다.

데이터 처리 성능이 향상된 차세대 메모리 HBM3E가 전시되어 관람객들의 눈길을 끌었다. HBM3E[관련기사]는 현존하는 HBM 제품 중 최대 용량인 36GB를 구현한 신제품으로, AI 메모리 시장을 선도하는 기술력을 통해 주요 고객사와의 협력을 한층 강화하고 있다. AI 반도체 제조사들이 점점 더 방대한 데이터를 빠르게 처리할 수 있는 고용량 HBM이 필요함에 따라, SK하이닉스는 지난 9월 업계 최초로 12단 적층 D램 양산을 시작하며 반도체 시장 변화에 빠르게 대응했다.

이외에도 SK하이닉스는 기존 출시한 초고성능 PCIe* 5세대 제품 PS1010과 더불어, 데이터센터용 PCIe 5세대 eSSD(Enterprise SSD) 신제품 PEB110을 공개했다. PCIe 5세대 기술은 이전 세대보다 대역폭이 두 배로 넓어져 더 빠른 데이터 전송 속도를 제공하며, PEB110은 이를 통해 전력 효율과 성능이 크게 개선됐다.

HPC·AI 혁신 솔루션 한 자리에… 미래 기술로 성능 혁신을 보여주다
HPC·AI 솔루션 섹션에서는 차세대 메모리 기술을 통한 데이터 처리와 응용 성능 향상을 실감할 수 있도록 다양한 고성능 솔루션을 시연했다.

SK하이닉스는 이번 행사에서 차세대 메모리 기술인 CXL(Compute Express Link)을 적용한 CMM-DDR5*를 선보였다. CXL 메모리는 여러 컴퓨팅 장치가 메모리를 공유하여 데이터 전송 속도와 자원 활용도를 높이는 기술로, HPC와 AI 응용에 필요한 메모리 용량 확장을 지원한다. 이러한 CXL 메모리 기술이 적용된 CMM-DDR5 데모에서는 Intel® Xeon® 6 프로세서가 장착된 서버 플랫폼을 사용해 AI 데이터 처리 작업을 더 빠르게 수행하는 사례를 소개해 큰 호응을 얻었다.

또한 회사는 PIM기술을 활용한 AiMX를 통해 최신 언어 모델인 LLaMA-3 70B의 실시간 처리 성능을 시연했다. 데이터센터의 언어 모델 서비스는 여러 사용자의 요청을 동시에 처리하는 방식으로 GPU 효율을 개선하고 있으나, 동시에 처리할 요청이 많아짐에 따라 이 과정에서 발생하는 결과물인 생성 토큰의 길이가 증가하여 GPU 효율이 낮은 Attention Layer의 연산량이 커지는 문제가 있다. 이번에 공개된 SK하이닉스의 AiMX는 연산을 가속해 데이터 처리 속도를 높이고 전력 소모를 줄임으로써, 대량 데이터를 효율적으로 처리할 수 있는 고성능·저전력 솔루션으로서의 강점을 보여줬다.

나이아가라(Niagara) 2.0 데모에서는 CXL Pooled Memory 솔루션을 활용해 거대언어모델(LLM) 추론 서비스에서 발생하는 LLM 모델 스위칭 오버헤드를 개선하는 방안을 선보였다. 이 솔루션은 GPU 메모리 부족으로 인해 불가피하게 발생하는 LLM 모델 스위칭 오버헤드를 줄여 추론 시간을 단축할 수 있음을 보였다.

SSD 시연에서는 Checkpoint Offloading SSD 솔루션을 활용해 체크포인팅(Checkpointing) 기술을 효과적으로 지원함으로써, LLM 학습 시스템에서 발생하는 장애로 인한 자원 및 비용 낭비를 줄이고 학습 성능을 향상시킬 수 있음을 보였다.

SK하이닉스는 미국 로스앨러모스 국립연구소(Los Alamos National Laboratory, 이하 LANL)와 협업하여 개발한 객체 기반 연산 스토리지(Object-based Computational Storage, OCS) 기술을 활용해 필요한 데이터만 분석 서버로 전송함으로써 HPC 환경의 데이터 병목 현상을 개선하는 데모를 선보였다. 또한, 대규모 데이터 처리에서 성능을 크게 향상시킬 수 있는 HBM 기반 NMP(Near-Memory Processing)* 기술도 함께 소개했다.

SK하이닉스는 이번 행사에서 주요 연사로 나서 자사의 기술 비전과 차세대 솔루션을 공유했다. 박정안 TL(Sustainable Computing)은 LNAL와 공동 개발한 객체 기반 연산 스토리지(Object-based Computational Storage, OCS) 표준화에 대해 발표했다. 박 TL은 “SK하이닉스의 OCS는 추가적인 컴퓨팅 자원 없이도 데이터 저장 장치가 스스로 분석을 수행해 기존보다 빠르고 효율적인 데이터 처리를 가능하게 한다”고 밝혔다.

또한 김종률 팀장(AI System Infra)은 ‘HPC·AI 시스템을 위한 메모리와 스토리지의 힘’을 주제로, SK하이닉스의 최신 연구 성과를 기반으로 한 메모리와 스토리지 기술을 소개했다. 김 팀장은 HPC·AI 시스템에 적용할 수 있는 CXL 메모리와 HBM 기반의 Near-Memory Processing 기술 및 CXL Pooled Memory 기반의 데이터 공유 기술에 대한 연구 결과와 기술 인사이트를 소개하였다.