9월 오픈AI가 ‘o1’이라는 새로운 인공지능(AI) 모델을 발표했다. 오픈AI의 기존 GPT 모델들이 학습(training)형 AI였던 반면, o1은 추론(inference)형 AI다. 학습형 AI는 인간이 풀던 문제를 더 빠르게 푸는 계산기와 같았다면, 추론형 AI는 속도보다 창의적인 문제해결에 집중한다. 즉 추론형 AI는 학습형 AI보다 문제 처리 속도는 느리지만 더 나은 해법을 제공한다.
이러한 근본적 차이로 AI가 작동하기 위한 기반 요소들도 달라진다. 학습형 모델에는 대규모 병렬 처리가 가능한 엔비디아의 H100, H200 등 고성능 그래픽처리장치(GPU) 클러스터와 SK하이닉스의 HBM3, HBM3e 메모리가 필수적이다. 100MW 이상의 전력 공급과 고효율 액체 냉각 시스템(Liquid Cooling System)도 필요하다. 반면 추론형 모델은 구글의 TPU, 아마존의 트레이니움(Trainium)과 인퍼런시아(Inferentia), 삼성의 신경망처리장치(NPU) 등 용도별로 최적화된 AI 가속기가 필요하다. 30~50MW 수준의 전력, 통상적인 공랭식 냉각 방식으로도 충분히 운영이 가능하다는 점도 추론형 모델의 특징이다.
기반 요소의 차이는 AI 모델을 운영하기 위한 데이터센터 설계와 위치 측면에서도 차이를 만들어낸다. 학습형 모델의 데이터센터는 고전력 에너지가 필요해 대도시보다 지방이나 산, 지하, 바다, 사막 등 오지에 자리 잡는다. 반면 추론형 모델의 데이터센터는 저전력의 효율성이 중요하기에 공장이나 기업, 기관 인근에 지어질 가능성이 크다. 마치 대규모 변전소는 전력 인프라가 잘 갖춰진 넓은 부지나 도시 외곽에 설치되고, 지역이나 건물에 전력을 공급하는 소규모 전력 분배함은 도심 곳곳에 분산돼 설치되는 것과 같다.
산업용 로봇, 자율주행차, 스마트폰, 드론 등에 추론형 AI가 적용되면 디바이스의 성능과 편의성이 극대화될 것이다. 하지만 추론형 AI 모델이 클라우드를 기반으로 하는 한 비용과 보안, 최적화 측면에서 여전히 한계를 지닌다. 클라우드를 운영하는 데 비용이 들고, 인터넷으로 데이터가 오가며 처리되는 과정에서 개인정보 유출 문제가 발생할 수 있기 때문이다.
에지 디바이스에 최적화된 추론형 AI 모델은 밀리초(ms) 단위의 즉각적인 응답이 필요한 자율주행이나 산업용 로봇 제어 같은 실시간 애플리케이션에서 큰 강점을 발휘할 것이다. 추론형 AI는 자율주행차가 교통 상황을 즉각적으로 분석하도록 돕고, 스마트폰으로 하여금 네트워크 연결 없이도 이미지 보정이나 음성 인식 등 복잡한 AI 작업을 수행하게 한다. 더불어 각 디바이스의 특성과 사용자 패턴에 맞춰 AI 모델을 최적화해 더욱 정교하고 개인화된 서비스를 가능하게 할 것이다.
AI 시장은 학습형 중심에서 추론형 중심으로 변화하고 있다. 학습 모델이 대규모 데이터를 통해 AI의 기본 역량을 구축했다면, 추론 모델은 학습 모델을 발판 삼아 AI가 실생활에 응용돼 사용자의 다양한 문제를 해결하도록 돕는다. 특히 에지 디바이스에 최적화된 추론형 AI 모델은 개인화된 경험, 에너지 효율성, 실시간성을 강화해 AI가 더욱 실질적인 서비스 가치를 창출하는 시대를 열 것이다.
인공지능(AI) 시장의 중심이 학습형 모델에서 추론형 모델로 옮겨가고 있다. [GettyImages]
AI 시장, 학습형에서 추론형으로 변화
학습형 AI 모델과 추론형 AI 모델은 작동 방식 자체가 다르다. 학습 모델은 확률적 언어 모델링(Probabilistic Language Modeling)에 기반한다. 방대한 말뭉치(corpus)에서 통계적 패턴을 학습해 빈칸에 들어갈 말을 예측하는 방식이다. 반면, 추론형 모델은 신경-상징적(Neuro-symbolic) AI 기술과 다중 추론 체인(Multi-hop Reasoning Chain) 기술을 활용한다. 추론형 AI의 문제해결 방식은 인간이 수학 문제를 푸는 방식에 비유할 수 있다. 인간이 복잡한 수학 문제를 단계별로 잘라 하나씩 해결해가듯이, 추론형 AI는 입력된 프롬프트의 의미론적 구조를 파악한 후 주어진 문제를 세부 문제로 쪼개 차근차근 답을 찾는다.
이러한 근본적 차이로 AI가 작동하기 위한 기반 요소들도 달라진다. 학습형 모델에는 대규모 병렬 처리가 가능한 엔비디아의 H100, H200 등 고성능 그래픽처리장치(GPU) 클러스터와 SK하이닉스의 HBM3, HBM3e 메모리가 필수적이다. 100MW 이상의 전력 공급과 고효율 액체 냉각 시스템(Liquid Cooling System)도 필요하다. 반면 추론형 모델은 구글의 TPU, 아마존의 트레이니움(Trainium)과 인퍼런시아(Inferentia), 삼성의 신경망처리장치(NPU) 등 용도별로 최적화된 AI 가속기가 필요하다. 30~50MW 수준의 전력, 통상적인 공랭식 냉각 방식으로도 충분히 운영이 가능하다는 점도 추론형 모델의 특징이다.
기반 요소의 차이는 AI 모델을 운영하기 위한 데이터센터 설계와 위치 측면에서도 차이를 만들어낸다. 학습형 모델의 데이터센터는 고전력 에너지가 필요해 대도시보다 지방이나 산, 지하, 바다, 사막 등 오지에 자리 잡는다. 반면 추론형 모델의 데이터센터는 저전력의 효율성이 중요하기에 공장이나 기업, 기관 인근에 지어질 가능성이 크다. 마치 대규모 변전소는 전력 인프라가 잘 갖춰진 넓은 부지나 도시 외곽에 설치되고, 지역이나 건물에 전력을 공급하는 소규모 전력 분배함은 도심 곳곳에 분산돼 설치되는 것과 같다.
산업용 로봇, 자율주행차, 스마트폰, 드론 등에 추론형 AI가 적용되면 디바이스의 성능과 편의성이 극대화될 것이다. 하지만 추론형 AI 모델이 클라우드를 기반으로 하는 한 비용과 보안, 최적화 측면에서 여전히 한계를 지닌다. 클라우드를 운영하는 데 비용이 들고, 인터넷으로 데이터가 오가며 처리되는 과정에서 개인정보 유출 문제가 발생할 수 있기 때문이다.
에지 디바이스 최적화가 핵심
따라서 앞으로 주목해야 할 점은 에지 디바이스(edge device)에 탑재돼 클라우드를 거치지 않고 정보를 처리할 수 있는 추론형 AI의 발전이다. 에지 디바이스에 추론용 AI 모델을 탑재하면 클라우드로 인한 제약에서 자유로워질 수 있다. 디바이스가 직접 데이터를 처리하기 때문에 클라우드 서버를 운영하는 데 비용이 들지 않는다. 민감한 개인정보가 외부로 전송되지 않아 보안성도 높다.
에지 디바이스에 최적화된 추론형 AI 모델은 밀리초(ms) 단위의 즉각적인 응답이 필요한 자율주행이나 산업용 로봇 제어 같은 실시간 애플리케이션에서 큰 강점을 발휘할 것이다. 추론형 AI는 자율주행차가 교통 상황을 즉각적으로 분석하도록 돕고, 스마트폰으로 하여금 네트워크 연결 없이도 이미지 보정이나 음성 인식 등 복잡한 AI 작업을 수행하게 한다. 더불어 각 디바이스의 특성과 사용자 패턴에 맞춰 AI 모델을 최적화해 더욱 정교하고 개인화된 서비스를 가능하게 할 것이다.
AI 시장은 학습형 중심에서 추론형 중심으로 변화하고 있다. 학습 모델이 대규모 데이터를 통해 AI의 기본 역량을 구축했다면, 추론 모델은 학습 모델을 발판 삼아 AI가 실생활에 응용돼 사용자의 다양한 문제를 해결하도록 돕는다. 특히 에지 디바이스에 최적화된 추론형 AI 모델은 개인화된 경험, 에너지 효율성, 실시간성을 강화해 AI가 더욱 실질적인 서비스 가치를 창출하는 시대를 열 것이다.