티스토리 뷰

반응형

엔비디아가 ARM을 인수한다고 발표한지 시간이 좀 지났네요. 많은 나라의 허가를 받아야 실제 인수가 이뤄지겠지요. 중국에서 제재에 대한 대응으로 인수를 불허할 것이라는 기사도 나오고 있는데 진짜 인수가 완료될지는 지켜봐야겠습니다. 브로드컴의 퀄컴 인수가 미국 트럼프 대통령의 반대로 무산된 사례와 같이 각국 정부의 허가가 필요한 상황이라서요.

 

그렇다면 엔비디아는 왜 ARM을 인수했을까요? 47조나 되는 돈을 들여 기업을 인수할 때는 한 가지 목적이 아닌 복합적인 이유가 있을 것이라 생각합니다. 이 글에서는 그 이유 중 한 가지로 엔비디아의 Inference 제품군 강화라 추정합니다.

엔비디아의 ARM 인수 (출처: nvidianews.nvidia.com)

딥러닝 시대에서 엔비디아의 성장과 한계

이전글(왜 GPU는 AI 시대에 중요해졌는가?)에서도 말했듯이 엔비디아가 지금과 같이 높게 평가된 데에는 딥러닝의 하드웨어 시장의 지속적인 성장 예측이 있습니다. 그래픽용 병렬 프로세서인 GPU가 딥러닝 연산에 적합했고 딥러닝 모델의 Training/Inference 수요 증가에 따라 엔비디아의 매출도 크게 성장했죠. 이러한 요구에 맞춰 엔비디아는 그래픽 연산에 특화된 IP를 축소/제거하고 보다 일반적인 목적 (물론 주 목적은 딥러닝이겠지요)에 적합한 GPGPU를 개발합니다. 하드웨어 뿐만 아니라 딥러닝 프로그램을 엔비디아의 GPU에 맞춰 최적으로 수행할 수 있는 컴파일러를 포함한 프레임워크를 제공하며 개발자들을 끌어들였죠.

 

딥러닝은 Training과 Inference라는 두 단계로 구분될 수 있다고 이전글(딥러닝 학습/추론과 이에 따른 하드웨어 차이 비교)에서 설명했습니다. 엔비디아의 GPU는 Training 영역에서는 경쟁자를 찾을 수 없을 정도로 독보적인 위치를 차지하고 있지만, Inference의 경우에는 많은 도전에 직면해 있습니다. 많은 스타트업(Habana, Graphcore 등)과 기존 프로세서 개발 업체(Qualcomm 등)가 효율성이 높은 Inference 전용 ASIC을 개발하고 실제 제품도 출시하고 있습니다.

 

비교를 위해 가장 최근 엔비디아에서 출시한 A100을 살펴보죠. 이 Device의 특징은 엄청난 Computing power(624Tops)와 그에 못지 않은 Power(400W) 소모입니다. Computing power가 높다는 것은 A100은 대량의 Inference 요청을 Batch로 묶어 한 번에 처리하는 데 특화된 장치라고 해석할 수 있죠. 그런데, Inference는 Training과 달리 대량의 Instance를 한 번에 묶어 처리하기가 쉽지 않습니다. 왜냐하면 Inference는 실시간 서비스가 이뤄져야 하기 때문이지요. 데이터센터를 운영하는 서비스 업체는 고객이 서비스를 요청해서 완료하기까지의 목표 수치인 Qos를 갖고 있습니다. 이 QoS에는 Batch를 구성하는 대기 시간도 포함됩니다. 따라서 대형 Inference를 효율적으로 활용하기 위해 마냥 기다릴 수 없는 상황이며, 그래서 이렇게 큰 Inference HW가 적합한지에 대해서는 의문이 들죠. 또한 Power 효율성 관점에서도 1.5Tops/W로 ASIC 기기들보다 큽니다.

Nvidia A100 (출처: nvidia.com)

 

AI Inference 시장에서 Facebook의 OCP와 Qualcomm의 등장

이러한 엔비디아 GPU의 약점을 파고든 스타트업들에 대해서는 이전글(딥러닝 ASIC 가속기란?)에서 설명드렸고 오늘은 Qualcomm에 대해 말하려 합니다. Qualcomm의 주력 시장은 스마트폰용 SoC이지죠. Flagship 및 High-end segment에서의 절대 강자입니다. 하지만 스마트폰 시장 정체로 PC용 프로세서로 사업 영역을 확장 시도하고 있다는 설명을 이전글(파괴적 혁신 관점에서 본 ARM PC)에서 했었죠. PC외의 확장 가능 영역으로 Inference 시장을 본 것 같습니다. 올해 AI100이라는 Inference 칩을 발표했는데, ARM 기반 칩이라 Power 효율성이 높죠. 또한 발표 중 눈여겨 볼 항목이 고객과 긴밀한 소통을 통해 칩의 Spec을 결정했다는 언급[1]이 있는데 주요 고객은 Facebook으로 추정됩니다.

Qualcomm AI100 Line-up (출처: Anandtech.com)

 

갑자기 왠 Facebook이냐고요? Facebook은 2015년부터 OCP (open compute project)를 주도하면서 데이터센터 HW의 일종의 표준화를 얘기하고 있습니다. OCP의 주요 참여자로는 Microsoft와 Baidu가 있죠. Facebook은 어마어마하게 많은 데이터를 처리할 데이터센터를 운영하고 있는데 여기에 들어가는 HW를 표준화하여 생산업체들이 규모의 경제를 달성한다면 CAPEX 감소에 큰 효과가 있겠죠. OCP 중 Datacenter의 Inference module 관련 project도 있는데 이 표준 중 하나인 Yosemite V2와 AI100의 Form factor가 상당히 유사합니다. Yosemite V2의 특징이라고 하면 작은 Inference HW를 많이 부착하여 개별적인 Inference 요청을 좀 더 빨리 처리한다는 Concept이고요[2]. 대규모의 처리 방식인 엔비디아의 A100과는 반대지요. 하지만 올해 2020년 다시 Facebook이 발표한 Yosemite V3에서는 효율을 이유로 V2보다 더 큰 Inference HW를 도입할 예정이라고 하는데 커진다고 해도 엔비디아의 A100까지는 아닐 듯 합니다.

 

딥러닝 Inference Line-up을 강화할 수 있는 엔비디아의 ARM 인수

길게 돌아왔는데 다시 원래의 질문으로 돌아가보죠. 엔비디아 입장에서 보면 Training보다 상대적으로 규모가 작은 Inference HW에 대한 수요는 커질텐데 이에 대한 대응책이 없는 상황입니다. 기존에 이 목적으로 출시한 Jetson line-up이 조용히 묻힌 사례에서 보면 알 수 있죠.  엔비디아의 2018년 IR 자료에서 알 수 있듯이 엔비디아는 지금보다 향후에 딥러닝 시장에서 Inference가 Training만큼이나 중요해질 것이라는 사실도 예측하고 있습니다. 따라서 GPU기반 기술로는 효율적인 Inference HW 개발이 어려우니 다른 기반 기술이 필요했고 ARM이 최적의 대안으로 떠올랐죠. 앞서 말했던 Qualcomm의 AI100도 ARM 기반 프로세서 이니까요. ARM이 가진 저전력 특화 IP에 기존 엔비디아가 축적한 딥러닝 관련 지식(컴파일 및 프레임워크 포함)이 결합된다면 시장에 독보적인 Inference HW line-up을 구축할 수 있을 것이라 생각합니다. 이러한 관점에서 본다면, "기존 고객사에 재공하던 IP를 중립적으로 제공하겠다"는 comment는 우려를 무마하려는 의도일 수도 있겠으나 순수히 받아들인다면, "Smartphone 및 기타 IoT 시장은 놔둘테니 우리는 데이터센터(서버) 시장에 계속 집중하겠다"로 해석할 수 있습니다. 

 

다시 한 번 강조하자면 현재까지 말 한 내용은 모두 엔비디아가 순조롭게 ARM을 인수한다는 가정하에서 나온 얘기입니다. 정말로 엔비디아가 ARM을 인수할 수 있을지, 인수한다면 ARM ISA 기반의 저전력 Inference line-up이 나올지, 나온다면 성공적으로 시장에 자리잡을 수 있을지 재미 있는 관전 포인트입니다.

 

[1] www.anandtech.com/show/16083/qualcomms-cloud-ai-100-now-in-production-up-to-400tops-at-75w

[2] www.nextplatform.com/2020/05/14/inside-facebooks-future-rack-and-microserver-iron/

 

 

 

반응형
댓글
글 보관함