초저전력을 소모하면서 LLM 구현 가능
뉴로모픽 기술 적용해 성능·효율 극대화

카이스트 연구진이 초저전력으로 거대 언어 모델(LLM)을 구현할 수 있는 반도체 개발에 성공했다. 사진=연합뉴스
카이스트 연구진이 초저전력으로 거대 언어 모델(LLM)을 구현할 수 있는 반도체 개발에 성공했다. 사진=연합뉴스

[서울와이어 천성윤 기자] 한국과학기술원(카이스트) 연구진이 초저전력으로 거대 언어 모델(LLM)을 구현할 수 있는 인공지능(AI) 반도체 칩을 세계 최초로 개발했다.

6일 과학기술정보통신부에 따르면 카이스트 ‘PIM반도체 연구센터’와 AI 반도체 대학원 유회준 교수 연구팀은 400mW(밀리와트)의 초저전력을 소모하면서 초고속으로 거대 언어 모델을 처리할 수 있는 AI 반도체를 개발했다. 명칭은 ‘상보형-트랜스포머’로 삼성전자의 28나노 공정을 통해 제작됐다.

연구팀은 그동안 다량의 그래픽처리장치(GPU)와 250W의 전력소모를 통해 구동되는 오픈AI의 ‘챗 GPT’와 같은 LLM을 가로·세로 4.5㎜ 한 개의 AI 반도체 칩 상에서 초저전력으로 구현하는 것에 성공했다.

상보형-트랜스포머의 특징은 병렬형 연산방식(뉴로모픽) 컴퓨팅 기술의 정확도를 합성곱신경망(CNN)과 동일 수준으로 끌어올리고, 다양한 응용 분야에 적용할 수 있는 상보형-심층신경망(C-DNN)으로 구현했다는 점이다.

상보형-심층신경망 기술은 지난해 2월에 개최된 국제고체회로설계학회(ISSCC)에서 이번 연구의 제1저자인 김상엽 박사가 발표한 바 있다.

또 이 방식은 심층 인공 신경망(DNN)과 스파이킹 뉴럴 네트워크(SNN)를 혼합해 사용하며 입력 데이터들을 크기에 따라 서로 다른 신경망에 할당해 전력을 최소화할 수 있다.

사람의 뇌가 생각할 것이 많을 때 에너지 소모가 많고 생각할 것이 적을 때 에너지 소모가 적은 것과 같이, 뇌를 모방한 스파이킹 뉴럴 네트워크는 입력값의 크기가 클 때는 전력을 많이 소모하고 입력값의 크기가 작을 때에는 전력을 적게 소모한다.

지난해 연구에서는 이러한 특징을 활용해 작은 입력값들만을 스파이킹 뉴럴 네트워크에 할당하고 큰 값들은 심층 인공 신경망에 할당해 전력 소모를 최소화했다.

이 연구를 상보형-심층신경망에 적용함으로써 초저전력·고성능의 온디바이스 AI가 가능하다는 것을 실제로 입증했다. 그동안 이론적인 연구에만 머물렀던 연구내용을 세계 최초로 AI 반도체 형태로 구현했다.

또 연구팀은 챗 GPT의 70억800만개에 달하는 파라미터(매개변수)를 19억100만개로 줄였으며, 번역을 위해 사용되는 T5 모델의 40억200만개 달하는 파라미터도 7600만개로 압축했다.

이를 통해 연구진은 언어 모델의 파라미터를 외부 메모리로부터 불러오는 작업에 소모되는 전력을 약 70% 감소시키는 것에 성공했다. 전력 소모를 엔비디아 A100 GPU 대비 625배만큼 줄였다.

이번 연구는 거대모델의 파라미터 수를 줄이는 데에만 집중된 최근 연구 트렌드와 달리 파라미터 수 감소에 더해 초저전력 처리가 가능한 뉴로모픽 컴퓨팅을 LLM 처리에 적용해 에너지 효율을 극대화했다는 점이 획기적이다.

유회준 KAIST 전기및전자공학부 교수는 “이번 연구는 기존 AI반도체가 가지고 있던 전력 소모 문제를 해소했을 뿐만 아니라, GPT-2와 같은 실제 거대언어모델 응용을 성공적으로 구동했다는데 큰 의의가 있다”며 “뉴로모픽 컴퓨팅은 AI 시대에 필수적인 초저전력·고성능 온디바이스 AI의 핵심기술인만큼 앞으로도 관련 연구를 지속할 것”이라고 설명했다.

전영수 과기정통부 정보통신산업정책관은 “이번 연구성과는 AI 반도체가 뉴로모픽 컴퓨팅으로 발전할 수 있는 가능성을 실제로 확인했다는 것에 큰 의미가 있다”며 “지난 1월 대통령 주재 반도체 민생토론회에서 AI반도체의 중요성이 강조됐듯, 앞으로도 세계적인 연구성과를 지속적으로 낼 수 있도록 적극적으로 지원하겠다”고 말했다.

저작권자 © 서울와이어 무단전재 및 재배포 금지