본문 바로가기
Scrapbook/News Scrap

[기사 스크랩] ETRI, 파인튜닝 보다 쉽고, 추론 성능 높인 3B 한국어 특화 소형 언어모델 ‘이글’ 오픈소스로 공개

by muns91 2024. 12. 3.
AI 뉴스

 

기사 제목 : ETRI, 파인튜닝 보다 쉽고, 추론 성능 높인 3B 한국어 특화 소형 언어모델 ‘이글’ 오픈소스로 공개

기사 링크 : https://www.aitimes.kr/news/articleView.html?idxno=33013

 

ETRI, 파인튜닝 보다 쉽고, 추론 성능 높인 3B 한국어 특화 소형 언어모델 ‘이글’ 오픈소스로 공

국내 연구진이 한국어 중심의 신경망 기반 소형 생성 언어모델을 개발해 오픈소스로 일반에 공개했다. 대형언어모델(LLM)을 활용할 수 없는 중소·중견기업에게 단비가 될 전망이다.한국전자통

www.aitimes.kr

 


본 문

 

 국내 연구진이 한국어 중심의 신경망 기반 소형 생성 언어모델을 개발해 오픈소스로 일반에 공개했다. 대형언어모델(LLM)을 활용할 수 없는 중소·중견기업에게 단비가 될 전망이다.

 한국전자통신연구원(ETRI)은 한국어 기반 30억개 파라미터(3B)급 신경망 기반 소형 생성 언어모델(SLM), ‘이글(Eagle)’을 개발해 28일, 허깅페이스(HuggingFace-다운)에 공개했다.

 생성형 언어모델은 방대한 텍스트 데이터로부터 인간의 언어능력을 학습하여, 목적에 맞게 사용자의 질문이나 지시에 따라 자연스러운 대화나 다양한 텍스트 콘텐츠를 만들어내는 시스템이다.

 생성 인공지능(Generative AI) 및 언어모델에 선도적인 글로벌 빅테크 기업들은 과거 1백억~1천억 개 파라미터 규모 이상의 중대형 모델의 공개에 집중했었으나, 최근 10억~40억 개 파라미터 규모의 소형 개방형 모델을 공개하고 있다.

 그러나 이러한 모델은 한국어 어휘를 음절이나 바이트 단위로 처리하기 때문에, 동일한 문장을 표현하는 데 더 많은 연산이 필요하다. 더불어, 학습된 데이터 중 한국어 데이터가 전체의 5%에도 못 미치는 비중을 차지해, 한국어 이해 및 생성 능력이 영어 등의 주요 언어에 비해 상대적으로 낮다는 한계를 드러내고 있다.

 ETRI 연구진이 개발한 언어모델은 한국어 데이터 비중이 훨씬 높다. 이를 통해 연산 횟수를 줄이면서도 효율적인 학습과 추론이 가능해졌다. 특히, 한국어로 주어진 숫자 연산을 수행하는 미세조정 실험에서, ETRI가 지난 4월 공개한 13억 파라미터 모델은 글로벌기업 모델의 절반 수준(50%)의 규모임에도 불구하고 특정 작업들에서 약 15% 더 높은 성능을 기록했다.

 또한, 국내 기업들이 공개한 기존 한국어 중심 모델은 질의응답 과업에 적합하게 조정된 기정렬 모델이라는 한계가 있다. 반면, ETRI의 공개 모델은 미세조정이 적용되지 않은 기초 모델로 제공된다.

 기초 모델은 기정렬된 모델에 비해 새로운 목적의 과업에 추가 학습을 적용할 경우, 응용모델의 기대 성능이 더 높다. 학습시간도 약 20% 내외로 단축되어 더 우수한 성능을 발휘하는 장점이 있다.

 연구진은 본 모델이 생성형 AI 응용 개발 과정에서 연산 비용 부담을 느끼는 중소·중견 기업에 적합하다고 설명했다. 또한, 기초 모델에 특화된 용도를 반영해 추가 학습을 수행함으로써, 기업 자체의 맞춤형 기초 모델을 제작할 수 있는 연장 학습이 용이하다는 점도 강조했다.

 이처럼 ETRI는 해외 빅테크 기업의 기초 모델에 비해 투여되는 컴퓨팅 자원의 한계로 학습량이 부족하여 다양한 지식을 충분히 담지 못하는 단점을 극복하기 위해 노력하고 있다. 이를 위해 신경망 기초 모델이 개념 표현을 효과적으로 습득할 수 있도록 하는 추가 연구를 진행하고 있다.

 또한, ETRI는 기초 모델의 표현 품질을 예측할 수 있는 기술과, 개념 단위로 조합하여 추론할 수 있는 원천 기술도 함께 개발하고 있다. 연구진은 개발한 기초 모델을 바탕으로 개념 지식을 효과적으로 인출할 수 있는 능력과, 수학 문제나 여러 단계의 논리 전개가 필요한 복잡한 문제를 푸는 능력을 부여하는 기술을 개발하고 있다. 이를 통해 기존의 SLM에서 어려웠던 복합 추론을 수행할 수 있도록 할 계획이다.

 아울러, ETRI는 더 많은 지식을 내포하는 70억 개 파라미터 규모의 모델과 사전 정렬을 통해 추가 학습 없이 사용자의 요청에 맞게 응답을 수행할 수 있는 모델도 2025년에 순차적으로 공개할 예정이며, 초등학교 수학을 지원하는 교사용 튜터 개발에도 힘쓰고 있다.

 ETRI 권오욱 언어지능연구실장은“현재 공개된 언어모델들이 풍부한 자원을 기반으로 개발되지 않아서 모든 면에서 해외 우수 모델들보다 나을 수는 없다. 하지만, 상대적으로 작은 한국어 토종 모델이 필요한 산학연 여러 분야의 연구개발에 큰 도움이 되길 바란다.”라고 말했다.

 본 성과는 2023년부터 과학기술정보통신부와 정보통신기획평가원(IITP)의 지원을 받아 ‘사람처럼 개념적으로 이해/추론이 가능한 복합인공지능 원천기술 연구’의 일환으로 이루어졌다.


추가 조사 내용

 

1. 2025년은 “sLM이 AI산업 주류가 되는 첫 해”

더보기

링크 : https://www.apple-economy.com/news/articleView.html?idxno=74790

 

2025년은 “sLM이 AI산업 주류가 되는 첫 해” - 애플경제

[애플경제 전윤미 기자] LLM과는 달리 특정 용도에 적합하고 비용도 적게 드는 sLM(경량화모델)이 한층 대중화되고 있다. 국내에선 일부 대기업을 제외하곤 대형 모델을 경량화하거나, 맞춤형으로

www.apple-economy.com

 

 LLM과는 달리 특정 용도에 적합하고 비용도 적게 드는 sLM(경량화모델)이 한층 대중화되고 있다. 국내에선 일부 대기업을 제외하곤 대형 모델을 경량화하거나, 맞춤형으로 파인튜닝한 AI모델이 크게 활성화되고 있다. 실제로 전세계적으로 2025년엔 이같은 소규모 언어모델이 AI산업의 주류를 이루는 첫해가 될 것이란 전망이 나와 관심을 끈다.

 sLM은 비용이나, 전기 등 에너지 사용량, 규제의 적합성 등의 장점으로 인해 일반 기업들은 이를 더욱 선호하는 추세다. 애널리스트들에 의하면, sLM은 2025년에 주류를 이룰 수 있습니다. 기업들로선 또 학습 시간을 줄이고, 국제사회 기준에 적합한 수준으로 탄소 배출량을 줄이며 보안도 비교적 수월하기 때문이다.

 대체로 100억개 미만의 매개변수

 애초 생성AI가 등장한 후 이를 발전시켜나간 것은 천문학적 숫자의 매개변수를 지닌 대형언어모델(LLM)이다. 빅테크나 국내 주요 기업들도 더 강력한 모델을 만들기 위한 경쟁에 집중되었다. 그러나 점차 그와는 다른 ‘실속있는’ 맞춤형의 소형언어모델이 실제 산업현장에선 더욱 유용하게 쓰이고 있다.

 시장분석기관인 글로벌데이터(GlobalData)는 “내년부턴 (LLM보다) 더 가벼운 옵션(sLM)이 급증하면서 AI산업의 주류로 부상할 것”이라고 전망하기도 했다. 국내에서도 언어모델 경량화를 통해 입지를 닦고 있는 스타트업들이 잇따라 두각을 나타내고 있다.

 모델 경량화를 전문으로 하는 스타트업 ‘포티투마루’도 그 중 한 곳이다. 이 회사는 “sLM의 핵심 요소는 더 작고 집중적인 데이터 세트를 사용, 몇 달이 아닌 몇 주 만에 모델을 교육할 수 있다는 사실”이라고 했다. 이에 따르면 sLM은 대체로 100억 개 미만의 매개변수가 보통이다. 최대 1조개에 달하는 대규모 언어모델과는 비교가 안된다.

 역시 sLM 개발을 병행하고 있는 엔씨소프트의 한 관계자는 “집중된 데이터 세트를 사용하면 모바일 애플리케이션이나 엣지 컴퓨팅, 제한된 컴퓨팅 리소스에서의 도메인별 기능, 소규모 애플리케이션에는 특히 sLM이 적합하다”면서 “더욱이 학습 기술이 향상되면서 매개변수가 적음에도 불구하고, sLM은 날로 더욱 정확해지고 처리 시간이 훨씬 빨라질 수 있다”고 강조했다.

 탄력적이고, 사이버보안에도 효율적

오히려 데이터 세트가 소규모이다보니, sLM이 더욱 탄력이 되고 사이버 보안도 더욱 강화되는 셈이다. 공격 표면도 작아서, 크고 번거로운 LLM에 비해 비교적 쉽게 로컬에서 작동할 수도 있다. 특히 sLM은 LLM보다 훨씬 컴퓨팅 전력이 덜 들기 때문에 프로세싱 과정에서 비용이 적게 들고 에너지 소모가 적다. 값비싼 인프라도 필요하지 않다.

 이는 또 규제 사항을 어렵잖게 충족할 수도 있다. 학습 데이터가 많지 않다보니, 그에 대한 라이선스를 간단히 취득할 수 있다. 또한 컴퓨팅 임계값을 충족하지 않으므로 엄격한 규제를 피할 수 있다.

 그렇다보니 심지어 LLM으로 승부를 걸며 AI패권 경쟁에 몰입해오던 빅테크들도 최근엔 태도가 달라졌다. 마이크로소프트, 메타, 구글이 모두 최근에 자체 sLM 모델을 출시한 바 있다. 예를 들어 마이크로소프트는 마케팅 또는 영업 콘텐츠와 고객 지원 챗봇을 만들기 위한 ‘Phi-3’ 소규모 언어 모델 제품군을 출시하고 있다.

 앞서 올해 초 구글은 젬마 2B와 젬마 7B를 출시했다. 이 두 가지 모델은 프롬프트에 답하고, 정보를 요약한 수준의 텍스트 생성에 특화된 제품들이다. 프랑스의 미스트랄 역시 아파치 2.0 라이선스에 맞는 모델을 출시한 바 있다.

 “업무부하 커지면, sLM으론 역부족” 지적도

 그러나 sLM 역시 문제점 내지 한계가 있다. 처음엔 특정 용도의 sLM을 통해 업무 효율성을 기할 수 있지만, 점차 업무 부하가 커지고 복잡해지면 어쩔 수 없이 더 큰 매개변수의 모델로 전환해야 할때도 많다. 또한 sLM은 아무래도 특정 분야에 대해서만 특화되어 있으므로, 해당 범위 밖의 모델과는 협업이 잘 안되거나 아예 불가능할 수도 있다.

 이에 “sLM은 LLM과 함께 사용하는 것이 가장 이상적”이란 전문가들도 많다. 이들에 따르면 sLM은 LLM을 대체하기 위한 것이 아니라 보완함으로써 더 큰 시너지를 창출할 수 있다. 특정 산업별 애플리케이션에 적합한 sLM은 때론 LLM과 병행함으로써 좀 더 다양한 환경에서 더 쉽게 그 기능을 확장할 수 있다는 얘기가 설득력을 얻고 있다.

 

2. Ai2, 동급 최강 오픈 소스 sLM ‘올모 2’ 출시

더보기

링크 : https://www.aitimes.com/news/articleView.html?idxno=165750

 

Ai2, 동급 최강 오픈 소스 sLM ‘올모 2’ 출시 - AI타임스

앨런AI연구소(Ai2)가 오픈 소스 소형언어모델(sLM)인 ‘올모 2(OLMo 2)’를 공개했다. 이전 버전인 올모 출시 당시에는 진정한 오픈 소스 모델이라고 강조한 데 이어, 이번에는 대폭적인 성능 향상까

www.aitimes.com

 

 앨런AI연구소(Ai2)가 오픈 소스 소형언어모델(sLM)인 ‘올모 2(OLMo 2)’를 공개했다. 이전 버전인 올모 출시 당시에는 진정한 오픈 소스 모델이라고  강조한 데 이어, 이번에는 대폭적인 성능 향상까지 이뤘다고 밝혔다.

 비영리 AI 연구기관 Ai2는 27일(현지 시간) 동급 최강 성능을 보인 올모 2를 출시했다고 발표했다.

 이번에도 완전한 오픈 소스라는 점을 강조했다. 올모 2는 모델 코드와 가중치는 물론 훈련 코드, 훈련 데이터, 관련 도구 및 평가 툴킷까지 모두 공개하며, 이를 통해 모델의 구조와 작동 원리를 심층적으로 분석하고 모델의 응답 생성 과정을 이해할 수 있도록 지원한다. 상업적 이용도 자유롭다.

 성능에서도 비약적 발전을 이뤘다고 소개했다.

 70억 매개변수의 ‘올모 2 7B’와 130억 매개변수의 ‘올모 2 13B’ 모델을 제공한다. 이 모델들은 고품질 데이터를 포함한 DCLM 및 스타코더(Starcoder) 등에서 수집한 3.9조 토큰 데이터셋(OLMo-Mix-1124)로 사전 훈련했다. 이후 웹 콘텐츠와 도메인별 자료를 포함한 8430억 토큰의 큐레이션 데이터셋(Dolmino-Mix-1124)으로 미세조정했다.

 성능 면에서는 "오픈 소스 언어 모델링 분야에서 새로운 기준을 세웠다"라고 강조했다.

 이전 모델인 '올모-0424'와 비교했을 때, 올모 2는 모든 평가 항목에서 대폭 향상된 결과를 보여줬다.

 특히, 올모 2 7B는 메타의 '라마-3.1 8B'를 능가하며, 올모 2 13B는 알리바바의 '큐원 2.5 7B'를 앞서는 등 현재 최고 성능의 동급 오픈 소스 모델을 뛰어 넘었다.

 올모 2와 관련 구성 요소들은 Ai2 웹사이트에서 다운로드 가능하다.

 


마무리

 여기까지 오늘의 기사 스크랩이었습니다. 오늘은 2025년의 주요 AI 키워드 중 하나인 SLM에 대한 기사를 스크랩하였습니다. 기사는 국내의 정출연 ETRI의 '이글' 모델에 대한 것이었고, 이에 대해 알아보는 시간을 가졌습니다. 이어서 SLM에 대한 정의, 장점 그리고 한계에 대한 기사를 추가로 수집하였으며, 국내 ETRI의 사례 외에도 해외 Ai2 사의 올모 2에 대한 기사를 스크랩하였습니다. 최근에 개인적으로 허깅 페이스에 대해서 알아보고 이것이 무엇인지 그리고 이를 어떻게 활용해야될지를 고민하고 있었는 데, 국내외적으로 공개되는 좋은 모델을 활용하기 위해 본격적으로 공부를 해야되지 않을까 싶은 생각이 듭니다. 마지막으로 글 하단의 AI 주요 키워드에 대한 유튜브 강의 링크를 남기며 오늘의 스크랩을 마치도록 하겠습니다.

 

 

AI 주요 키워드 : https://www.youtube.com/watch?v=lG3GD2qqxfI&list=WL

 

 

 

반응형