본문 바로가기
Scrapbook/News Scrap

[기사 스크랩] AGI의 핵심으로 떠오른 '월드 모델'이란

by muns91 2024. 11. 5.
AI 뉴스

 

 

[10월3주] AGI의 핵심으로 떠오른 '월드 모델'이란 - AI타임스

\'챗GPT\'의 등장으로 지난해에는 대형언어모델(LLM)이라는 단어가 유행이었습니다. 이후 이미지나 영상까지 읽어낼 수 있는 대형멀티모달모델(LMM)이라는 말이 \'GPT-4o\'나 \'제미나이\' 등의 수식어

www.aitimes.com


본문 및 헤드라인

 

 '챗GPT'의 등장으로 지난해에는 대형언어모델(LLM)이라는 단어가 유행이었습니다. 이후 이미지나 영상까지 읽어낼 수 있는 대형멀티모달모델(LMM)이라는 말이 'GPT-4o'나 '제미나이' 등의 수식어로 퍼져 나갔습니다. 그리고 이제는 '대형세계모델(LWM)'이 최신 트렌드로 떠올랐습니다.

 텍스트로만 세상을 배운 인공지능(AI)의 한계를 넘기 위해 현실 세계를 학습하며 인간과 같은 인지 능력을 갖춘다는 이 모델은 일명 '몸을 가진 AI(Embodied AI)'라는 이름으로도 통했습니다.

 이는 AI의 한계를 뛰어넘어 인공일반지능(AGI)에 도달할 유력한 방법으로 꼽히는 동시에 로봇 공학이나 자율주행 등으로 확장할 수 있기 때문에 매우 유망한 기술로 꼽힙니다. 장병탁 서울대학교 교수도 일찌감치 이 분야를 강조한 리더 중 한명입니다.

 최근 각광을 받고 있지만, 이 말이 등장한 것은 좀 됐습니다. 사카나AI의 공동 창립자인 데이비드 하가 2018년 구글 재직 당시 '세계 모델(World Models)'이라는 제목의 논문을 내놓은 것이 처음으로 꼽힙니다. 물론 지금보다는 개념이 협소하지만, 인간의 인지 작용을 따라 하려는 의도는 같습니다.

 이어 지난해 막스 테그마크라는 과학자와 MIT 연구원이 발표한 논문으로 이 용어는 개발자 사이에서 유행하기 시작했습니다. '시간과 공간을 나타내는 언어 모델(language model represent space and time)'이라는 연구로, LLM이 실제 세계의 시공간적 표현을 학습해 세계 모델이 될 수 있다는 가능성을 보여주는 내용입니다.

 최근에는 2명의 유명 연구자가 용어 전파에 크게 기여했습니다. 먼저 'AI의 대모' 페이페이 리 스탠포드대학교 교수는 월드랩스라는 스타트업을 설립한 뒤 인터뷰를 통해 LWM을 개발한다고 밝혔습니다.

 2010년 '이미지넷'을 만든 것으로 유명한 리 교수의 스타트업 설립은 화제였습니다. 이에 따라 LWM도 주목받았습니다. 리 교수는 이를 '공간 지능(spatial intelligence)'라고도 부릅니다.

 다른 한명은 'AI 사대천왕'으로 꼽히는 얀 르쿤 메타 수석과학자입니다. 그는 지난 2월 'V-제파(JEPA)라는 모델을 개발 중이라며, 이를 "세상에 대한 기초적인 이해를 통해 기계 지능을 발전시키는 데 중요한 단계"라고 소개했습니다.

 LWM을 개발한다고 공개적으로 말하지는 않았으나, 오픈AI나 구글, xAI 등도 관련 연구를 진행하고 있습니다. 얼마 전 오픈AI에서 '소라' 개발을 이끌었던 팀 브룩스는 구글로 이직하며 "세계 모델을 개발할 것"이라고 예고했습니다. 

 일론 머스크 CEO의 xAI 역시 지난 4월 첫 LMM '그록 1.5-V'를 공개하며 "멀티모달과 생성 능력을 모두 발전시키는 것은 우주를 이해할 수 있는 유익한 AGI를 구축하는 데 중요한 단계"라고 강조했습니다.

 이처럼 LWM에 도달하기 전 LMM을 구축하는 것은 필수로 꼽힙니다. 메타가 지난달 커넥트 행사에서 첫 LMM '라마 3.2'를 공개한 것도 이와 무관하지 않습니다. 마크 저커버그 CEO 역시 AGI 개발이 목표라고 밝혔기 때문입니다.

 그렇다면 LWM이 완성되고, AGI로 연결되기까지는 얼마나 시간이 필요할까요. 여기에 대해서는 의견이 엇갈립니다.

 일론 머스크 CEO는 잘 알려진 대로 "2년 내 인간보다 똑똑한 AI가 등장한다"라고 예측했고, 샘 알트먼 CEO는 "수천일 안에 초지능이 등장할 것"이라며 3~4년 정도를 예상했습니다. 

 그리고 머스크 CEO와 이 문제로 말다툼까지 벌였던 르쿤 수석이 한마디 했습니다. 그는 최근 강연에서 AGI를 달성하는 데에는 월드 모델 개발이 핵심이라며, 이는 "수년에서 수십년이 걸릴 수 있다"라고 말했습니다.

 그는 AGI에 대해서는 누구보다 냉정한 입장입니다. 그래서 AI의 인류 위협에도 강력하게 반대하는 입장입니다. 그의 대표적인 멘트는 "AI는 고양이보다도 똑똑하지 않다"라는 말입니다.

 하지만 르쿤 수석도 이 문제로 스트레스를 받는 모양입니다. 직장 상사인 저커버그 CEO로부터 "언제 AGI가 나올 것 같냐"라는 질문에 계속 시달리고 있다고 전했습니다.

 또 LWM 개발을 강력하게 응원하는 사람 중 하나가 젠슨 황 엔비디아 CEO라는 것도 흥미롭습니다. AGI 개발 경쟁으로 인해 갈수록 GPU 수요가 늘어나는 데다, LWM은 LLM과 달리 이미지와 영상으로 학습하기 때문에 더 큰 슈퍼컴퓨팅 인프라가 필요하기 때문입니다. 

이 분야 경쟁에 치열해지는 한, 엔비디아 매출이 줄어들 일은 없을 것 같습니다. 

■ 오픈AI, 역대 최대 규모 AI 데이터센터 구축 중

오픈AI가 오라클 및 스타트업 크루소와 협력, 내년 초 가동을 목표로 데이터센터를 구축 중이라는 소식입니다. 특히 여기에는 최신 엔비디아 칩 5만장이 투입, 세계 최대의 AI 컴퓨팅 능력을 갖출 예정입니다.

■ 아마존, 핵발전 계약 3건 발표..'클라우드 빅 3' 모두 핵 가동 나서

MS와 구글의 발표에 이어 아마존도 핵발전 소식을 내놓았습니다. 늘어나는 전력 수요와 탄소 절감을 동시에 해결할 방법은 현재 핵밖에 없는 것 같습니다.

■ 업스테이지, 업그레이드 OCR 모델 ‘도큐먼트 파스’ 공개

업스테이지가 오랜만에 모델 출시를 알렸습니다. 이번에는 이 회사의 주특기인 OCR 모델입니다. 역시 성능은 빅테크 모델보다 뛰어나다고 밝혔습니다.


추가 조사할 내용 및 요약

 

1. AGI (Artificial General Intelligence)란

더보기

링크 : https://aws.amazon.com/ko/what-is/artificial-general-intelligence/

 

AGI란? - 인공 일반 지능 설명 - AWS

AGI를 달성하려면 오늘날 AI 모델을 지원하는 것보다 더 광범위한 기술, 데이터 및 상호 연결성이 필요합니다. 복잡한 인간 행동을 모방하는 AI를 만들려면 창의성, 지각, 학습 및 기억력이 필수적

aws.amazon.com

 

링크 : https://tech.kakaoenterprise.com/189

 

[IT TREND] AGI를 향한 기대와 우려

시작하며 4월에도 기술 시장 소식은 AI를 중심으로 끊임없이 이어지고 있습니다. 금주의 수 많은 소식들을 살펴보며 특히 눈에 띄었던 것은, 바로 AGI (Artificial General Intelligence)에 대하여 다루는

tech.kakaoenterprise.com

 

 인공 일반 지능(AGI)은 인간과 유사한 지능과 스스로 학습할 수 있는 능력을 갖춘 소프트웨어를 만들려는 이론적 AI 연구 분야입니다. 목표는 소프트웨어가 반드시 교육을 받거나 개발되지 않은 작업을 수행할 수 있도록 하는 것입니다. 

 현재의 인공 지능(AI) 기술은 모두 사전 결정된 파라미터 세트 내에서 작동합니다. 예를 들어 이미지 인식 및 생성에 대해 학습한 AI 모델은 웹 사이트를 구축할 수 없습니다. AGI는 자율적 자제력, 합리적인 수준의 자기 이해, 새로운 기술 학습 능력을 갖춘 AI 시스템을 개발하기 위한 이론적 추구입니다. 제작 당시에는 학습하지 못했던 설정과 상황의 복잡한 문제를 해결할 수 있습니다. 인간의 능력을 갖춘 AGI는 이론적 개념이자 연구 목표로 남아 있습니다.

 

 AGI가 무엇인지 간단하게 살펴보겠습니다. AGI는 소개드릴 AI의 세 가지 레벨 (또는 단계, stage, tier 등으로 표현) 중 하나입니다. 이와 같은 레벨은 AI의 '능력 (Capabilities)'에 따라 나뉘는데요. 보통 크게 두 가지 또는 많게는 세 가지까지 분류되고 있는 것으로 보입니다.

AI의 세 가지 레벨 : Capabilities 중심

  • Level 1. ANI (Artificial Narrow Intelligence) : 단일 태스크를 사람과 같이 수행하는 AI, Weak AI라고도 함
  • Level 2. AGI (Artificial General Intelligence) : 다양한 분야에서 대체적으로 사람보다 더 똑똑하게 여러 태스크를 범용적으로 수행할 수 있는 AI, Strong AI 라고도 함
  • Level 3. ASI (Aritificial Super Intelligence) : 모든 분야에서 사람의 지능과 능력을 초월하여 태스크를 수행하는 AI, 이 또한 Strong AI라고 일컫는다고 함

 

  AGI로 향하는 길은 수 많은 갈래로 나뉘어지겠지만 그 중에서도 embodiment (이하 체화, 형상화)는 AGI에 있어 필수적인 요소가 될 것이라는 시각이 존재하고 있는데요. AI가 형체를 갖추어야 비로소 AGI에 도달할 수 있다는 의견은 사람과 화면 그 이상에서 얻을 수 있는 인터랙션이 오가야 할 것이라고 생각하는 것에서 발전하였다고 합니다.

 

 샘 알트먼은 최근 한 유명 팟캐스트에 출연하여 AGI를 기술적, 또는 정서적 측면에서 실현하기 위해 몸이 필요할 것 같냐는 질문에 "필요없다고 생각하지만 확정 지을 수 는 없다"고 답하였습니다. OpenAI 또한 AGI를 실현시키기 위한 주요 요소로서 AI의 물리적 형상화, 체화를 고려하여 휴머노이드를 AI를 담기 위한 많은 물리적 개체 중 하나의 가능성으로 보고 있는 것은 아닌가 예상이 됩니다.

 

2. Embodied AI

더보기

링크 : https://blog.naver.com/shakey7/223441073253

 

물리적 신체를 갖추게 된 대형 언어 모델 - 'Embodied AI'

Embodied AI란 ‘구현된’ 이라는 뜻을 가진 Embodied와 인공지능을 뜻하는 AI가 결합된 단어로, 시...

blog.naver.com

링크 : http://m.irobotnews.com/news/articleView.html?idxno=35383

 

[ICROS 2024] 인공지능의 진화와 '물리적인 실체화'

배순민 KT AI2XL 랩장(상무)은 3일 ‘ICROS 2024’에서 ‘AI Evolution: From Language Models to Embodied Agents’을 주제로 기조강연을 했다.(프로필) 배순민 랩장은 AI 기술을 의미 있는 서비스로 변화시키는 것을

m.irobotnews.com

 

 Embodied AI란 ‘구현된’ 이라는 뜻을 가진 Embodied와 인공지능을 뜻하는 AI가 결합된 단어로, 시뮬레이터나 3D 가상환경에서 에이전트를 생성하여 여러가지 과제를 학습시킨 후, 이를 현실의 로봇과 같은 기계에 전이하여 현실에서도 그러한 과제들을 잘 수행할 수 있도록 하는 연구를 의미합니다.

 그리고 최근에는 Embodied AI의 의미가 확장되어, 온라인 상의 작업을 주로 수행하던 GPT와 같은 대형 언어 모델(LLM) 또는 대형 멀티모달 모델(LMM)들이 현실 세계의 물리 작용을 이해하고, 이를 바탕으로 자동차나 로봇 등에 탑재되어 자율주행 및 육체 노동을 가능케하는 것을 의미하기도 합니다.

 


 

이번 기조강연에서 배 랩장은 사전 발제문을 통해 딥러닝의 등장이 코딩과 글쓰기를 AI에게 맡길 수 있는 시대를 이끌고 있지만, 우리가 꿈꾸던 AI 로봇의 세계는 아직 열리고 있지 않았다고 했다. 배 랩장은 LLM 기술의 발전을 되짚고, Embodied AI 기술이 넘어야 할 도전과제들에 대해 소개했다.

 배 랩장은 이번 강연에서 로봇과 인공지능이 융합하면서 현실과 상호작용이 증가하고 있으며, 비전AI와 LLM을 통해 로봇이 주변 상황을 이해하고, 판단하며, 동작할 수 있는 기술이 구현되고 있다고 말했다. 다만 LLM은 가치판단을 할 수 없으며 인공지능이 제시하는 모든 게 ‘사실’은 아니라고 말했다. 또한 인공지능은 사람과 달리 호기심과 열정이 없으며 데이터화하는 게 힘들다고 얘기했다.

 배랩장은 디바이스, 툴(tool) 등 다양한 방면에서 에이전트화가 시도되고 있으며, 인공지능이 외부에 영향을 미치기위해선 ‘물리적인 실체화’의 필요성이 높아지고 있으며, 아직 인공지능은 물리적인 세팅 데이터가 부족하다고 지적했다. 임바디드 인공지능의 구현을 위해서 LAM과 LBM의 필요성이 높다고 했다. 즉, 멀티모달에 이어 행동하는 인공지능의 등장으로 임바디드 AI가 부상하고 있으며 LAM, LBM 등 대규모 행동모델이 주목받고 있다는 설명이다.

 배 랩장은 KT의 로봇 사업과 관련해선, KT가 ‘로봇 서비스 프로바이더’ 역할을 할 것이며, 로봇을 스마트폰이나 자동차와 동일한 시각에서 인식하고 있다고 말했다. 배 랩장은 KT의 인공지능 ‘믿음(Mi:dm)’을 소개하고, 인공지능의 활성화를 위해 막대한 전기료 상승 문제가 중요한 이슈로 등장했다고 지적했다.


마무리

 여기까지 오늘의 기사 스크랩이었습니다. 대형언어모델(LLM) 그리고 이미지나 영상까지 읽어내는 대형멀티모달모델(LMM), 이제는 대형세계모델(LWM)이 최신트렌드가 되었습니다. 이제 글로만 세상을 배운 인공지능의 한계를 넘기 위해 현실을 학습하며 인간과 같은 인지 능력을 갖춘다는 것까지! 이제 앞으로 몇 년안에는 인공지능이 탑재된 로봇이 우리의 일상에 점점 다가올 것 같습니다. 하지만 인공지능은 사람과 달리 호기심과 열정이 없기 때문에 이를 데이터화하는 것이 어려우며 아직은 물리적인 세팅 데이터가 부족하다는 점 등 현 기술에서는 아직은 보완할 점이 많은 것 같습니다. 

반응형