구글, 생성형 AI로 둠 게임을 실시간 구현한 연구 발표
페이지 정보
본문
* The Register 기사
Google trains a GenAI model to simulate DOOM's game engine in real-ish time
https://www.theregister.com/2024/08/28/google_doom_ai/
[※ 내용 일부 Gemini 1.5 Pro 0827 버전 번역 후 수정]
구글과 텔아비브 대학교 연구진이 협력하여 생성 AI 기반 게임 엔진을 개발, 연구 목적으로 '둠'과 같은 고전 명작 게임을 초당 20프레임 이상으로 실행하는 데 성공했습니다.
관련 논문에서는 강화 학습과 디퓨전(확산) 모델을 이용한 실시간 게임 엔진 시뮬레이션 기법을 상세히 다루고 있습니다.
[■ 논문 링크]
Diffusion Models Are Real-Time Game Engines
https://arxiv.org/abs/2408.14837
"게임 엔진"이라고 발음하는 GameNGen이라는 이름의 이 모델은 둠으로 학습했지만, 연구팀은 이 모델 접근 방식이 둠에만 한정되지 않고 다른 게임에도 적용 가능하다고 밝혔습니다.
기존 게임 엔진은 사용자 입력을 추적하고 게임 상황을 갱신하며 화면에 픽셀을 렌더링하는 과정을 수동으로 코딩하여 만들어집니다. 이러한 과정이 빠르게 반복되면서 가상 환경 속에서 움직이고 상호 작용하는 듯한 착시를 만들어냅니다.
반면, GameNGen은 플레이어 조작 직전 몇 프레임을 바탕으로 전체 게임 엔진과 프레임을 실시간으로 생성한다는 점에서 차이가 있습니다.
연구원들이 실제 플레이어 게임 플레이 영상을 장시간 분석했을 것이라고 예상할 수 있으나, 연구팀은 이런 방식은 현실적으로 어려웠다고 밝혔습니다.
그 대신, GameNGen 훈련 첫 단계는 둠을 플레이하는 법을 배우는 강화 학습 에이전트를 만드는 것이었습니다.
훈련 과정에서 생성된 데이터를 사용하여 Stable Diffusion v1.4를 기반으로 게임을 렌더링하는 맞춤형 디퓨전 모델을 학습시켰습니다.
연구팀에 따르면, 싱글 TPU v5에서 GameNGen을 실행한 결과 약 20FPS을 달성했습니다. 최신 1인칭 슈팅 게임에서 일반적으로 허용되는 60FPS 이상 목표에는 미치지 못하지만, 오리지널 둠 최대 프레임 속도가 35FPS였다는 점을 생각할 필요가 있습니다.
[■ 아래 시연 영상 (유튜브)]
https://youtu.be/O3616ZFGpqw
연구팀은 노이즈 제거 단계를 한 단계로 줄이면 최대 50FPS까지 성능을 높일 수 있지만, 화질이 낮아지는 현상이 생긴다고 설명했습니다.
[중략]
짐작하실 수 있듯이, GameNGen은 아직은 개념 증명 수준이며 논문에서 언급하는 것처럼 여러 가지 한계를 가지고 있습니다.
가장 큰 한계는 메모리입니다. 싱글 TPU v5에서 모델을 실행하면 약 3초 분량의 게임플레이만 저장할 수 있습니다.
연구진은 이런 제한에도 게임 로직이 작동한다는 사실 자체가 대단하다고 평가했습니다.
논문에서 강조한 또 다른 한계는 강화 학습 에이전트를 학습 데이터로 사용한다는 점에서, 원본 게임 모든 부분을 매핑하지 못한다는 것입니다. "훈련을 마무리하는 단계에서도 에이전트가 게임 모든 장소와 상호 작용을 경험하지 못했기 때문에, 특정 상황에서 오류가 발생할 수 있습니다."
heavyrain3637님의 댓글의 댓글
sky0runner님의 댓글
실시간으로
게임을 하는듯한 영상을 만들어 낸다?
사용자는 게임을 하는데 배경 적 등이 사용자의 입력에 따라 실시간으로 생성된다?
전자 라면 음인데
후자라면 우왕 이네요
NewsOfVictory님의 댓글
가사라님의 댓글
하긴 게임이라는게 시각, 청각출력을 내는 과정에 입력을 넣어주는 것이 기본 로직이니 멀티모달리티를 다루는 인공지능이라면 얼마든지 가능하겠고, 이번에 그 컨셉을 증명한 거군요.
백에이커의숲님의 댓글