구글, 생성형 AI로 둠 게임을 실시간 구현한 연구 발표

알림

아름다운별 118.♡.85.36

2024.08.30 01:25

게임

3,276

쓰기

* The Register 기사

Google trains a GenAI model to simulate DOOM's game engine in real-ish time

https://www.theregister.com/2024/08/28/google_doom_ai/

[※ 내용 일부 Gemini 1.5 Pro 0827 버전 번역 후 수정]

구글과 텔아비브 대학교 연구진이 협력하여 생성 AI 기반 게임 엔진을 개발, 연구 목적으로 '둠'과 같은 고전 명작 게임을 초당 20프레임 이상으로 실행하는 데 성공했습니다.

관련 논문에서는 강화 학습과 디퓨전(확산) 모델을 이용한 실시간 게임 엔진 시뮬레이션 기법을 상세히 다루고 있습니다.

[■ 논문 링크]

Diffusion Models Are Real-Time Game Engines

https://arxiv.org/abs/2408.14837

"게임 엔진"이라고 발음하는 GameNGen이라는 이름의 이 모델은 둠으로 학습했지만, 연구팀은 이 모델 접근 방식이 둠에만 한정되지 않고 다른 게임에도 적용 가능하다고 밝혔습니다.

기존 게임 엔진은 사용자 입력을 추적하고 게임 상황을 갱신하며 화면에 픽셀을 렌더링하는 과정을 수동으로 코딩하여 만들어집니다. 이러한 과정이 빠르게 반복되면서 가상 환경 속에서 움직이고 상호 작용하는 듯한 착시를 만들어냅니다.

반면, GameNGen은 플레이어 조작 직전 몇 프레임을 바탕으로 전체 게임 엔진과 프레임을 실시간으로 생성한다는 점에서 차이가 있습니다.

연구원들이 실제 플레이어 게임 플레이 영상을 장시간 분석했을 것이라고 예상할 수 있으나, 연구팀은 이런 방식은 현실적으로 어려웠다고 밝혔습니다.

그 대신, GameNGen 훈련 첫 단계는 둠을 플레이하는 법을 배우는 강화 학습 에이전트를 만드는 것이었습니다.

훈련 과정에서 생성된 데이터를 사용하여 Stable Diffusion v1.4를 기반으로 게임을 렌더링하는 맞춤형 디퓨전 모델을 학습시켰습니다.

연구팀에 따르면, 싱글 TPU v5에서 GameNGen을 실행한 결과 약 20FPS을 달성했습니다. 최신 1인칭 슈팅 게임에서 일반적으로 허용되는 60FPS 이상 목표에는 미치지 못하지만, 오리지널 둠 최대 프레임 속도가 35FPS였다는 점을 생각할 필요가 있습니다.

[■ 아래 시연 영상 (유튜브)]

https://youtu.be/O3616ZFGpqw

연구팀은 노이즈 제거 단계를 한 단계로 줄이면 최대 50FPS까지 성능을 높일 수 있지만, 화질이 낮아지는 현상이 생긴다고 설명했습니다.

[중략]

짐작하실 수 있듯이, GameNGen은 아직은 개념 증명 수준이며 논문에서 언급하는 것처럼 여러 가지 한계를 가지고 있습니다.

가장 큰 한계는 메모리입니다. 싱글 TPU v5에서 모델을 실행하면 약 3초 분량의 게임플레이만 저장할 수 있습니다.

연구진은 이런 제한에도 게임 로직이 작동한다는 사실 자체가 대단하다고 평가했습니다.

논문에서 강조한 또 다른 한계는 강화 학습 에이전트를 학습 데이터로 사용한다는 점에서, 원본 게임 모든 부분을 매핑하지 못한다는 것입니다. "훈련을 마무리하는 단계에서도 에이전트가 게임 모든 장소와 상호 작용을 경험하지 못했기 때문에, 특정 상황에서 오류가 발생할 수 있습니다."