ScreenAI: UI 및 시각적 상황의 언어 이해를 위한 시각적 언어 모델
페이지 정보
본문
Google 에서 5B 파라미터로 화면을 이해하고 조작할 수 있는 언어모델을 만들었다고 합니다.
대강 둘러보니 웹이나 앱 화면을 이해하고 이를 기반으로 사용자가 문장으로 전달하는 요구사항이나 스스로 요구사항을 만들어서 실행해주는 기능 정도가 있네요.
이걸 보니 저는 우선 QA 작업이 자동화될 수 있다는 생각이 들었고, 앱 개발하시는 분들은 아실만한 Firebase 의 TestLab 같은 QA 대행 서비스가 훨씬 더 고도화될 수 있겠다고 느꼈습니다.
어떠한 종류의 화면인지 이해하고 어떤 기능이 수행가능한지 보고, 사용자가 요구한 동작을 할 수도 있으며, 직접 기능동작 시나리오를 짜서 수행해보기도 할 수 있다는 것이죠.
5B 파라미터의 크기면 Gemini Nano 가 1.8B 에서 3.25B 사이니까 스마트폰에서 직접 동작은 좀 어려워도 데스크톱에서는 충분히 기동될 수 있으므로, 클라우드를 거치지 않고 인하우스에서 QA 를 진행하는데에도 매우 좋은 솔루션이 될 수 있어 보입니다.
물론, 아직 서비스화된건 아니지만 오픈소스화하거나 정식 서비스화 한다면 스마트폰에서 직접 실행할 수 있게 하거나 클라우드에서 저렴하게 서비스하는 용도로 좋을 것 같네요.
다음은 해당 웹사이트의 내용을 Gemini 1.5 Pro 로 요약한 것입니다.
(웹화면을 긁어오다보니 다크모드때문에 배경색을 노랑으로 지정해야 하네요.)
---
ScreenAI: UI 및 인포그래픽 이해를 위한 비주얼 언어 모델
ScreenAI는 사용자 인터페이스(UI)와 차트, 다이어그램, 표와 같은 인포그래픽을 이해하도록 설계된 강력한 비주얼 언어 모델입니다. PaLI 아키텍처를 기반으로 하며, pix2struct의 유연한 패칭 전략을 통합하여 다양한 화면 레이아웃과 이미지 크기에 적응할 수 있습니다.
ScreenAI의 핵심 기능은 다음과 같습니다.
UI 요소 이해: ScreenAI는 화면에서 UI 요소의 유형, 위치, 설명을 식별할 수 있습니다. 예를 들어 버튼, 텍스트 상자, 이미지 등을 인식하고, 각 요소의 내용과 기능을 파악합니다.
대규모 데이터 생성: ScreenAI는 LLM(대규모 언어 모델)과 협력하여 방대한 양의 훈련 데이터를 자동으로 생성합니다. 이를 통해 질의 응답, UI 탐색, 화면 요약 등 다양한 작업을 수행할 수 있습니다.
최첨단 성능: ScreenAI는 UI 및 인포그래픽 관련 작업에서 뛰어난 성능을 보입니다. WebSRC, MoTIF, Chart QA, DocVQA, InfographicVQA 등 다양한 벤치마크에서 최첨단 결과 또는 동급 최고의 성능을 달성했습니다.
ScreenAI의 작동 방식
ScreenAI는 두 단계로 훈련됩니다.
사전 훈련: 자체 지도 학습을 통해 웹 페이지, 모바일 앱 등에서 수집한 스크린샷 데이터를 학습합니다. UI 요소 식별, 텍스트 인식, 이미지 캡션 생성 등을 통해 화면의 내용과 구조를 파악합니다.
미세 조정: 인간이 레이블을 지정한 데이터를 사용하여 질의 응답, UI 탐색, 화면 요약 등 특정 작업에 대한 성능을 향상시킵니다.
ScreenAI의 응용 분야
ScreenAI는 다양한 분야에서 활용될 수 있습니다.
UI 자동화: 화면의 내용을 이해하고 사용자의 의도를 파악하여 자동화된 작업을 수행할 수 있습니다. 예를 들어, 앱에서 특정 버튼을 클릭하거나 정보를 입력하는 등의 작업을 자동화할 수 있습니다.
접근성 향상: 시각 장애인을 위한 화면 읽기 기능, 음성 명령을 통한 UI 제어 등 접근성 도구 개발에 활용될 수 있습니다.
정보 검색: 인포그래픽, 차트 등에서 정보를 추출하고 분석하여 사용자에게 필요한 정보를 제공할 수 있습니다.
ScreenAI의 미래
ScreenAI는 아직 개발 초기 단계에 있지만, UI 및 인포그래픽 이해 분야에서 큰 잠재력을 보여줍니다. 앞으로 더 큰 모델 규모, 다양한 데이터, 새로운 학습 기술을 통해 성능을 개선하고 더욱 다양한 분야에 활용될 것으로 기대됩니다.