[버지] Apple의 연구 결과가 말하는 AI 계획

사나이불패쪽지보내기 자기소개 아이디로 검색 전체게시물

쪽지보내기 자기소개 아이디로 검색 전체게시물

221.♡.7.94

2024.05.08 01:48

4,673

https://www.theverge.com/2024/5/5/24147995/apple-siri-ai-research-chatbot-creativity

더 나은 Siri가 출시됩니다: Apple의 연구 결과가 말하는 AI 계획

Apple은 지금까지 AI에 대해 많은 이야기를 하지는 않았지만 많은 노력을 기울이고 있습니다. 아주 많은 것들이요.

애플이 AI에 뒤늦게 뛰어들었다고 생각하기 쉽습니다. ChatGPT가 전 세계를 강타한 2022년 말 이후, 대부분의 Apple 경쟁사들은 애플을 따라잡기 위해 나섰습니다. 애플은 확실히 AI에 대해 이야기하고 AI를 염두에 둔 일부 제품을 출시하기도 했지만, 정면으로 뛰어들기보다는 발가락만 살짝 담그는 것처럼 보였습니다.

그러나 지난 몇 달 동안 소문과 보도에 따르면 애플이 실제로는 시간을 끌면서 움직이기를 기다리고 있었다고 합니다. 최근 몇 주 동안 Apple이 일부 AI 기능을 강화하기 위해 OpenAI 및 Google과 논의 중이며, 자체 모델인 Ajax도 개발 중이라는 보도가 있었습니다.

Apple이 발표한 AI 연구를 살펴보면 Apple의 AI 접근 방식이 어떻게 실현될지 그림이 그려지기 시작합니다. 물론 연구 논문을 바탕으로 제품을 가정하는 것은 매우 부정확한 과학이며, 연구부터 매장 진열대까지 가는 길은 바람이 많이 불고 움푹 패인 곳이 많습니다. 하지만 적어도 애플이 어떤 생각을 하고 있는지, 그리고 6월에 열리는 연례 개발자 컨퍼런스인 WWDC에서 애플의 AI 기능이 어떻게 작동할지에 대해 이야기하기 하는 것에 어느 정도 감을 잡을 수 있습니다.

*더 작고 효율적인 모델

여러분과 제가 바라는 바는 같은 것 같습니다: 더 나은 Siri. 그리고 더 나아진 Siri가 곧 출시될 것 같습니다! Apple의 많은 연구(그리고 전 세계 많은 기술 업계와 모든 곳에서)에는 대규모 언어 모델이 가상 비서를 즉시 더 좋고 똑똑하게 만들 것이라는 가정이 있습니다. Apple에게 더 나은 Siri를 제공한다는 것은 이러한 모델을 가능한 한 빨리 만들고 모든 곳에서 사용할 수 있도록 하는 것을 의미합니다.

최근 블룸버그 통신은 iOS 18에서 Apple이 모든 AI 기능을 온디바이스, 완전 오프라인 모델에서 실행할 계획이라고 보도했습니다. 데이터 센터 네트워크와 수천 개의 최첨단 GPU가 있어도 좋은 다목적 모델을 구축하기는 어렵지만, 스마트폰 내부의 내장된 기능만으로 구현하기에는 훨씬 더 어렵습니다. 따라서 Apple은 창의력을 발휘해야 합니다.

"LLM in a flash: 제한된 메모리로 효율적인 대규모 언어 모델 추론"이라는 논문(이 모든 논문은 제목이 정말 지루하지만 정말 흥미롭습니다!)에서 연구원들은 일반적으로 장치의 RAM에 저장되는 모델 데이터를 SSD에 대신 저장하는 시스템을 고안해냈습니다. 연구원들은 "우리는 [SSD에서] 사용 가능한 DRAM 크기의 최대 2배까지 LLM을 실행할 수 있는 능력을 입증했습니다."라며 "기존 로딩 방식에 비해 CPU에서는 4~5배, GPU에서는 20~25배의 추론 속도 가속화를 달성했습니다."라고 설명했습니다. 연구진은 기기에서 가장 저렴하고 사용 가능한 스토리지를 활용함으로써 모델을 더 빠르고 효율적으로 실행할 수 있다고 밝혔습니다.

Apple의 연구원들은 또한 LLM을 의미 있게 악화시키지 않고 훨씬 더 작은 크기로 압축할 수 있는 EELBERT라는 시스템을 만들었습니다. Google의 Bert 모델에 비해 15배 더 작은 1.2메가바이트에 불과한 이 압축 방식은 품질이 4%밖에 떨어지지 않았지만 약간의 지연 시간이 발생합니다.

일반적으로 Apple은 모델이 커질수록 더 좋고 유용해질 수 있지만, 동시에 더 다루기 힘들고 전력을 많이 소모하며 느려질 수 있다는 모델 세계의 핵심적인 긴장감을 해결하기 위해 노력하고 있습니다. 다른 많은 기업들과 마찬가지로 Apple은 이 모든 것 사이에서 적절한 균형을 찾는 동시에 모든 것을 갖출 수 있는 방법을 찾고 있습니다.

*Siri, but good

우리가 AI 제품에 대해 이야기할 때 많이 이야기하는 것은 가상 비서, 즉 사물을 알고, 사물을 상기시켜주고, 질문에 답하고, 우리를 대신해 일을 처리하는 비서에 관한 것입니다. 따라서 Apple의 많은 AI 연구가 'Siri가 정말, 정말, 정말 잘한다면 어떨까'라는 한 가지 질문으로 귀결된다는 사실은 그리 충격적이지 않습니다.

한 그룹의 Apple 연구원들은 "Siri야" 또는 "Siri"라는 말을 듣지 않고도 Siri를 사용할 수 있는 방법을 연구하고 있으며, 사용자가 말을 하는지 여부를 기기가 직감할 수 있는 방법을 연구하고 있습니다. 연구진은 "이 문제는 음성 트리거 감지보다 훨씬 더 어려운 문제"라며 "음성 명령의 시작을 알리는 선행 트리거 문구가 없을 수도 있기 때문"이라고 인정했습니다. 그래서 다른 연구진이 깨우는 단어를 더 정확하게 감지하는 시스템을 개발한 것일 수도 있습니다. 또 다른 논문에서는 어시스턴트가 잘 이해하지 못하는 희귀 단어를 더 잘 이해할 수 있도록 모델을 훈련시켰습니다.

두 경우 모두 LLM의 매력은 이론적으로 훨씬 더 많은 정보를 훨씬 더 빠르게 처리할 수 있다는 것입니다. 예를 들어, 깨우는 단어 논문에서 연구원들은 불필요한 소리를 모두 버리지 않고 모델에 모든 소리를 제공하고 중요한 소리와 그렇지 않은 소리를 처리하도록 함으로써 깨우는 단어가 훨씬 더 안정적으로 작동한다는 사실을 발견했습니다.

Siri는 사용자의 말을 듣고 나면 더 잘 이해하고 소통하기 위해 다양한 작업을 하고 있습니다. 한 논문에서는 사용자가 후속 질문을 할 때와 새로운 질문을 할 때를 파악하여 어시스턴트와 주고받는 커뮤니케이션을 개선하기 위해 STEER(Semantic Turn Extension-Expansion Recognition의 약자이므로 STEER라고 하겠습니다)라는 시스템을 개발했습니다. 다른 하나는 '모호한 질문'을 더 잘 이해하기 위해 LLM을 사용하여 사용자가 어떻게 말하든 무슨 뜻인지 파악하는 것입니다. 연구진은 "불확실한 상황”에서는 지능형 대화 에이전트가 주도적으로 좋은 질문을 함으로써 불확실성을 줄여 문제를 더 효과적으로 해결할 수 있다"고 썼습니다. 또 다른 논문에서는 연구자들이 LLM을 사용하여 어시스턴트가 답변을 생성할 때 장황함을 줄이고 이해하기 쉽게 만들었습니다.

*건강, 이미지 편집기, 미모지에 적용된 AI

Apple이 공개적으로 AI에 대해 이야기할 때마다, 기술력보다는 AI가 실제로 여러분을 위해 할 수 있는 일상적인 일들에 더 초점을 맞추는 경향이 있습니다. 따라서 Siri에 많은 관심이 집중되고 있지만 - 특히 Apple이 휴먼 AI 핀, 래빗 R1, 구글이 모든 Android에 제미니를 도입하려는 것과 같은 장치와 경쟁하려는 것처럼 - Apple이 AI가 유용하다고 보는 다른 방법도 많이 있습니다.

Apple이 집중하고 있는 한 가지 분명한 분야는 건강입니다: 이론적으로는 다양한 기기에서 수집되는 생체 인식 데이터의 바다를 헤쳐나가고 이 모든 것을 이해하는 데 도움이 될 수 있습니다. 따라서 Apple은 사용자의 모든 동작 데이터를 수집하고 대조하는 방법, 걸음걸이 인식과 헤드폰을 사용하여 사용자를 식별하는 방법, 심박수 데이터를 추적하고 이해하는 방법을 연구해 왔습니다. 또한 Apple은 여러 개의 신체 센서를 통해 50명의 참가자로부터 데이터를 수집한 후 '최대 규모의 다중 디바이스 다중 위치 센서 기반 인간 활동 데이터 세트'를 만들어 공개했습니다.

Apple은 또한 AI를 창의적인 도구로 상상하는 것 같습니다. 한 논문에서 연구원들은 애니메이터, 디자이너, 엔지니어를 인터뷰하여 "사용자가 생성된 디자인을 반복적으로 구성하고 개선할 수 있는" 키프레머(Keyframer)라는 시스템을 구축했습니다. 프롬프트를 입력하고 이미지를 얻은 다음 또 다른 프롬프트를 입력하여 다른 이미지를 얻는 대신, 원하는 대로 이미지의 일부를 조정하고 다듬을 수 있는 툴킷을 얻을 수 있습니다. 이러한 종류의 앞뒤로 움직이는 예술적 프로세스는 미모지 제작자부터 Apple의 보다 전문적인 예술 도구에 이르기까지 어디에서나 나타날 수 있습니다.

또 다른 논문에서 Apple은 원하는 수정 사항을 설명하는 것만으로 이미지를 편집할 수 있는 MGIE라는 도구에 대해 설명합니다. ("하늘을 더 파랗게 만들기", "내 얼굴을 덜 이상하게 만들기", "돌을 추가하기" 등). 연구진은 "짧지만 모호한 지침 대신 MGIE는 명시적인 시각 인식 의도를 도출하여 합리적인 이미지 편집을 유도합니다."라고 설명합니다. 초기 실험은 완벽하지는 않았지만 인상적이었습니다.

'리소스 제약형 스테레오 노래 음성 제거'라는 논문에서 연구원들은 노래에서 악기와 음성을 분리하는 방법을 연구했는데, 이는 Apple이 사람들에게 TikTok이나 Instagram에서처럼 노래를 리믹스할 수 있는 도구를 제공하고자 할 때 유용하게 사용될 수 있습니다.

시간이 지남에 따라, 특히 iOS에서 애플이 기대하는 이런 종류의 기능을 보게 될 거라고 장담합니다. 그 중 일부는 Apple이 자체 앱에 내장하고 일부는 타사 개발자에게 API로 제공할 것입니다. (최근의 저널링 제안 기능은 그 작동 방식에 대한 좋은 가이드가 될 것입니다.) Apple은 특히 일반 Android 기기와 비교했을 때 하드웨어 성능을 항상 자랑해 왔으며, 이 모든 성능을 기기 내 개인 정보 보호 중심의 AI와 결합하면 큰 차별화 요소가 될 수 있습니다.

하지만 Apple에서 가장 크고 야심찬 AI를 보고 싶다면 Ferret에 대해 알아야 합니다. Ferret은 지시를 받고, 사용자가 동그라미를 치거나 다른 방식으로 선택한 특정 항목에 집중하고, 주변 세계를 이해할 수 있는 다중 모드 대형 언어 모델입니다. 이 모델은 기기에 주변 세계에 대해 질문하는 현재 일반적인 AI 사용 사례를 위해 설계되었지만, 화면에 표시되는 내용을 이해할 수도 있습니다. Ferret 논문에서 연구원들은 앱을 탐색하고, App Store 등급에 대한 질문에 답하고, 현재 보고 있는 내용을 설명하는 등의 작업에 도움을 줄 수 있음을 보여줍니다. 이는 접근성 측면에서 매우 흥미로운 의미를 가질 뿐만 아니라 언젠가는 휴대폰과 Vision Pro 및/또는 스마트 글래스의 사용 방식을 완전히 바꿀 수도 있습니다.

여기서 너무 앞서 나가고 있지만, Apple이 개발 중인 다른 기능들과 어떻게 작동할지 상상할 수 있을 것입니다. 사용자가 원하는 것을 이해할 수 있는 Siri와 디스플레이에서 일어나는 모든 일을 보고 이해할 수 있는 기기가 결합하면 말 그대로 그 자체를 사용할 수 있는 전화기가 됩니다. Apple은 모든 것을 깊이 통합할 필요 없이 앱을 실행하고 적절한 버튼을 자동으로 탭하기만 하면 됩니다.

다시 말하지만, 이 모든 것은 연구 단계에 불과하며 이 모든 것이 올봄부터 제대로 작동한다면 전례가 없는 기술적 성과가 될 것입니다. (여러분도 챗봇을 사용해 보셨으니 그다지 훌륭하지 않다는 것을 아시겠죠.) 하지만 저는 WWDC에서 엄청난 AI 발표가 있을 거라고 장담할 수 있습니다. 애플의 CEO인 팀 쿡은 지난 2월에도 이를 언급했고, 이번 주 실적 발표에서도 기본적으로 이를 약속했습니다. 두 가지 분명한 사실은 애플이 AI 경쟁에 뛰어들고 있으며, 이는 아이폰의 전면적인 개편으로 이어질 수 있다는 점입니다. 심지어 당신은 Siri를 기꺼이 사용하기 시작할 수도 있습니다! 그리고 그것은 상당한 성취가 될 것입니다.

------------------------------------

오오 드디어 시리가 발전을...!