Gemini 1.5 Pro 002, Flash 002 출시

알림

가사라 112.♡.211.243

2024.09.25 15:32

정보

443

쓰기

오늘 아침에 다음과 같은 새로운 모델들이 나온 것을 확인했는데요. (재미있는건 최대 토큰수를 2,097,152 에서 2,000,000 으로 변경했다는 점입니다.)

- Gemini-1.5-Pro-002

- Gemini-1.5-Flash-002

- Gemini-1.5-Flash-8b-exp-0924

이에 대해 Deepmind 개발자인 Logan Kilpatrick 이 한 유튜버와 앞으로의 개발방향과 함께 얘기한 영상이 있어서 요약해봤습니다.

그리고, 구글블로그에도 간략한 002 관련 개선사항들이 있는데 그건 다음과 같습니다.

1.5 Pro(<128K 프롬프트에 대한 입력 및 출력 모두)에서 50% 이상 할인된 가격 (10/1 부터)
Rate limits 가 1.5 Flash에서는 2배 더 높고 1.5 Pro에서는 약 3배 더 높음 (1000RPM)
수학, 코딩, 장기적 맥락 및 Vision 에서 큰 품질 향상 (벤치마크결과참고)
API 가격인하
기본 필터 설정 업데이트

(추가로 이제 Google AI Studio 에서 Function Calling 을 직접 테스트해볼 수 있게 되었네요.)

002 버전은 Gemini Advanced 구독자에게 곧 배포될 예정이라고 합니다.

성능향상에 관한 벤치마크도 있지만 확실한건 1주일 정도 후에 LMSYS 같은 벤치마크사이트에서 리더보드상 수치가 얼마인지를 확인하는게 좋겠습니다.

현재는 GPT 4o latest 0903 에 한참 밀리고 있는데, 이 간극을 좁히는게 우선이겠죠.

일단, 모든 LLM 들에서 해석에 실패하는 유머가 있어서 이를 이해하는지 테스트해봤는데 여전히 이해를 못하긴 하네요.

아래 내용은 영상요약입니다.

Google의 새로운 Gemini 모델 출시

- Google은 프로덕션 준비가 완료된 두 가지 새로운 Gemini 모델을 출시했습니다. 이는 개발자들로부터 받은 피드백을 바탕으로 속도 제한, 가격, 필터 설정 등을 개선한 결과입니다.

새로운 모델의 특징

- 새로운 모델은 이전 모델에 비해 눈에 띄는 성능 향상을 보여줍니다. 특히 개발자들이 제기했던 문제에 대한 응답을 회피하지 않고, 수학, 코딩 능력 등이 크게 향상되었습니다. 이는 Google DeepMind 팀의 노력의 결과이며, 개발자들이 실제 제품에 AI를 통합할 수 있도록 견고성과 안정성을 높이는 데 중점을 두었습니다.

수학적 능력 향상

- 새로운 Gemini 모델은 수학 문제 해결 능력이 향상되었습니다. 단계별 반복 프로세스(step by step iterative process) 를 통해 문제를 해결하는 방식이 개선되었으며, 이는 다양한 분야에 대한 문제 해결 능력 향상으로 이어집니다. 하지만 실제 수학 문제 해결에는 코드 인터프리터와 같은 시스템을 사용하는 것이 더 효율적일 수 있습니다.

수학 및 추론 능력 향상의 중요성

- 수학 및 추론 능력의 향상은 AI 애플리케이션의 데모 단계를 넘어 실제 제품에 통합될 수 있도록 견고성과 안정성을 높이는 데 중요한 역할을 합니다. 이러한 발전은 개발자, 스타트업, 최종 사용자에게 가치 있는 기술을 제공하는 데 필수적입니다.

개발자에게 빠른 배포의 중요성

- Google은 개발자들이 Gemini 모델을 사용하여 혁신적인 제품을 만들 수 있도록 실험 모델을 신속하게 배포하고 피드백을 수집하는 데 중점을 두고 있습니다. AI Studio에서의 실험 모델 사용량은 개발자들이 새로운 모델의 개선 사항을 직접 경험하고 적극적으로 활용하고 있음을 보여줍니다.

Gemini 1.5의 실제 활용 사례

- 실험 모델의 낮은 속도 제한으로 인해 실제 활용 사례를 파악하는 데 어려움이 있었지만, 멀티모달 기능, 특히 이미지 이해 및 처리 능력은 Gemini 모델의 차별점입니다. 비디오 분석, 객체 감지 등의 기능은 AI Studio에서 무료로 사용할 수 있으며, 이는 개발자들에게 큰 이점을 제공합니다.

AI가 해결할 수 있는 미래의 문제

- AI 에이전트는 아직 초기 단계이지만, 모델의 발전과 함께 다양한 문제를 해결할 잠재력을 가지고 있습니다. 특히, 비전 및 장기 컨텍스트(long context) 기능은 에이전트의 발전에 중요한 역할을 할 것으로 예상됩니다. 장기 컨텍스트는 아직 초기 단계이지만, 앞으로 다양한 가능성을 열어줄 것으로 기대됩니다.

Gemini 1.5의 장점

- Gemini 1.5는 장기 컨텍스트, 멀티모달 기능 외에도 컨텍스트 캐싱, 무료 미세 조정 등 개발자에게 유용한 기능을 제공합니다. 특히, 미세 조정된 모델 사용에 추가 비용이 없다는 점은 다른 플랫폼과 차별화되는 큰 장점입니다. Gemini는 개발자가 AI 기술을 활용하여 구축하는 데 드는 재정적 부담을 줄이고 더 많은 자유를 제공합니다.

초보자를 위한 시작 방법

- AI에 관심 있는 초보자나 학생은 ai.google.dev, Gemini API 문서, GitHub의 빠른 시작 저장소 등을 활용하여 Gemini 모델을 배우고 사용해 볼 수 있습니다. AI 도구는 기술 장벽을 낮추고 코딩 경험이 없는 사람들도 AI 앱을 개발할 수 있도록 지원합니다.

AI 시대의 성공 전략

- AI 시대에 성공하기 위해서는 AI 도구를 적극적으로 활용하고 배우는 것이 중요합니다. 학생들은 다양한 AI 도구를 자유롭게 사용하고 경험을 쌓아 미래의 직장에서 가치를 창출할 수 있습니다. AI 관련 뉴스레터, YouTube 동영상, 팟캐스트 등을 통해 최신 정보를 습득하고 얼리 어답터가 되는 것이 중요합니다.

오디오 개요 기능

- Google은 최근 노트를 팟캐스트로 변환하는 오디오 개요 기능을 출시했습니다. 이 기능은 Gemini 및 장기 컨텍스트 기술을 기반으로 하며, 다양한 데이터 소스를 결합하여 매력적인 대화 형식으로 변환합니다. notebooklm.google.com 에서 사용할 수 있습니다.

AI 에이전트의 정의

- AI 에이전트는 사용자를 대신하여 작업을 수행하는 시스템입니다. 현재 Gemini API에는 에이전트 기능이 없지만, 개발자들은 Gemini 모델을 사용하여 에이전트를 구축할 수 있습니다. 에이전트는 아직 초기 단계이며, 다양한 프레임워크와 회사들이 에이전트를 개발하고 있습니다.

에이전트 시스템의 미래

- 에이전트 시스템이 챗봇과 같은 폭발적인 인기를 얻을지는 불확실하지만, 특정 작업에 대한 가치는 이미 입증되고 있습니다. 에이전트의 궁극적인 형태는 아직 불분명하지만, 소프트웨어, 하드웨어, 로봇 등 다양한 형태가 결합될 가능성이 높습니다.

AI가 일상생활에 미치는 영향

- 미래에는 AI 에이전트가 사용자의 데이터를 분석하고, 질문을 하고, 작업을 제안하는 등 능동적인 역할을 수행할 것으로 예상됩니다. 이는 현재 AI 시스템과는 다른 패러다임이며, 사용자에게 큰 가치를 제공할 수 있습니다.

컨텍스트 윈도우의 중요성

- Google의 컨텍스트 윈도우 및 컨텍스트 캐싱 기술은 에이전트 시대에 상당한 이점을 제공합니다. 특히 비디오와 같은 멀티모달 데이터 처리 능력은 미래의 AI 개발에 중요한 역할을 할 것입니다.

무한 컨텍스트 윈도우의 가능성

- 무한 컨텍스트 윈도우는 기술적으로 가능하지만, 비용 및 엔지니어링 문제가 해결 과제입니다. Google DeepMind 팀은 1,000만 토큰까지 테스트했으며, 이러한 연구는 미래 AI 개발에 중요한 기반이 될 것입니다. 무한 컨텍스트 윈도우는 사용자가 모든 정보를 모델에 제공함으로써 관련 컨텍스트를 찾는 데 드는 노력을 줄일 수 있습니다.

AGI의 정의

- AGI(Artificial General Intelligence)는 인간이 수행할 수 있는 경제적으로 생산적인 작업의 상당 부분을 수행할 수 있는 시스템입니다. AGI에 대한 명확한 정의는 아직 없지만, 시스템의 유용성, 특히 경제적 생산성이 중요한 지표로 간주됩니다.

AGI의 병목 현상

- AGI를 향한 현재의 병목 현상은 시각적 이해, 장기 컨텍스트, 추론 능력 등입니다. Google DeepMind 팀의 연구, 특히 AlphaGo 및 강화 학습 연구는 AGI 개발에 중요한 역할을 할 것으로 기대됩니다.

추론 능력과 AGI의 관계

- 추론 능력은 AGI 개발에 중요한 역할을 합니다. Google DeepMind 팀은 오랫동안 추론 문제 해결에 집중해 왔으며, 이러한 노력은 AGI 개발에 기여할 것입니다. 현재 대부분의 AI 시스템은 추론 속도에 제약이 있지만, 미래에는 더욱 빠르고 효율적인 추론 능력을 갖춘 시스템이 개발될 것으로 예상됩니다.