추가 메뉴

정보
소리소문 없이 Gemma4 12b가 나왔네요.
YBman

Lv.1 YBman (119.♡.3.58)

2026년 6월 4일 PM 01:28

조회 945 공감 0

제 로컬 llm qwen으로 요약정리 한 것입니다. 해커뉴스 기반으로 요약하고 있어서 댓글 반응도 함께 보려 하고 있습니다.

이제 분석을 진행하겠습니다.

---

Gemma 4 12B: Google의 인코더프리 멀티모달 모델

1. 내용 분석 및 요약

기본 정보

- Google이 2026년 6월 3일 공개한 Gemma 4 12B — 밀도형 12B 파라미터 멀티모달 모델

- 핵심: 인코더프리 아키텍처 — 기존 멀티모달 모델이 별도로 훈련시킨 비전 인코더(ViT)와 오디오 인코더(Conformer)를 완전히 제거

- 텍스트, 이미지, 오디오, 비디오를 단일 디코더-온리 트랜스포머로 처리

아키텍처 핵심

- 기존 Gemma 4 미디엄 모델이 사용한 27층 비전 트랜스포머(550M 파라미터)를 35M 파라미터의 단일 행렬 곱으로 대체

- 이미지: 48x48 픽셀 패치를 직접 LLM 히든 차원으로 단일 matmul로 투영 + 좌표 룩업 테이블로 위치 정보 추가

- 오디오: 별도 인코더(12층 Conformer, 300M) 제거. 16kHz 원시 오디오를 40ms 프레임(640 floats)으로 잘라 직접 선형 투영

- 즉 "인코더프리"란 인코더 네트워크가 없다는 뜻 — 선형 프로젝션은 여전히 일종의 인코딩이지만, 전용 신경망이 없다는 게 핵심

주요 성과

- LiveCode Bench: 72%

- MTP(Multi-Token Prediction) 지원 — 로컬 추론 속도 향상

- 16GB VRAM/유니ified 메모리에서 실행 가능

- macOS 데스크톱 앱, Android 앱 동시 출시

HN 토론 핵심 포인트

실제 벤치마크:

- senko가 Q4 양자화(4-bit GGUF)를 12GB VRAM RTX 3060에서 실행 — 5t/s 출력

- "마인스위퍼 vibe-coding 벤치마크"에서 GPT-4.1(14개월 전 출시)과 유사한 결과

- 몇 가지 문법 오류 (추가 닫는 괄호, 함수 정의 사이에 쉼표) — 코딩 전용 훈련이 아니었기 때문이라는 의견

모델 비교:

- 16GB 노트북: Qwen 3.5 9B가 여전히 코딩 챔피언

- Gemma 4 31B가 소규모 모델 중 코딩 최상위이지만 dense이므로 ~48GB RAM 필요

- Qwen 3.6 35B-A3B MoE가 MTP와 함께 50-60t/s로 가장 빠름

- Gemma 4는 "더 광범위한 지식" 보유, Qwen은 코딩/툴 호출에서 우위

아키텍처 논쟁:

- "인코더프리"가 정말 새로운가? FAIR의 Chameleon(2024년 5월)이 이미 early fusion을 구현했음

- 차이점: Chameleon은 더 복잡한 퓨전 방식을 썼지만, Gemma는 단순 matmul로 더 빠름

- 일부는 "이것은 인코딩이다. 단지 전용 모델이 없을 뿐"이라고 지적 — pedantic하지만 기술적으로 맞음

토근화 논쟁:

- 한 사용자가 "토크ンは 현실과 맞지 않는 쪼개진 단위"라고 주장 — "생각은 언어로 이루어지지 않는다"

- 반박: "토큰은 언어와 별개. 시계열 데이터는 모두 토큰화 가능. 토큰을 글자로 생각하는 게 오해"

- 또 다른 관점: "토큰과 임베딩 벡터 사이에 더 나은 중간 표현이 있을 것"이라는 데 동의는 하지만, 구체적 대안 제시 불가

Edge Gallery:

- 시스템 프롬프트 지원 추가 — 이제 실제 개발 도구로 사용 가능

- 16GB MacBook Pro에서 Gemma 4 12B는 메모리 부족 에러 발생 → "16GB 마케팅"에 대한 의문 제기

- MTP가 실제로 작동하며 속도가 빠름

RTX Spark 논쟁:

- NVIDIA/MS의 RTX Spark(128GB CUDIMM)가 로컬 AI에 유용할 것이라는 의견 vs

- 메모리 대역폭이 너무 느려(300GB/s 추정) 실제 사용 불가 — 30GB 모델 기준 ~10t/s

- Strix Halo 사용자实测: 대용량 모델은 배치 처리조차 하루 이상 걸려 사용 불가

2. 커뮤니티 반응

HN에서 746포인트, 301댓글 — 상당한 관심. 핵심 논점:

1. "12B가 GPT-4.1 수준?" — 벤치마크는 특정 작업에 한정됨. 일반 지식에서는 GPT-4.1이 여전히 우위일 가능성 높음

2. 인코더프리 = 게임체인저인가 — 일부는 "FAIR가 2년 전부터 했음", 다른 쪽은 "단순 matmul로 이 정도로 빠지는 게 놀라움"

3. 로컬 AI의 실제 사용성 — VRAM 대역폭이 병목. RTX Spark는 이론상 128GB지만 대역폭이 너무 느림

4. Qwen vs Gemma — 코딩은 Qwen, 일반 지식/다국어는 Gemma 경향

5. r/localllama 비판 — "아스트로터프(인위적 여론 조작)이 심한 곳"이라는 지적

3. 새로운 시각

인코더프리 아키텍처의 진짜 의미:

- 단순히 "빠르다"는 게 아니라, 미세 조정 시 모든 모달리티가 단일 패스로 업데이트된다는 점이 핵심. 기존 방식은 동결된 인코더 + 어댑터 튜닝의 2단계 프로세스였음

- LoRA나 풀 튜닝 시 비전/오디오/텍스트가 같은 가중치를 공유하므로, 한 모달리티의 학습이 다른 모달리티에도 자연히 전이됨

12B의 "충분한 지능" 시점:

- 1년 전 GPT-4.1은 "매우 강력한 코딩 모델"으로 평가받았는데, 12B 모델이 특정 벤치마크에서 비슷한 결과를 냄

- 이것은 모델 크기가 아니라 리저닝 + MTP의 조합이 코딩 성능의 주요 드라이버였음을 시사

로컬 AI의 실제 병목:

- 파라미터 수가 아닌 메모리 대역폭이 토큰/초를 결정. 128GB CUDIMM이 느린 이유

- 로컬 AI의 진짜 사용 사례는 대화형이 아닌 배치 처리일 가능성 높음 — 하지만 배치도 "하룻밤" 수준이어야 실용적

다국어 강점:

- Gemma 4가 번역/다국어에서 강하다는 의견 — 히브리어, 그리스어 등 소수 언어 사용자도 긍정적 피드백

4. 자녀/미래 영향

실용적 관점:

- 12GB VRAM GPU(예: RTX 3060)에서도 실행 가능하지만 5t/s는 대화형 코딩에는 느림

- 16GB MacBook Pro는 12B조차 실행 불가 → Apple의 "16GB足够" 마케팅에 주의

- 로컬 AI의 프라이버시 이점은 명확하지만, 클라우드와 가격 경쟁에서 아직 뒤처짐

교육적 시사점:

- 멀티모달 모델의 내부 구조가 단순해지고 있음 — 아이들이 "AI는 이미지와 소리를 어떻게 이해하나"를 이해하기 쉬워짐

- 인코더프리 아키텍처는 "전용 부품 없이 하나로 통합"이라는 직관적 개념으로 설명 가능

직업적 영향:

- 1년 전 "매우 강력"했던 GPT-4.1 코딩 능력이 12B 로컬 모델로 대체 가능해짐

- 하지만 "코딩 전용 훈련"과 "범용 훈련"의 차이 여전히 중요 — Gemma 4 12B는 코딩 전용이 아님

- 로컬 AI의 진짜 차별점은 프라이버시 — 개인 노트, 의료 기록, 가족 데이터 처리에 의미 있음

5. wiki 저장

이 내용을 wiki에 저장할지 확인하겠습니다.

댓글 (7)

  • 알아야면장

    알아야면장 Lv.1

    06.04 · 49.♡.134.96

    오마이!!! 바로 LM studio에 다운중입니다.

  • YBman

    YBman Lv.1 → 알아야면장 작성자

    06.04 · 218.♡.152.147

    오우. 실행력 엄청나시군요.. 후기 부탁드립니다. 저는 qwen3.6-27b와 qwen3.5-9b를 가지고 있고 주로 27b를 스는데 vram이 필요한데 llm도 필요하다 싶을 때는 9b로 바꿔서 쓰고 있습니다. 9b도 27b의 1/3이라고 무시했었는데 답변하는걸 보니 무시할 수준이 아니더라구요. 속도가 빨라서 (거의 80-100tps) 처음에는 뭐가 고장났나 싶었습니다.

  • 알아야면장

    알아야면장 Lv.1 → YBman

    06.04 · 49.♡.101.52

    저도 제 MBP M5PRO 24GB가 27B를 돌리기엔 택도 없어서 9B를 메인으로 잡고 Gemma4 26B-MOE를 섞어 쓰는 중입니다. 항상 체급차이에 대한 고민이 있었는데 12B면 어느 정도일지 궁금하네요

  • 지나가던행인이

    지나가던행인이 Lv.1

    06.04 · 61.♡.201.240

    해커뉴스에 나올 정도면 온 동네 소문 다 내고 나온거 아닌가요? ㅋㅋㅋ

  • YBman

    YBman Lv.1 → 지나가던행인이 작성자

    06.04 · 218.♡.152.147

    ai당에 안 나왔으니 소리소문 없었던게 맞을 것 같습니다.

  • 남극백곰

    남극백곰 Lv.1

    06.04 · 114.♡.188.135

    gemma4 좋은가요???? 전 너무 굼뜬거 같아서...yo

  • TAMPA

    TAMPA Lv.1

    06.04 · 143.♡.84.213

    전 로컬 모델은 주로 회사문서작업관련 쓰는중입니다.

    그런데 확실히 놋북램이 36기가바이트라도 띄어놓는 앱들/창들이 많아서인지 작은모델이 좋더군요.

    12b라서 딱 좋아보이네요.ㅋ

댓글을 작성하려면 이 필요합니다.