추가 메뉴

잡담
이번에 엔비디아가 낸 건데 기깔나다네요
이웃삼촌

Lv.1 이웃삼촌 (222.♡.99.94)

2026년 6월 5일 PM 02:51

조회 392 공감 0

https://huggingface.co/nvidia/LocateAnything-3B

전 엔비디아 그래픽카드가 없어서…

뭐가 좋다는 건지 모르갰습니다…

댓글 (1)

  • YBman

    YBman Lv.1

    15:48 · 119.♡.3.58

    완전 기깔나는데요!!

    아래는 qwen3.6-27b로 요약한 것입니다. hermes agent를 사용했습니다.

    ---

    NVIDIA LocateAnything-3B 분석

    이 모델이 뭐예요?

    NVIDIA가 2026년 5월에 공개한 30억 파라미터 비전-언어 모델(VLM)입니다. 핵심 기능은 시각적 그라운딩 — 이미지 속 객체를 자연어로 지시하면 정확한 위치(경계 상자)를 찾아내는 일입니다.

    예를 들어 "사탕 위에 있는 동물은 뭐야?"라고 물어보면, 답과 함께 이미지에서 해당 객체의 정확한 좌표를 함께 반환합니다.

    핵심 혁신: Parallel Box Decoding (PBD)

    기존 VLM들이 객체 위치를 찾을 때 좌표 토큰을 하나씩 순차적으로 생성하는 방식이었습니다. 문제가 두 개:

    1. 기하학적 일관성 손실 — x1, y1, x2, y2는 서로 연결된 값인데 독립적으로 예측하다 보니 박스 형상이 깨질 수 있음

    2. 속도 병목 — 객체가 수십, 수백 개 있을 때 하나씩 만드는 건 느림

    LocateAnything은 한 번의 forward pass로 전체 경계 상자를 원자 단위로 예측합니다. 마치 단어 토큰을 한 번에 내뱉는 것처럼 박스를 한 번에 냅니다.

    추가로 하이브리드 모드가 기본 — 빠른 병렬 모드로 돌아가다가 형식이 깨지거나 객체가 빽빽한 경우에만 자동적으로 느린 모드(autoregressive)로 해당 박스만 다시解码합니다.

    성능 수치

    속도 (H100 기준):

    - LocateAnything: 초당 12.7개 박스

    - Qwen3-VL보다 10배 빠름 (1.1 → 12.7)

    - Rex-Omni보다 2.5배 빠름 (5.0 → 12.7)

    정확도 (Rex-Omni 동일 크기 대비):

    - LVIS: +3.8% (IoU=0.95 고난이도에서는 20.7 → 31.1, +10.4)

    - COCO: +1.8%

    - VisDrone: 35.8 → 39.9

    - GUI 그라운딩 (ScreenSpot-Pro): 60.3 — Qwen3-VL-30B, GUI-Owl-32B보다도 높음

    - 문서 레이아웃 (DocLayNet): Rex-Omni 대비 +6.1

    - OCR (TotalText): 비교 대상 전 모델 압도

    아키텍처

    - 비전 인코더: MoonViT-SO-400M

    - 언어 모델: Qwen2.5-3B-Instruct

    - 연결부: MLP 프로젝터

    - 입력: 최대 2.5K 해상도 RGB 이미지 + 24K 토큰 텍스트

    - 학습 데이터: 12M 이미지, 138M 쿼리, 785M 경계 상자

    지원 작업 (5가지)

    1. 객체 탐지 — "사과, 바나나, 포도 찾아줘"

    2. 구문 그라운딩 — "손에 공을 들고 있는 사람 찾아줘"

    3. OCR — 이미지 속 텍스트 위치 찾기

    4. 포인트 지정 — 특정 지점 가리키기

    5. GUI 그라운딩 — 화면 속 버튼, 입력창 등 UI 요소 찾기

    로컬 실행

    RTX 4060 8GB에서도 4비트 양자화(NF4)로 실행 가능 (VRAM 약 3.5GB). GGUF 포맷은 없으므로 transformers + bitsandbytes 조합으로 돌립니다. vLLM, SGLang에서도 서빙 가능.

    라이선스 주의

    비상업용 전용 — 학술·비영리 연구만 가능. 상업적 사용 불가.

    새로운 시각

    이 모델의 진짜 의미는 "YOLO를 대체한다"는 헤드라인보다 더 깊습니다:

    - AI 에이전트의 눈 — GUI 에이전트가 화면을 보고 클릭하려면 먼저 "버튼이 어디에 있는가"를 알아야 합니다. LocateAnything은 그基础设施입니다

    - 로봇/자율주행 — 실시간 객체 탐지 + 자연어 이해를 하나로 합쳐서 "앞에 있는 빨간 신호등 찾아줘"처럼 유연하게 지시 가능

    - 자동 라벨링 — 785M 박스로 학습한 모델로 새로운 데이터셋의 라벨을 자동으로 생성하는 데 쓸 수 있음 (데이터 파이프라인 구축에 유용)

    자녀/미래 적용

    - AI 에이전트가 컴퓨터 화면을 보고 작업을 수행하는 시대가 오면, 이 모델이 "눈" 역할을 합니다. 아이들이 자랄 때 AI가 GUI를 이해하고 상호작용하는 건 일상화될 것

    - 의료 영상에서 "종양 의심 부위 찾아줘" 같은 자연어 기반 위치 탐지에도 확장 가능 (비상업 라이선스이므로 연구용으로는 활용 가능)

    ---

    wiki에 저장할까요, 아니면 다른 점이 궁금하신가요?

댓글을 작성하려면 이 필요합니다.