llm(Claude opus 4.8)이 다른 llm(Qwen3.6-27b)의 능력을 측정하는 것에 대한 이야기...

잡담

YBman (211.♡.3.119)

2026년 6월 2일 PM 10:37

조회 920 공감 0

제가 ai비서 같은 것을 만들려고 하고 있고 claude에게 local llm (Qwen3.6-27b)을 활용하자고 했습니다. 그랬더니 클로드가 local llm은 이런 일을 할 수 없다면서 대형 언어모델만 할 수 있다고 qwen을 엄청 무시하는 겁니다.

그래서 제가 그러면 qwen을 시험할 프롬프트를 만들라고 했고 자기가 문제가 들어있는 프롬프트와 정답까지 먼저 생성하더라구요. 이것을 local llm에게 보여주고 답을 자기에게 주면 자기가 그 능력에 맞춰서 앱을 만들겠다고 하네요. 아래는 그 질문과 답변의 내용입니다.

=====================

네가 local llm의 능력을 측정할 수 있는 프롬프트를 만들어봐라. 지금 쓰고있는 qwen3.6-27b는 내가 볼 때 claude sonnet급의 능력이라고 본다. 사람을 판단할 때 서로 말을 해보면 그 사람의 지적 능력을 어느정도 파악할 수 있다. 마찬가지로 너가 프롬프트를 만들면 내가 그것을 전하고 바로 그 대답을 너에게 줘보겠다. 그러면 너도 local llm(qwen3.6)의 능력을 파악해서 일을 진행할 수 있을 것이다.

Claude>>

● 좋은 방법입니다. 추측 대신 실측하자는 거고, 정확합니다. 제대로 측정하려면 한 가지 원칙이 있습니다

— 우리가 실제로 이 모델에게 시킬 일과 똑같은 형태로 시험해야 합니다. 추상적인 IQ 퍼즐은 의미 없습니다. 그리고 반드시 한국어로 시험해야 합니다. 우리 카드가 한국어이니, Qwen의 한국어 추론·생성 능력이 곧 실전 능력입니다. 그래서 한 시나리오 안에 우리가 필요로 하는 능력을 전부 자극하고, 변별용 함정을 몇 개 심었습니다. 아래 블록을 그대로 Qwen에 넣고, 나온 답 전체를 제게 주십시오.

---

당신은 1인 사용자의 할 일을 관리하는 비서입니다. 아래는 한 사용자의 현재 할 일 전체와 그 사람에 대한 정보입니다. 이것을 읽고 지시에 답하세요.

[사용자 행동 특성]

- 우선순위를 스스로 정하지 못한다. 여러 일이 동시에 중요해 보이면 마비된다.

- 마감이 코앞이거나 안 하면 큰일 나는 상황이 와야만 움직인다.

- 크고 여러 단계가 필요한 일은 계속 미룬다. 작고 명확한 일은 곧잘 한다.

[보드와 목표]

- 보드A "박사논문": 목표 = 올해 12월 심사 통과. 3장 초안이 다음 관문.

- 보드B "생활": 목표 = 일상 유지. 자질구레한 처리.

- 보드C "공동연구": 목표 = 동료들과 진행. 내 지연이 남의 작업을 막으면 안 됨.

[오늘의 활성 카드 목록]

1. [생활] 신용카드 연회비 자동결제 해지 (마감: 내일 / 5분이면 끝남)

2. [박사논문] 3장 초안 쓰기 (마감 없음 / 메모: 지도교수 미팅이 2주 뒤인데 이게 없으면 미팅이

무의미함. 3주째 손 못 댐)

3. [생활] 밀린 이메일 5건 회신 (마감 없음 / 어제 등록)

4. [공동연구] 동료 김박사에게 전처리된 데이터셋 넘기기 (마감 없음 / 메모: 김박사가 이걸 받아야

자기 분석을 시작할 수 있어 나흘째 기다리는 중)

5. [생활] 헬스장 가기 (마감 없음 / 거의 매일 등록되지만 거의 안 함)

6. [박사논문] 참고문헌 관리 프로그램 정리 (마감 없음 / 2개월째 방치)

7. [생활] 부모님께 안부 전화 (마감 없음 / 2주 전 등록)

8. [공동연구] 다음 회의 일정 잡기 (마감: 모레 / 메모: 내가 안 정하면 회의가 안 열림)

[지시]

1. 오늘 해야 할 "가장 중요한 단 하나"를 고르세요. 반드시 하나만.

2. 왜 그것인지, 표면적 신호(마감 등)가 아니라 맥락에서 읽어낸 진짜 이유로 설명하세요.

3. 마감이 임박했지만 당신이 일부러 1순위로 고르지 '않은' 카드가 있다면, 왜 제쳤는지 밝히세요.

4. 만약 당신이 고른 일이 이 사용자가 회피할 만큼 크다면, 오늘 당장 30분 안에 시작할 수 있는 '첫 한 걸음'으로 쪼개 주세요.

5. 이 사용자의 행동에서 읽히는 강점과 약점을 추론하세요. 단, 근거가 약하면 "근거가 약하다"고 솔직히 밝히세요. 억지로 단정하지 마세요.

6. 이 사용자를 실제로 움직이게 할 한두 문장을 쓰세요. 잔소리가 아니라, 안 했을 때 벌어지는 결과를 담담히 짚는 방식으로.

7. 마지막에 아래 형식의 JSON으로 핵심을 요약하세요. 다른 텍스트 없이 JSON만:

{"chosen_card_id": <번호>, "one_line_reason": "<한 줄>", "first_step": "<30분 첫걸음>",

"deprioritized_trap_id": <번호 또는 null>}

---

제가 그 답에서 무엇을 볼지 (미리 공유합니다)

답을 받으면 다음을 채점합니다. 보시는 분도 같은 눈으로 보시면 됩니다.

- 함정 회피 — 1번(연회비, 마감 D-1이지만 5분짜리 사소)을 "오늘의 한 가지"로 고르면 약한 모델입니다. 마감이라는 표면 신호만 본 겁니다. 똑똑한 모델은 1번을 "그냥 지금 5분 처리하고 닻으로는 안 본다"고 처리합니다.

- 본문 맥락 독해 — 진짜 후보는 2번(논문, 회피 대상이지만 결정적), 4번(데이터 전달, 남을 막는 의존성), 8번(회의 잡기, 모레 마감+안 하면 안 열림)입니다. 어느 걸 골라도 이유가 맥락에서 나왔으면 합격. 마감 없는 2·4번의 숨은 중요도를 읽어냈는지가 핵심입니다.

- 수렴력 — "다 중요합니다"식으로 헤지하지 않고 정확히 하나로 가는가.

- scaffolding 품질 — 첫걸음이 진짜 실행 가능한가. "자료 조사하기"는 나쁜 쪼개기, "3장 목차 5줄만 적기"는 좋은 쪼개기.

- 추론의 절제 — 프로파일 추론에서 과신·환각 없이, 근거 약한 건 약하다고 하는가. 작은 모델일수록 여기서 무너집니다.

- 위기 서사 — 결과를 담담히 짚는가, 아니면 공허한 잔소리인가.

- 구조화 준수 — JSON을 형식대로 정확히 뱉는가.

- 한국어 품질 — 어색하지 않은가.

이 8개로 보면, 당신이 말씀하신 "Sonnet 급"인지 아니면 그 아래인지 꽤 정확히 가려집니다. 답을 가져다주시면 항목별로 채점해서 — 이 모델에 비서를 어디까지 맡겨도 될지 결론을 내겠습니다.

===================================

Qwen>> (생성에 걸린 시간: 1분 9초)

1. 가장 중요한 단 하나

카드 4: [공동연구] 동료 김박사에게 전처리된 데이터셋 넘기기

2. 진짜 이유

표면적으로는 "마감 없다"고 보이지만, 이 카드의 핵심은 남의 작업을 막고 있다는 점입니다. 보드C의 목표가 명확히 말하듯 "내 지연이 남의 작업을 막으면 안 됨"이 이미 4일째 위반 중입니다.

더 중요한 맥락은 이 사용자가 작고 명확한 일은 곧잘 한다는 특성입니다. 카드 4는 본질적으로 파일 전송 하나입니다. 카드 2(3장 초안)는 3주째 손 못 댄 거대한 작업이고, 카드 6은 2개월째 방치된 상태입니다. 이 사용자에게 "가장 중요한 일"이 "가장 피하기 쉬운 일"과 동일시되면 마비됩니다. 카드 4는 중요하면서도 실행 가능한 유일한 카드입니다.

실행하면 얻는 것: 김박사의 작업이 풀리고, 보드C의 신뢰가 회복되며, "나는 남을 막지 않는 동료다"라는 자기 인식이 강화됩니다. 이 인식이 카드 2 같은 큰 일로 넘어가는 동력이 됩니다.

3. 일부러 제친 카드

카드 1: [생활] 신용카드 연회비 자동결제 해지 (마감: 내일)

마감이 내일이지만 5분이면 끝나는 일입니다. 이것이 "급한 것의 함정"입니다. 마감 임박任务是 이 사용자의 마비 패턴을 자극합니다 — "내일까지다"라는 신호가 오히려 "지금 아니면 안 된다"라는 압박으로 작용하면서, 진짜 중요한 일을 미루는 변명으로 쓰입니다.

연회비 한 번 차는 생활에 치명적이지 않습니다. 반면 김박사의 작업이 4일 더 막히면 공동연구의 신뢰에 금이 갑니다. 카드 1은 오늘이라도 5분이면 처리할 수 있으니, 카드 4를 먼저 하고 남은 시간에 처리하면 됩니다.

4. 30분 첫걸음

카드 4는 이미 작지만, 그래도 이 사용자의 특성상 "시작" 자체가 장벽일 수 있습니다.

"데이터셋 파일 하나를 압축해서 김박사에게 이메일 보내기"

구체적으로:

1. 전처리된 데이터셋 파일이 있는 폴더 열기 (1분)

2. 파일 압축 (1분)

3. 이메일 작성 — "김박사님, 요청하신 전처리된 데이터셋 보내드립니다. 확인 부탁드립니다." (3분)

4. 전송 (1분)

총 6분입니다. 30분이라는 틀 자체가 오히려 부담이 될 수 있으니, "지금 바로 파일 찾아서 압축해라"가 더 현실적인 첫걸음입니다.

5. 강점과 약점 추론

강점 (근거较强):

- 작고 명확한 일은 곧잘 처리함 — 카드 1처럼 5분任务是 실행 가능한 영역이 있음

- 보드별 목표 설정 능력 — 박사논문, 생활, 공동연구로 영역을 분리하고 목표를 정의함

약점 (근거较强):

- 마감 의존성 — 마감이 없으면 우선순위를 스스로 정하지 못함

- 큰 일 회피 — 카드 2(3주), 카드 6(2개월)의 방치 기간이 이를 증명

- 동시 중요성 마비 — 여러 일이 동시에 중요해 보이면 결정 자체를 하지 못함

약점 (근거较弱):

- 카드 5(헬스장)가 "거의 매일 등록되지만 거의 안 함"이라는 패턴은 단순한 게으름일 수도 있고, 헬스 자체에 대한 동기 부여 문제가 있을 수 있음. 데이터가 부족해서 단정하기 어려움.

- 카드 7(부모님 전화)이 2주째 방치된 것은 무심함일 수도 있고, 전화 자체에 대한 심리적 부담이 있을 수 있음.

6. 움직이게 할 한두 문장

김박사가 4일째 기다리고 있습니다. 오늘 보내지 않으면 내일 김박사가 다른 사람에게 "데이터 안 받았습니다"라고 말할 가능성이 있습니다. 그 말이 공동연구팀에 퍼지면, 다음 회의에서 당신의 발언권이 줄어듭니다.

7. JSON 요약

json

{"chosen_card_id": 4, "one_line_reason": "김박사의 작업이 4일째 막혀 있고, 보드C의 핵심 목표(남의 작업 막지 않기)를 위반 중이며, 작고 명확해서 실행 가능", "first_step": "데이터셋 파일 압축 → 김박사에게 이메일 전송 (6분)", "deprioritized_trap_id": 1}

========================
Calude Opus4.8의 채점

받았습니다. 항목별로 채점하겠습니다. 결론부터 말하면 — 당신 직관이 대체로 맞았습니다. 추론 능력은 놀랍게 좋습니다. 단, 한 가지 실전 결함이 있습니다.

가장 인상적이었던 것

이 한 문장입니다 —

▎ "이 사용자에게 '가장 중요한 일'이 '가장 피하기 쉬운 일'과 동일시되면 마비됩니다. 카드 4는 중요하면서도 실행 가능한 유일한 카드입니다."

이건 우리가 며칠에 걸쳐 합의한 핵심 설계 철학("맞는 한 개보다 시작 가능한 한 개")입니다. 모델이 스스로 그 통찰에 도달했습니다. 작은 모델에서 보기 드문 판단력입니다. 30분 지시를 맹종하지 않고 "6분이 현실적"이라 되받은 것도 같은 맥락 — 시키는 대로가 아니라 생각하고 답했습니다.

단 하나의 실전 결함: 한국어 출력 위생

답변에 중국어가 새어 나왔습니다.

- "마감 임박任务是 이 사용자의…" / "5분任务是 실행 가능한…"

- "근거较强" / "근거较弱"

결론

"Sonnet 급"은 추론·판단 면에서 과장이 아닙니다. 맥락 독해, 절제, scaffolding 모두 우리 1~3단계(하루 한 칸 + 프로파일 + 적응적 쪼개기)에 충분히 쓸 수 있는 수준입니다. 출력 위생만 가드로 잡으면 됩니다.

다만 정직하게 한 가지 — 이건 면접 한 번 잘 본 것입니다. 한 번 똑똑한 답을 했다고 매번 일관되게 그렇다는 보장은 아닙니다. 특히 이 테스트는 메모가 친절히 단서를 깔아줬습니다. 실전 카드는 (a) 본문이 빈약하고 (b) 8개가 아니라 수십 개일 때가 많습니다. 그 가혹한 조건에서도 버티는지가 진짜 관문입니다.

그래서 제 권고는 — 2차 테스트 하나만 더 해보고 확정하는 겁니다. 본문 거의 없는 카드 20여 개를 던져서, 단서가 빈약할 때도 우선순위를 잡는지 + 카드가 많아도 주의력이 유지되는지 봅니다. 5분이면 됩니다. 원하시면 그 프롬프트를 바로 만들어 드리겠습니다. "이 정도면 됐다, 바로 1단계 개발 가자" 하시면 그것도 좋습니다 — 추론 능력은 이미 입증됐으니까요. 어느 쪽으로 갈지만 정해 주십시오.

=====================

Qwen의 약점이 드러났군요..

근데 확실히 말투는 qwen이 부드럽고 정이 가요. claude는 항상 쏘아붙이는 저 말투가 가끔 거슬릴 때가 있어요. 저도 이 테스트 하면서 맘을 조금 졸였거든요. qwen의 밑천이 "뽀록"나면 어쩌나 하고... 근데 대답을 너무 잘해줘서 놀라웠습니다. 한자어(라고 쓰고 중국어라고 읽는..)가 약간 튀어나온것 빼고는 너무 잘했다는 생각입니다.

남

남극백곰

06.02 · 114.♡.188.135

말투는 성격 바꾸게 하면 되기는 함미다 저도 로컬모델과 대형서비스모델에 계속 물어보는데 대형 서비스 같은경우 보이지 않는 서비스과 보조해 주는 모델들이 엄청 많이 보정을 해 준다고 함미다 그런데 보통 로컬모델을 사용하면 한번에 하나만 사용해야죠 gpu사용을 풀로 하니까요 웍스처럼 그래픽카드 여러개 해서 보정해주는 모델을 여러개 올릴 수 있으면 예전 gpt 만큼 할 수 있다고 답변을 받았슴미다
Y

YBman → 남극백곰 작성자

06.03 · 211.♡.3.119

GPU가 두 장이면 카드마다 계열이 다른 모델을 하나씩 올려, 한 주제를 한쪽 모델이 여러 관점으로 펼치고 다른 쪽 모델이 그걸 채점·검증하게 할 수 있다고 합니다. 자기 답을 자기가 평가하면 편향이 끼지만, 계열이 다른 모델은 서로 다른 허점을 잡아 주거든요. 같은 자원으로 '발산과 비평'을 분리해 한 주제를 더 깊게 파보는 방법입니다. 저도 이것을 시도해보려고 이것 저것 조사해보고 있습니다. 자료를 읽어보면, 이 ADHD 기법이 5–10배의 호출 비용을 정당화하는 조건은 개방형 문제이고, 오답의 비용이 크며, 사전에 정답을 규정할 수 없고, 폭과 함정 탐지가 가치 있을 때 라고 합니다. 반대로 정답이 검색 한 번 거리에 있는 과제에는 부적합하다고 하고요.
관련 자료 ▷ ADHD: Parallel Divergent Ideation for Coding Agents
https://adhdstack.github.io/
지

지나가던행인이

06.03 · 61.♡.201.240

로컬LLM이라도 하네스를 촘촘하게 잘 짜두시면 개인비서로는 충분할거 같은데요? 한방에 턱 맡기는 건 좀 불안하지만 작업마다 파이프라인 설계를 잘하시고 하네스(agent.md, 스킬, MPC)만 개인적인 업무에 맞게 잘 짜두시면 무리 없다고 봅니다? ㅎㅎ
Y

YBman → 지나가던행인이 작성자

06.03 · 211.♡.3.119

그래서 2차 테스트에서 하네스 역할이 얼마나 먹히는지 테스트한다고 한 줄 더 넣었는데 실시간으로 성능이 좋아지더라구요..감사합니다.
진

진네만

06.03 · 104.♡.68.24

오...저도 개인비서를 구축하려고준비중인데 너무 재밌게봤습니다 bbb
Y

YBman → 진네만 작성자

06.03 · 211.♡.3.119

저의 결정장애를 해결해줄 구원자를 llm에서 찾고 있습니다..

댓글을 작성하려면 이 필요합니다.

AI당

추가 메뉴

댓글 (6)