Groq의 혁신적 AI 칩, 메타 라마 3에서 초당 800 토큰 성능 과시
페이지 정보
본문
- VentureBeat 기사 - Groq’s breakthrough AI chip achieves blistering 800 tokens per second on Meta’s LLaMA 3
(이미지는 VentureBeat 에서 미드저니로 만든 것)
(기사 내용 일부 Claude 3 Opus 번역)
AI 추론 분야의 경쟁 구도를 뒤흔들 수 있는 놀라운 벤치마크 결과로, 스타트업 칩 회사인 Groq에서 여러 차례 리트윗을 통해 자사 시스템이 메타에서 새로 공개한 대형 언어 모델 LLaMA(라마) 3을 초당 800 토큰 이상으로 처리하고 있다는 사실을 간접적으로 시사했습니다. [...]
OthersideAI의 공동 설립자이자 CEO인 Matt Shumer를 비롯한 여러 저명한 사용자가 X.com에 올린 게시물에 따르면, Groq 시스템은 LLaMA 3 모델을 통해 초당 800 토큰이 넘는 매우 빠른 추론 속도를 보여주고 있습니다. 만약 독립적으로 검증된다면, 현존 클라우드 AI 서비스와 비교했을 때 상당한 발전을 나타내는 것입니다. VentureBeat에서 초기 테스트한 결과, 이 주장은 사실인 것으로 보입니다. (여러분도 바로 여기 https://groq.com/ 에서 직접 테스트해 볼 수 있습니다.)
자금 조달에 성공한 실리콘밸리 스타트업 Groq는 딥러닝의 계산적 핵심인 행렬 곱셈 연산(matrix multiplication operations)에 최적화된 혁신적인 프로세서 아키텍처를 개발해 왔습니다. 회사의 Tensor Streaming Processor는 기존 CPU와 GPU에서 사용되는 캐시와 복잡한 제어 로직 대신, AI 워크로드에 특화된 단순하고 결정론적인(deterministic) 실행 모델을 채택하고 있습니다.
범용 프로세서의 오버헤드와 메모리 병목 현상을 피해, Groq는 AI 추론을 위해 훨씬 더 높은 성능과 효율을 제공할 수 있다고 주장합니다. 만약 초당 800 토큰이라는 LLaMA 3 결과가 유지된다면, Groq의 주장에 신뢰성을 더해줄 것입니다.
[이후 내용 생략]
https://twitter.com/mattshumer_/status/1781355430914015482
표면장력님의 댓글