반응형
1. Graduate level reasoning (GPQA Diamond)
- 테스트 내용: 대학원 수준의 논리적 추론 및 문제 해결 능력을 평가합니다. 이는 심화된 개념 이해와 복잡한 문제 해결 능력을 요구합니다.
- 결과 해석:
- Claude 3.5 Sonnet (new): 65.0%로 가장 높은 성능. 이는 해당 모델이 고급 논리적 사고에 강점을 보임을 의미합니다.
- Claude 3.5 Haiku: 41.6%로 성능이 낮은 편. 이 버전은 고급 추론 작업에서 상대적으로 약합니다.
- GPT-4o*: 53.6%로 안정적인 성능.
- Gemini 1.5 Pro: 59.1%로 GPT 계열보다 약간 우수.
- 결론: Claude 3.5 Sonnet (new)이 가장 적합하며, 고급 추론에서 두각을 나타냅니다.
2. Undergraduate level knowledge (MMLU Pro)
- 테스트 내용: 학부 수준의 일반 지식과 학문적 이해도를 평가. 이에는 역사, 과학, 수학, 문학 등 다양한 분야가 포함됩니다.
- 결과 해석:
- Claude 3.5 Sonnet (new): 78.0%로 가장 높은 점수를 기록. 학문적 지식을 효율적으로 처리 가능.
- Claude 3.5 Haiku: 65.0%로 Sonnet (new)에 비해 약간 떨어짐.
- Gemini 1.5 Pro: 75.8%로 Claude Sonnet과 유사한 성능.
- 결론: Claude 3.5 Sonnet과 Gemini 1.5 Pro가 학문적 지식 응용에 강합니다.
3. Code generation (HumanEval)
- 테스트 내용: 코드 작성 및 디버깅 능력을 평가. 개발자 작업에서 핵심적인 부분.
- 결과 해석:
- Claude 3.5 Sonnet (new): 93.7%로 최고 점수. 정확하고 효율적인 코드를 생성할 수 있음을 의미.
- Claude 3.5 Haiku: 88.1%로 여전히 높은 성능.
- GPT-4o*: 90.2%로 Claude 모델에 근접.
- 결론: Claude 3.5 Sonnet (new)은 프로그래밍 작업에서 탁월한 선택입니다.
4. Math problem-solving (MATH)
- 테스트 내용: 복잡한 수학 문제 해결 능력을 평가.
- 결과 해석:
- Gemini 1.5 Pro: 86.5% (4-shot CoT 사용)로 가장 높은 성능. 추가 컨텍스트를 활용했기 때문에 높은 점수를 기록.
- Claude 3.5 Sonnet (new): 78.3%로 우수한 성능.
- GPT-4o*: 76.6%로 안정적 성능.
- 결론: Gemini 1.5 Pro는 수학적 추론에서 가장 강력하며, Claude 3.5 Sonnet도 신뢰할 수 있는 성능을 보입니다.
5. High school math competition (AIME 2024)
- 테스트 내용: 고등학생 수준의 수학 경시대회 문제를 해결. 고난도의 논리와 수리적 사고가 요구됨.
- 결과 해석:
- Claude 3.5 Sonnet (new): 16.0%로 최상위 성능이나, 전반적으로 모든 모델이 낮은 점수.
- Claude 3.5 Haiku: 5.3%로 성능이 크게 떨어짐.
- GPT-4o*: 9.3~9.6%로 상대적으로 비슷한 수준.
- 결론: 이 항목에서는 모든 모델의 한계가 드러남. 해당 문제는 모델에 매우 도전적인 과제.
6. Visual Q/A (MMMU)
- 테스트 내용: 시각적 정보를 바탕으로 질문에 답변하는 능력을 평가.
- 결과 해석:
- Claude 3.5 Sonnet (new): 70.4%로 최고 성능. 시각적 이해와 텍스트 통합이 우수.
- Gemini 1.5 Pro: 65.9%로 근접.
- Claude 3.5 Haiku: 측정 결과 없음.
- 결론: Claude 3.5 Sonnet이 시각적 질문-답변에서 가장 뛰어남.
7. Agentic coding (SWE-bench Verified)
- 테스트 내용: 복잡한 코딩 작업의 정확성 및 실행 가능성을 평가.
- 결과 해석:
- Claude 3.5 Sonnet (new): 49.0%로 가장 높은 성능.
- Claude 3.5 Haiku: 40.6%로 뒤처짐.
- GPT 및 Gemini: 이 테스트에 대한 데이터 없음.
- 결론: Claude 3.5 Sonnet이 코딩 신뢰성에서 선도적 역할.
8. Agentic tool use (TAU-bench)
- 테스트 내용: 도구를 효과적으로 활용하는 능력을 평가.
- 결과 해석:
- Claude 3.5 Sonnet (new): Retail(69.2%), Airline(46.0%) 분야에서 높은 성능.
- Claude 3.5 Haiku: Retail(51.0%), Airline(22.8%)로 낮은 성능.
- GPT 및 Gemini: 측정 결과 없음.
- 결론: Claude 3.5 Sonnet이 도구 활용 능력에서 우위를 점함.
전반적인 결론
Claude 3.5 Sonnet (new)은 전반적으로 가장 균형 잡힌 성능을 보이며, 특히 코딩, 논리 추론, 학문적 지식 및 도구 활용에서 탁월합니다. Gemini 1.5 Pro는 수학 문제 해결에서 강력한 경쟁력을 보이며, GPT-4o*는 안정적이지만 특정 영역에서 Claude 모델에 뒤처집니다.
나중에 o1 이랑 o3 도 나오는 표가 있으면 업데이트 해 봐야겠다.
https://www.yna.co.kr/view/AKR20241221012800091
반응형
'HJH IT Logs' 카테고리의 다른 글
분노하는 이들을 위한 AI 판사 영상 제작 (0) | 2024.12.28 |
---|---|
오늘 아이의 폰 고쳤다 플립5 (0) | 2024.12.26 |
크리스마스 밤이 지나네. (0) | 2024.12.26 |
chatGPT로 빗썸 알아 보는 중... (0) | 2024.12.24 |
갤럭시 지플립 5 수리기 2024-12-24 쿠팡 안심케어 (0) | 2024.12.24 |
최근댓글