Level : WORDPRESS BOOK LINKEDIN PATENT Send Mail 동냥하기 hajunho.com

반응형

 

 


1. Graduate level reasoning (GPQA Diamond)

  • 테스트 내용: 대학원 수준의 논리적 추론 및 문제 해결 능력을 평가합니다. 이는 심화된 개념 이해와 복잡한 문제 해결 능력을 요구합니다.
  • 결과 해석:
    • Claude 3.5 Sonnet (new): 65.0%로 가장 높은 성능. 이는 해당 모델이 고급 논리적 사고에 강점을 보임을 의미합니다.
    • Claude 3.5 Haiku: 41.6%로 성능이 낮은 편. 이 버전은 고급 추론 작업에서 상대적으로 약합니다.
    • GPT-4o*: 53.6%로 안정적인 성능.
    • Gemini 1.5 Pro: 59.1%로 GPT 계열보다 약간 우수.
    • 결론: Claude 3.5 Sonnet (new)이 가장 적합하며, 고급 추론에서 두각을 나타냅니다.

2. Undergraduate level knowledge (MMLU Pro)

  • 테스트 내용: 학부 수준의 일반 지식과 학문적 이해도를 평가. 이에는 역사, 과학, 수학, 문학 등 다양한 분야가 포함됩니다.
  • 결과 해석:
    • Claude 3.5 Sonnet (new): 78.0%로 가장 높은 점수를 기록. 학문적 지식을 효율적으로 처리 가능.
    • Claude 3.5 Haiku: 65.0%로 Sonnet (new)에 비해 약간 떨어짐.
    • Gemini 1.5 Pro: 75.8%로 Claude Sonnet과 유사한 성능.
    • 결론: Claude 3.5 Sonnet과 Gemini 1.5 Pro가 학문적 지식 응용에 강합니다.

3. Code generation (HumanEval)

  • 테스트 내용: 코드 작성 및 디버깅 능력을 평가. 개발자 작업에서 핵심적인 부분.
  • 결과 해석:
    • Claude 3.5 Sonnet (new): 93.7%로 최고 점수. 정확하고 효율적인 코드를 생성할 수 있음을 의미.
    • Claude 3.5 Haiku: 88.1%로 여전히 높은 성능.
    • GPT-4o*: 90.2%로 Claude 모델에 근접.
    • 결론: Claude 3.5 Sonnet (new)은 프로그래밍 작업에서 탁월한 선택입니다.

4. Math problem-solving (MATH)

  • 테스트 내용: 복잡한 수학 문제 해결 능력을 평가.
  • 결과 해석:
    • Gemini 1.5 Pro: 86.5% (4-shot CoT 사용)로 가장 높은 성능. 추가 컨텍스트를 활용했기 때문에 높은 점수를 기록.
    • Claude 3.5 Sonnet (new): 78.3%로 우수한 성능.
    • GPT-4o*: 76.6%로 안정적 성능.
    • 결론: Gemini 1.5 Pro는 수학적 추론에서 가장 강력하며, Claude 3.5 Sonnet도 신뢰할 수 있는 성능을 보입니다.

5. High school math competition (AIME 2024)

  • 테스트 내용: 고등학생 수준의 수학 경시대회 문제를 해결. 고난도의 논리와 수리적 사고가 요구됨.
  • 결과 해석:
    • Claude 3.5 Sonnet (new): 16.0%로 최상위 성능이나, 전반적으로 모든 모델이 낮은 점수.
    • Claude 3.5 Haiku: 5.3%로 성능이 크게 떨어짐.
    • GPT-4o*: 9.3~9.6%로 상대적으로 비슷한 수준.
    • 결론: 이 항목에서는 모든 모델의 한계가 드러남. 해당 문제는 모델에 매우 도전적인 과제.

6. Visual Q/A (MMMU)

  • 테스트 내용: 시각적 정보를 바탕으로 질문에 답변하는 능력을 평가.
  • 결과 해석:
    • Claude 3.5 Sonnet (new): 70.4%로 최고 성능. 시각적 이해와 텍스트 통합이 우수.
    • Gemini 1.5 Pro: 65.9%로 근접.
    • Claude 3.5 Haiku: 측정 결과 없음.
    • 결론: Claude 3.5 Sonnet이 시각적 질문-답변에서 가장 뛰어남.

7. Agentic coding (SWE-bench Verified)

  • 테스트 내용: 복잡한 코딩 작업의 정확성 및 실행 가능성을 평가.
  • 결과 해석:
    • Claude 3.5 Sonnet (new): 49.0%로 가장 높은 성능.
    • Claude 3.5 Haiku: 40.6%로 뒤처짐.
    • GPT 및 Gemini: 이 테스트에 대한 데이터 없음.
    • 결론: Claude 3.5 Sonnet이 코딩 신뢰성에서 선도적 역할.

8. Agentic tool use (TAU-bench)

  • 테스트 내용: 도구를 효과적으로 활용하는 능력을 평가.
  • 결과 해석:
    • Claude 3.5 Sonnet (new): Retail(69.2%), Airline(46.0%) 분야에서 높은 성능.
    • Claude 3.5 Haiku: Retail(51.0%), Airline(22.8%)로 낮은 성능.
    • GPT 및 Gemini: 측정 결과 없음.
    • 결론: Claude 3.5 Sonnet이 도구 활용 능력에서 우위를 점함.

전반적인 결론

Claude 3.5 Sonnet (new)은 전반적으로 가장 균형 잡힌 성능을 보이며, 특히 코딩, 논리 추론, 학문적 지식 및 도구 활용에서 탁월합니다. Gemini 1.5 Pro는 수학 문제 해결에서 강력한 경쟁력을 보이며, GPT-4o*는 안정적이지만 특정 영역에서 Claude 모델에 뒤처집니다.

 

나중에 o1 이랑 o3 도 나오는 표가 있으면 업데이트 해 봐야겠다.

https://www.yna.co.kr/view/AKR20241221012800091

 

오픈AI, 고급 추론 AI 모델 'o3' 공개…"내년 초 출시" | 연합뉴스

(샌프란시스코=연합뉴스) 김태종 특파원 = 챗GPT 개발사 오픈AI가 한층 향상된 고급 추론(reasoning) 인공지능(AI) 모델 'o3'를...

www.yna.co.kr

 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기