LLM 성능, o1제외 ㅠㅠ

1. Graduate level reasoning (GPQA Diamond)

테스트 내용: 대학원 수준의 논리적 추론 및 문제 해결 능력을 평가합니다. 이는 심화된 개념 이해와 복잡한 문제 해결 능력을 요구합니다.
결과 해석:
- Claude 3.5 Sonnet (new): 65.0%로 가장 높은 성능. 이는 해당 모델이 고급 논리적 사고에 강점을 보임을 의미합니다.
- Claude 3.5 Haiku: 41.6%로 성능이 낮은 편. 이 버전은 고급 추론 작업에서 상대적으로 약합니다.
- GPT-4o*: 53.6%로 안정적인 성능.
- Gemini 1.5 Pro: 59.1%로 GPT 계열보다 약간 우수.
- 결론: Claude 3.5 Sonnet (new)이 가장 적합하며, 고급 추론에서 두각을 나타냅니다.

2. Undergraduate level knowledge (MMLU Pro)

테스트 내용: 학부 수준의 일반 지식과 학문적 이해도를 평가. 이에는 역사, 과학, 수학, 문학 등 다양한 분야가 포함됩니다.
결과 해석:
- Claude 3.5 Sonnet (new): 78.0%로 가장 높은 점수를 기록. 학문적 지식을 효율적으로 처리 가능.
- Claude 3.5 Haiku: 65.0%로 Sonnet (new)에 비해 약간 떨어짐.
- Gemini 1.5 Pro: 75.8%로 Claude Sonnet과 유사한 성능.
- 결론: Claude 3.5 Sonnet과 Gemini 1.5 Pro가 학문적 지식 응용에 강합니다.

3. Code generation (HumanEval)

테스트 내용: 코드 작성 및 디버깅 능력을 평가. 개발자 작업에서 핵심적인 부분.
결과 해석:
- Claude 3.5 Sonnet (new): 93.7%로 최고 점수. 정확하고 효율적인 코드를 생성할 수 있음을 의미.
- Claude 3.5 Haiku: 88.1%로 여전히 높은 성능.
- GPT-4o*: 90.2%로 Claude 모델에 근접.
- 결론: Claude 3.5 Sonnet (new)은 프로그래밍 작업에서 탁월한 선택입니다.

4. Math problem-solving (MATH)

테스트 내용: 복잡한 수학 문제 해결 능력을 평가.
결과 해석:
- Gemini 1.5 Pro: 86.5% (4-shot CoT 사용)로 가장 높은 성능. 추가 컨텍스트를 활용했기 때문에 높은 점수를 기록.
- Claude 3.5 Sonnet (new): 78.3%로 우수한 성능.
- GPT-4o*: 76.6%로 안정적 성능.
- 결론: Gemini 1.5 Pro는 수학적 추론에서 가장 강력하며, Claude 3.5 Sonnet도 신뢰할 수 있는 성능을 보입니다.

5. High school math competition (AIME 2024)

테스트 내용: 고등학생 수준의 수학 경시대회 문제를 해결. 고난도의 논리와 수리적 사고가 요구됨.
결과 해석:
- Claude 3.5 Sonnet (new): 16.0%로 최상위 성능이나, 전반적으로 모든 모델이 낮은 점수.
- Claude 3.5 Haiku: 5.3%로 성능이 크게 떨어짐.
- GPT-4o*: 9.3~9.6%로 상대적으로 비슷한 수준.
- 결론: 이 항목에서는 모든 모델의 한계가 드러남. 해당 문제는 모델에 매우 도전적인 과제.

6. Visual Q/A (MMMU)

테스트 내용: 시각적 정보를 바탕으로 질문에 답변하는 능력을 평가.
결과 해석:
- Claude 3.5 Sonnet (new): 70.4%로 최고 성능. 시각적 이해와 텍스트 통합이 우수.
- Gemini 1.5 Pro: 65.9%로 근접.
- Claude 3.5 Haiku: 측정 결과 없음.
- 결론: Claude 3.5 Sonnet이 시각적 질문-답변에서 가장 뛰어남.

7. Agentic coding (SWE-bench Verified)

테스트 내용: 복잡한 코딩 작업의 정확성 및 실행 가능성을 평가.
결과 해석:
- Claude 3.5 Sonnet (new): 49.0%로 가장 높은 성능.
- Claude 3.5 Haiku: 40.6%로 뒤처짐.
- GPT 및 Gemini: 이 테스트에 대한 데이터 없음.
- 결론: Claude 3.5 Sonnet이 코딩 신뢰성에서 선도적 역할.

8. Agentic tool use (TAU-bench)

테스트 내용: 도구를 효과적으로 활용하는 능력을 평가.
결과 해석:
- Claude 3.5 Sonnet (new): Retail(69.2%), Airline(46.0%) 분야에서 높은 성능.
- Claude 3.5 Haiku: Retail(51.0%), Airline(22.8%)로 낮은 성능.
- GPT 및 Gemini: 측정 결과 없음.
- 결론: Claude 3.5 Sonnet이 도구 활용 능력에서 우위를 점함.

전반적인 결론

Claude 3.5 Sonnet (new)은 전반적으로 가장 균형 잡힌 성능을 보이며, 특히 코딩, 논리 추론, 학문적 지식 및 도구 활용에서 탁월합니다. Gemini 1.5 Pro는 수학 문제 해결에서 강력한 경쟁력을 보이며, GPT-4o*는 안정적이지만 특정 영역에서 Claude 모델에 뒤처집니다.

나중에 o1 이랑 o3 도 나오는 표가 있으면 업데이트 해 봐야겠다.

https://www.yna.co.kr/view/AKR20241221012800091

오픈AI, 고급 추론 AI 모델 'o3' 공개…"내년 초 출시" | 연합뉴스

(샌프란시스코=연합뉴스) 김태종 특파원 = 챗GPT 개발사 오픈AI가 한층 향상된 고급 추론(reasoning) 인공지능(AI) 모델 'o3'를...

www.yna.co.kr

저작자표시 변경금지

'HJH IT Logs' 카테고리의 다른 글

분노하는 이들을 위한 AI 판사 영상 제작 (0)	2024.12.28
오늘 아이의 폰 고쳤다 플립5 (0)	2024.12.26
크리스마스 밤이 지나네. (0)	2024.12.26
chatGPT로 빗썸 알아 보는 중... (0)	2024.12.24
갤럭시 지플립 5 수리기 2024-12-24 쿠팡 안심케어 (0)	2024.12.24

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Level : WORDPRESS BOOK LINKEDIN PATENT Send Mail 동냥하기 hajunho.com

LLM 성능, o1제외 ㅠㅠ

1. Graduate level reasoning (GPQA Diamond)

2. Undergraduate level knowledge (MMLU Pro)

3. Code generation (HumanEval)

4. Math problem-solving (MATH)

5. High school math competition (AIME 2024)

6. Visual Q/A (MMMU)

7. Agentic coding (SWE-bench Verified)

8. Agentic tool use (TAU-bench)

전반적인 결론

'HJH IT Logs' 카테고리의 다른 글

공지사항

전체 카테고리

태그

전체 방문자

블로그 인기글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

Level : WORDPRESS BOOK LINKEDIN PATENT Send Mail 동냥하기 hajunho.com

1. Graduate level reasoning (GPQA Diamond)

2. Undergraduate level knowledge (MMLU Pro)

3. Code generation (HumanEval)

4. Math problem-solving (MATH)

5. High school math competition (AIME 2024)

6. Visual Q/A (MMMU)

7. Agentic coding (SWE-bench Verified)

8. Agentic tool use (TAU-bench)

전반적인 결론

'HJH IT Logs' 카테고리의 다른 글

공지사항

전체 카테고리

최근 글

최근댓글

태그

전체 방문자

블로그 인기글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역