하루다멀다하고 다양한 업체에서 다양한 llm모델들이 쏟아져 나옵니다.
당장 이 메일을 작성하고 있는 오늘 기준으로, gpt 5.5, deepseek v4, qwen 3.6, mistral 3.5, nemotron nano omni 등이 몇주 이내에 발표되었습니다.
아무래도 Llm 모델들이 할 수 있는 일들이 많다보니, 이들을 평가하는데 있어서도 다양한 기준들이 제시되고 있는 상황이에요. 게다가 몇년전의 기준이 지금와서는 변별력을 잃기도 하죠.
그래서 이번에는, 벤치마크를 찾고 해석하는 법에 대해서 다루어볼까 해요.
1. 코딩을 시키고 싶어!
그렇다면 SWE 벤치마크를 보면 됩니다. 이 벤치마크는 실제 코드베이스에서 코드를 작성하고 버그를 고칠수 있는가를 보는 테스트를 하거든요.
하지만 이 벤치마크가 좀 오래된 탓에, 점점 더 변별려을 잃어간다는 의견도 있어요.
위 링크의 내용이 그런 내용인데요, 요약하자면: “모델이 코딩을 얼마나 잘하는가”보다 “테스트 결함을 얼마나 운 좋게 피하고, 공개된 기출 정보에 얼마나 노출되었는가”를 섞어서 측정하게 되었기 때문에, OpenAI는 더 이상 신뢰할 수 있는 프런티어 코딩 벤치마크로 보지 않겠다... 라고 하네요
2. 이미지 분석도 시키고 싶다
그렇다면 MMMU 벤치마크에요. 이미지 분석을 포함한 지능을 평가하기 때문이에요.
https://mmmu-benchmark.github.io/
여기서 벤치마크 내용들을 볼 수 이어요. 벤치마크 내용을 보다보니 gemma 4 31b와 26b a4b 모델의 성적이 눈에 띄네요. 이전세대 프론티어 모델들만큼이나 좋은 성능이라는걸 한번에 알 수 있겠어요.
3. 다양한 분야를 한번에 보고 싶어요. 특히 글쓰기
그렇다면 lmarena의 리더보드를 보는게 빨라요! 여기서는 특히 창의적인 글쓰기 순위도 볼 수 있거든요.
https://arena.ai/leaderboard/text/overall
그런데 벤치마크 스코어라기보다는, 순위를 매기는 것이어서 조금은 애매한 구석이 있어요. 약간 절대적인 기준을 찾으려고 할때는 잘 안맞는 느낌?
하지만 사람들이 느끼는 그대로 평가하기때문에, 오히려 더 잘 맞을수 있다는 점도 있어요.
---
이상으로 주요 벤치마크 3개를 훑어보았어요. 실제로 모델의 성능들을 평가할때는 위의 언급한 것 외의 다각적인 것들을 한번에 보게 되지만, 아무것도 모르고 어디서부터 시작해야할지 감이 안올때라면, 위 3가지부터 보면 좋을거 같더라구요.
|