AI 성능 평가, 벤치마크만으론 부족하다··· 메타 라마4 논란이 보여준 실사용 검증의 필요성

컨설팅 기업 애멀감 인사이트(Amalgam Insights)의 CEO이자 수석 애널리스트인 현 박은 “모든 벤더는 벤치마크 결과를 자사 기술의 우수성을 드러내는 수단으로 활용하려 한다”라며 “특히 불투명한 방식으로 벤치마크를 조작하려는 경우 의심을 살 수밖에 없다”라고 언급했다.

다만 박은 주요 생성형AI 벤더가 경쟁사 수준에 부합하거나 추월할 가능성을 보이는 한, 이런 이슈가 장기적으로 큰 반향을 일으킬 가능성은 낮다고 분석했다. 그는 “기초 모델 시장은 매우 빠르게 변화하고 있으며, 성능이나 생산성 면에서의 비약적인 발전이 매달 혹은 그보다 더 짧은 주기로 발생하고 있다”라며 “솔직히 말해, 지금의 모델 벤치마크 순위는 6개월에서 1년 안에 의미가 없어질 것”이라고 전했다.

AI 검토 시 기업의 실환경 테스트가 더 중요

모델이 급증하고 있는 현재, 조직이나 개발자가 AI가 자사 환경에서 어떻게 작동할지를 이해하는 것은 매우 중요하다. 벤치마크는 이런 이해를 돕는 첫걸음이 될 수 있다. 슈브멜은 “AI 모델을 활용한 애플리케이션이 복잡해지면서 성능 중요도가 더욱 커지고 있으며, 벤치마크는 시작점으로서 유용하다”라고 말했다. 그러나 그는 “궁극적으로는 각 기업의 데이터, 프롬프트, 운영 환경에서의 테스트가 진짜 벤치마크가 된다”라고 강조했다.



Source link

Leave a Comment