“코딩도 추론도 더 똑똑하게”···앤트로픽 새 모델 ‘클로드 소넷 4·오퍼스 4’에 담긴 변화

또한 앤트로픽은 “오퍼스 4와 소넷 4는 기존 소넷 3.7보다 우회로 또는 편법을 사용해 작업을 완료하려는 경향이 65% 낮았다”라고 전했다. 전반적으로 오퍼스 4는 코딩, 연구, 작문, 과학적 발견 전반에서 경계를 넓히는 한편, 소넷 4는 일상적 활용 사례에 최적화된 업그레이드 모델이라는 게 회사의 설명이다.

안전성 평가

앤트로픽은 클로드 오퍼스 4 및 소넷 4에 대한 안전성 보고서를 함께 공개하며, 두 모델의 AI 안전 수준을 각각 레벨 3과 레벨 2로 분류했다. 이 보고서에서는 편향 가능성, 아동 안전, 악의적 요청에 대한 반응, 정책 위반 가능성 등을 평가한 결과가 포함돼 있다.

여기에는 정렬 위장(Alignment faking, 겉으로는 안전하고 윤리적인 척하지만, 실제로는 그렇지 않은 속임수를 쓰는 행동), 바람직하지 않거나 예상치 못한 목표, 속임수 활용, 사용자에 대한 아첨 반응, 보호장치 방해, 보상 추구 성향, 위험한 능력 은폐 시도, 사용자 조작 시도 등 다양한 시나리오가 포함됐다.



Source link

Leave a Comment