“학습만큼 망각이 필요”··· IBM이 강조하는 ‘LLM 언러닝’
IBM 리서치의 사이언스 라이터(Science Writer)인 킴 마티노(Kim Martineau)가 ‘LLM에게 잊어버리라고 가르치는 이유’라는 블로그 콘텐츠를 통해 ‘대규모 언어 모델의 언러닝(large language model unlearning)’의 필요성과 중요성을 설명했다. 다음은 이를 요약한 내용이다.
머신 언러닝(Machine Unlearning)은 머신러닝(Machine Learning)의 반대 개념이다. 머신러닝이 다양한 데이터로 인공지능을 학습시켜 사람의 뇌처럼 기억하고 생각할 수 있도록 하는 기반을 만드는 것이라면, 머신 언러닝은 이러한 학습 과정에서 알게 된 정보에서 특정 데이터를 걸러내 이를 사용하지 못하도록 하는 것이다.
이를 테면 거짓, 욕설, 편견 등 잘못되거나 부적절한 데이터를 선별해서 제거해야, 잘못되거나 오해의 소지가 있는 콘텐츠를 생성하는 환각(hallucinating)을 줄일 수 있다. 은어, 속어, 욕설 등 유해한 언어를 걸러내는 것도 중요하다. 타인에게 공개되서는 안 되는 개인 정보나 저작권이 있는 콘텐츠 역시 AI가 학습했더라고 기억해서는 안 되는 정보 범주에 들어간다.
문제는 학습한 데이터에서 이렇게 선택적으로 특정 데이터를 제거하는 것이 쉽지 않다는 것이다. 언어 모델을 학습시킬 때 레이블이 지정된 데이터를 사용하든 인터넷에 있는 데이터를 사용하든, 언어 모델이나 생성형 AI 기반 모델이 학습한 것에서 이를 선택적으로 제거하는 것은 매우 어려운 작업이다.
특히, 대규모 언어 모델이 가진 거대하고 방대한 학습 데이터의 규모는 이를 더욱 힘들게 만든다. 대규모 언어 모델은 테라바이트 규모의 벙댜헌 데이터와 수십 억 개 이상의 가중치 포함하고 있기 때문이다. 언러닝으로 데이터를 제거하는 과정에서 모델 성능이 저하되지 않으면서 의도한 대로 작동하고 있다는 것을 증명하는 것도 쉽지 않은 일이다.
킴 마티노는 “검색 증강 생성(RAG)과 같은 기술은 데이터베이스의 문서에 대한 모델의 응답을 제한함으로써 환각을 줄이는 데 도움이 될 수 있지만, 저작권이 있는 데이터, 개인 정보 또는 기타 책임 문제가 있는 데이터를 제거하는 데는 아무런 도움이 되지 못한다. HAP 탐지기와 기타 도구가 문제가 있는 데이터를 표시하는 데 도움이 될 수 있지만, 이를 제거하려면 모델을 처음부터 다시 학습시켜야 하는 경우가 많기 때문에 비용이 엄청나게 많이 들 수 있다”라고 설명했다.
결국 앞에서 언급한 여러 가지 이유와 온라인 개인정보 보호법에서 강조하는 ‘잊힐 권리’를 충족하려면, 대규모 언어 모델이 잘 학습하는 능력만큼이나 ‘재학습 없이 불필요한 데이터를 삭제하는 능력’이 필요하다. 여기서 핵심은 ‘재학습’을 하지 않는다는 것이다. 재학습에 들어가는 비용과 시간 손실이 만만치 않기 때문이다.
이러한 조건에 가장 가까운 방법으로 대규모 언어 모델의 언러닝을 수행하는 방법으로는 두 가지 전략이 사용되다. 첫째는, 가중치를 조정해 모델이 아키텍처를 변경하는 것이고, 둘째는 모델은 그대로 둔 채 추론 시점에 들어오는 프롬프트를 조정하는 것이다. 가중치 조절은 장기 기억에 영향을 주는 것과 비슷하고, 프롬프트 기반 기술은 작업 기억을 조정하는 것에 가깝다.
IBM 리서치의 AI 보안 및 개인정보 보호 전문가인 나탈리 바라칼도는 “진정한 언러닝은 원치 않는 정보의 흔적을 모두 제거하여 모델이 문제가 되는 질문을 받았을 때 답을 찾지 못하도록 한다. 모욕적인 행동에 대해 ‘언러닝’한 모델은 더 이상 유해하다는 사실을 알지 못한다”고 밝혔다.
언러닝을 통해 원하지 않는 데이터가 삭제되었다면, 그런 데이터로 인한 영향이 사라졌다는 수학적으로 보장(mathematical guarantee)할 수 있어야 한다. 하지만 그러기 위해서는 일반적으로 모델을 재학습해야 하고, 대규모 언어 모델에서 재학습을 수행할 경우 많은 비용이 들어갈 수 있기 때문에 다른 최적화 기술들이 연구되고 있다.
킴 마티노는 “대규모 언어 모델의 언러닝 분야가 발전함에 따라 그 효과를 측정하는 벤치마크가 확산되기 시작했다. 하지만 원치 않는 데이터를 잊어버리는 능력을 측정하는 것은 정확한 과학이 아니다. 연구자들은 정확히 어떤 정보를 잊어버릴지 정의하는 것 외에도 몇 가지 근본적인 문제를 해결하려고 노력하고 있다”라고 전했다.
예를 들면 “많은 모델이 수십억에서 수조 개의 토큰화된 단어로 학습된다. 언러닝 알고리즘이 모든 사례를 모두 포착했는지 어떻게 검증할 수 있을까? 데이터 유형에 따라 다른 검증 기술이 필요할 수도 있고, 개별 데이터 포인트를 학습 해제하는 과정에서 모델이 손실했을 수 있는 개념을 식별하는 것도 연구의 또 다른 초점이다. 모델의 성능을 저해할 수 있는 손실된 지식을 어떻게 식별하고 측정할 수 있을까?” 등이 언러닝 연구의 주요 주제라고 설명했다.
IBM은 이러한 관점에서 오픈소스 AI 모델인 그래나이트(Granite) 기반 대규모 언어 모델에 언러닝을 적용하는 방법을 실험하고 있다. 이 과정에서 언러닝 데이터 필터가 사전 학습이나 정렬 과정에서 원하지 않는 데이터를 거르는 데 효과가 있지만 여전히 문제가 있는 콘텐츠는 빠져나가고 있다.
결국 인공지능이 사람의 지능을 완벽하게 모방하려면 ‘망각’의 기술까지도 사람 수준으로 끌어 올려야 한다. 사람에게는 어렵지 않은 ‘선택적 망각’을 수행하는 것이 머신 언러닝에서는 쉬운 일이 아니다. 사람이나 인공지능이나 잊고 싶은 기억을 잊을 수 없다면, 얻는 것보다 잃는 것이 더 많을 수도 있다. dl-foundryco.com