지나친 깨끗함은 더러움만 못하다?!··· AI 위한 데이터 관리 체크포인트
스와미나탄은 “동일한 사용 사례라도 시간이 지남에 따라 기본 데이터가 바뀔 수 있다. 예를 들어, 2024년 10월에 고객의 질문에 답하기 위해 만든 기준이 자연재해 발생으로 인해 생필품이 부족해지면서 3개월 만에 구식화될 수 있다. 같은 회사에서 같은 고객을 대상으로 하는 같은 업무라도 시간이 지나면 벤치마크가 구식이 될 수 있다”라고 말했다.
트렌드가 변화함에 따라 데이터의 신호가 사라지기도 한다. 고객의 연락처 번호가 유선전화에서 휴대전화로 바뀌면서 조직은 번호에서 고객 위치를 추출할 수 없게 됐다. 종전처럼 지역 번호를 사용하여 위치를 확인할 수 없게 되는 것이다. 이 밖에도 두 회사가 합병하는 경우 두 회사를 동일한 법인으로 취급할지, 아니면 회사 마스터 레코드에서 별도로 유지할지는 사용 사례에 따라 결정해야 한다.
큰 변화가 없음에도 불구하고 기초 데이터 자체가 변동되는 경우도 있다. 프리드먼은 “관심 있는 결과 변수와 기능 간의 관계가 변경되었을 수 있다. 단순히 ‘이 데이터 집합은 절대적으로 완벽하다’고 고정시켜 놓고 1년 후의 문제에 사용하기 위해 선반에서 꺼내어 사용할 수는 없다”라고 말했다.
이러한 모든 문제를 방지하려면 실제 오류와 의미 있는 신호를 구별할 수 있는 전문 지식을 갖춘 사람을 참여시키고, 데이터 정리에 대한 결정과 그 이유를 문서화하고, 데이터 정리가 모델 성능과 비즈니스 성과 모두에 미치는 영향을 정기적으로 검토해야 한다.
또 대량의 데이터를 미리 정리하고 나서야 개발을 시작하는 대신, 점진적인 데이터 정리와 빠른 실험을 통해 반복적인 접근 방식을 취할 필요가 있다. 야하브는 “데이터를 점진적으로 온보딩하는 정책이 유효하곤 했다. 모든 것을 연결하고 그것이 효과가 있을 것이라고 믿고 싶은 유혹이 크다. 하지만 막상 문제가 발생하면 무엇이 고장났는지 알 수 없으므로 연결을 끊어야 한다”라고 말했다.
따라서 소량의 최근 데이터 또는 신뢰할 수 있는 데이터로 시작하여 그것이 어떻게 작동하는지 확인하고, 거기에서 더 많은 소스 또는 데이터 양을 구축하여 어디가 끊어지는지 확인하라는 주문이다. 야하브는 “결국 간과했던 무언가가 메인 파이프라인에 도달하면, 깜짝 놀랄 만한 상황이 발생하고 결국 끊어지게 될 것이다. 프로세스는 원인을 이해할 수 있을 만큼 점진적으로 진행되어야 한다”라고 말했다.
dl-ciokorea@foundryco.com