본문
최근 중국 딥시크(DeepSeek)의 출현으로 딥 러닝 모델의 경량화 기술인 지식증류(Knowledge Distillation)가 AI 산업의 주요 화두로 부상하고 있습니다. 지식증류는 대형 AI 모델(교사 모델)의 지식을 소형 모델(학생 모델)로 효율적으로 이전하여 적은 자원으로도 유사한 성능을 구현할 수 있게 하는 기술로 AI 모델 개발 비용 절감과 효율성 증대를 가능하게 합니다. 반면에 지식증류 과정에서 발생할 수 있는 저작권 침해와 부정경쟁행위 등 지식재산 관련 쟁점들이 대두되고 있기도 하여 주의가 요망됩니다.
1. 지식증류의 개념
2. 글로벌 AI 개발사들의 지식증류 제한 정책
3. 지식증류 관련 법적 쟁점
4. 시사점
1. 지식증류의 개념
지식증류는 큰 AI 모델의 지혜를 작은 AI 모델에게 가르쳐주는 기술로 경험이 풍부한 '선생님 AI'(교사 모델)가 작고 가벼운 '제자 AI'(학생 모델)에게 자신의 노하우를 전수하는 것으로 볼 수 있습니다. 이 개념은 2006년 '모델 압축' 논문에서 처음 등장했고, 2015년 'AI의 대부'라 불리는 제프리 힌턴 교수(2024년 노벨 물리학상 수상)가 발전시켰습니다.
학생 모델은 본인이 해결해야 할 문제와 유사한 문제를 매우 많이 접해 본 교사 모델로부터 지식을 이전받기 때문에, 교사 모델이 학습한 문제와 유사한 문제가 주어졌을 때 해당 문제를 효율적으로 해결할 수 있습니다. 다만, 당장 주어진 문제의 해결에 필요한 지식만을 배우고 동일한 관점에서만 반복해서 학습이 이루어지기 때문에, 기존에 접해 본 문제와 유사성이 낮은 문제에 대해서는 해결이 어렵다는 한계가 존재합니다.
지식증류의 핵심은 '암흑지식'이라는 특별한 정보입니다. 이것은 선생님 AI가 정답 뿐만 아니라 "다른 가능성도 이 정도로 가능성이 있다"고 판단하는 확률 정보를 말합니다. 예를 들어, 고양이 사진을 보고 "90% 고양이, 8% 강아지, 2% 다른 동물"과 같이 판단하는 정보입니다. 이런 확률 분포 정보를 제자 AI에게 가르치면 단순히 정답만 배우는 것보다 훨씬 더 풍부한 지식을 얻게 됩니다. 이미 학습된 교사 모델의 숨겨진 암흑지식을 학생 모델에게 전이시킴으로써, 크기는 작으면서도 교사 모델과 유사한 성능을 가진 학생 모델을 효율적으로 획득할 수 있습니다.
2. 글로벌 AI 개발사들의 지식증류 제한 정책
OpenAI, Google, Anthropic, 네이버 등 초거대 AI 모델 개발을 주도하고 있는 글로벌 개발사들은 AI 모델의 이용 또는 서비스 약관을 통해 자동적 방식의 데이터 추출하는 행위 및 자사 모델과 경쟁하는 모델 개발에 자사의 AI 모델을 이용하는 행위 등을 금지하고 있습니다.
GPT(OpenAI)의 이용약관에서는 "자동적으로 또는 프로그래밍 방식으로 데이터 또는 아웃풋을 추출하는 행위"와 "OpenAI와 경쟁하는 모델을 개발하기 위해 아웃풋을 사용하는 행위"를 금지하고 있으며, Gemini API(Google)의 서비스약관에서도 "'서비스'(예: Gemini API 또는 Google AI Studio)와 경쟁하는 모델 개발에 '서비스'를 사용해서는 안되고, 기본 데이터나 모델(예: 파라미터 가중치)을 포함한 '서비스'의 구성요소를 리버스 엔지니어링하거나, 추출하거나, 복제하려고 시도하여서는 안됩니다."라고 명시하고 있습니다.
Claude(Anthropic)의 소비자 서비스약관에서는 "인공지능 또는 기계 학습 알고리즘이나 모델을 개발 또는 훈련하거나 서비스를 재판매하는 것을 포함하여 당사의 서비스와 경쟁하는 제품 또는 서비스를 개발하는 경우"와 "본 약관에서 허용하는 경우를 제외하고 당사 서비스에서 데이터 또는 정보를 크롤링, 스크래핑 또는 기타 방식으로 수집하는 경우"를 금지하고 있습니다.
3. 지식증류 관련 법적 쟁점
최근 미국 정부 관계자 및 초거대 AI 모델 개발사들은 중국 딥시크의 데이터 도용 의혹을 주장하고 있는 상황에서, 딥시크의 학습방법으로 추정되는 지식증류와 관련한 지식재산(저작권 및 부정경쟁행위) 관련 법적 쟁점이 부각되고 있습니다. AI 모델 개발을 주도하고 있는 글로벌 개발사들은 AI 모델의 이용 또는 서비스 약관을 통해 자동적 방식의 데이터 추출하는 행위 및 자사 모델과 경쟁하는 모델 개발에 자사의 AI 모델을 이용하는 행위 등을 금지하고 있으나 선두그룹 AI 모델에 근접하는 모델이 늘어나고 있는 정황상 후발주자들이 선두그룹의 AI 모델로부터 지식증류를 하고 있을 가능성이 존재합니다.
⸢저작권법⸥ 측면에서 살펴보았을 때, 지식증류의 과정에서 교사 모델인 생성형 AI가 생성한 답변들은 인간의 개입이 없이 순수하게 교사 모델과 학생 모델 간 문답의 과정으로 이루어진다는 점에서 지식증류 과정에서 발생하는 창작물을 현행 ⸢저작권법⸥상 보호되는 저작물로 보기에는 한계가 있는 것으로 보입니다. 또한 지식증류의 과정에서 교사 모델인 생성형 AI가 생성한 답변들은 정형화된 데이터가 아닌 매번 새롭게 생성되는 답변들이므로, 해당 답변들을 현행 ⸢저작권법⸥에서 정의하는 데이터베이스로 보기에도 한계가 있을 것으로 보이며 데이터베이스제작자의 권리로 이를 보호하는 것 또한 어려울 것으로 보입니다.
⸢부정경쟁방지 및 영업비밀보호에 관한 법률(이하 ‘부정경쟁방지법’)⸥ 측면에서 살펴보자면, 지식증류의 과정에서 교사 모델인 생성형 AI가 생성한 답변들은 매번 새롭게 생성된다는 점에서 전자적 방법으로 상당량 축적·관리하고 있다고 보기에는 어렵고, 교사 모델에서 학생 모델로 전이되는 정보(데이터)는 매번 새롭게 생성되어 제공된다는 점에서 ⸢부정경쟁방지법⸥상 보호되는 데이터로 보기 어렵기 때문에 지식증류 행위는 데이터 부정취득·사용행위에 해당하지 않을 가능성이 높습니다.
다만, OpenAI, 구글, 메타 등 AI 모델 개발사들의 AI 모델 개발비용이 수천억원에서 수조원대에 이른다는 점을 고려할 때, ⸢부정경쟁방지법⸥상 성과도용행위에서 의미하는 '성과 등'에 해당할 가능성이 높으며, 대다수 AI 개발사가 약관에서 자사 모델을 경쟁 기술 개발에 사용하는 것을 금지하고 있어 이를 위반한 지식증류는 '공정한 상거래 관행이나 경쟁질서에 반하는 방법'에 해당할 수 있고, 지식증류 과정을 통해 학습한 학생 모델은 교사 모델의 학습 비용에 비해 상당히 낮은 비용으로 교사 모델에 근접하는 성능에 도달하여 서비스될 수 있다는 점에서 경쟁관계 형성 또는 시장에서의 대체가능성이 있을 수 있기 때문에 적절한 계약이나 협력이 없는 지식증류 행위는 ⸢부정경쟁방지법⸥상 성과도용행위에 해당할 가능성을 배제할 수 없습니다.
4. 시사점
최근 AI 모델 훈련에 필요한 데이터가 고갈되면서 지난 몇 년 새 급속도로 발전한 AI 모델 개발이 정체됨과 동시에 지식증류가 이를 해결할 수 있는 핵심 기술로 떠오르고 있습니다. 지식증류를 통한 AI 모델 개발은 특히 AI 후발주자들에게 좋은 전략이 될 수 있으나, 앞서 살펴본 바와 같이 지식증류 행위가 ⸢부정경쟁방지법⸥상 성과도용행위에 해당할 수 있기 때문에 각 기업들은 이를 사전에 인식하고 적절히 대응할 필요가 있습니다.
우선 AI 모델 개발사들의 경우 자사의 서비스 약관에 지식증류 관련 조항을 명확히 하고, 필요한 경우 지식증류를 허용하는 별도의 라이선스 체계를 구축할 필요가 있습니다. 이를 통해 합법적인 지식증류 생태계를 조성하고, 불필요한 법적 분쟁을 예방할 수 있을 것입니다.
반대로 소형 AI 모델을 개발하려는 기업들은 마이크로소프트가 OpenAI와 협력하여 파이(Phi) 시리즈를 개발한 사례처럼, 대형 AI 모델 개발사와의 전략적 제휴나 협력 관계를 구축하는 방안을 적극 검토함으로써 향후 법적 리스크를 최소화하여야 할 것입니다.
향후 정부 차원에서도 AI 기술 발전과 지식재산 보호 간의 균형을 유지할 수 있는 법적·제도적 프레임워크를 마련할 필요가 있을 것으로 보이며, 특히 지식증류와 같은 새로운 기술 방법론에 대한 명확한 법적 지위를 확립하고, 이를 활용한 혁신을 장려하면서도 원천 기술 개발자의 권리를 보호하는 방향으로 나아가야 할 것입니다.
화우 AI센터는 AI와 관련한 지식재산, 개인정보, 정보보안, 공정거래, 제조물책임, 입법컨설팅, 쟁송 등 모든 법적 영역에서 축적된 경험과 노하우를 기반으로 기업 고객을 위한 최적의 솔루션을 안내해드리고있습니다. AI와 관련하여 문의사항이 있으신 경우 언제든지 화우에 연락하여 주시기 바랍니다
- 관련 분야
- #AI센터