콘텐츠 기업 입장에서 AI 학습 계약서 체결 시 검토할 내용들을 정리했습니다. 이 글은 콘텐츠 기업이 AI 기업과 데이터 학습 계약을 체결할 때 검토해야 할 주요 항목들을 정리한 실무 참고 자료입니다. 특히 2020년 마이크로소프트(MS)가 공개한 AI 학습 계약서 샘플을 바탕으로, 콘텐츠 제공자 입장에서 유의할 점들을 소개합니다.
이글은 법률적인 검토가 아닌 콘텐츠 기업의 사업 담당자로서 언론사 친화적인 의견과 편향이 담겨 있으며 계약서의 법리 검토는 변호사와 하셔야 합니다. 여기서 제시하는 내용은 사업 실무 담당자의 시각에서 정리한 일반적인 참고 의견으로, 각 콘텐츠 기업별로 다른 대응 방안이 필요합니다.
AI 학습 계약서 체결 시 검토사항
콘텐츠 기업의 사업 담당자로서 판단할 때 아래 조항에 대해 검토할 필요성이 있습니다. 아래 조항은 계약이 해지될 경우 자사의 콘텐츠를 보호하고 AI 기업이 계약 연장을 한번은 검토하도록 만들 수 있다고 봅니다. 다만, 이 조건들은 콘텐츠 제공자에 유리하지만 AI 기업의 수용 가능성을 고려해 유연한 협상안들을 준비할 필요가 있습니다.
학습용 데이터의 사용 기간과 계약 기간을 동일하게 설정
학습용 데이터의 사용기간과 계약 기간이 동일하지 않을 경우 AI 기업은 계약이 종료되더라도 큰 부담이 없게 됩니다. 따라서, 콘텐츠 제공사 입장에서는 두 기간을 동일하게 하는 것이 계약 연장을 유도하여 콘텐츠 제공자의 수익을 지속할 수 있는 구조를 만들 수 있습니다. 혹시 계약이 해지되더라도 자사의 자산이 계속해서 사용되는 것을 방지할 수 있습니다.
계약 해지 이후 후속 모델에서 학습용 데이터로 재사용 불가
계약이 해지된 후 AI 기업이 개발하는 후속 모델에는 과거 제공한 학습용 데이터를 사용하지 못하도록 해야 합니다. 역시 연간 계약 연장을 위해서 필요한 조치라고 보입니다. 예를 들어 GPT예: GPT 3.5 버전과 계약 후 계약이 종료되었다면, 그 데이터를 GPT 4.0 버전에서는 재사용할 수 없다는 조건을 주장해야 합니다. 참고로 과거에 계약한 GPT 3.5 버전에서 이미 학습한 내용을 되돌릴 수는 없습니다.
MS의 AI 학습 계약서 샘플
2020년에 공개된 MS의 AI 학습 계약서 샘플을 참고로 봐주세요. 해당 계약서 샘플은 MS의 책임경영(CSR:Corporate Social Responsibility) 페이지에 공개된 계약서이며 주석이 있습니다.
계약서 주요 내용 요약
구분 | 요약 내용 |
---|---|
데이터 사용 목적 | AI 모델 훈련에만 사용 가능 |
계약 종료 후 조치 | 훈련 데이터 삭제 |
지식재산권 귀속 | 모델에 대한 권리 없음, 라이선스 부여 |
보증 내용 | “있는 그대로” 제공, 정확성·상업성 보장 없음 |
계약 기간 | 기본 1년, 위반 시 30일 내 해지 가능 |
종료 후 유효 조항 | 조항 3b, 3c, 4, 6, 7 등 |
[참고] MS AI 계약서 한글 번역본
이 계약서 템플릿은 한 기관이 인공지능(AI) 모델 훈련 목적으로 타 기관에 데이터를 제공할 때, 해당 데이터 공유를 규율할 수 있는 표준 계약 조건을 제시합니다. 실제 사례마다 다양한 특수 사정이 있을 수 있지만, 일정 수준까지는 표준화 가능한 핵심 조건들이 존재합니다. 본 템플릿은 커뮤니티 차원에서 논의하고 개별 상황에 맞게 조정할 수 있도록 표준 조항(canonical terms)을 제시하는 데 목적이 있습니다.
오픈AI 모델 개발을 위한 데이터 사용 계약서
본 인공지능(AI) 데이터 공유 계약서(이하 “본 계약”)는 [●](이하 “데이터 제공자”)와 [●](이하 “데이터 사용자”) 간에 [●]일부로 체결됩니다(이하 “유효일”). 데이터 제공자와 데이터 사용자는 각각 “당사자”, 통칭하여 “당사자들”이라 합니다.
제1조. 정의된 용어들
a. “AI 모델(AI Model)”은 부속서 A에 설명된 머신러닝 알고리즘을 의미하며, 관련 파라미터 및 가중치(있는 경우 포함)를 포함합니다.
※ 주석: 이 정의는 완전히 훈련되지 않은 알고리즘(예: 초기화 상태)이거나 부분적으로 훈련된 상태도 포함합니다. 훈련될 모델에 대한 설명은 부속서 A에 반드시 명시되어야 합니다.
b. [선택 사항] “비밀유지계약(NDA)”은 당사자 간에 기밀 정보를 교환할 경우 이를 규율하는 별도의 계약을 의미합니다.
c. “오픈소스 라이선스(Open Source License)”는 Open Source Initiative에서 공표한 “오픈소스 정의(Open Source Definition)”의 요건을 충족하는 라이선스를 의미합니다.
※ 주석: MIT 라이선스 등 일반적으로 널리 쓰이는 오픈소스 라이선스들이 해당 정의에 부합합니다.
d. “개인 데이터(Personal Data)”는 식별되었거나 식별 가능한 자연인과 관련된 정보 또는 해당 정보가 관련 법률(GDPR 등)상 ‘개인 정보’ 또는 ‘개인 데이터’로 분류되는 모든 정보를 의미합니다.
※ 주석: 예컨대 미국 HIPAA 법령상 보호건강정보(PHI)는 45 CFR 160.103 조항에 따라 ‘개인식별 가능한 건강정보’로 정의되며 이 범주에 포함됩니다.
e. “훈련(Train)”은 AI 모델의 예측 기능을 향상시키기 위해 훈련 데이터를 제공하는 행위를 의미합니다.
f. “훈련된 모델(Trained Model)”은 AI 모델이 훈련을 거쳐 수정된 상태를 의미하며, 이에는 관련된 가중치(weight)도 포함됩니다.
g. “훈련 데이터(Training Data)”는 데이터 제공자가 AI 모델 훈련 목적을 위해 데이터 사용자에게 제공하는 데이터로, 부속서 A에 기술됩니다.
제2조. 데이터 제공 (Provision of Data)
a. 데이터 제공자는 훈련 데이터(및 해당되는 경우 업데이트 포함)를 부속서 A에 명시된 방식으로 데이터 사용자에게 제공합니다.
※ 주석: 제공 시점, 제공 방식(예: API, 파일 포맷), 데이터 형식 등은 부속서 A에 구체적으로 기술되어야 하며, 주기적인 업데이트가 포함되는 경우 그 주기와 범위도 명시되어야 합니다.
b. 훈련 데이터에 개인 데이터가 포함되는 경우, 그 내용은 부속서 A에 명확히 기재되어야 합니다.
※ 주석: 부속서 B에서 GDPR 등 프라이버시 요건을 충족하기 위한 추가 조건을 기술할 수 있습니다.
제3조. 데이터 사용 (Use of Data)
※ 주석: 이 조항은 데이터 제공자의 권익을 보호하는 데 초점을 둡니다.
a. 데이터 사용자는 훈련 데이터를 오직 AI 모델 훈련 목적으로만 사용할 수 있습니다.
b. 데이터 사용자는 계약 기간 동안 훈련 데이터를 보유할 수 있으며, 계약 종료 시점 또는 부속서 A에 명시된 보유 기간 종료 시 해당 데이터를 시스템과 기록에서 삭제해야 합니다. 단, 법령상 요구되는 경우는 예외입니다.
※ 주석: 계약 기본 유효기간은 1년이며, 더 길게 보유해야 하는 경우에는 부속서 A에 별도 규정할 수 있습니다.
c. 데이터 사용자는 훈련된 모델을 오픈소스 라이선스 하에 공개해야 하며, 이때 데이터 제공자를 위한 책임 면책(disclaimer of liability) 조항을 포함해야 합니다.
※ 주석: 이 조항은 데이터 제공자의 리스크를 줄이면서 AI 모델의 공개 활용을 장려하기 위한 장치입니다. 단, 양 당사자 합의에 따라 훈련된 모델의 공개 범위를 제한할 수도 있습니다.
제4조. 훈련된 모델에 대한 권리 (Rights Related to Trained Model)
※ 주석: 이 조항은 훈련된 모델의 활용 권한을 데이터 사용자에게 명확히 부여합니다.
a. 데이터 제공자가 훈련 과정으로 인해 훈련된 모델에 대해 법적으로 권리를 가질 수 있는 경우, 데이터 제공자는 해당 권리를 데이터 사용자에게 서브라이선스 가능한(sublicensable) 형태로 취소 불가능하게(irrevocably) 부여합니다.
※ 주석: 특정 국가의 법적 관할권에 따라 데이터 제공자에게 모델에 대한 지식재산권이 인정될 가능성을 차단하기 위한 안전장치입니다.
b. 데이터 제공자는 본 계약을 통해 훈련된 모델 또는 그로부터 생성된 산출물에 대해 어떠한 권리나 이익도 주장하지 않습니다. 본 계약은 암묵적 권리도 부여하지 않습니다.
※ 주석: 데이터 사용자는 훈련된 모델과 그 활용 결과물에 대해 자유롭게 사용할 수 있으며, 제공자는 향후 로열티 등 요구 불가.
c. 본 계약은 훈련된 모델의 사용 방식에 대해 어떠한 제한도 부과하지 않습니다.
제5조. 진술 및 보증; 면책 조항 (Representations and Warranties; Disclaimer)
a. 양 당사자는 본 계약 수행에 있어 관련 법률(특히 개인정보 보호 법률 포함)을 준수할 것을 진술하고 보증합니다.
※ 주석: 양 당사자는 각자의 법적 책임을 분명히 부담합니다. 예: GDPR 준수 여부는 각자 책임.
b. 데이터 제공자는 훈련 데이터에 대해 본 계약에 따른 AI 모델 훈련이나 훈련된 모델 사용·배포에 제약이 없음을 보증합니다.
단, AI 모델 자체에 대한 사용 권한은 보장하지 않으며, 이는 데이터 사용자가 자체 확보해야 합니다.
c. 데이터 사용자는 AI 모델에 대해 훈련 및 배포할 충분한 권리를 보유하고 있음을 보증합니다.
d. 데이터 제공자는 훈련 데이터의 정확성, 완전성에 대한 보증을 하지 않으며, 상품성 또는 특정 목적 적합성에 대한 보증도 부인합니다.
훈련 데이터는 “있는 그대로(AS-IS)”, 모든 결함과 하자가 있는 상태로 제공됩니다.
※ 주석: 데이터 사용자 스스로 데이터의 리스크를 평가하고 사용해야 함.
제6조. 훈련 데이터의 기밀 유지 (Confidentiality of Training Data)
a. 데이터 사용자는 훈련 데이터의 기밀성을 합리적 수준으로 보호해야 하며, 아래 사항은 예외입니다:
(i) 제공 전 이미 보유 중이던 정보
(ii) 공개된 정보
(iii)제3자로부터 적법하게 받은 정보
(iv) 독자적으로 개발한 정보
b. 법적 요구가 있을 경우, 데이터 사용자는 훈련 데이터를 공개할 수 있으나, 가능한 경우 사전 통지하여 데이터 제공자가 보호명령 또는 기타 대응 조치를 취할 기회를 제공해야 합니다.
c. 데이터 사용자는 훈련 데이터를 제3자에게 제공할 수 없습니다. 다만 내부 직원, 계약자 등 ‘알아야 할 필요성’이 있는 경우에만 공유 가능하며, 이들에 대해서도 본 계약과 동일한 수준의 비밀 유지 의무를 지워야 합니다. 그들의 행위에 대해서는 사용자 본인이 책임을 부담합니다.
d. [선택 사항] 만약 별도 NDA가 존재하고, NDA와 본 계약 내용이 충돌하는 경우, 본 계약의 조건이 우선합니다.
제7조. 데이터 보호 및 개인정보 (Data Protection and Privacy)
a. 데이터 사용자는 훈련 데이터의 물리적·관리적·기술적 보호 조치를 합리적으로 유지하여 무단 접근, 공개, 변경, 사용으로부터 방지해야 합니다.
b. 데이터 사용자는 훈련 데이터를 사용하는 과정에서 부속서 A에 명시된 보안지침이나 프레임워크(예: ISO, NIST 등)를 성실히 준수해야 합니다.
c. 양 당사자는 훈련 데이터의 제공, 사용, 보관이 적용 가능한 법률(예: GDPR, HIPAA 등)에 적합하도록 협력합니다. 추가 요건은 부속서 B에 명시합니다.
d. 보안 침해 사고가 발생한 경우, 데이터 사용자는 즉시 데이터 제공자에게 통지하고, 문제 해결을 위해 합리적으로 협조해야 합니다.
e. 데이터 사용자는 비식별화된(anonymized) 데이터로부터 개인을 식별하려 해서는 안 됩니다.
제8조. 계약 기간 및 해지 (Term and Termination)
a. 본 계약은 유효일로부터 1년간 유효하며, 서면 합의가 없는 경우 자동 종료됩니다.
※ 자동 갱신 없음 — 데이터 보유 및 법적 책임 종료를 명확히 하기 위함
b. 당사자 일방이 계약을 중대 위반하고, 상대방의 서면 통지 후 30일 이내 시정하지 않을 경우 해지할 수 있습니다.
c. 당사자 일방은 사유 불문하고 90일 전 서면 통지를 통해 계약을 해지할 수 있습니다.
d. 다음 조항은 계약 종료 후에도 유효합니다:
제1조, 제3조b(보유 기간 종료 시까지), 제3조c(종료 후 1년 또는 사용자가 모델 사용 중지 시까지), 제4조, 제6조, 제7조, 제8조d, 제9조
제9조. 일반 조항 (General)
a. 본 계약은 당사자 간의 완전한 합의서이며, 서면 외의 모든 이전 약정·해석·구두계약을 대체합니다. 수정은 서면으로만 가능합니다.
b. 본 계약은 PDF 또는 전자 서명으로 체결될 수 있으며, 복수 부본으로 서명되더라도 모두 동일한 원본으로 간주됩니다.
c. 제3자는 본 계약을 강제할 권리를 갖지 않으며, 단 훈련된 모델의 사용자는 예외적으로 제4조b 항목에 따라 권리를 가질 수 있습니다.
d. 양 당사자는 독립된 계약자 관계이며, 서로의 대리권이나 법적 권한을 갖지 않습니다.
e. 사전 서면 동의 없이 계약 양도 불가
f. [선택 사항] 책임 제한:
다음 사항에 대해 책임을 제한할 수 있습니다:
간접 손해, 특별 손해, 영업 중단 등
총 손해 배상 책임은 [●]로 제한
단, 훈련 데이터의 무단 사용 또는 제6조 위반은 예외
부속서 A – 프로젝트 세부사항
Part I – AI 모델 설명 및 라이선스
모델 설명, 출처, 라이선스 정보
공개 위치(URL) 포함
Part II – 훈련 데이터 설명
수집 기간, 품질, 제약사항 등
데이터의 출처, 법적 제한, 보안 방식 등 명시
Part III – 프로젝트 명세
데이터 제공 방식, 포맷, 업데이트 주기
보유 기간 및 처리 기준 (ISO/NIST 등)
Part IV – 모델 공개 위치
훈련된 모델이 배포될 URL 및 접근 방법
부속서 B – 데이터 프라이버시
GDPR, HIPAA 등 개인정보 보호법 관련 조건 명시
비식별화, 휴먼 검토 제한, 차등 프라이버시 등
보안 공간 내 처리, 제3자 감독 조건 등 포함 가능 기술하고, 데이터 사용자가 이를 준수하도록 합니다. 상황에 따라 휴먼 리뷰 제한이나 보안 공간 내 처리 조건도 포함될 수 있습니다. (끝)
관련 포스팅

거북이 미디어 전략 연구소장은 미디어의 온라인 수익화와 전략에 주요 관심을 가지고 있습니다.
저는 Publisher side에서 2015년부터 모바일과 PC 광고를 담당했습니다. 2022년부터 국내 포털을 담당하고 있습니다.
▲ 강의 이력
구글 디지털 성장 프로그램의 광고 워크샵 게스트 스피커(21년 6월)
구글 서치콘솔, 네이버 서치어드바이저, MS 웹마스터 도구 사용법(24년 8월 한국 언론진흥재단 미디어교육원)