AI・データの利用に関する契約ガイドライン
AI・データの利用に関する契約ガイドライン
AI・データの利用に関する契約ガイドライン
- AI 編 -
目 次
(1) AI(人工知能・Artificial Intelligence) 9
(3) 機械学習(マシンラーニング・Machine Learning) 9
1 AI 技術を利用したソフトウェアの開発・利用をめぐる契約の現状 23
第5 AI 技術の利用契約 60
1 AI 技術の利用とは 60
2 学習済みモデルの利用サービス 61
(1) 概要 61
(2) サービスの利用方式と提供形態 62
(3) 契約の形式 62
3 契約における考慮要素 62
(1) 学習済みモデルのカスタマイズ 63
(2) 入力データ 63
(3) 再利用モデル 64
(4) AI 生成物 64
第6 国際的取引の視点 66
1 一般的な留意事項 66
(1) 基本的な視点 66
(2) 適用法の確定 66
(3) 紛争解決手段の選択 67
2 学習済みモデルの生成・利用で問題となり得る事項 68
(1) データ取得・生成 68
(2) 学習済みモデルの生成 71
(3) 学習済みモデルの利用 74
第7 本モデル契約について 77
1 位置づけ 77
2 特徴 77
3 各モデル契約の前提や留意点 78
(1) アセスメント段階:秘密保持契約書 78
(2) PoC 段階:導入検証契約書 78
(3) 開発段階:ソフトウェア開発契約書 78
(4) 追加学習段階 79
4 アセスメント段階の秘密保持契約書(モデル契約書) 80
5 | PoC 段階の導入検証契約書(モデル契約書) | 86 |
6 | 開発段階のソフトウェア開発契約書(モデル契約書) | 102 |
第8 別添 | 総括 作業部会で取り上げたユースケースの紹介 | 139 |
第1 総論
本ガイドライン(AI 編)は「AI1技術(人間の行い得る知的活動をコンピュータソフトウェアに行わせる一連のソフトウェア技術)」を利用するソフトウェアの開発・利用を促進する等の観点から、AI 技術を利用したソフトウェアの開発・利用に関する契約の基本的な考え方を解説したものである。
1 目的
現在、主に機械学習を利用した AI 技術 2が実用化段階に入り、多くの企業が AI 技術を利用したソフトウェアの開発・利用に取り組み始めている。今後、AI 技術が社会に広く普及していくことが想定される。また、AI 技術によって、利便性・生産性の向上や今までは対応しきれなかった少子高齢化等の社会的・構造的課題への対応が可能になることが期待されている。
しかし、AI 技術を利用したソフトウェアの開発・利用に関して、権利関係をどのように処理すればよいのか、開発・利用に伴って発生し得る責任を誰が負うのかといった法律問題は新しい問題であり、法律が整備されていないため不明確な点も多い。
このような状況においては、当事者間で契約を締結することによって権利関係や責任の分担を定めておくことの必要性が高い。
もっとも、AI 技術の基本技術思想は、データから結論を推論する帰納的なものであり、従来型の演繹的なソフトウェアの基本技術思想とxx的に異なっている。
このような違いから生じる AI 技術を利用したソフトウェアの開発、典型 的には学習済みモデルの生成における、従来型のソフトウェア開発と比較 した特徴として、①学習済みモデルの内容・性能等が契約締結時に不明瞭な 場合が多いこと、②その内容・性能等が学習用データセットに依存すること、
③その生成に際して特にノウハウの重要性が高いこと、および④各種生成物について更なる再利用の需要が存在すること等が挙げられる。
また、当事者に目を向けると、データが必要となることが多い AI 技術を利用したソフトウェアの開発にあたっては、その開発を依頼する者(以下
「ユーザ」という。)は、データやノウハウを提供することによって、それらの価値が低下することや情報が流出することを懸念する立場にある一方で、AI 技術を利用したソフトウェアを開発する者(以下「ベンダ」という。)は、知的財産がユーザに移転することで自らの事業の自由度が奪われることやノウハウの流出を懸念する立場にある。
しかし、このような AI 技術の特性や、相手方の立場についての理解が広く社会に浸透しているとは言い難い。その結果、契約交渉において、当事者が自らの権利の確保に固執したり、相手に AI 技術の特性やデータ・ノウハウの価値を無視した、現実的ではない要求をすることによって、契約交渉が難航して契約が不成立となったり、当事者の事業の自由度が過度に制約されイノベーションが妨げられてしまうおそれや、契約締結するにあたって、
1 「AI」とは「Artificial Intelligence」の略称であり、日本語では「人工知能」と訳される。もっとも「AI」に確立した定義は存在しないのが現状である。詳細は、後記第 2-1-⑴で解説する。
2 機械学習は、AI に関連する技術の一つにすぎない。もっとも、便宜上、本ガイドライン(A I 編)では、機械学習のみを意味して、「AI 技術」という表現を使用することがある。詳細は、後記第 2-1-⑵で解説する。
当事者の労力・時間といったコストが高くなるおそれがある。
このようなことになれば、AI 技術の開発・利用が阻害され、ひいては我が国の産業競争力が失われたり、社会的・構造的課題の解決が困難となるといった結果をもたらしかねない。
そこで、本ガイドライン(AI 編)は、AI 技術を利用したソフトウェアについて、その特性を踏まえた上で、開発・利用契約を作成するにあたっての考慮要素、トラブルを予防する方法等についての基本的な考え方を提示する。それによって、当事者の双方が納得する合理的な契約を締結するための情報を提供し、契約プラクティスを形成する一助となることで、AI 技術を利用したソフトウェアの開発・利用を促進することを目的としている。
なお、本ガイドライン(AI 編)は、契約についての基本的な考え方を提示するものにすぎず、何ら法的な拘束力を有するものではなく、また、当事者の契約の自由を何ら制約するものではないことを念のため付言する。
2 問題の所在と解決方法
AI 技術を利用したソフトウェアに関する法的問題は、AI 技術が産業利用可能な技術として近年急速に発展・普及してきたため、①AI 技術の特性を当事者が理解していないこと、②AI 技術を利用したソフトウェアについての権利関係・責任関係等の法律関係が不明確であること、③ユーザがベンダに提供するデータに高い経済的価値や秘密性がある場合があること、④AI技術を利用したソフトウェアの開発・利用に関する契約プラクティスが確立していないことに主に起因していると考えられる。以下、これらの問題の所在と、これらの問題を本ガイドライン(AI 編)によってどのように解決していくことを目指すかについて述べる。
(1) 問題の所在
① AI 技術の特性を当事者が理解していないこと
AI 技術がどのような技術なのか、どのような特性を有しているのかについて、現時点ではまだ共通の理解と認識が形成されておらず、そのような中では、当事者の意見の食い違いや誤解が生じ、トラブルが発生しやすい。
詳細については、後記第 2-4 のとおり、AI 技術を利用したソフトウェアと従来型のソフトウェアの開発における違いとして、たとえば、成果物(後述する学習済みモデル)の精度が、学習に利用するデータに大きく依存するため、開発の初期段階で、どのような成果物が完成するか予測することが、原理的に困難なことが挙げられる。
このような AI 技術の特性が理解されていない結果、成果物の性能保証等をめぐって、ユーザとベンダとの間で決着がつかない議論が展開されるおそれがある。
② AI 技術を利用したソフトウェアの権利関係・責任関係等の法律関係が不明確であること
AI 技術の急速な発展・普及に法律が追い付いていないため、AI 技術を利用したソフトウェアに関する権利関係や責任関係について、法律によって明確にされていない部分が多い。
権利関係については、たとえば、学習済みモデルを構成する学習済み
パラメータについて著作権が生じるか否かという点について、確立された解釈は存在していない。
責任関係については、たとえば、ユーザがデータを提供しベンダが開 発した AI 技術を利用したソフトウェアが第三者に損害を与えた場合に、その損害がデータに起因するのか、プログラムに起因するのかについ ての判断は容易ではなく、民法等の法律の規定によって、ユーザとベン ダがどのように損害賠償責任を分担することになるかについては明確 ではない。
このように法的関係が法律によって明確に示されていない場合、当事者の予測可能性が担保されていないため、開発・利用に対して消極的となってしまうおそれがある。また、契約締結交渉において、お互いに責任分担を押し付けあう結果、交渉がまとまらずに契約が不成立となることも考えられる。さらに、実際にトラブルが生じた場合、それを解決するための指針がないため、問題解決が困難となる。
③ ユーザがベンダに提供するデータに高い経済的価値や秘密性がある場合があること
精度が高く競争力のある AI 技術を利用したソフトウェアを開発するためには、一般的には学習のための高品質で大量のデータが必要である。AI 技術を利用したソフトウェアの開発においては、開発期間の前半には、データの取得と加工に時間と労力をかけることも多い。このように AI 技術を利用したソフトウェアの開発は、データとセットで考える必要があり、開発に必要なデータは、ユーザからベンダに提供されることが一般的である。
ユーザからベンダに提供されるデータは、ユーザが、多大な労力と費用をかけて入手したものであったり、顧客データ、生産管理データ、ノウハウが化体したデータ等、企業としての競争力の源泉となる経済的価値や秘密性があるデータである場合もある。
ユーザとしては、このようなデータを提供することによって、データやノウハウが外部に流出してしまい、企業としての競争力を失ったり、秘密保持義務違反や個人情報保護の問題が生じることを懸念することも多い。また、ユーザとしては、提供したデータから生成された学習済みモデル等の開発の成果物は、自らが提供したデータの上に成り立っていると考える傾向にある。
他方で、ベンダは、たとえば、学習済みモデルに含まれる学習済みパラメータから提供された生データを読み取ることは一般的に困難であることから、情報流出の懸念はないと考える傾向にある。また、ベンダには、学習済みモデルの利活用を図るという観点から、ユーザのデータを使って学習した学習済みモデルを、そのユーザ以外の第三者にも提供したいというニーズがある。
そこで、かかるユーザのデータに対するニーズと、ベンダの成果物の利活用に対するニーズをどのように調整するかが問題となる。このような問題は必ずしも AI 技術を利用したソフトウェア特有のものではないが、学習用データセットにその性能が大きく依存する学習済みモデルの生成において、特に先鋭化しやすい状況にあるといえる。
④ AI 技術を利用したソフトウェアの開発・利用に関する契約プラクティスが確立していないこと
AI 技術を利用したソフトウェアの開発・利用に関する契約については、契約当事者の知識・経験も十分に形成されておらず、AI 技術を利用したソフトウェアの有する特性、データ・ノウハウの価値、相手方の立場について十分に理解されないままに契約交渉が行われていることも少なくない。
そのような状態では、権利関係や責任の所在について、当事者が現実的ではない要求を押しつけたり、逆に過度に防衛的になることで、当事者間で話が平行線をたどって契約がまとまらないことも考えられる。そうなると、AI 技術の開発・利用が阻害されたり、AI 技術の開発・利用の範囲が限定されてしまう。また、契約条項に誤解や見落としがあるままで契約を締結したために、トラブルが発生した際の解決コストが高くなってしまうリスクもある。
しかも、このような状況を打破するための利益調整の解決方法も広 く知られていない。そうなると、ユーザ等のデータの提供者は、データ やノウハウの価値が下がることや外部流出してしまうことを懸念して、データを外部提供することに躊躇してしまう。他方で、ベンダ等のデー タの受領者は、データ提供者に AI 技術に関する知的財産権やノウハウ を奪われてしまうことや、トラブルが発生したときに過大な責任を負 わせることになることを懸念して、開発やサービス提供に対して消極 的となってしまう。
このような状況のままでは、AI 技術の開発・利用が阻害されてしまい、AI 技術が社会にもたらす様々なメリットを人々が享受できなくなってしまうおそれがある。
(2) 解決方法
上記の問題に対して、本ガイドライン(AI 編)は次の方法によって解決することを目指している。
① AI 技術の特性を当事者が理解していないこと
また、AI 技術の特性は、契約による当事者間のリスク分配を直ちに決するものではなく、あくまでも、リスクの評価の一要素にすぎない。この点については、AI 技術に関する契約であっても、既存の契約となんら変わらない。
3 ただし、本ガイドライン(AI 編)で解説する AI 技術の特性は、必ずしも、AI 技術に特有のものではない場合があることには留意が必要である。たとえば、従来型のソフトウェアであっても、xxの入力(データ)に対する性能保証が必ずしも容易であるというわけではなく、相対的な違いに留まるともいえる。
たとえば、事業上は、学習済みモデルの生成やこれを利用したサービスの対価の支払いを一定の結果や KPI4の達成にかからせる方法等の支払条件のバリエーションにより、ベンダとユーザのバランスをとるとの方法は考えられる。
また、AI 技術の不確実性に伴うリスクを織り込んだ上で、対価を調整することも考えられ、そのような調整が難しいのであれば、契約を断念することも当然にあり得る選択肢である 5。
そのため、AI 技術の特性は、契約締結に際して重要な要素ではあっても、決定的な要素ではない。その内容を十分に理解した上で「AI」とのマジックワードに惑わされない、冷静かつ現実的な事業判断が重要となることはいうまでもない。
② AI 技術を利用したソフトウェアに関する権利関係・責任関係等の法律関係が不明確であること
AI 技術を利用したソフトウェアに関する権利関係・責任関係等の法律関係が不明確であるという問題に対しては、契約によって当事者間の権利関係や責任関係を定めることが考えられる。
これによって、法律では不明確な当事者間の権利関係や責任関係を明確化することができる。本ガイドライン(AI 編)および末尾に付したモデル契約(以下「本モデル契約」という。)は、学習済みモデルの開発契約における基本的な考え方を示すことで、当事者間において立場が違うために、議論が平行線となって交渉が進まなくなりがちな事項について、状況を打開するための手がかりとなる考え方を提示している。
また、AI 技術を利用したソフトウェアに関する権利関係については、契約の中に、権利の帰属について定めるだけではなく、成果物やデータに対する利用条件をきめ細やかに設定していくことで、当事者の目的を達成するための柔軟な枠組みを提示している。このような柔軟な枠組みは、契約だからこそ可能になるといえる。この枠組みは、学習済みモデル等について、開示するものと開示しないものを分けて利活用するというオープン・クローズの戦略の活用にも資することになろう。
③ ユーザがベンダに提供するデータに高い経済的価値や秘密性がある場合があること
ユーザがベンダに提供するデータに高い経済的価値や秘密性がある 場合があることによるユーザの懸念や権利主張という問題に対しては、本ガイドライン(AI 編)および本モデル契約は、上記のとおり、成果 物やデータに対する利用条件をきめ細やかに設定していく枠組みを提 示し、この利用条件において、当事者の状況や提供するデータの性質を 反映した条件を設定することによって、ユーザのデータの取扱いに対 するニーズとベンダの成果物の有効活用についてのニーズの調和を図 るという考え方を提示している。
4 Key Performance Indicator の略称であり「重要業績評価指標」とも呼ばれる。
5 この意味で、本ガイドライン(AI 編)は、契約締結を至上の目的とするものではない。
④ AI 技術を利用したソフトウェアの開発・利用に関する契約プラクティスが確立していないこと
AI 技術を利用したソフトウェアの開発・利用に関する契約プラクティスが確立していないという問題に対しては、「探索的段階型」の開発方式を提唱し、その上で各段階について、モデル契約を提供している。すなわち、具体的には、本ガイドライン(AI 編)は、AI 技術を利用 したソフトウェア開発の特徴として、たとえば、学習済みモデルの内容・性能等が契約締結時に不明瞭な場合が多いことや、その内容・性能等が学習用データセットに依存することがあることを踏まえて、開発プロセスに、①学習済みモデルの実現可能性を検討するアセスメント段階、②PoC6段階、③開発段階、④追加学習段階を設けて、段階ごとに AI 技術によって自らの目的を実現することができるか否かや、次の段階に進むか否かについて探索しながら、それらの検証と当事者相互の確認を得ながら段階的に開発を進めていくプロセス(「探索的段階型」の開発方式)を導入することを提唱している。この「探索的段階型」の開発方式は、最初に要件定義を固めるウォーターフォール形式と異な
り、試行錯誤型の開発を許容する開発方式である。
帰納的に推論を行う AI 技術を利用したソフトウェア開発では、開発初期段階で成果物を確定的に予測することが、演繹的に推論を行う従来型のソフトウェアの開発と比較すると難しく、また、ユーザとベンダの間の認識にも違いが生じやすい。そこで、このように開発における段階を複数に分ける「探索的段階型」の開発方式をとることによって、当事者が開発を進める中で成果物の具体的内容をすりあわせていくことが可能となり、成果物について、その性能保証の適否を含めた、ユーザとベンダの認識の違いが生じることをできるだけ防ぐことができる。
また、「探索的段階型」のプロセスでは、開発を進める中で必要な性能を有する成果物ができないことが判明した場合には、次の段階に進まないという選択をすることができる。このように「探索的段階型」の開発方式を採用することにより、成果物について当事者の認識の違いから生じるトラブルや開発が失敗することによるリスクを限定することが可能となる。
加えて、本ガイドライン(AI 編)は、本文で「探索的段階型」のプロセスを含めた契約の基本的な考え方を解説すると共に、末尾にモデル契約を提供している。
本ガイドライン(AI 編)が、このような情報を広く世の中に提供することで、AI 技術を利用したソフトウェアの開発・利用に関する契約プラクティスが形成されていく一助となれば、契約プラクティスが確立していないという問題の解消が促進されることになるであろう。
3 対象
(1) 想定する契約当事者
本ガイドライン(AI 編)の想定する契約当事者は、大企業から中小企業までの全ての企業である。
6 PoC(Proof of Concept)とは、概念実証のことであり、新たな概念やアイデアを、その実現可能性を示すために、部分的に実現することを意味する。
AI 技術を利用したソフトウェアの開発・利用におけるユーザとしては大企業から中小企業まで様々な企業が想定される。他方、AI 技術を利用したソフトウェアを開発するベンダとしては、大手 IT ベンダだけではなく、ベンチャー企業等も存在する。
そのため、本ガイドライン(AI 編)で想定している AI 技術を利用したソフトウェアの開発契約またはサービス契約は、当事者としては大企業に限定したり、中小企業に限定することはしていない。
このように、本ガイドライン(AI 編)では中小企業が当事者となり得ることを想定しているところ、中小企業においては、法務知識を有する人材が十分にいないことがあることや、開発対象として大規模なシステム開発を想定していないことから、本モデル契約はシンプルなものを目指した。
(2) 対象ソフトウェア
本ガイドライン(AI 編)の対象ソフトウェアとしては、事業やオペレーションに関する一定の目的を実現するための AI 技術を利用したソフトウェア、特に学習済みモデルを想定している。これは、AI 技術を利用したソフトウェアについては、現時点では、企業の基幹システムよりも、事業やオペレーションに関する特定の目的を実現するために AI 技術を利用したソフトウェアを用いることが多いと考えられるからである。
(3) モデル契約 2007 等との関係
2007 年公表の経済産業省のモデル取引・契約書(第一版)(以下「モデル契約 2007」という。)は、契約当事者として、対等に交渉力がある大企業のユーザ・ベンダを想定しており、対象システムとして、重要インフラ・企業基幹システムの受託開発、保守・運用を想定している。
また、2008 年公表のモデル取引・契約書(追補版)は、契約当事者として、IT の専門知識を有しない中小企業のユーザと業として情報サービスを提供するベンダを想定しており、対象システムとしては、財務会計システム、販売管理システム等の導入等としている。
本ガイドライン(AI 編)の想定はモデル契約2007 等の想定と異なるが、これは、現時点における AI 技術を利用したソフトウェアの開発・利用の状況を踏まえたことにより生じた違いである。
4 全体構成
本ガイドライン(AI 編)の構成は次のとおりである。
第1 総論
本ガイドライン(AI 編)の目的や対象を述べる。
第2 AI 技術の解説
AI 技術の基本的概念や AI 技術を利用したソフトウェア開発の特徴について解説する。
第3 基本的な考え方
AI 技術を利用したソフトウェア開発・利用契約について基本的な考え方を述べる。
第4 AI 技術を利用したソフトウェアの開発契約
学習済みモデルの開発契約について契約の考え方や契約締結時の考慮要素等を述べる。
第5 AI 技術の利用契約
AI 技術の利用サービスの契約の考え方や考慮要素等を述べる。第6 国際的取引の視点
外国企業との間で学習済みモデルの開発契約や利用契約を締結する際の考慮要素等を述べる。
第7 本モデル契約について
学習済みモデルの生成について、本モデル契約の基本的な考え方を述べ、本モデル契約を示す。
第8 総括
本ガイドライン(AI 編)を総括する。
なお、本ガイドライン(AI 編)の末尾にユースケースを示している。
5 本ガイドライン(データ編)との関係
既に述べたとおり、AI 技術を利用したソフトウェアの開発をするには、データが重要である。また、AI 技術を利用したソフトウェアの学習に利用される学習用データセットや学習済みモデルに含まれる学習済みパラメータはデータそのものである。
データの提供・利用に関する法的問題や利害調整の方法については、本ガイドライン(データ編)が正面から取り上げており、詳細な検討を行っている。データに関する一般的な取扱いについての基本的な考え方や契約条項例については、本ガイドライン(データ編)を参照されたい。
第2 AI 技術の解説
1 基本的概念の説明
(1) AI(人工知能・Artificial Intelligence)
「AI」とは「Artificial Intelligence」の略称であり、日本語では「人工知能」と訳される。従前より、この「AI」という言葉は、多義的に用いられてきた。たとえば、脳科学や神経科学の分野においては、生物学的なアプローチから人間の知能そのものについて理解しようというような試みが行われているし、コンピュータサイエンスの分野においては、人間が知能を使って行うことを機械に行わせようというような試みが行われている。
近年、主としてコンピュータサイエンスの分野において、この「弱い AI」は、機械学習に関する技術として理解され、特に画像処理や自然言語処理のxxxにおいて、広く利用されている。
本ガイドライン(AI 編)は、現在実用化が進められているのは「弱い AI」であるという認識の下、「AI」という言葉を、「弱い AI」、中でも特に機械学習に関する学問分野(研究課題)を意味するものとして説明を行うこととする。
もっとも、このような定義は、本ガイドライン(AI 編)で、便宜上用 いるものにすぎない。すなわち、上述の立場を前提とする場合であっても、
「AI」を「強い AI」と理解する立場も当然存在するし、また、「AI」を
「弱い AI」と理解した場合であっても、機械学習とは異なるアプローチによってそれを実現しようとする立場もあるため留意されたい。
(2) AI 技術
「AI 技術」とは、人間の行い得る知的活動をコンピュータ等に行わせる一連のソフトウェア技術の総称である。なお、本ガイドライン(AI 編)では、便宜上、「AI 技術」と表記した場合、後述する「機械学習」、またはそれに関連する一連のソフトウェア技術のいずれかを意味するものとする。
(3) 機械学習(マシンラーニング・Machine Learning)
「機械学習」とは、あるデータの中から一定の規則を発見し、その規則に基づいてxxのデータに対する推測・予測等を実現する学習手法の一つである。
コンピュータサイエンス分野の研究者および実務家の中でも、機械学習という用語は多義的に使用されており、必ずしも、確立した定義は存在しないものと思われる。現に、機械学習に分類される手法としても、サポートベクターxxxx(SVM)、決定木、ニューラルネットワーク、クラ
7 一般社団法人人工知能学会、xxxx://xxx.xx-xxxxxx.xx.xx/xxxxxxx/XXxxxxxxxx.xxxx
スタリング等種々のものがあり、その外延の確定は容易ではない。
もっとも、開発的過程に着目すれば、機械学習を用いた技術開発が帰納的 8に行われるという点で、概ね共通すると思われる。すなわち、機械学習を利用したソフトウェア開発においては、従来のソフトウェア開発のように演繹的なアプローチではなく、実際に観察される事象(データ)に基づいて帰納的にソフトウェア(たとえば、学習済みモデルに該当する)開発を行うという点で共通するものと考えられる。
また、機械学習の手法を用いたソフトウェア開発には様々なアプローチがあるが、本ガイドライン(AI 編)では①「教師あり学習」、②「教師なし学習」、③「ディープラーニング」と呼ばれるアプローチについて概説する。
① 教師あり学習(Supervised Learning)
機械学習の手法の一つであり、ある入力に対して望まれる出力(正解)が事前に与えられたデータセット(学習用データセット)から一般化し た法則を導き出すために利用される学習手法である。
正解の付与が容易な場合、たとえば、画像認識のxxxでよく用いられている。
② 教師なし学習(Un-supervised Learning)
機械学習の手法の一つであり、事前に正解が与えられていない学習用データセットから一般化した法則を導き出すために利用される学習手法を意味する。
たとえば、クラスタリングがこれに該当する。
③ ディープラーニング(Deep Learning)
近時着目されている学習方法として、ディープラーニング(Deep Learning)がある。これは、機械学習の一手法であるニューラルネット
(脳の情報処理を模して開発された機械学習の一手法)を多層におい て実行することで、より精度の高い推論を目指した手法である。他の機 械学習と比較しても、学習用に大量のデータが必要となるものの、近年 の技術開発(コンピュータの処理速度の向上(CPU・GPU 等)、インタ ーネットによりデータ収集の容易化、クラウドによるリソース利用・デ ータ保存コストの低下等)により、今後更なる利用が期待されており、 特に、画像認識や自然言語処理等の分野において、広く利用されている。
ディープラーニングは、教師あり学習の一手法として分類されることもあるが、近年ではディープラーニングの手法であっても正解データを与えることを要しない手法が開発されており、教師なし学習の一手法としても、利用されている。
8 「帰納法」とは、多数の観察された事象から得られる傾向や性質を捉えて最終的な結論を導くという手法である。これに対して、「演繹法」とは、思考の基本となる前提を構築し、その前提に基づいて、次の前提を導くということを繰り返して、最終的な結論を導く手法である。
2 対象とする AI 技術
(1) 従来型のソフトウェア開発との違い
前記第 2-1-⑶のとおり、本ガイドライン(AI 編)では、AI 技術、すなわち、「機械学習」を「あるデータの中から一定の規則を発見し、その規則に基づいてxxのデータに対する推測・予測等を実現する学習手法の一つ」として定義している。
従来型のソフトウェア開発においては、まずソフトウェアの仕様を詳細に定義し、既に知られた法則や知識を念頭に、実装の工程を段階的に詳細化していくという演繹的な開発手法が用いられている(以下、このような演繹的な開発手法を用いるソフトウェア開発を「従来型のソフトウェア開発」という。)。
これに対して、機械学習の手法を取り入れたソフトウェア開発においては、実際に観察される事象(データ 9)を用いた帰納的な開発手法を用いることから、仕様の定義、実装や評価の方法等に従来型のソフトウェア開発とは異なる方法論が用いられる場合がある。
(2) 機械学習の位置づけ
前記第 1-3 のとおり、本ガイドライン(AI 編)は、近年、研究開発が進む統計的性質を利用する機械学習(統計的機械学習)、特に、ディープラーニングを念頭に置いて作成されている。これはディープラーニングへの関心が近年高まっている状況に加えて、ディープラーニングを利用した技術開発には、従来のソフトウェア開発と特に異なる点が存在するからである。
言い換えれば、本ガイドライン(AI 編)は、各種機械学習の手法を対象としつつも、説明の便宜とわかりやすさの観点から、ディープラーニングを例として、従来のソフトウェア開発と特に異なる開発過程に着目し、契約の考え方について、解説を行うものである。
なお、実務上は、ディープラーニングのみに留まらず、複数の機械学習手法を組み合わせたり、演繹的なアプローチにより開発された既存のソフトウェアと組み合わせることで、システム開発を行う場合も多々存在する。このような場合、従来のソフトウェア開発の際に締結されていた契約手法と本ガイドライン(AI 編)において提案される契約手法を適宜組み合わせて利用することで、当事者間の紛争を解決する一助となることを期待するものである。
3 想定する AI 技術の実用化の過程
(1) 実用化の過程
本ガイドライン(AI 編)では、AI 技術を利用したソフトウェア、典型的には学習済みモデルの実用化の過程において、まず、①学習済みモデルの生成段階(以下「学習段階」という。)があり、次いで、②生成された学習済みモデルの利用段階(以下「利用段階」という。)があることを想定している。その概要は下図のとおりである(本ガイドライン(AI 編)における各々の用語の意味は後記第 2-3-⑵から第 2-3-⑷のとおりである。)。
9 たとえば学習用データセットが想定される。
図 1:学習段階・利用段階の流れ
① 学習段階
学習段階は、センサやカメラ等何らかの方法により収集・蓄積された
「生データ」から、最終的成果物としての「学習済みモデル」を生成することを目的とする段階である。その過程は、次の二つに細分化することができる。
a 学習用データセットの生成段階
生データは、欠測値や外れ値を含む等、そのままでは学習を行うのに適していないものであることが多い。そのような場合には、生データに対して何らかの加工を施す必要がある。
また、特に教師あり学習のアプローチをとる場合には、たとえば画像データに一定のラベル情報を付す等の方法により、あるデータの入力に対する正解を規定することで作成された、いわゆる正解データを用意する必要がある。
このように、機械学習の手法により学習を行う場合、生データから学習済みモデルを生成するための第一段階として、学習を行うのに適した学習用データセットを生データから生成する過程を経ることが必要となる。
b 学習済みモデルの生成段階
学習用データセットの中から一定の規則を見出し、その規則を表現するモデルを生成するためのアルゴリズムを実行する「学習用プログラム」を用意する必要がある。
生データから生成された学習用データセットを学習用プログラムに対する入力として用いることで、一定の目的のために機械的に調整された「学習済みパラメータ」を含むモデルを得ることができる。これをプログラムに実装することで、ソフトウェアとしての「学習済みモデル」を得ることができる。
② 利用段階
利用段階は、学習済みモデルに「入力データ」を入力し、その出力として一定の結果(「AI 生成物」)を得ることを目的とする段階である。なお、実務において、一度学習を終了し学習段階から利用段階に移行 した場合であっても、再度、利用段階から学習段階に移行するような場合もある。たとえば、利用段階において学習済みモデルによって思うような結果が得られない場合や学習段階においては想定できなかった事象が生じたような場合に、利用段階において逐次収集・蓄積されたデータを用いて、再度、学習させることにより、新たな学習済みモデルを生
成することで、精度が向上する場合があるためである。
(2) 学習段階の各要素
本ガイドライン(AI 編)では、学習段階の要素として「生データ」、
「学習用データセット」、「学習用プログラム」、「学習済みモデル」および「ノウハウ」の 5 つを想定している。
① 生データ
「生データ」10とは、ユーザやベンダ、その他の事業者や研究機関等により一次的 11に取得されたデータであって、データベースに読み込むことができるよう変換・加工処理されたものをいう。
たとえば、ある事業者の事業活動から副次的に発生し、収集・蓄積されたデータであって、前記の変換・加工処理を施されたものはこれに該当する。生データは、欠測値や外れ値を含む等、そのままでは学習を行うのに適していないものであることが多い。
また、生データは、生成される学習済みモデルの内容・品質に大きな影響を及ぼす。
ここで、生データに対して、生データとは別個のデータ(以下「付加
10 本ガイドライン(AI 編)では、このように「生データ」が既に変換・加工処理を施されたデータであることを前提としている。もっとも「生データ」との用語は、実務上、利用者によって多義的に使用される傾向があり、その意味で、本ガイドライン(AI 編)の用法に限定されるものではない。たとえば、センサから取得された未加工のデータを「生データ」と呼ぶことも当然にあり得る(本ガイドライン(データ編)第 5-1-⑵参照)。そのため、契約当事者間でその意味内容についての認識を確認しておくことが重要であろう。
11 ここでの「一次的」とは、学習用データセットへの変換・加工処理前との趣旨で用いている。
12 「訓練データセット」と呼ばれることもある。
13 このように、学習用データセットの生成には、生データそのものに何らかの加工を行う、 生データに付加データを付加する、あるいはこれらを組み合わせる等の手法が考えられる。もっとも、説明の便宜のための分類にすぎず、これら手法に厳格な区別があるわけではない。
データ」という。)を付加する場合(このような付加データの付加行為を「アノテーション」ということもある 14。)、そのような付加データには、生データと同様に、生成される学習済みモデルの内容・品質に大きな影響を及ぼす一方、生データから独立した形式ではその用をなさないという性質がある。そのため、生データとこれに対する付加データとがいわば一体となったものを学習用データセットと見ることが適切であろう。教師あり学習の手法を用いる場合についていえば、前処理が行われた生データにラベル情報(正解データ)を合わせたものが学習用データセットに該当する。
また、学習用データセットには、生データに一定の変換を加えていわば「水増し」されたデータを含むこともある(この手法はデータオーギュメンテーション(データ拡張)とも呼ばれる場合がある。)。
③ 学習用プログラム
「学習用プログラム」とは、学習用データセットの中から一定の規則を見出し、その規則を表現するモデルを生成するためのアルゴリズムを実行するプログラムをいう。具体的には、採用する学習手法による学習を実現するために、コンピュータに実行させる手順を規定するプログラムがこれに該当する。
学習用プログラムは、ベンダが既に保有している場合もあれば、それに一定の機能を付加する場合、ゼロから作り上げる場合がある。また、学習用プログラムの開発においては、OSS(オープン・ソース・ソフトウェア)と呼ばれるソースコードが一般に公開され、著作者により一定の範囲の利用が許諾されたソフトウェアを利用することが多い。
④ 学習済みモデル
「学習済みモデル」とは「学習済みパラメータ」が組み込まれた「推論プログラム」をいう。
a 学習済みモデルの多義性
実務上、「学習済みモデル」という言葉は、利用する者によって、学習済みパラメータを組み込んだ推論プログラムだけでなく、「生データ」、「学習用データセット」、「学習用プログラム」、「推論プログラム」、「学習済みパラメータ」、「その他派生的な成果物」を含む概念として多義的に用いられる場合があり、確立した定義がないのが実情である。
しかしながら、「学習済みモデル」が具体的にどのような意味で使用されているのか、具体的にどこまでの範囲(成果物)が学習済みモデルを意味するのかについては、後記第 3-3 及び第 3-4 の各種論点
(権利帰属・利用条件の設定や責任の分配等)を論じる上でも、非常に重要である。そのため、後記第 4-4-⑵-④のとおり、学習済みモデルの内容(具体的な定義や範囲)については、事前に契約の当事者間で十分に議論を行い、明確に定めておくことが望ましい。
14 特にディープラーニングによる学習に際して「アノテーション」との用語が用いられることが多い。
本ガイドライン(AI 編)では、著作権法上の保護対象がプログラムである点や、ベンダとユーザ間での学習済みモデルに関する取引の実態を考慮して、便宜上、「学習済みパラメータ」が組み込まれた
「推論プログラム」を一体として「学習済みモデル」と呼ぶこととする。
b 学習済みパラメータ
「学習済みパラメータ」とは、学習用データセットを用いた学習の結果、得られたパラメータ(係数)をいう。
学習済みパラメータは、学習用データセットを学習用プログラムに対して入力することで、一定の目的のために機械的に調整されることで生成される。学習済みパラメータは、学習の目的にあわせて調整されているものの、単体では単なるパラメータ(数値等の情報)にすぎず、これを推論プログラムに組み込むことで初めて学習済みモデルとして機能する。たとえば、ディープラーニングの場合には、学習済みパラメータの中で主要なものとしては、各ノード間のリンクの重み付けに用いられるパラメータ等がこれに該当する。
これに対して、学習のために設定する学習率や学習回数(エポック)等については、このような学習済みパラメータとは性質を異にして、学習の枠組みを規定するために用いられるパラメータであり、主と して人為的に決定されるため「ハイパーパラメータ」と呼ばれること がある。
c 推論プログラム
「推論プログラム」とは、組み込まれた学習済みパラメータを適用することで、入力に対して一定の結果を出力することを可能にするプログラムをいう。
たとえば、入力として与えられた画像に対して、学習の結果として取得された学習済みパラメータを適用し、当該画像に対する結果(認証や判定)を出力するための一連の演算手順を規定したプログラムである。
d 派生的な学習済みモデル
後記第 2-4-⑴-④のとおり、学習済みモデルについては、再利用の需要が存在するが、実務上は、特に、再利用モデルや蒸留モデル等派生的な学習済みモデルの取扱いが問題となることが多い。学習済みモデルの定義が多義的であることから、これらの派生的な学習済みモデルの定義も多義的とならざるを得ないが、本ガイドライン(AI)編では、便宜上、次のとおり定義する。
まず、「追加学習」とは、既存の学習済みモデルに、異なる学習用データセットを適用して、更なる学習を行うことで 15、新たに学習済みパラメータを生成することを意味する。そして、「再利用モデル」とは、追加学習により新たに生成された学習済みパラメータが組み
15 学習済みモデルの精度の維持または向上を行うことや、当初学習させた領域と異なる領域に適応させること等を目的とすることが考えられる。
込まれた推論プログラムを意味する。
次に、「蒸留」とは、既存の学習済みモデルへの入力および出力結果を、新たな学習済みモデルの学習用データセットとして利用して、新たな学習済みパラメータを生成することを意味する。そして、「蒸留モデル」とは、蒸留により新たに生成された学習済みパラメータが組み込まれた推論プログラムを意味する。
⑤ ノウハウ
ノウハウはそれ自体多義的な用語ではあるが、本ガイドライン(AI 編)において、「ノウハウ」とは、AI 技術の研究・開発・利用過程におい て、ベンダまたはユーザが有する知見、技術、情報等 16を意味する。具 体的に想定されるノウハウとして、次のものがある。なお、これらのノ ウハウは、特許法上の発明の対象となる場合もあるであろう。
a 生データの取得・選択
生データの取得に関するノウハウは、原則として生データの提供主体(多くの場合データを提供するユーザ)が有するものであるが、 AI 技術の適用にあたって、ベンダが、生データの取得や選択(または、その助言)を行う場合もあり、このようなデータの取得や選択に関する知識もノウハウになり得る。
たとえば、画像処理に関する学習を行う場合、どのような画像データ(画像の種類や条件等)を取得すれば学習を行いやすいのかについてのノウハウは、そのような学習の経験を有するベンダが有している場合もある。一方で、繊細な動きをするロボットに関する学習を行う場合、学習を行うためのデータには、ロボットのハードウェアとしての特性や性質等が大きく影響することがあり、ユーザがノウハウを有しているような場合もある。
b 学習用データセットへの加工
学習に適した生データ加工のノウハウについてはベンダ側が有していることが一般的である。たとえば、画像処理に関する学習を行う場合に画像に対してどのようなラベル付けを行えば学習をし易いのかということは、画像処理に関する学習を行った経験を有するベンダであれば、ある程度推測が可能な場合もある。このような知見がある場合、通常、ベンダが有するノウハウといえるだろう。
他方、生データ加工のノウハウについては、ユーザ側が有していることも想定されるところである。たとえば、生データにラベル情報
(正解データ)を付与する場合にあたりユーザの業務ノウハウを必要とする場合もあるであろう。
c 学習用プログラムを用いた学習
学習用プログラムを用いた学習には、ベンダのノウハウが用いられることが多い。この際、ハイパーパラメータの調整も行われるが、
16 ベンダについては、AI 技術の研究・開発に関して有する知見、技術、情報等が、ユーザについては、AI 技術の適用対象となる業務に関して有する知見、技術、情報等が含まれる。
これもノウハウに含まれる。
学習を行う場合、既存(単一)の学習手法(またはソフトウェア)のみを用いて精度の良い学習済みモデルを生成することは困難な場合が多く、ベンダにより複数の学習手法(またはソフトウェア)を組み合わせて、最終的な学習済みモデルの生成が行われることがある。たとえば、このような場合に、ベンダが学習を行う際に、どのような学習手法を採用するのか、また採用した学習手法をどのような順番で処理をするのか等は、ベンダ独自の工夫が含まれる場合も多く、ノウハウとなり得る。
なお、このような工夫が顕著な場合、このような学習手法の組合せや処理の順序等のアルゴリズムについても直接的または間接的に特許取得の対象となる場合がある。
d 学習済みモデルの調整
学習済みモデルを本番環境で使うためには、調整が必要となり、これにはユーザやベンダのノウハウが用いられる。たとえば、AI を搭載した画像認識機能を有する防犯カメラのような場合、認識対象となる可能性の高い対象を限定し、認識の精度を高めるような場合もある。このような場合、防犯カメラの設置位置や角度等、認識対象となる画像が取得しやすいような調整を行う場合がある。
(3) 利用段階の各要素
本ガイドライン(AI 編)では、利用段階の要素として「入力データ」、
「学習済みモデル」、「AI 生成物」および「ノウハウ」を想定している。
「学習済みモデル」と「ノウハウ」については、前記のとおりである。
① 入力データ
「入力データ」とは、学習済みモデルに入力することで AI 生成物を出力するためのデータを指す。学習済みモデルの利用目的にあわせて、音声、画像、動画、文字、数値等様々な形態をとる。
② AI 生成物
「AI 生成物」とは、学習済みモデルに入力データを入力することで、 出力されたデータを指す。学習済みモデルの利用目的にあわせて、音声、画像、動画、文字、数値等様々な形態をとる。
(4) 学習段階および利用段階の関与者
本ガイドライン(AI 編)では、学習段階および利用段階の関与者として「ベンダ」と「ユーザ」を想定している。
① ベンダ
本ガイドライン(AI 編)において、「ベンダ」とは、学習済みモデル等の AI 技術を利用したソフトウェアの開発やこれを用いたサービス提供を行う者を指す。ベンダは、AI 技術を利用したソフトウェアに関する専門知識を有していることが多く、そのような場合には、ベンダが AI技術を利用したソフトウェアに関するプログラム・ノウハウ等の作成・
提供を行う。
なお、本ガイドライン(AI 編)では、「ベンダ」として、SIer からベンチャーまで多様な企業を想定している。
② ユーザ
本ガイドライン(AI 編)において、「ユーザ」とは、事業等の一定の目的を達成するために、ベンダに対して、対価を支払って、AI 技術を利用したソフトウェアに関する研究・開発・サービス提供等を依頼する者を意味する。
なお、AI 技術を利用したソフトウェアの開発は、ユーザの事業に適用することを目的とすることから、生データや学習用データセット等の学習に利用するデータについてはユーザが提供する場合が一般的であり、その生成にユーザが重要な役割を果たす場合も少なくない(このデータにユーザのノウハウが反映されている場合もある。)。
4 AI 技術を利用したソフトウェア開発の特徴
(1) 従来型のソフトウェア開発と比較した特徴
AI 技術を利用したソフトウェアの開発、典型的には、学習済みモデルの生成については、従来型のソフトウェア開発と比較して、①学習済みモデルの内容・性能等が契約締結時に不明瞭な場合が多いこと、②学習済みモデルの内容・性能等が学習用データセットによって左右されること、③ノウハウの重要性が特に高いこと、および④生成物について更なる再利用の需要が存在すること等の特徴を有するため、契約において、特に留意すべき点がある。以下、簡単に解説する。
① 学習済みモデルの内容・性能等が契約締結時に不明瞭な場合が多いこと
従来型のソフトウェア開発の場合、その基本的な作業は、一般的に、
「入力値の処理手順を一定のルールとして記述し、その記述をコード化する」という演繹的なものである。あらかじめ開発対象物が特定されており、かつ、その動作原理も直感的に把握しやすいことが多い。
他方、学習済みモデル生成の場合、学習用データセットという限られたデータのみからxxの様々な状況における法則を推測するという性質上、AI 技術に習熟した技術者であっても、推測対象となるxxのあらゆる事象を予測して学習を行うのは極めて困難である。
その結果、AI 技術を利用したソフトウェアの開発を伴う契約を締結する際には、次の特性を踏まえた上で、当事者間のリスク分配を検討する必要が生じる。
a 事前の性能保証が性質上困難であること
従来型のソフトウェア開発の場合、開発初期の企画・要件定義段階においてユーザとベンダが適切かつ十分に協議すれば、どのようなソフトウェアが開発されるかがわからないという事態は想定しがたい。また、開発されたソフトウェアについては、その内部的な計算・処理過程が明確であるが故に、その挙動を予測することも比較的容易である。そのため、開発段階で取り扱われなかったxxの入力(デ
ータ)の処理についても、事前に一定の性能保証を行うことができる場合がある。
これに対して、学習済みモデル生成の場合、あらかじめベンダ等により用意された学習用データセットからユーザまたはベンダの求める挙動、精度および前提条件等を満たす学習済みモデルの生成が可能であるか、また、これを完成させることができるかを事前に予測することが困難である(開発対象確定の困難さ)。
そのため、当然ながら、契約時点においても、当事者が生成後の学習済みモデルの性能のイメージを共有して、契約を締結することが難しい。さらにいえば、学習済みモデルは、学習用データセット以外のxxの入力(データ)に対しての挙動が不明確であり、この点についても、契約時点の性能保証が困難であるといえる 17(性能確定・保証の困難さ)。
このように、学習済みモデルの生成においては、「開発対象確定の困難さ」、「性能確定・保証の困難さ」といった問題が生じることが多く 18、契約の当事者は、このような性質を契約時に十分に留意する必要がある。
b 事後的な検証等が困難であること
従来型のソフトウェア開発の場合、仮に契約時点において、期待されていた性能のソフトウェアが得られなかった場合、ソフトウェアの処理プロセスを再度検証・修正することによって、原因が特定できることも少なくない。このような場合、特定された原因に対して適切な対処を行うことで、結果的に、満足のいく性能のソフトウェアを開発することが可能になることも多い。
他方、学習済みモデル生成の場合、学習済みモデルの生成過程やその性質について、人間が直感的に理解することが困難な場合も多い。そのため、学習済みモデルによる推論結果が期待された精度を達成しない場合、学習用データセットの品質(性質)の問題であるのか、人為的に設定されたパラメータ(ハイパーパラメータ)の問題であるのか、あるいは、実行されたプログラムにバグがあるのか等の原因の切り分けが、現時点の技術水準においては、困難な場合がある 19。このような特性は、統計的機械学習の手法全般に共通した性質の一つであるが、中でもディープラーニングを始めとする深層学習において強く見られる性質である。
つまり、学習済みモデルの生成においては、従来型のソフトウェア開発の場合と異なり、事後的な検証に基づいて、満足のいく性能の学
17 他方、既知の入力(データ)に対する学習済みモデルの性能については、評価用データを含む評価条件を適切に設定・限定することにより、契約上、性能保証を行うことに合理性が認められる場合もあると考えられる。
18 このように学習済みモデル自体は、挙動が不明確なこともあるが、複合的なシステムを構築する場合であれば、たとえば、フェイルセイフ機構を設けることでシステム全体としての挙動を制御するということは考えられる。
19 もっとも、具体的な事案によっては、たとえば、学習済みモデルの精度不足が、学習用データセットのアノテーションの間違いに起因していることや、データの管理方法が適切ではなかったこと等の原因が特定できる場合もある。
習済みモデルを生成するという手段を選択することが困難であるという特性を有しているといえる。
c 探索的なアプローチが望ましいこと
以上のとおり、学習済みモデルの生成の場合、事前にどのような学習済みモデルが生成されるか予測ができず、また、生成されたモデルの挙動を事後的に検証することが困難である。
また、学習済みモデルの生成の場合、実際にベンダが負担する工数のうち非常に多くの工数を、学習を行う前段階のデータの加工や調整(学習用データセットの生成)にかける場合も少なくない一方で、学習それ自体は学習プログラムにより半自動的に実行される。そのため、学習の結果として、満足する結果が得られなかった場合に、新たなデータセットを用いて再度学習を行うことが、比較的容易な場合も多い。
このような事情から、学習済みモデルの生成の場合、探索的なアプローチを用いて試行錯誤を繰り返すことにより、ユーザの満足いく性能の学習済みモデルを生成するという手法を採用しやすいという特性を有している。
② 学習済みモデルの内容・性能等が学習用データセットによって左右されること
学習済みモデルの生成は、学習用データセットの統計的な性質を利用して行われるという性質上、次のような原理的な限界を有するとされている。
• 学習時と推論時(学習済みモデル)の確率分布が同一であることを前提としており、学習時と推論時の確率分布が大きく異なるような場合には機能しない場合があり得る。
• 学習用データセットに通常性質が反映されないような「まれな事象」に対して、推論が及ばない可能性がある。
• 学習データセットから統計的なバイアスを排除することは不可能であり、生成された学習済みモデルをxxデータに適用する場合には、本質的に誤差が含まれることになる。
そのため、学習済みモデルの性能は、学習用データセットの品質に依存する。すなわち、学習済みモデルが学習用データセットの統計的性質を反映して生成されることから、学習用プログラムの仕様に問題がないような場合であっても、ユーザの満足のいく性能の学習済みモデルが生成できないという事態も十分に想定される。
たとえば、学習用データセットに含まれるデータに本来の統計的性質を反映していないデータ(外れ値)が混入していた場合や、学習用データセットのデータに大きな統計的なバイアスが含まれていた場合等には、精度の高い学習済みモデルを生成することはできないことが多いため、ユーザおよびベンダの双方がこのような特性を十分に理解する必要がある。
③ ノウハウの重要性が特に高いこと
学習済みモデルの生成・利用過程において、ユーザおよびベンダの有する様々なノウハウが利用され、最終的に生成される学習済みモデルの性能に大きく影響する。
従来型のソフトウェア開発においても、もちろん、ノウハウの一般的な重要性は認められてきたが、学習済みモデルの生成においては、学習用データセットの加工方法や、学習用プログラムを実行する際のハイパーパラメータの設定等、従来型のソフトウェアで想定されていなかった新たな種類のノウハウが生じうる場面が多いところに特徴がある
20。
また、帰納的アプローチをとる学習済みモデルの生成では、演繹的な開発手法と比較した場合に、相対的に試行錯誤を繰り返すことが多い。そして、そのような試行錯誤の過程においては、暗黙知としてのノウハウの集積が生じやすく、かつ、かかるノウハウは類似の学習に際して応用可能であることも少なくない。このような事情も、また、学習済みモデルの生成におけるノウハウの重要性を高めているといえる。
そして、学習に関するノウハウは、ベンダのみならず、ユーザにも生 じ得るものである。たとえば、学習用データセットの加工について見る と、学習用データセットに通常性質が反映されないような「まれな事象」を学習データに含むのか、ノイズとして除去するのか等については、ま さに学習済みモデルを生成するベンダのノウハウといえる。他方、ユー ザについても、そのデータを日常的に取り扱っている場合には、ノウハ ウを有している場合があり、学習済みモデルの生成・利用において、そ のノウハウが重要な意味を持つこともある。
このように、学習済みモデルの生成においては、従来型のソフトウェア開発と比較して、ノウハウの重要性が高い場面が少なくないと思われる。もっとも、一言でノウハウといっても様々なものがあり、価値の高いノウハウもあれば、同業者であれば簡単に思いつくことができるノウハウもある。そのため、ノウハウであれば、どのようなものであっても重要であるわけではないことにも留意が必要である。
また、そもそも、ノウハウについては、確立した価値評価手法がないため、当事者の信じる価値(主観的価値)と、実際のノウハウの価値(客観的価値)が異なることがしばしばある。そのため、かかる対立が生じうることを認識の上、冷静に判断し、その利用条件を設定することが、当事者間の無用のトラブルを防止するために有益なことも多いであろう 21。
④ 生成物に更なる再利用の需要が存在すること
学習済みモデルの生成の場合、従来のソフトウェア開発における生
20 このようなノウハウには、特許法上の発明等の知的財産権の対象となり得るものもあると考えられる。また、秘密として管理されていれば不正競争防止法上の営業秘密として保護を受ける場合もある。
21 なお、xxxxの秘密性についても様々であり、秘密性の高いノウハウもあれば、秘密性の低いノウハウもある。そのため、秘密性についても、その評価をめぐって当事者間で見解の相違が生じることが考えられるが、同様に冷静に判断をして利用条件を設定することが求められる。
成物(プログラム)とは別に、学習段階で生成される学習用データセットや学習済みモデルが生成される。
この学習用データセットや学習済みモデルは、それ自体が多大なコストや時間をかけて生成されたものであり、また、学習済みモデルにおいては学習済みパラメータを変更することで精度の向上や他の目的での利用も可能となる場合があることから、従来のプログラムと比較して、より多くの場面で研究開発あるいは商業目的での再利用が可能である。
具体的な再利用の方法としては次の方法が想定される。
• 追加学習等により再利用モデルを生成する。
• 蒸留モデルを生成する。
• 複数の学習済みモデルの出力結果を組み合わせることで学習済みモデルの精度を向上させる(アンサンブル学習)。
このように、学習済みモデルの生成の場合、従来のソフトウェア開発では想定し得なかった生成物が生成される。ベンダとしては、これら生成物を再利用することで、新たな技術開発や事業展開の基礎とする要望がある一方、ユーザとしては、多大な費用と労力の結果生成された生成物の再利用を制限したいとの、インセンティブを有することが一般的である。そのため、利害調整の必要が生じる。
(2) 学習済みモデルの特性を理解することの重要性
もっとも、従来の演繹的なアプローチでは対応することができないような複雑な課題に対して、推測を行う(解法を得る)ためには、このような帰納的なアプローチが有効であることが少なくない。そのため、ユーザが新規の事業展開を行う上で、市場における競争優位性を確保するべく、学習済みモデルの有用性に着目し、誤差が含まれるとの性質を踏まえても、なお、これを利用するとの事業判断を行うこともあるであろう。
このような場合には、ユーザおよびベンダは、従来の演繹的なアプローチにより生成されたソフトウェアの性質と、帰納的なアプローチにより生成されたソフトウェア(たとえば、学習済みモデル)の性質とを共に理解した上で、その必要とされる精度や条件等によって、使い分けることが重要である。
第3 基本的な考え方
1 AI 技術を利用したソフトウェアの開発・利用をめぐる契約の現状
AI 技術を利用したソフトウェアを用いた事業に関する類型としては、大きく分けて 22①ユーザがベンダに依頼して、学習済みモデルの生成を行う
「開発」型と、②AI 技術を利用したサービスを提供する「サービス利用」型が想定される。
一般に、学習済みモデルの生成においては、ユーザがベンダに対してデータを提供し、ベンダがそれを学習用プログラムに学習させることが多い(ただし、ベンダがデータを提供することもある。)。また、AI 技術を利用したサービスにおいても、ユーザが、ベンダに対してデータを提供することが多い。
そして、学習済みモデルの生成または AI 技術を利用したサービスにより生成された各要素については、学習済みモデルの生成者であるベンダと、生データまたは入力データの提供者であるユーザとの間において、たとえば、その知的財産権の帰属や利用条件等について、各局面で、利害が対立することがしばしばある。また、学習済みモデルまたは AI 技術を利用したサービスの品質に関して、当事者の利害が対立することがある。
その結果、事業上の優越関係や技術的な知識の格差等を背景として、いわば、「オール・オア・ナッシング」の一方的な契約条項が押しつけられることもある。
しかしながら、xx、当事者の利害が対立するように見えても、学習済みモデルの特性と法律上のルールの内容を理解することで、合理的な条項に合意することができる場合もあると考えられる。
2 契約の検討に向けた視点
学習済みモデルの生成・利用を目的とする契約の具体的な内容を検討するにあたっては、前記第 2-4 で説明した AI 技術の特性を前提とした上で、事業を進める際に、各当事者が何を守る必要があるか、また、リスク要因がどこにあるか、すなわち、契約による合意の対象を確定することが重要である。
その上で、これら契約の対象について、契約がなければどのような法的関係が認められるかを検討し、自らの事業目的を実現するために必要な契約の内容を検討協議することになる。
22 もちろん、絶対的な区分があるわけではなく、現実には両者を渾然一体として取り扱う事業類型も考えられるところである。
(1) 各当事者の立場や考え方の違い
学習済みモデルの生成に際しては、次のとおり、ユーザとベンダとの間に立場や考え方の違いがあることが珍しくない。
ユーザ側 | • 開発費を支払い、学習済みモデル生成のための学習に用いるために価値あるデータ・ノウハウを提供したのだから、学習済みモデルに関する権利は全部自社のものとしたい。 • 学習済みモデルを競合事業者に使われたくない。 • 自社のデータ・ノウハウを外部に流出させたくない。 • 学習済みモデルやこれを用いたシステムは一定レベルのものを完成・納品してもらいたい。 • 自らのデータを使って追加学習させて学習済みモデルの精度をさらに上げたい。 |
ベンダ側 | • 自社の研究・開発に関する事業自由度を確保したい。 • プログラムやシステムに関する権利は、開発主体である自社に帰属してしかるべきである。 • 学習済みモデルを横展開して一定の範囲で他社にも提供したい。 • 追加学習して精度を上げた学習済みモデルを生成したい。 • そもそもユーザの求める目的に合致する学習済みモデルを作成できるかどうかはやってみないとわからない。 • 学習済みモデルの完成やxxの入力(データ)に対して性能の保証はできない。 |
(2) 当事者間で問題が生じうる事項
AI 技術の開発または利用に関しては、前記第 3-2-⑴のとおり、当事者間に立場や考え方の違いがあることから、契約締結に際して、様々な問題が生じうる。その一例としては、次のようなものがある。
① 生データに特有の問題(生データの有無、提供の可否・遅延、品質・十分性等)
② AI 技術を利用したソフトウェアに特有の問題(完成の可否・完成義務の有無、開発したソフトウェアの品質等)
③ 知的財産権の帰属・利用条件に関する問題(成果や開発途中で生じた知的財産 23や AI 生成物(アウトプット))
23 ここでは、発明、考案、意匠、著作物その他の人間の創造的活動により生み出されるものおよび営業秘密その他の事業活動に有用な技術上または営業上の情報を意味している。本モデル契約のうち、導入検証契約書およびソフトウェア開発契約書では、その点を定義づけている。
④ 責任に関する問題
⑤ その他、ユーザ側の開発・利用目的(事業上のニーズ)と、ベンダ側の技術的な認識の不一致等からくる問題
これらの多くは、ユーザとベンダの認識の緊密なすり合わせと契約による合意によって解消できる場合がある。
AI 技術を利用したソフトウェア、特に学習済みモデルの生成・利用に関する契約を締結するに際しては、権利帰属・利用条件の設定と、責任の所在を明確化することが重要である。
3 権利帰属・利用条件の設定
(1) 知的財産xxに関する整理
学習済みモデルの生成・利用に際しては、様々な要素が事業価値の源泉、すなわち、当事者が権利利益を主張する事項となり得る。具体的には、次 の事項について、権利帰属や利用条件が問題となることが多く、したがっ て、その法的関係をあらかじめ整理しておくべきである。
学習段階 | • 生データ • 学習用データセット • 学習用プログラム • 学習済みモデル(学習済みパラメータ・推論プログラム) • ノウハウ |
利用段階 | • 入力データ • 学習済みモデル(学習済みパラメータ・推論プログラム) • AI 生成物(アウトプット) • ノウハウ |
これらの対象は、法的には、次のとおり、①データ、②プログラム、および③ノウハウに大別することができる。
① データ
生データ、学習用データセット、学習済みパラメータ、入力データ、
AI 生成物等は、コンピュータに取り込むことが可能な形式で存在する
「データ」である。
データは、無体物(情報)であるため、所有権の対象とはなり得ない
(民法 206 条、同法 85 条参照)。また、データは、それぞれ、著作物や営業秘密または個人情報に該当する場合があり、著作xxや不正競争防止法、個人情報保護法により保護を受け得る。たとえば、生データが、写真、音声、映像、小説等であれば、それ自体が著作物に該当する可能性があり、また、学習用データセットが「情報の選択又は体系的な構成」によって創作性を有する場合には「データベースの著作物」に該当する可能性がある(著作xx 12 条の 2)。
もっとも、知的財産法制や個人情報保護法制による保護を受ける場
また、実務においては、データの「帰属」が議論の対象となることが少なくないが、以上のデータの法的性質を踏まえれば、データの「帰属」を抽象的に議論するのではなく、データに現実にアクセス可能な者による自ら、またはデータへのアクセスを希望する者に対してのデータ利用の制限の当否および内容を具体的に議論し、契約に定めることが重要である。
② プログラム
学習用プログラムや推論プログラム等の「プログラム」は、ソースコード部分は著作xxによるプログラムの著作物として著作権法上の保護を受ける可能性がある(なお、オブジェクトコードに変換されても同様である。著作xx 10 条 1 項 9 号)。
また、アルゴリズム部分は、特許法上の要件を充足すれば 25、「物(プログラム)の発明」等として、特許法の保護を受け得る。
原則として、著作権を取得するのは著作者(作成者)であり、特許を受ける権利を取得するのは発明者(作成者)である。
そのため、xxxが開発したプログラムについて著作xxまたは特許法による保護が及ぶ場合、一次的には、職務著作(著作xx 15 条)
や職務発明(特許法 35 条)等の制度を通じて、その著作権や特許を受ける権利はベンダに帰属することが多い。その上でユーザがベンダからこれらの権利を譲り受け、またはその利用許諾を受けることが必要である場合には、ベンダとユーザとの間の契約に定めることが必要である。
③ ノウハウ
AI 技術の開発や利用に関しては、「ノウハウ」の利用条件も問題となる。前記第 2-3-⑵-⑤のとおり、AI 技術の開発に関するノウハウには、複数の種類のものが含まれる。
学習用データセットや学習済みモデルの生成に必要とされるノウハウは、データと同様に無体物(情報)であり、所有権の対象とはならない。ただし、管理されているノウハウの一部には、営業秘密として不正競争防止法上の保護が及ぶ場合や、また、特許法上の発明に該当する場
24 他方、データに知的財産権が発生する場合には、当該知的財産権の権利者に独占排他的権利が帰属することを前提とした上で、当該知的財産権の利用許諾の範囲の設定が問題となる。
25 特許を受けることができる「発明」とは、自然法則を利用した技術的思想の創作のうち、高度のものをいう(特許法 2 条 1 項)。したがって、アルゴリズム自体が常に発明となるわけではなく、これがいかにハードウェアにおいて実現されるのかを明らかにすることで自然法則を利用したと評価できる。また、特許を受けるためには、新規性および進歩性(特許法 29 条 1 項、2 項)等の要件を充足することが必要である。
合もあるであろう。
これらの法令上の保護対象となる場合を除いては、ノウハウの利用条件についても、契約による合意がなければ、それに現実にアクセス可能な者が自由に利用できるのが原則である。もっとも、AI 技術の開発は、ベンダとユーザの共同作業としての性質もあり、その過程で生じたノウハウ 26については、双方が権利を主張することも少なくないため、契約で明示的に合意することが重要である。
(2) 権利帰属・利用条件の設定
① 知的財産権の対象の整理
前記第 2-3-⑵のとおり、AI 技術の開発においては、開発対象として合意された成果物(学習済みモデル等)や、開発の過程で学習用データセット、学習済みパラメータ等が生じるが(以下、このような成果物や、中間生成物を「成果物等」という。)、その中には知的財産権(特許権や著作xx)の対象になるものと、対象にならないものが含まれる。
a 知的財産権の対象となる場合
成果物等のうち知的財産権の対象となるものについては、原始的に誰に、どのような権利が発生するかに関するルールが法律のデフォルトルールとして定められていることから(たとえば、特許法 29
条 1 項、著作xx 17 条 1 項等)、契約においては当該デフォルトルールを前提として、知的財産権の①「権利帰属」および②「利用条件」を定める必要がある。
たとえば、学習用プログラムや推論プログラム等がプログラムの著作物に該当する場合、著作権法上は、当該プログラムを創作した者が「著作者」(著作xx 2 条 1 項 2 号)となり著作権を有することになる。したがって、推論プログラムをベンダが開発した場合、法律のデフォルトルール上はベンダが推論プログラムの著作者(著作xx 15 条)として、当該プログラムに関する著作権を有することになることが一般的であろう。その上で、契約においては当該プログラムに関する著作権がベンダに帰属することを確認するか、ベンダからユーザに移転(譲渡)するかを定めることになる。これが知的財産権に関する①「権利帰属」の問題である。
さらに、知的財産権については、その利用条件を当事者間の合意により設定することが可能であるため(特許法 78 条 1 項、著作xx 63
条 1 項等)、契約においては必要に応じて、それら②「利用条件」を設定することになる。
b 知的財産権の対象とならない場合
以上に対し、成果物等の中には、知的財産権の対象にならない可能性があるものも存する。たとえば、学習済みパラメータは大量の数値データであって、創作性等が認められず、通常は知的財産権(著作権
26 たとえば、あるハードウェアから生データを取得するに際して、ハードウェアの特性を理解するユーザと、学習済みモデルの生成に適したデータについて知見のあるベンダの双方が、生データの取得に関するノウハウの生成に寄与する場合等が考えられる。
等)の対象にはならない可能性が高いと考えられるし、ノウハウについては、秘密管理性、有用性、非公知性の要件を満たす場合に、営業秘密として一定の保護を受ける場合があり得るにすぎない。
このような知的財産権の対象とならない成果物等については、その利用等に関する法律上の明確なデフォルトルールが存在しない。
したがって、原則としては、現実にアクセス可能な当事者が自由に利用することができるのであり、その利用を制限する必要があるのであれば、当事者の合意によって直接「利用条件」を設定する必要がある。このような知的財産権の対象とならない成果物等については、特許法における「実施」や、著作xxにおける「複製」等のように、利用態様が法令上定められていない以上、具体的な利用態様について、合意しておくことが重要である。
② 取決めにおける考慮要素
a 一般的な考慮要素
以上のとおり、成果物等が知的財産権の対象となる場合には、権利の帰属について議論をすることが重要であるが、理論上は、誰が権利者(著作者・発明者等)に該当するかが問題となる。もっとも、その原始的な取得者が誰であれ、当事者間の合意によりその帰属先を選択できることに照らせば、考慮すべき事項は当事者の合意によって決まる利用条件の設定の場面と類似しているといえる。
また、成果物等が知的財産権の対象とならない場合についても、契約によりその利用条件を定める必要があることも少なくない。
このような、「権利帰属」や「利用条件」の設定については、その対象となるデータやプログラムの生成・作成に寄与した程度(寄与度)、これに要する労力や、必要な専門知識の重要性、データやプログラムの利用により当事者が受けるリスク等を主たる基準として判断されることが一般的であると考えられる(本ガイドライン(データ編)第 5-2-⑷参照)。
具体的に、寄与度に影響する要素としては、次のものが考えられる。
• 当事者が提供したデータ・ノウハウ・創意工夫の価値
• 当事者の技術力
• 生成・作成に要した人的・物的なコスト
• 生成物の独自性・固有性・当事者にとっての有効性、有用性
• 支払われる対価の額や支払条件等
これら要素を踏まえて、契約対象について、どの部分(全体なのか一部なのか)について、どのような条件(独占・非独占/対価の有無・金額等)で、いずれの当事者に帰属させ、あるいは利用を認めるか否かを明確にする必要がある。
b 「権利の帰属」について
契約の実務においては、成果物や知的財産等の「権利の帰属」をめぐる議論により協議・交渉が膠着状態に陥ることがある。
特に、学習済みモデルの生成・利用を目的とする契約については、
実務的な知見・経験がいまだ十分に蓄積されていないこともあり、
「何か問題があると困るため、とりあえず権利を全て取得しておけば安全である」との発想に陥るケースも散見される。
具体的には、ユーザが提供したデータのみを利用して学習済みモデルの生成を行った場合、ユーザは、ベンダに対価を支払っていることに加えて、データの取得・生成に相応の投資をしていることや、自社のノウハウがデータに反映されていること等から、そのデータを利用して生成された学習済みモデルに関して自社への「権利の帰属」が認められるべきであるとの意識を持つことが少なくない。
他方、ベンダも、ユーザに学習済みモデルの権利の全てがユーザに移転してしまうと、学習済みモデルの生成が自由にできなくなり、今後の事業の自由度に大きな制約を受けることになってしまうとの危惧から、やはり、学習済みモデルの「権利の帰属」を主張することになる。
しかしながら、このような「権利の帰属」をめぐる議論に多大なコストを費やすことが常に必要とは限らない。むしろ、AI 技術の開発の遅れを招き、競合事業者の後塵を拝するようなことにもなりかねない。そこで、契約の当事者が、それぞれ何を求めているかを相互によく理解して、利用条件をきめ細やかに設定することで、適切な合意に至ることができることもある。
たとえば、AI 技術の発展のスピードが著しいことに照らせば、学習済みモデルにつき、ベンダに権利を帰属させた上で、開発後、一定期間の目的外利用や競業的利用をベンダに禁止する等の対応をすることによって、当事者双方の利益に合致する契約を締結できる場合もあるだろう。また、逆にユーザに権利を帰属させた上で、ベンダが事業上必要な範囲については、その利用を認めることも考えられる。
このように、当事者は、権利の帰属に必ずしもこだわるのではなく、利用条件についても目を向けることによって、妥当な解決を目指す ことができることもある。協議・交渉が無用な膠着状態に陥ることは、それ自体が事業の目的を阻害する要因となり得るのであり、可能な 限り避けるべきものである。
c 「利用条件」について
前記第 2-3-⑵および第 2-3-⑶の各対象について、設定可能な利用条件としては、下表のようなものが考えられる。ただし、これらの要素を全て確定しておく必要があるわけではなく、また、それが常に可能であるとも限らない。
利用条件の設定においては、下表を参考に、当事者が対象となるプログラムや、データ、ノウハウの利用条件の設定により確保したい利益を明確化して、交渉を行うべきである。利用条件の主な交渉ポイントとしては、以下が挙げられる。
• 利用目的(契約に規定された開発目的に限定するか否か)
• 利用態様(複製、改変およびリバースエンジニアリングを認めるか)
• 第三者への利用xx・xxの可否・範囲(他社への提供(横展開)を認めるか、競合事業者への提供を禁じるか)
• 利益配分(ライセンスフィー、プロフィットシェア)
なお、実務上、ユーザが、学習済みモデルの転用を許容することにより、自らが提供する各種データやノウハウの流出に懸念を示すことが少なくない。
このような場合、ベンダ側の利用に関し、第三者への開示、利用許諾、提供等(下表【ベンダ側】②)に関するきめ細やかな定めによって、懸念を払拭できる場合があるであろう 28。加えて、たとえば、第三者に提供する学習済みモデルをデータ提供者に見せて、その中に秘密情報やノウハウが含まれていないことを確認してもらうとの対応をとることも考えられる。
このように、ユーザ側の懸念が生データや元のノウハウの秘密性 の喪失に依拠する場合は当該懸念に配慮した合意や協議ができれば、ユーザ側の懸念が払拭されることも少なくないと思われる。
27 なお、生データや学習用データセットについては、一度学習済みモデルが作成された後も再利用モデルの生成等を行うことも想定される。また、一度納品した学習済みモデルの保守目的で開発後一定期間、一方当事者(典型的にはベンダ)にこれらデータへのアクセスおよび利用を認めることが必要となるケースもあると考えられる。このように、生データや学習用データセットの再利用を行う可能性がある場合には、これらデータについて、開発完了後の利用条件についても定めを置く必要がある。
28 そもそも、学習手法によっては、生成された学習済みモデルに、データやノウハウの痕跡が残りにくく、学習済みモデルの第三者への提供等によって生データや元のノウハウの内容の流出可能性が限定的である場合もあろう。このような場合には、ベンダからユーザに対して、リスクが限定的であること等を説明することが、ユーザの懸念払拭に重要な役割を果たすこともあろう。
【ユーザ】
利用の範囲 | 利用の可否・条件 |
① 自己の業務遂行に必要な範囲での利用(②に記載の利用を除く) | • 利用対象・態様・地域 • 独占・非独占 • 期間 • 地域 • ライセンスフィーの支払有無・内容 • その他条件 |
② 再利用モデルの生成 | • 再利用モデル生成の目的・態様(例:新たなデータを利用した追加学習) • 独占・非独占 • 期間 • 地域 • ライセンスフィーの支払有無・内容 • その他条件(再利用モデルの他方当事者へのグラントバック等) |
③ 第三者への開示、利用許諾、提供等 | • 独占・非独占 • 期間 • 地域 • 再利用許諾権の有無 • 一定の第三者(ベンダの競合事業者等)への利用許諾の可否 • ライセンスフィーの支払有無・内容 • その他条件 |
【ベンダ】
利用の範囲 | 利用の可否・条件 |
① 本開発目的以外の目的のための利用(再利用モデルの生成等) | • 利用目的 • 利用態様(例:新たなデータを利用した追加学習) • 独占・非独占 • 期間 • 地域 • ライセンスフィーの支払有無・内容 • その他条件(再利用モデルの他方当事者へのグラントバック等) |
② 第三者への開示、利用許諾、提供等 | • 独占・非独占 • 期間 • 地域 • 再利用許諾権の有無 • 一定の第三者(ユーザの競合事業者等)への利用許諾の可否 • ライセンスフィーの支払有無・内容 • その他条件 |
4 責任の分配
(1) 責任に関する整理
学習済みモデルの生成や利用に関し、たとえば開発が頓挫したり、学習済みモデルによる何らかの誤りが生じたりした場合の当事者間の契約に基づく責任の分配については、①債務不履行(契約で合意された債務の履行があったか否か)29と、②帰責性・因果関係(生じた結果を当事者に帰責できるか否か)の有無の問題に分けて考えることができる。
① 債務不履行の有無
契約上、当事者間の責任の所在が明確になっている場合には、その定めに従い、個別の問題を処理すれば足りる。
他方、当事者間の契約上何らの定めがない場合には、債務不履行の有無は、通常、学習済みモデルの生成またはサービスの目的、当事者の技術力、支払われる対価の額や支払条件等を総合的に考慮し、当事者がどの程度の水準のサービスを相手方に提供することを約していたか(黙示の合意の内容)によって定まると考えられる。
ただし、一般的には、前記第 2-4-⑴に述べたような AI 技術の特性に照らし、ベンダが、xxの入力(データ)について一定の結果(あるいは想定しなかった挙動が起こらないこと)を約束または保証していたと解することは難しい場合も少なくないと考えられ、このような場合には、学習済みモデルによる誤りが債務不履行と評価されないこともあり得る。
② 帰責性・因果関係の有無
また、仮に債務不履行があったとして、帰責性・因果関係の有無については、当事者の一方が損害の発生にどれだけの寄与をしたといえるか否かが考慮されることになる。もっとも、故意・過失等の帰責性や因果関係が不明であることが少なくないと考えられる。このような場合には、生じた結果をベンダに帰責することには困難が伴うであろう。
以上のことから、当事者としては、開発やサービスの利用にあたって、どのような開発を行いまたはどのようなサービスを提供するかについ て、相互に十分協議した上で、責任分配について何が可能で可能でない かを十分に理解し、必要に応じて責任分配の点を契約に明記しておく ことが望ましい。
(2) 学習済みモデルの生成
開発段階では、上記の視点のうち、主に①債務不履行の有無が問題となることが多いであろう。
① 開発頓挫のリスク
学習済みモデルの生成は、前記第 2-4-⑴のとおり、従来型のソフト
29 なお、契約の性質が請負契約とされる場合には、完成後の瑕疵担保責任の問題として整理される場面もあると考えられる(改正民法施行後は、完成の前後を問わず、契約不適合責任として捉えられることになる。)。加えて、xxx・xxx間の関係においても、理論的には、不法行為に基づく損害賠償請求権は成立し得るが、事実上、その成否は債務不履行の有無と重なる場合が多いであろう。
ウェア開発等と異なり、統計的な本質を有し、試行錯誤が必要不可欠
(帰納的)であって、また、結果として、ベンダ側で学習済みモデルを完成できないこともあり、初期段階で開発を中止せざるを得なくなるおそれも小さくない。このような場合には、いずれの当事者が、開発頓挫のリスクを負うかが問題となる。
もっとも、このような開発頓挫の責任をめぐる争いが生じること自体を避けることが、ユーザ・ベンダ双方にとって望ましい場合が多いと思われる。
そのためには、当事者間で、学習済みモデルを含む AI 技術の完成について、開発の初期段階において保証することが技術的には容易でないことを踏まえつつ、開発の進展に伴い、⑴対価の額や支払方法、⑵ユーザ側が学習済みモデルに求める水準等について、相互理解を深めながら合意を形成する必要がある。具体的には、後記第 4-2-⑵のとおり、契約をアセスメント段階から開発段階(必要に応じて追加学習段階)まで、多段階に分ける「探索的段階型」の開発方式を採用することは一考に価すると思われる。
② 学習済みモデルの品質や性能の問題
加えて、開発された学習済みモデルの品質や性能が問題となることも少なくない。開発の各段階における契約の法的性質としては、後記第 4-3-⑴のとおり、請負や準委任等が考えられるものの、あくまでも当事者間の合意がない場合のデフォルトルールにすぎない。
ユーザとベンダにおいて、何を開発の目的とするか、成果物をどのように評価するか、どのような基準で報酬等を支払うかを契約において明確に定めておく必要が高いといえよう。
③ インテグレーション
さらに、学習済みモデルの生成に関しては、外部システムとの統合
(インテグレーション)も問題になり得るため、この点に関しても意識した契約を締結することが望ましい。
(3) 学習済みモデルの利用
学習済みモデルの利用段階では、上記の視点のうち、①債務不履行の有無と②帰責性・因果関係の有無の両方が問題となる場合が多いであろう。
① 学習済みモデルの利用に関して生じる責任の特徴
学習済みモデルの利用段階では、学習済みモデルの動作等に誤りや、当事者が期待または満足しない結果が生じ、ひいては、ユーザまたは第三者に損害が生じた場合に、誰がどのような責任を負うのかが問題となる。
この点についても、生じた損害に寄与した者が責任を負うのが民法その他の法令上の一般的な考え方であるといえるが、前記第 2-4-⑴のとおり、学習済みモデルについては、次の事項を踏まえた検討が必要になり、その責任の所在を把握することが困難な傾向にある。
• xxの入力(データ)に対する学習済みモデルの事前の性能保証
が技術上難しい。
• 因果関係等につき事後的な検証等が技術上困難である 30。
• 学習済みモデルの性能等が学習用データセットに依存する。
• AI 生成物の性質等が利用段階の入力データの品質に依存する。
また、現状の AI 技術の水準を踏まえれば、学習済みモデルを利用したサービスは、本質的に統計的な、高度な事業支援を内容とするものがほとんどであって、学習済みモデル等により出力された結果の採否は、基本的にユーザの判断に委ねられていると考えられ、この観点からも、生じた結果につき、ベンダに責任を負わせることは難しい面があることは否定できない。
このような性質を持つ学習済みモデルの利用に伴う責任に関しては、生じた結果に寄与した者が責任を負担するという不法行為法によって は明確な結論を得ることが難しく、ユーザとベンダのどちらがどれく らい責任を負うかは不明確とならざるを得ない。したがって、当事者に おいて、契約に定めることによって、そのルールに従って分配されるこ とが一般的であるし、望ましい。
加えて、第三者との関係では、不法行為法に基づく処理がなされることが基本であるが、ユーザ・ベンダ間と同様に、責任を負担する者を明確にすることは一般に難しい。
② 契約当事者間の関係
前記第 2-4-⑴のとおり、学習済みモデルを利用したサービスについては、AI 技術の特性を考慮すれば、ベンダが、xxの入力(データ)について、一定の結果を約束または保証することは実態に即さず、または困難な場合が少なくないと考えられる。
そのため、現在の実務上、契約においては、ベンダ側の責任を一定の範囲に限定する規定を設ける等の対応に留まっていると思われる。ベンダもユーザも、このような AI 技術の特性を理解した上で、必要な交渉を行い、契約関係に入ることが必要であろう。
③ 第三者との関係
学習済みモデルやこれを利用したサービスの提供により、第三者に損害を与えた場合に、ベンダが責任を負うか否かについては、次のように整理できる。
• 当該損害について故意または過失がある場合、ベンダは不法行為責任を負いうる。しかしながら、AI 技術の特性に照らせば、結果予見性がなく、過失がないと判断される場合や、損害との因果関係が認められない場合も考えられる。
• 学習済みモデルそのものは、無形物であるため、製造物責任法
(平成 6 年法律第 85 号。PL 法)上の製造物には該当しない。
30 学習済みモデルを含む AI 技術を利用したソフトウェアの機序がそもそも検証困難であることの他に、プログラム作成時における前提の設定の誤り、想定外の入力データの品質等による誤り等、原因が AI 技術を利用したソフトウェアの作動の全プロセスに介入し得る点も事後的な検証を困難にしていると考えられる。
• ただし、学習済みモデルがハードウェア(製造物)に組み込まれ一体化した場合には、当該製造物の製造事業者等が PL 法に基づく責任を負いうる。そして、当該製造事業者等に対して学習済みモデルを提供しているベンダは、当該製造事業者等から、第三者に生じた損害に関して、求償を受ける可能性があり得る。
④ 契約における取決め
以上のようなことから、学習済みモデルまたはこれを利用したサービスを提供するベンダは、直接の契約の相手方との間で、適切な責任の分配について取り決めておく必要があるといえる。
もっとも、責任の分配については、開発段階と同様に、①学習済みモデルの内容・性能等が契約締結時に不明瞭な場合が多いこと、②その内容・性能等が学習用データセットに依存する等の AI 技術の特性から、ベンダの側で、学習済みモデルの誤りに関して責任を負うことが困難であることが少なくない点に留意すべきである。特に、利用段階においては、ユーザが学習済みモデルに入力するデータについては、ベンダのコントロールが及ばず、ベンダが学習済みモデルの挙動について責任を負うことがより困難な場合もあるであろう。
ただし、このような AI 技術の特性から直ちに契約条件が導かれるわけでもない。学習済みモデルの生成やこれを利用したサービスの対価の支払いを一定の結果や KPI の達成にかからせる方法等の支払条件のバリエーションにより、ベンダに対して一定の結果の達成にインセンティブを与えることによりベンダとユーザのバランスをとるとの方法も考えられる。
いずれにせよ、事業モデルに即した、当事者の合意によって、責任の分配については契約上できるだけ明確化しておくことが望ましい。また、その交渉に際し、対価の額や支払条件等が重要な交渉ツールとなることが少なくないと考えられる。
5 独占禁止法上の問題
前記に加えて、大企業と中小企業やベンチャー企業との契約交渉等において事実上の優越関係がある中で一方的な契約条項等が押しつけられる場合や、排他条件付取引や拘束条件付取引等が行われる場合には、独占禁止法上の問題になり得る点には留意が必要である。
(1) 優越的地位の濫用
契約当事者間に相対的な優越関係がある場合には、独占禁止法上の優越的地位の濫用(独占禁止法 2 条 9 号 5 号)が問題となり得る。この点、xx取引委員会による「役務の委託取引における優越的地位の濫用に関する独占禁止法上の指針」31は、次の考えを示している。
① 役務の委託取引において、取引上優越した地位にある委託者が、受
31 xx取引委員会、「役務の委託取引における優越的地位の濫用に関する独占禁止法上の指針」、xxxx://xxx.xxxx.xx.xx/xx/xxxxxxxxx/xxxxxxxxxx/xxxxxxxxxxxxx.xxxx、(平成 1 0 年 3 月 17 日。平成 23 年 6 月 23 日改正)
託者に対し、成果物が自己との委託取引の過程で得られたことまたは自己の費用負担により作成されたことを理由として、一方的に、これらの受託者の権利を自己に譲渡(許諾を含む。)させたり、当該成果物、技術等を役務の委託取引の趣旨に反しない範囲で他の目的のために利用すること(二次利用)を制限したりする場合等には、不当に不利益を受託者に与えることとなりやすく、優越的地位の濫用として問題を生じやすい。
② しかし、このような場合に、成果物等にかかる権利の譲渡または二次利用の制限に対する対価を別途支払ったり、当該対価を含む形で対価にかかる交渉を行っていたりすると認められるときは、優越的地位の濫用の問題とはならない。
③ ただし、このような場合であっても、成果物等にかかる権利の譲渡等に対する対価が不当に低い場合や成果物等にかかる権利の譲渡等を事実上強制する場合等、受託者に対して不当に不利益を与える場合には、優越的地位の濫用として問題となる。
したがって、本ガイドライン(AI 編)が対象としているベンダとユー ザとの間の AI 技術を利用するソフトウェアの開発に関する契約において、どのような条件で取引をするかは、基本的には当事者の自主的判断に委 ねられているものの、いずれか一方が取引上優越した地位を利用して、正 常な商習慣に照らして不当に、代金の支払遅延、代金の減額、著しく低い 対価での取引や、やり直し、または AI 技術を利用するための生データ、学習用データセット、学習用プログラムおよび学習済みモデルにかかる 権利等の一方的な取扱い(たとえば、権利の譲渡や二次利用の制限)を行 うこと等は、優越的地位の濫用の問題を生じさせることとなる。もっとも、権利の譲渡や二次利用の制限について、別途、適切な対価を支払ったり、 当該対価を含む形で対価にかかる交渉を適切に行ったりしている場合
(二次利用における収益配分の条件を含む。)には、優越的地位の濫用は問題とならないことになろう。
(2) 排他条件付取引・拘束条件付取引等
AI 技術を利用したソフトウェアに関する契約において、AI 技術を利用したソフトウェアにかかる利用条件の設定やその制限に関する契約条項を定めるにあたっては、独占禁止法上の排他条件付取引や拘束条件付取引等の不xxな取引方法(独占禁止法 19 条)も問題になり得る。
たとえば、本ガイドライン(AI 編)の想定する場面では、ベンダとユーザとの間の、知的財産のうち技術に関するものの取扱いについては、ライセンス契約関係が生じないこともあるので、そのまま当てはまるものではないが、ライセンス契約においては、ライセンシーが開発した改良技術について、ライセンサーもしくはその指定する事業者に権利を帰属させる義務、またはライセンサーに独占ライセンスをする義務を課す行為は、原則として不xxな取引方法に該当するとされ、共有とする場合であってもxx競争阻害性を有する場合には、不xxな取引方法に該当する
(一般指定 12 項)。
他方で、xxxxxxの改良技術について、ライセンサーに非独占的にライセンスをする義務を課す行為は、xxxxxxが自ら開発した改良
本ガイドライン(AI 編)で想定する AI 技術を利用したソフトウェアの開発委託に限った話ではないが、プログラムの作成委託は下請代金支払遅延等防止法の「情報成果物作成委託」(同法 2 条 3 項、6 項)に該当するため 34、一定規模を超える元請事業者が開発の全部または一部を一定規模以下の下請事業者に委託する場合 35には、同法の対象となる。つまり、下請法は、一般的なユーザ・ベンダの取引には適用されず、大手システム会社が開発の一部を他の中小システム会社に委託するような場合に適用される。
下請法の対象となる場合には、独占禁止法上の優越的地位の濫用規制と同様に、発注者である事業者(親事業者)は、支払遅延、下請代金の減額、著しく低い下請代金での取引等を行うことが禁止される。
また、親事業者は、①下請事業者から給付を受領してから 60 日以内のできる限り短い期間内に対価の支払期日を定める必要があり、②下請代金の額、支払期日および支払方法等を記載した書面を交付しなければならず、③支払遅延の場合には、下請事業者の給付を受領した日から起算して 60 日を経過した日から支払いをする日までの期間について、年率 14.6%の遅延利息の支払義務を負うと共に、④一定の書類の作成・保存義務を負うことになる(同法 2 条の 2、3 条、4 条の 2、5 条)。
32 xx取引委員会「知的財産の利用に関する独占禁止法上の指針」、xxxx://xxx.xxxx.xx. jp/dk/guideline/unyoukijun/chitekizaisan.html、(平成 19 年 9 月 28 日。平成 28 年 1 月 21 日改正)
33 下請代金支払遅延等防止法(昭和 31 年法律第 120 号)
34 「『情報成果物作成委託』とは、事業者が業として行う提供もしくは業として請け負う作成の目的たる情報成果物の作成の行為の全部又は一部を他の事業者に委託すること及び事業者がその使用する情報成果物の作成を業として行う場合にその情報成果物の作成の行為の全部又は一部を他の事業者に委託することをいう。」とされている(下請法 2 条 3 項)。
35 同法の対象となる場合は、同法 2 条 7 項から 9 項に規定されている。
第4 AI 技術を利用したソフトウェアの開発契約
1 AI 技術を利用したソフトウェアの開発とは
AI 技術を利用したソフトウェアとしては、学習用プログラムや学習済みモデルが考えられるところである。実務上は、ベンダが学習済みモデルを開発し、ユーザ等の委託者に納品することで収益を得る類型の汎用性が特に高いと思われるため、本章では、学習済みモデルの開発(生成)について、その考え方や契約を締結する際の考慮事項等を解説する。
2 学習済みモデルの開発類型
(1) 開発類型の分類
本作業部会でヒアリングしたユースケース等においては、①学習済みモデルのみ生成する類型、②学習済みモデルを含んだシステムを開発する類型、および③学習済みモデルの生成の再受託を受ける類型の 3 つの類型が見られた。
図 2:開発類型
① 学習済みモデルのみ生成する類型
<事例 1 ユーザがデータの提供を行い、ベンダが単独で学習済みモデルのみを生成する場合>
例:損害保険会社 Y 社が、データ解析会社 X 社に対して、自社データの解析を依頼した。X 社では、当該データについて機械学習を実行し、Y 社に対して、その要望する機能を備えた学習済みモデルを納品した。
<事例 2 ユーザとベンダが共同でデータの提供を行い、ベンダが単独で学習済みモデルのみを生成する場合>
例:機器製造事業者 X 社は、Y 社に提供する監視機器について、特定の対象を検出できることを目的とした学習済みモデルの搭載を検討している。学習済みモデルの生成にあたっては、X 社および Y 社の双方が提供する画像データを併せて学習させた。
② 学習済みモデルを含んだシステムを開発する類型
<事例 3 ユーザがデータの提供を行い、ベンダが単独で学習済みモデルを含んだシステムを開発する場合>
例:商社 Y 社が、学習用データセットを提供し、受託を受けた機械学習の開発業者 X はそのデータを用いて、学習済みモデルを含むシステムを開発し、Y 社に納品した。
<事例 4 ベンダが自らデータの準備を行い、単独で学習済みモデルを生成し、これを基に別の事業者がシステム全体を開発する場合 36>
例:Y 社がベンダ X1 社とシステム開発事業者 X2 社に対して、本人確認システムの開発を委託した。X1 社は自らが準備したデータを用いて学習済みモデルを生成し、これを X2 社が本人確認システムに組み込み、Y 社に納品した。
36 なお、この事例のように、1 つのシステムの開発に、システム全体の開発を行う業者と学習済みモデルの開発のみを行うベンダの 2 つの開発業者が関与している場合(いわゆる「マルチベンダ」)、ユーザによるプロジェクト管理が重要となることも少なくないと思われる。
③ 学習済みモデルの生成の再受託を受ける類型
<事例 5 ユーザからシステム全体の開発委託を受けた SIer 等からベンダが学習済みモデルの生成部分のみの再受託を受ける場合>
例:SIer である Y 社は物流業界企業(エンドユーザ)から荷物の積載を自動計算するシステム開発の受注をした。Y 社はベンダ X 社が生成した学習済みモデルを組み込んだシステムを開発し、エンドユーザに納品した。
(2) 対象とする開発類型
本章では、前記①学習済みモデルのみを生成する類型を前提として、学習済みモデルの開発契約を説明する。前記②の類型では、ベンダが、また、前記③の類型では SIer が、それぞれ、学習済みモデルを、いわゆるモジュールとして含むシステムの開発を受託することになるが、モジュール部分の開発については前記①の類型に関する議論が同様に妥当する。
なお、成果物や開発途中で生じた知的財産については、ベンダにその知的財産xxを帰属させることもあれば、ユーザに帰属させることもあり、開発型であることは、必ずしも一方当事者への自動的な権利帰属を意味しないことに留意が必要である。
3 開発方式
学習済みモデルの生成に関する契約の枠組みを決定するためには、まず、学習済みモデルをどのようにして生成するかを検討する必要がある。そのため、まず、一般的なソフトウェア開発方式を紹介した上で、学習済みモデル生成に適した開発方式を説明する。
(1) ソフトウェアの一般的な開発方式
一般的にソフトウェアの開発方式は、①ウォーターフォール型と、②非ウォーターフォール型(プロトタイプ型、スクラム型、アジャイル型等)に分類される。
① ウォーターフォール型
ソフトウェア開発の過程を「要件定義」、「システム設計」、「システム方式設計」、「ソフトウェア設計・プログラミング・ソフトテスト」、
「システム統合」、「システムテスト」、「運用テスト」、「運用・評
価」等の工程に分割し、前工程によって後工程における作業を詳細化していく開発手法である。完全に前工程への手戻りが否定されるものでないものの、ソフトウェアの仕様等を開発の初期に確定し、これを基に開発が進むことから、後に仕様等を変更することに困難を伴うことが多い。
② 非ウォーターフォール型
(2) 学習済みモデル生成に適した開発方式
学習済みモデルのみを開発する場合、前記第 2-4-⑴のとおり、契約締結時には、成果物として何が出来上がるかを事前に予測することが難しく、また、その過程で生じた生成物の性能等を事後的に検証することも困難である。そのため、その開発過程は必然的に探索的にならざるを得ず、試行錯誤を何度も重ねる必要がある。このような状況では、後戻りが不可避的に発生することから、あらかじめ確定した要件定義を前提とし、開発を段階的に詳細化していくウォーターフォール型の開発は必ずしも実態にそぐわない場合が多く、非ウォーターフォール型の開発が適している
37 モデル契約 2007・31 頁の図「品質保証の観点からの設計とテストとの対応関係」
38 独立行政法人情報処理推進機構ソフトウェア・エンジニアリング・センター「非ウォーターフォール型開発 WG 活動報告書」、xxxxx://xxx.xxx.xx.xx/xxxxx/000000000.xxx、(平成 23 年 3 月)105 頁
場合が多いと考えられる。
そこで、本ガイドライン(AI 編)では、開発プロセスを別個独立した複数の段階に分けて探索的に開発を行う「探索的段階型」の開発方式を採用することを提唱する。具体的には、次のとおり、①アセスメント段階、
②PoC 段階、③開発段階、④追加学習段階の4 段階による開発方式である。
図 4:「探索的段階型」の開発方式
このような開発過程を多段階に分ける開発思想はウォーターフォール型開発やアジャイル型開発とも共通し、必ずしも目新しいものではない。しかし、本ガイドライン(AI 編)が提唱する「探索的段階型」の開発方式は、開発初期に成果物を確定しない点でウォーターフォール型開発と、また、開発全体を 1 つの基本契約で規律するフレームワークを採用しない点でアジャイル型開発と、それぞれ異なる。
このような「探索的段階型」の開発方式を採用するメリットは 2 つある。
第 1 に、学習済みモデル生成においては、前記第 2-4-⑴-①のとおり、従来型のソフトウェア開発と異なる不確実性があることから、開発対象や性能について、事前に予測することが困難であり、ユーザとベンダの認識に齟齬が生じることが少なくない。そこで、開発を複数段階に分け、各段階における達成目標を明確とすることで、ユーザとベンダとの間の話合いが促進され、最終的な成果物である学習済みモデルに対する認識をすりあわせることができる。
第 2 に、そのような学習済みモデル生成の不確実性から、多大な投資を したにも関わらず、開発の途中で学習済みモデルが予定した性能を発揮 できないことが明らかとなり、開発を中止することも十分に考えられる。そこで、開発を複数段階に分け、十分な性能を備えた学習済みモデルの生 成が困難であることが判明した場合には、その段階で開発を中止するこ とにより、それ以上の損失拡大を防ぎ、リスクヘッジを図ることができる。
39 ただし、本ガイドライン(AI 編)は、基本契約と個別契約の組合せによる契約形態を排するものではない。交渉コストおよび開発の頓挫のリスクを負っても、なおも、契約の初期から、成果物等の取扱いについて合意することにより当事者の責任の所在を明確とすることが当事者の意図と合致する場合も考えられる。
(3) 各段階の説明
本ガイドライン(AI 編)が推奨する「探索的段階型」の開発方式の各段階について、以下、説明する。その概要は次の表のとおりである。
アセスメント | PoC | 開発 | 追加学習 | |
目的 | 一定量のデータを用いて学習済みモデルの生成可能性を検証する | 学習用データセットを用いてユーザが希望する精度の学習済みモデルが生成できるかを検証する | 学習済みモデルを生成する | ベンダが納品した学習済みモデルについて、追加の学習用データセットを使って学習をする |
成果物 | レポート等 | レポート/ 学習済みモデル(パイロット版)等 | 学習済みモデル等 | 再利用モデル等 |
契約 | 秘密保持契約書等 | 導入検証契約書等 | ソフトウェア開発契約書 |
なお、開発の各段階は、必ずしも明確に区別されるものではなく、その一部または全部が連続的に行われる場合もある。その意味でこれらの区別はあくまでも相対的なものにすぎない。なお、これらの各段階はそれぞれ 1 回で完了させない場合もあり、各段階の中で数回に分けて契約を締結することも考えられる。
① アセスメント段階
「アセスメント段階」とは、ベンダがユーザとの間で秘密保持契約を締結した上でユーザから一定量のデータ(たとえば、ユーザ側でそれほど労力をかけずに提供できるデータ)を受領し、学習済みモデルの生成可能性があるか否かを事前検証する段階である。この段階では、レポート等の成果物提供を伴うこともあるが、極めて初期的な段階であるため、学習済みモデルが成果物として提供される場合はほとんどない。
事前検証の内容は様々であるが、まず重要なことは、ユーザが、AI 導入により何を解決したいのかを探求すること、すなわち、課題の設定である。AI 技術に対する理解不足や、過度な期待から「とりあえず AI を導入したい」との漠然とした問題意識のみで、学習済みモデルの生成を委託するケースが実務上少なくない。しかしながら、AI 技術はあくまでもツールにすぎず、重要なのは、これを用いていかなる事業上の課題を解決するかという視点である。
また、同様に、事業上の課題が、いかなる場合に達成できたと評価するか、すなわち、KPI が設定できる場合は、KPI を明確にすることも重要である。
40 追加学習に関する契約としては多様なものが想定され、たとえば、保守運用契約の中に規定することや、学習支援契約または別途新たなソフトウェア開発契約を締結することが考えられる。
これら事業上の課題および KPI の設定は、事業内容に依存することから、ユーザの責任において実施され、xxxはそれを支援するとの役割分担が実情に即していると思われる。そして、これらの課題が明らかとなって初めて、ユーザがベンダに対してどのようなデータを提供する必要があるか、必要なデータは十分にあるのか、足りないデータがある場合には集められるのか、といった事項を、ユーザとベンダ間で事前検証できる。その上で、データの仕様等についてさらに協議を重ねることになる。
このような意味で、学習済みモデルの生成に際しては、ユーザの積極的な関与が必要不可欠である。そして、データに関する打合せや検証作業は、ユーザとベンダとの間の密接なコミュニケーションを伴うことから、場合によっては有償での契約を締結した上で、数か月単位の時間をかけて行うことも珍しくはない。
なお、アセスメント段階で、およそ成功可能性がないということになれば、開発がそのまま終了することもある。
加えて、アセスメント段階を踏まずに、「PoC 段階」からスタートする場合や、アセスメント段階と PoC 段階を一体として実行する場合もある。
② PoC 段階
学習済みモデルの生成において「PoC 段階」は、ユーザまたはベンダが保有しているデータを基に学習済みモデルの生成を進めるかについて検証する段階として捉えられることが多い。
アセスメント段階と異なり、基本的にはユーザが保有している一定量のデータ(あるいは新たにデータを生成するのであれば生成されたデータ)を用いて、学習済みモデルの生成・精度向上作業を行い、事後の開発の可否や妥当性を検証する。このような検証の結果は、レポートにまとめられることが一般的である。
また、PoC 段階の内容には、学習済みモデルのパイロットテストを含むことがある。この場合、PoC 段階では、既存のシステムの一部を学習済みモデルを用いたモジュールで置換し、その統合(インテグレーション)をした上で、性能を評価する。そして、KPI が実現可能であると確認された場合、開発段階に進むことになる。このようなパイロットテストは、ベンダの環境下において実施することもあれば、実環境を模した仮想環境、あるいは、実環境において実施することもある。特に、仮想環境あるいは実環境において PoC を実施する場合には、成果物として学習済みモデルが生成されることもある。この場合には、その権利帰属や利用条件について協議をする必要が生じる。
このように、PoC 段階では、様々な業務が対象となり得る。そのため、実務上、PoC 段階の契約については、その対象範囲や対象期間を合意しておくことが重要となる。また、PoC 段階は、学習済みモデルの生成が試行錯誤を不可避的に伴うことから、1 回で完結せず、複数回実施されることも少なくない。
PoC 段階では、その後の開発段階への移行が想定されているため、それぞれの段階で統一的に取り扱うべき事項があるか、あるいは、各段階で個別に取り扱うべき事項があるかを整理しておく必要もある。たと
えば、検証のため提供されるデータや、成果物(特に学習済みモデル)に関する権利帰属や利用条件について、各段階の取扱いをあらかじめ検討しておくことが望ましい。その結果、PoC 段階の成果物に関する知的財産xxについてはベンダ帰属とするが、開発段階の成果物についてはユーザ帰属とすることも考えられる。
また、PoC 段階が功を奏した場合に、開発段階へと移行するとのユーザ・ベンダ間の認識を確認する趣旨で、開発契約締結の努力義務を定めることもある。
③ 開発段階
「開発段階」は、実際に学習用データセットを用いて学習済みモデルを生成する段階である。その概要は、前記第 2-3-⑴のとおりである。
④ 追加学習段階
「追加学習段階」は、ベンダが納品した学習済みモデルについて、追加の学習用データセットを使って学習をする段階である。学習済みモデルを生成したベンダが追加学習支援をすることもあれば、全く別のベンダが実施する場合もある。保守運用とセットでなされることも考えられる。
(4) ユーザ・ベンダの役割
学習済みモデルの生成に際しては、従来型のソフトウェアの開発以上に、ユーザとベンダ双方の積極的な関与が必要である。
① ユーザの役割
前記のとおり、学習済みモデルの生成が、データを用いた帰納的なアプローチにより行われる以上、その性能は、学習に用いる学習用データセットに大きく依存する。
そして、学習済みモデルを生成するにあたって必要となる生データは、ユーザのコントロール下にあり、ベンダは、そもそも、ユーザがいかなるデータを有しているかを事前に知らないことが通常である。したがって、ユーザから開発を希望する機能を抽象的に伝えられるのみでは、学習済みモデルの生成に着手することは原理的に困難であり、ベンダは、ユーザから生データまたは学習用データセットの提供を受けて、初めて開発を進めることができる。
このように、ユーザが学習用データセット、あるいは、その元となる生データをいかにして準備するかは、学習済みモデルの生成における最重要プロセスの 1 つであり、従来型のソフトウェア開発と比較して、
ユーザの果たす役割が大きいポイントの 1 つである。
そして、ユーザが、必要なデータを準備するためには、⑴学習済みモデルを生成することによって、その事業上、何を獲得目標とするかについて、すなわち、事業上の課題および KPI を明確に認識した上で、⑵いかなるデータが自らのコントロールする環境において生成されるかを把握し、さらに、⑶学習あるいは評価に適したデータを選択する必要がある。
このような作業に際しては、ベンダの支援を受けることができる場
合もあろうが、主体となるのは、あくまでも、ユーザである。学習済みモデルの生成は、ユーザの積極的かつ主体的な関与がなければ進めることは困難であるといえる。
② ベンダの役割
ベンダについて見ると、前記のとおり、学習済みモデルについては、技術上、完成保証やxxの入力(データ)に対する性能保証を行うことは必ずしも容易ではないものの、そのことは直ちに、ベンダが契約上、何ら完成責任を負わないことを意味しない。最終的には当事者のリスク分配により、ベンダの義務範囲が定まることになるからである。
そのため、ベンダが、たとえば、開発段階において、限定された評価用データ 41について、契約上、一定の性能を有する成果物の完成を約束することも想定できる。このような場合には、ベンダには、ユーザの希望目標を達成することが求められることになる。また、たとえ、ベンダが、学習済みモデルの完成義務を負わない場合であっても、プロフェッショナルとして一般的に求められる水準で、開発を進めることが求められるであろう。
加えて、このように開発を進める中で重要であるのが、ユーザとの間において、密接なコミュニケーションをとることである。特に、AI 技術が新しい技術であることを踏まえれば、ユーザとベンダとの間には、技術に関する情報格差や認識の齟齬が存する場合も少なくないと考えられる。そのため、ベンダには、学習済みモデルの生成が内包する不確実性や、従来型のソフトウェア開発との違いについて、ユーザに対して適切かつ丁寧に説明をし、共通の技術認識を形成すべく、最大限の努力を払うことがやはり求められる。
このような意味において、学習済みモデルの生成は、ユーザのみならず、ベンダによる積極的かつ主体的な関与がなければ進めることは困難であるといえる。
4 契約における考慮要素
(1) 契約の法的性質
契約の内容は、当事者の合意によって個別具体的に定めることができるのが原則である。もっとも、一定の事柄についてベンダとユーザの間に明示的な合意がない場合に適用されるであろうデフォルトルールを理解することは、契約の内容を協議し定める上でも重要である。
以下では、従来型のソフトウェア開発の場合と比較しながら、特に、役務の提供を契約の目的と見るのが適切であるのか 42(準委任型)、役務の結果を給付することまでを契約の目的と見るのが適切であるのか(請負型)に注目して、学習済みモデル生成の各段階に親和的な契約の性質を検
41 アセスメント段階や PoC 段階においてユーザからベンダに対して提供されたデータではなく、開発段階において新たに準備された評価用のデータを想定している。
42 準委任契約には、委任事務の履行により得られる成果に対して報酬を支払うことを約する「成果完成型」と、委任事務の処理の割合に応じて報酬を支払う「履行割合型」があるところ、前者の類型においては、準委任契約であっても、成果物を想定し、かつ、その完成を契約の内容(報酬の支払条件)とすることが可能である。請負契約との大きな違いとしては、完成義務および瑕疵担保責任の有無が挙げられる。
討する。
① 従来型のソフトウェア開発の場合
従来型のソフトウェア開発においては、それぞれの工程の性質の違いに応じて異なる考慮を行うのが一般的である。
まず、従来型のソフトウェア開発では、企画・要件定義の段階においては、ユーザ・ベンダ双方にとって開発の対象となるソフトウェアの具体的内容がまだ十分に特定されておらず、一般に準委任型の契約が実態に沿うといわれている。
他方、企画・要件定義を経て設計・開発の段階に移行した段階においては、既に開発の対象となるソフトウェアの具体的内容が十分に特定されていることから、特定のソフトウェアの完成までを目的とした請負型の契約が親和的であることが多いといわれている。
② 学習済みモデル生成の場合
従来型のソフトウェア開発の場合とは異なり、学習済みモデル生成の場合はどの段階においても準委任型の契約が親和的である。
まず、アセスメント段階は学習済みモデルの生成可能性を検証するための段階であり、PoC 段階は学習済みモデルの生成をさらに進めることの可否および妥当性を検証するための段階であって、そもそも学習済みモデルの完成を目的とする段階ではない。
また、開発段階は学習用データセットを用いて学習済みモデルを生 成することを目的とする段階であるが、前記第 2-4-⑴の学習済みモデ ルの特性から、契約締結時までに仕様や検収基準を確定することは難 しいことが多く、また、xxの入力(データ)に対しては、学習済みモ デルがユーザ・ベンダのいずれもが想定しない挙動をしないことの保 証をすることも困難である。そのため、具体的な仕事の完成を目的とし、一定の瑕疵担保責任を伴う請負型の契約にはなじみにくい 43。なお、準 委任型の契約を締結する場合には、成果完成型を志向するか、それとも、履行割合型を志向するのかについて、当事者間において、明確にしてお くことが望ましく、また、成果完成型を選択するのであれば、対象とな る成果物がどのようなものかについて合意しておく必要がある。
さらに、追加学習段階は、ベンダが納品した学習済みモデルを基礎に、追加の学習用データセットを使って学習を行うことを目的とする段階
43 他方、既知の入力(データ)に対する学習済みモデルの性能については、前掲注 17 のとおり、評価条件を適切に設定・限定できるのであれば、性能保証を行うことに合理性が認められる場合もあると考えられる。この場合には、学習済みモデルを成果物とする請負契約として構成することになるであろうが、既知の入力(データ)のみならず、xxの入力(データ)に対する性能保証について、当事者間の認識を明確にしておくことが重要となると思われる。
また、この場合、実務上は、限定された評価用データに対しての性能保証がなされる場合が想定されるが、このような評価用データが、ユーザの事業上のリスクを十分に評価したものであるかは、通常、ユーザのみが把握する事項であり、したがって、評価用データの準備は、原則として、ユーザの費用と責任で行われることが合理的なことが多いと思われる。そのため、ユーザが、ベンダに対して、既知の入力(データ)に対する学習済みモデルの性能について保証を求める場合には、かかる費用および責任を負っても、なおも保証を受ける意味があるかについて判断をすることが重要になる。
であって、一定の学習済みモデルの完成を目的とする段階ではない。以上のとおり、学習済みモデル生成の各段階には、具体的な学習済み
モデルの完成を約束する請負型の契約ではなく、一定の検証や開発といった役務の提供を目的とする準委任型の契約がその実態になじみやすい。
(2) 契約における交渉のポイントと留意点
ベンダとユーザのいずれも、学習済みモデル生成の各段階について、
「生データ」、「学習用データセット」、「学習用プログラム」および「学習済みモデル」、また必要に応じて学習済みモデルを構成する「学習済みパラメータ」と「推論プログラム」のそれぞれの取扱いを意識して交渉することが重要である。また、「ノウハウ」の取扱いについても交渉の対象とすることが望ましい場合がある。以下、それぞれについて、契約交渉において特に留意すべき点を述べる。
① 生データ
生データは、ベンダやユーザが一定の労力を投下することによって収集・蓄積されたものである場合もあれば、二次利用が可能な利用ルールの下に公開された、いわゆるオープンデータである場合もある。後者の場合には、生データの利用方法をめぐって交渉上の問題が生じることを想定することは難しい。
なお、生データを相手方に開示する当事者は、開示の目的のために必要最小限の範囲を超えた生データの第三者への開示や複製を防止する必要がある場合には、それを明示的に禁止する契約を相手方との間で締結する必要がある。また、生データの開示を受ける当事者が、その開示の直接の目的を超えてそれを利用することを望む場合には、ベンダとユーザのそれぞれの立場から、生データ利用の目的、時期、範囲、対価その他の利用条件を十分に検討の上、互いに協議することが望ましい。
② 学習用データセット
a 定義の重要性
学習用データセットは、前処理が施された生データに正解データ
44 コンピュータによる情報解析を目的とする場合には、一定の限度で記録媒体への記録等を認める著作xx 47 条の 7(情報解析のための複製等)に留意されたい。なお、著作権行使が制限される行為の類型を定めた著作xx 30 条の 4(著作物に表現された思想又は感情の享受を目的としない利用)、同法 47 条の 4(電子計算機における著作物の利用に付随する利用等)などを定めた平成 30 年改正著作xxが第 196 回国会で成立しているので、その動向にも同様に留意されたい。
の付加等を行うことによって二次的に生成されたデータであって、生データそのものではない。しかし、前記第 2-3-⑵-②のとおり、生データと学習用データセットとの間に自ずと明らかな境界が存在するわけではなく、これらの取扱いについて疑義が生じる可能性がある。そのため、これらの語を用いる場合には、契約上の意義を明確化することが紛争防止の観点からは望ましい。
b 役割の分担
学習用データセットの生成は、学習済みモデルの生成と密接に関連する行為ではあるが、それに必ず付随する行為とまではいえない。そのため、学習用データセットを生成する主体は、当事者の合意によって定めるべき内容である。もっとも、学習済みモデルの内容・品質がその基礎となる学習用データセットの内容・品質に実質的に依存することを考慮すると、ユーザの協力の下、学習済みモデルとともに学習用データセットの生成をベンダに委ねることが適切であることが多いであろう。
なお、学習用データセットを生成するために、生データに対して関連する情報を注釈として付与する「アノテーション」を行う場合、このうち単純ではあるものの多大な労力を要するものについては第三者に委託されることがある。ユーザが特にベンダの開発力に期待して契約関係に入った場合には、ベンダに(準)委任された業務の第三者への再(準)委任についてはユーザの承諾が契約上必要とされるのが一般的であり、その場合には、学習用データセットの生成を担うベンダが第三者にアノテーションを委託するには、ユーザからそのための承諾を得る必要がある。
c 権利帰属・利用条件
学習用データセットの生成には、通常、収集・蓄積された生データとこれに対する一定の処理・加工が必要である。生データの収集・蓄積とこれに対する処理・加工にはそれぞれ相当の費用・労力が投下されることは少なくなく、後者には一連の学習済みモデル生成に要する工数の大部分が費やされる場合もある。そのため、学習済みモデルの取扱いとは別に、学習用データセットの契約上の権利帰属や利用条件が交渉上の重要な課題となることがある。
権利帰属、利用条件その他学習用データセットの取扱いを契約に定めるにあたっては、学習用データセットの生成に対する各当事者の寄与と、その基礎となる生データの性質をどのように評価すべきであるのかが、契約の交渉時にしばしば議論の対象となる 45。以下は、その際に考慮されるべきポイントを整理したものである。
45 理論上は、データの加工行為に創作性が認められる可能性がある。この場合、生データの加工を行った当事者がその著作者(原著作者と二次的著作者のいずれとなるかは、生データに著作物性が認められるか否かにより異なる。)となる。
当事者の寄与 | • 生データの収集・蓄積に投下する費用・労力 • 生データの処理・加工に投下する費用・労力 • 学習用データセットの生成に要する各種ノウハウの希少性 |
データの性質 | • 生データ自体の価値(営業秘密性・希少性) • 学習用データセットの転用可能性 • 学習用データセットからの生データ復元可能性 |
学習用データセットの取扱いは、ベンダとユーザの利益のバランスの中で終局的には定められるべきものである。しかし、一般論としては、生データに対する前処理、正解データの作成等に希少性の高いノウハウが用いられる必要性が大きく、またはそのようなノウハウにより創出されると見込まれる価値が大きいほど、学習用データセットの生成を担った当事者には交渉上の優位性が認められやすいといえる。また、事業の目的に照らし、営業秘密性の高い生データを含む学習用データセットについては、契約の目的外の利用を許諾しない代わりに、学習用データセットの生成に投下された費用・労力は別途対価の算定において考慮されることもあるだろう。
なお、後記第 4-4-⑵-④-b のとおり、学習済みモデルは、その二次利用を防止し、または生成に用いられたノウハウを秘匿する等の目的により、バイナリファイルの形式を用いる等、判読や二次利用が困難な方法によりベンダからユーザへ提供されることが少なくない。学習済みモデルそのものではなく、ベンダが生成した学習用データセットの分析からも学習済みモデル生成のノウハウ等が解析される危険があることから、これを避けるために学習用データセットを契約上の提供対象に含めないことを検討すべき場合もあり得る。
③ 学習用プログラム
学習用プログラムは、その入力として学習用データセットを利用することにより、学習済みパラメータを生成するためのプログラムであ
46 なお、「業として特定の者に提供する情報として電磁的方法により相当量蓄積され、及び管理されている技術上又は営業上の情報(秘密として管理されているものを除く。)」である「限定提供データ」について、その不正取得・使用等を新たに不正競争行為とする平成 30年改正不正競争防止法が第 196 回国会で成立しているので、その動向にも同様に留意されたい。
る。特定の開発目的のためにゼロから学習用プログラムを作成することはもちろん可能であるが、現在までに様々な機械学習ライブラリ(フレームワーク)が OSS として提供され、普及していることから、学習用プログラムの作成にはこうしたライブラリが広く利用されている 47。そのため、学習用プログラムの権利帰属が交渉上の問題となることは少なく、ベンダの開発部分に関する権利にも特段触れられないことも多いであろう。
もっとも、そのことは、ユーザによる学習用プログラムの利用やソースコードのユーザへの開示等を認めることに問題がないということを意味しない。機械学習ライブラリは、学習用プログラムの作成に要する費用や労力をたしかに低減するものではあるが、目的に適合した学習済みモデルを生成するためには、そのようなライブラリの採否にかかわらず、具体的な手法の選択等に高度なノウハウが要求される。ベンダが作成した学習用プログラムの著作xxをユーザに帰属させ、またはこれをユーザに利用させることの可否は、ユーザによる利用条件が当事者間の利益のバランスを損なうものでないかを十分に考慮して定められるべきである。
なお、学習用プログラムの権利帰属・利用条件を定めるにあたっては、開発対象である学習済みモデルが生成された後、これを基礎とし、また はこれとは独立して、新たな学習済みモデルを生成する事業上の必要 があり得ることに留意することも重要である。たとえば、学習用データ セットに新たなデータを追加して学習済みモデルを自ら生成する事業 上の必要があるユーザは、学習用プログラムについて少なくとも利用 許諾を受けなければならない。他方、そのような追加学習を保守・メン テナンスサービスの一環として行う事業モデルを持つベンダは、学習 用プログラムの利用をユーザに許諾しないという選択をすることにな るであろう。
④ 学習済みモデル
a 定義の重要性
AI 技術を利用したソフトウェアの開発を目的とする契約の実務において、学習済みモデルの取扱いはその中心的な交渉上の課題の一つである。しかし、学習済みモデルの法的な意義は、xxxxx的に明らかであるとはいえず、その取扱いに関する交渉にあたっては、この点について共通の理解を得ておくことが紛争予防の観点から望ましい。
具体的には、学習済みモデルに①学習用データセットを含むか、②学習用プログラムを含むか、また、③学習済みパラメータに加えて推論プログラムを含むかについて、十分な整理がなされないまま交渉が行われ、契約が締結されている例が見受けられる。無用な議論の混乱を避け、交渉を生産的に進めるためにも、当事者間でこれらを整理することが有用であることは多いであろう。
47 よく利用される機械学習ライブラリには、Caffe、Chainer、TensorFlow などがある。これら OSS の利用にあたってはその利用条件の確認が必要である。このようなライブラリには、MIT ライセンス、APACHE ライセンス、BSD ライセンスのいずれかが採用されていることが多い。
b 提供方法
ベンダからユーザへの学習済みモデルの提供の方法は、ソースコードを開示する等、判読・二次利用が可能な方法による提供の可否という形で交渉上の課題となる場合がある。判読可能な形式により提供された学習済みモデルからはベンダのノウハウを読み取ることも可能な場合もあることから、判読・二次利用が可能な学習済みモデルをユーザの側で必要とする特別な事情が認められない限りは、バイナリファイルの形式を用いる等、判読や二次利用が困難な方法による提供が行われることが一般的である。学習済みモデルの提供方法については、判読や二次利用が困難な方法で行うかどうかを十分に検討した上で定めることが重要である。
c 権利帰属・利用条件
学習済みモデルに関する知的財産権の帰属および利用条件は、ベンダとユーザの間の交渉上の主要な課題である。
学習済みモデルに関する知的財産権の帰属は、学習済みパラメータと推論プログラムから構成される学習済みモデルのどの部分にいかなる知的財産権が成立するかについて明確なルールがまだ存在しないこととも関連し、学習用データセットまたはその基礎となる生データを提供した当事者と、学習用プログラムを作成して実行し、学習済みモデルを生成した当事者とが異なる場合に、特に問題となりやすい。
この場合には、後記⑤および⑥に記載の内容を十分に検討した上で利用条件等を定めることが重要である 48。
d 再利用モデルの取扱い
前記第 2-4-⑴-④のとおり、開発された学習済みモデルを再利用し、これとは異なる学習済みパラメータ等を有する学習済みモデルであ る再利用モデルを生成することが理論上は可能である。再利用前の 学習済みモデルと再利用モデルとの法的な意味での同一性は必ずし も明らかではない。そのため、ユーザまたはベンダが他方当事者によ る学習済みモデルの利用の目的や範囲を制限したい場合、その再利 用モデルの生成の諾否および内容についても契約上明確に定めてお くべきである。
もっとも、学習済みモデルの再利用に制限が定められた場合であ
48 特に、実務上は、学習済みモデル(学習済みパラメータ)の利用を禁止されている当事者が追加学習や蒸留を行い新たな学習済みパラメータを生成することの適否が問題となることが少なくない。前記のとおり、学習済みパラメータは、著作権の対象となり難いと思われるものの、仮に著作権の対象となる場合であっても、新たな学習行為が介在している以上、再利用モデルや蒸留モデルの学習済みパラメータは、元の学習済みモデルの学習済みパラメータに依拠して生成されたとはいえず、やはり、著作権侵害が成立しない場合が多いであろう。加えて、学習済みモデル(学習済みパラメータ)の利用を禁止するのみでは、これを用いた追加学習や蒸留による学習済みパラメータの生成や利用が直ちに禁止されることにもならない。そのため、再利用モデルや蒸留モデルの生成や利用を制限したい場合には、その旨を契約書に明記することが重要となる。
っても、コンピュータの中でのソフトウェアの動作を外部から把握 することは難しく、これに対する違反を特定することは必ずしも容 易ではない。また、仮に特定することができたとしても、学習済みモ デルの再利用があったことを立証することにも困難が伴うであろう。そのため、紛争予防の観点からは、当事者間の利害が対立する可能性 が高い一定の取引の時期や範囲に制限を設ける等、取引の態様にx xの制限を設けることを検討すべき場合があろう。
⑤ 学習済みパラメータ
学習済みパラメータとは、学習用データセットを学習用プログラムに対する入力として用いることで、一定の目的のために機械的に調整されたパラメータをいう。これは数値等のデータによって表現されるものであるが、その配列自体は人間が「思想又は感情を創作的にしたもの」(著作xx 2 条 1 項 1 号)であるとは言い難いこと等から、一般に、著作権法上の保護が及ぶ著作物に該当する可能性は低いように思われる。
そのため、生成した学習済みパラメータに現実にアクセスすることができるベンダには、これを自由に利用し、管理することができる地位が原則 49としてあることを前提として、ベンダとユーザの間で学習済みパラメータの利用条件を交渉し、契約に定める必要がある。
他方、ベンダからの学習済みモデルの提供を内容とする契約がその 利用方法について何らの留保なく既に締結され、かつ学習済みパラメ ータが識読性がある形でベンダからユーザに提供されている場合には、ユーザによる学習済みパラメータの利用をベンダが認めていると解さ れる可能性がある。たとえば、PoC 段階における成果として学習済みモ デルが性能評価目的で提供される場合等、その利用の目的や範囲にx xの制限を設けることをベンダが希望するのであれば、そのことを契 約上に明示すべきである。
⑥ 推論プログラム
推論プログラムとは、学習済みパラメータがこれに組み込まれ、入力に対して一定の結果を出力することを可能にするプログラムをいい、一定の要件を充たす限り著作xxまたは特許法上の保護が及ぶ。また、これには前記第 3-3-⑴-②のプログラムに関する一般論が当てはまる。
推論プログラムは、開発対象とされる学習済みモデルから出力の結果を取得するために必要なプログラムである。そのため、ベンダによる学習済みモデルの提供が契約上に定められている場合には、ユーザによる推論プログラムの利用の可能性が契約上で明示的に排除されていない限り、ユーザによる推論プログラムの利用が可能であることが当然の前提とされた合意があるものと理解されることが多いであろう。
特に注意すべきなのは、ベンダとユーザの双方に「学習済みモデル」に関する権利を帰属させることを契約に定める場合である。学習済みモデルを構成する要素のうち推論プログラム部分には、著作xxや特
49 学習済みパラメータが著作物に該当する場合にはその権利者が利用条件の設定権限を一次的には有することになる。
xxによる保護が及ぶ可能性があり、自らの利用、第三者への利用許諾や譲渡の可否等について、これらの法律の規定を意識した交渉を行い、契約上に定める必要がある。
⑦ ノウハウ
契約の実務においては、ノウハウ、特に学習用データセットや学習済みモデルの生成ノウハウの取扱いが交渉の対象となることがある。しかし、特にベンダは、蓄積されたそのノウハウがベンダの実質的な競争力の源泉であることも多く、競争力を毀損するおそれがあるノウハウの開示には慎重になることが合理的である。そのようなノウハウをベンダが開示することを契約に定めるにあたっては、当事者間の利益のバランスが図られているかを十分に検討することが重要である。
一方、ユーザが収集・蓄積した生データを用いてベンダが学習用データセットを生成し、さらに学習済みモデルを生成する場合に、そのような生データにはユーザのノウハウと評価されるべき情報が含まれており、あるいは開発の目的に適した処理にはそのような情報が必要である場合もある。そのため、学習済みモデルの生成にユーザも一定の貢献があったという主張がユーザからなされることがある。このような場合、ベンダによる学習済みモデルの(再)利用の可否が問題となりがちであるが、状況に応じて利用条件を適切に調整するという選択も視野に入れるべきであろう。