学習データに著作物を利用した際の生成AI提供事業者の責任

AI, 未分類, 著作権
機械学習, 生成AI, 著作権

著作権

１　著作権法３０条の４との関係
　著作権法３０条の４では、学習データとして著作物を利用することが原則として許容されています。これは、AIの学習時に著作物を利用することは許容されていますが、生成時に許容されているわけではありません。したがって、生成AIの生成時には、著作権法３０条の４とは別に、著作権侵害の要件である依拠性、類似性の観点から侵害の成否が問題となります。また、生成AIでは、依拠性について、従来の著作権侵害とは異なるため検討が必要です。

２　依拠性
　生成AIにより作成したデータが第三者の著作物と同一・類似である場合、依拠性はどのような場合に認められるのでしょうか。
　この点、広く考えれば、学習データにその著作物が含まれていれば依拠性があると考えることもできます。したがって、一番の防衛策としては、著作物を学習データとして用いないということになります。しかし、このようにしてしまうと、著作権法３０条の４が規定された趣旨が没却されてしまうため、著作権法を前提とすると、ここまで求めているとは考えにくいように思います。
　文化庁の公表する令和6年3月15日付「AI と著作権に関する考え方について」P34によれば、依拠性がないと判断され得る例として、「学習に用いられた著作物と創作的表現が共通した生成物が出力されないよう出力段階においてフィルタリングを行う措置が取られている場合」や、「当該生成AIの全体の仕組み等に基づき、学習に用いられた著作物の創作的表現が生成・利用段階において生成されないことが合理的に説明可能な場合」などがあると示されています。
　例えば、学習データに用いた著作物をデータベースとして保存しておき、その著作物と同一・類似の出力が生成される場合にはその出力を抑制して、再度別の生成を行うような場合は、前者に該当するものと思われます。また、大量の学習データを用いてAIのモデルを生成した場合、一般的には、ある著作物の特徴はどんどん薄められていくため、実際にも多くの生成を試して特定の著作物と同一・類似の生成が生じないようなケースは、後者に該当するものと思われます。
　したがって、AI事業者としては、出力時に学習データに含まれる著作物と同一・類似の出力が生じないような機構を備えるようにするか、大量の学習データを用いて学習データに含まれる著作物が実質的には生成されないような機構を備えるようにするよう意識する必要があると思われます。