生成AIで使われるような LLM(大規模言語モデル) は、膨大なデータを学習することで高い性能を実現しています。
では、その学習データとして、インターネット上の文章をスクレイピング(自動収集)して使うことは、著作権法との関係で問題ないのでしょうか。
結論から言うと、他人の著作物をLLMの学習データとして使うこと自体は、原則として適法です。
ただし、学習後にAIが出力する内容には注意が必要です。
なぜ学習は許されるのでしょうか。
著作権法では、思想又は感情の創作的表現を人が受け取ることで、知的・精神的欲求を満たす効用が得られ、そこに著作物の利用の価値があると考えられています。一方、AIの学習段階では、人が文章を読むわけではなく、機械が統計的にデータを処理しているにすぎません。
このような「人が内容を享受しない使い方」は、著作権法30条の4(非享受利用)により、一定の範囲で認められています。そのため、スクレイピングした文章を使ってLLMを学習させる行為は、多くの場合、著作権侵害にはならないとされています。
しかし、注意すべきなのは学習後の利用です。
AIが生成した文章が、特定の小説や記事と酷似していたり、元の著作物を再現するような内容になってしまうと、著作権侵害が成立する可能性があります。
つまり、
●学習することは原則OK●
●出力の内容は場合によってNG●
という関係になります。
なお、著作権法30条の4但書には「著作権者の利益を不当に害する場合」は認められないという例外もあります。たとえば、学習用として販売されているデータベースを無断で利用するようなケース、特定の著作物を出力させることを意図してその著作物に特化して学習させるようなケースでは、著作権法30条の4が及ばないことがあり得ます。この場合、学習段階でも著作権侵害が成立する可能性があります。
生成AIと著作権の問題は、学習段階では著作物を利用できる許容範囲が広いですが、出力段階では既存の著作物が出力されないよう気を付ける必要があります。