日本では、AIの学習データのために第三者の著作物を利用する場合、著作権法30条の4の規定により許容されることが多いです(こちらの記事でも書いた通り)。
そして、著作権法30条の4を前提にすると、学習データに用いる著作物が海賊版サイトのように不正に取得されたソースから取得されたものであっても、基本的に許容されると考えられます。
一方で、例えばEUでは、DSM指令第4条によって、合法的にアクセスできるコンテンツであれば、データ分析目的で利用できることが規定されています。したがって、海賊版サイトからアクセスした場合には、「合法的にアクセス」したわけではないので、学習データには利用できないことになります。また、DSM指令第4条では、さらに、機械判読可能な方法でオプトアウトの意思表示をしている場合には、学習データに利用することができないので、例えば、robots.txtに学習データに利用しないことを明示している場合には、利用することができません。
また、例えば米国では、フェアユースの規定により著作物を学習データとして利用できるか否かが決まってきますが、①利用の目的と性格、②著作物の性質、③利用された量と重要性、④オリジナル作品の市場への影響がフェアユースとして利用できるか否かの判断要素となります。ここで、海賊版の著作物を学習データとして用いることは、直ちにフェアユースの要件を満たさなくなるというわけではありませんが、総合的な判断の中でマイナス要素になり、一部の裁判例ではフェアユースに該当しないとしているものもあります。
上記を踏まえると、日本ではAIの学習のためにクローリングをして幅広くデータを集めても、学習段階では著作権侵害に当たるケースは極めて限定的ですが、諸外国では、必ずしも合法にはならないため、日本以外にもサービスを向ける場合には注意が必要です。