AIの学習データとしてのデータ保護の観点
1 何が有益な情報か 生成AIの精度が日を追うごとに向上し、これからは何かの業務を行うに際しても、AIとの関係は切っても切れない関係になると思われます。その中で、生成AIの性能向上のためには学習データが欠かせません。したがって、あるタスクを実行させようとしたときに、それを人間が行ったデータがあるとすれば、生成AIの学習データとして用いることが可能という観点では非常に重要なデータです。例えば、取引デ […]
1 何が有益な情報か 生成AIの精度が日を追うごとに向上し、これからは何かの業務を行うに際しても、AIとの関係は切っても切れない関係になると思われます。その中で、生成AIの性能向上のためには学習データが欠かせません。したがって、あるタスクを実行させようとしたときに、それを人間が行ったデータがあるとすれば、生成AIの学習データとして用いることが可能という観点では非常に重要なデータです。例えば、取引デ […]
日本では、AIの学習データのために第三者の著作物を利用する場合、著作権法30条の4の規定により許容されることが多いです(こちらの記事でも書いた通り)。 そして、著作権法30条の4を前提にすると、学習データに用いる著作物が海賊版サイトのように不正に取得されたソースから取得されたものであっても、基本的に許容されると考えられます。 一方で、例えばEUでは、DSM指令第4条によって、合法的にアクセスでき […]
2020年代前半から生成AIが一世を風靡しましたが、生成AIの基礎となるLLM(Large Langage Models, 大規模言語モデル)を構築するために、言葉を数値に置き換えることが非常に重要です。コンピュータは数値を扱うことができますが、文字を直接扱うことはできないからです。 そして、単に数値化するといっても、文字を文字コードに置き換えるだけでは、その数字の列に何の意味もないため、単語をベ […]
AIを学習させるために、スクレイピングをしてデータを取得したいという場面があります。そして、スクレイピングに際して、著作権法上の問題や契約上の問題について触れましたが、その他にも、業務妨害という観点でも気を付ける必要があります。例えば、スクレイピング先のサーバーに高負荷をかけてしまうと、業務妨害罪等に該当する可能性(刑法233条の偽計業務妨害罪、刑法234条の威力業務妨害罪、刑法234条の2の電子 […]
スクレイピングによりデータを集める場合、法律上の規制に該当することは限られた場面になりますが、契約に違反しないか、という点も気を付ける必要があります。 1 利用規約 インターネット上のデータにアクセスする際に、サイトに利用規約が掲げられていることがあります。利用規約には主に、一方的に利用規約のみが示されているケース(会員登録がないために同意の意思表示をする場面がないものの利用規約が定められているよ […]