TAG

生成AI

word2vec LLMが言葉を扱うための言葉の数値化

2020年代前半から生成AIが一世を風靡しましたが、生成AIの基礎となるLLM(Large Langage Models, 大規模言語モデル)を構築するために、言葉を数値に置き換えることが非常に重要です。コンピュータは数値を扱うことができますが、文字を直接扱うことはできないからです。 そして、単に数値化するといっても、文字を文字コードに置き換えるだけでは、その数字の列に何の意味もないため、単語をベ […]

AIの学習にスクレイピングは使っていい?(生成AIの学習と著作権の問題)

生成AIで使われるような LLM(大規模言語モデル) は、膨大なデータを学習することで高い性能を実現しています。 では、その学習データとして、インターネット上の文章をスクレイピング(自動収集)して使うことは、著作権法との関係で問題ないのでしょうか。 結論から言うと、他人の著作物をLLMの学習データとして使うこと自体は、原則として適法です。 ただし、学習後にAIが出力する内容には注意が必要です。 な […]