word2vec LLMが言葉を扱うための言葉の数値化
2020年代前半から生成AIが一世を風靡しましたが、生成AIの基礎となるLLM(Large Langage Models, 大規模言語モデル)を構築するために、言葉を数値に置き換えることが非常に重要です。コンピュータは数値を扱うことができますが、文字を直接扱うことはできないからです。 そして、単に数値化するといっても、文字を文字コードに置き換えるだけでは、その数字の列に何の意味もないため、単語をベ […]
2020年代前半から生成AIが一世を風靡しましたが、生成AIの基礎となるLLM(Large Langage Models, 大規模言語モデル)を構築するために、言葉を数値に置き換えることが非常に重要です。コンピュータは数値を扱うことができますが、文字を直接扱うことはできないからです。 そして、単に数値化するといっても、文字を文字コードに置き換えるだけでは、その数字の列に何の意味もないため、単語をベ […]
AIを学習させるために、スクレイピングをしてデータを取得したいという場面があります。そして、スクレイピングに際して、著作権法上の問題や契約上の問題について触れましたが、その他にも、業務妨害という観点でも気を付ける必要があります。例えば、スクレイピング先のサーバーに高負荷をかけてしまうと、業務妨害罪等に該当する可能性(刑法233条の偽計業務妨害罪、刑法234条の威力業務妨害罪、刑法234条の2の電子 […]
スクレイピングによりデータを集める場合、法律上の規制に該当することは限られた場面になりますが、契約に違反しないか、という点も気を付ける必要があります。 1 利用規約 インターネット上のデータにアクセスする際に、サイトに利用規約が掲げられていることがあります。利用規約には主に、一方的に利用規約のみが示されているケース(会員登録がないために同意の意思表示をする場面がないものの利用規約が定められているよ […]