AIの普及が飛躍的に進んでいる昨今、その機械学習に欠かせないデータをめぐる競争が激化している。
先日、アップルがロイヤリティフリー素材提供最大手のシャッターストックと2,500万ドルから5,000万ドルで提携し、AIモデルの学習用に数百万点の画像のライセンスを取得したとの報道があった。メタ、グーグル、アマゾンなどのテック大手も、シャッターストックと数千万ドル規模の契約を結んでいるようだ。グーグルは年間6,000万ドルでコンテンツ共有プラットフォーム大手のRedditのデータ独占利用権を得たとも報じられており、高品質な学習データの経済的価値の高さがうかがえる。
一方で、テック企業が著作権のあるニュース記事や書籍、ソーシャルメディアの投稿などを無断で使用していることに対し、出版社やクリエイターからは不満の声が上がっている。
急速に盛り上がると同時に、数多くの課題も抱えるAIの学習データ市場について最新動向をお伝えする。
AIのトレーニングに欠かせない高品質のデータ
チャットGPTによる業務効率化など、ビジネス分野においてもAIの存在感は増すばかりだが、AIを機能させるのに不可欠なのが、適切な機械学習モデルのトレーニングだ。
ラベル付けや前処理などの工程を経たデータは、より機械学習に適した形に整えられ、その後、機械学習モデルがこのデータを解析し、パターンや特徴を抽出して学習することで、最終的にはモデルが新しいデータに対して正確な予測や判断を行えるようになる。
このようなトレーニングにおいて重要になるのが、AIに特定のタスクを行うためのパターンや関連性を学ばせるための膨大な量の「高品質」なデータだ。
データの品質や多様性は、トレーニングの成果、ひいてはAIのタスク処理能力に大きく影響するため、高品質のデータには非常に高い価値がある。
アップルが4億を越える大量の写真、ビデオクリップ、音楽素材の提供を行うシャッターストックと数百万枚の画像のライセンスを供与する契約を結んだのも、このAIのトレーニングにおけるデータの重要性を表している。
メタ、グーグル、アマゾンに続き、シャッターストックの保有するデータの利用を開始したアップルの正確な契約条件はまだ公表されていない。
…