Proof NewsとWiredによる新しい調査により、Apple、Anthropic、Nvidia、Salesforceなどの主要なテクノロジー企業が、YouTube字幕の大規模なデータセットを使用してAIシステムを訓練していることが明らかになりました。
「YouTube Subtitles」として知られるデータセットには、MrbeastやMarques Brownlee(MKBHD)などの人気クリエイターのコンテンツや、ABC News、BBC、The New York Timesなどの主要なニュースアウトレットなど、48,000以上のチャネルにわたる170,000を超えるビデオからの転写が含まれています。データセットには実際のビデオコンテンツは含まれていませんが、これらのビデオから抽出された字幕のみに焦点を当てています。
この啓示は、データが許可なく収集されたと伝えられており、YouTubeの利用規約に違反したため、重要な論争を引き起こしました。有名な技術レビューアであるMarques Brownleeは、ソーシャルメディアで問題を強調し、AIトレーニングのための彼および他のクリエイターのコンテンツの不正使用について懸念を表明しました。彼は、Appleのような企業がデータを削ることに直接責任を負わないかもしれないが、それでも彼らはこの疑わしい慣行の受益者であると強調した。
Appleはいくつかの企業からAIのデータを調達しました
そのうちの1つは、私のものを含むYouTubeビデオからのデータ/転写産物を削りました
Appleは技術的に「障害」を避けています。
しかし、これは長い間進化する問題になるでしょうhttps://t.co/u93riaesly
- ブラウンリーブランド(@mkbhd)2024年7月16日
問題のデータセットは、非営利のEleutheraiによって作成されたThe Pileと呼ばれるより大きなコレクションの一部です。パイルは、本、ウィキペディアの記事、現在、YouTube字幕などのさまざまな資料を含むオープンソースデータセットです。この編集は、いくつかのハイテク大手によってAIモデルを強化するために使用されています。たとえば、AppleはPileを使用してOpenelmモデルを訓練しました。これは、iOS 18で発売されるAI搭載機能のスイートであるApple Intelligenceの導入直前に発表されました。
このデータセットの使用は、倫理的および法的な問題を提起しました。 YouTubeのCEOであるNeal MohanとAlphabetのCEOであるSundar Pichaiは、許可なしにAIトレーニングにYouTubeコンテンツを使用することはプラットフォームのサービス条件に違反すると述べています。これらの主張にもかかわらず、AppleやNvidiaのような企業は、パイルデータセットへの関与について公にコメントしていません。
もっと読む:人類はクロード3.7を発表します:最初のハイブリッド推論AIモデル
さらに、この状況は、AI業界内のより広範な問題、つまりトレーニングデータのソースに関する透明性の欠如を強調しています。多くの場合、企業はデータソースの詳細をラップして保持し、コンテンツの潜在的な誤用とコンテンツクリエーターへの影響についての懸念につながります。この透明性の欠如は新しいものではありません。今年の初めに、OpenaiのCTOであるMira Muratiは、YouTubeビデオがAIツールのトレーニングに使用されているかどうかを直接避け、代わりに公開されているまたはライセンスされたデータの使用を引用しました。
証明ニュース調査では、パイルデータセットには、特定の性別や宗教団体に対するバイアスや冒とくなど、潜在的に問題のあるコンテンツが含まれていることも強調しています。これらの問題にもかかわらず、Salesforceのような企業はデータセットの使用を擁護しており、それが公開されており、学術および研究の目的で使用されていると主張しています。
(経由有線))
