AppleはVision Proを使用してヒューマノイドロボットを人間の視点データで訓練します

「ヒューマノイドポリシー〜ヒューマンポリシー」で詳述されているAppleの新しい研究では、ヒューマノイドロボットを訓練する画期的な方法を紹介しています。トップ大学とのコラボレーションであるこの革新的なアプローチは、多くの場合Apple Vision Proで撮影された一人称の人間のデモを使用して、ロボット学習をより効率的で手頃な価格にします。これは、ロボットを教える伝統的な複雑な方法から大きな飛躍です。

核となるアイデアは、自己中心的な人間のデモを収集することです。これは、自分の観点からタスクを実行する人々のビデオです。これは、ロボット生成されたトレーニングデータのみを収集する高価で労働集約的なプロセスとは対照的です。 25,000を超える人間と1,500のロボットデモンストレーションをPH2Dと呼ばれる統一データセットに組み合わせることにより、Appleは人間とロボットの両方のアクションを理解する単一のAIポリシーを作成し、効率を大幅に改善することを目指しています。

これを達成するために、AppleはVision Proの特定のアプリを開発しました。ヘッドセットのカメラとArkitを使用して、正確な3Dヘッドとハンドの動きをキャプチャし、ロボットが必要とする詳細なアクションデータを提供します。これをアクセスできるようにするために、AppleはZed Mini Stereoカメラ用のマウントを作成し、Meta Quest 3のようなより手頃なヘッドセットを備えた同様の高品質のデータキャプチャを可能にしました。

この新しい方法は、トレーニング効率を大幅に改善します。従来の遠隔操作には年齢がかかる可能性がありますが、Appleのアプローチは数秒で完全なデモンストレーションを記録し、コストを削減し、スケーラビリティを高めます。興味深いことに、人間のデモビデオは、トレーニング中にロボットの速度に合わせて4倍減速し、追加の調整なしで学習プロセスを簡素化します。

このシステムの中心には、人間のアクショントランス(HAT)モデルがあります。 HATは、統一された形式で人間とロボットの両方のデモンストレーションを処理し、操作タスクの普遍的なルールを学びます。この統合されたアプローチにより、ロボットは新しいタスクとなじみのないタスクをより効果的に習得することができ、従来のロボットのみのトレーニングよりも少ないデータが必要になります。

「ヒューマノイド政策〜人間の政策」の研究は、AIとロボット工学の極めて重要な瞬間を紹介し、人間の洞察が洗練されたヒューマノイドロボットの開発をどのように加速できるかを示しています。

もっと読む:Macラインナップに対するApple Siliconの変革的影響:Doug Brooksの視点

完全な論文をチェックしてくださいここ