【記者発表】人のように一人称視点から実世界を理解する AIの実現に向けて ――大規模一人称視点・外部視点映像データセットEgo-Exo4Dを公開――

2023.12.05

プレスリリース

○発表のポイント：
◆一人称視点映像と外部視点映像を組み合わせた大規模データセットEgo-Exo4Dを構築し、研究開発コミュニティに広く公開した。
◆人の様々な行動を一人称視点映像と複数の外部視点映像で捉えたデータセットとして世界最大規模である。
◆1400時間を超える映像データに加えて、人の行動に関するアノテーション、人物行動理解における主要タスクのベースラインモデルが提供されており、映像から人の複雑な行動を理解するAIの開発に大きく資することが期待される。

メインビジュアル用.jpg
一人称視点映像と外部視点映像による行動理解

○概要：
　東京大学生産技術研究所の佐藤洋一教授の研究グループは、Ego4Dコンソーシアム（注1）に参画する米国Meta社FAIRと世界各国の大学とともに、人のように一人称視点から実世界を理解することができるAIの実現を目指し、一人称視点映像（注2）と外部視点映像を組み合わせた大規模データセットEgo-Exo4Dを公開しました。このデータセットは、Ego4Dコンソーシアムの参画機関と米国Meta社Project Ariaチームの国際協力により、基本的なコンセプトの策定からデータの収集、ベンチマークタスクの設定、そしてベースラインモデル（注3）の実装に至るまで、2年の歳月をかけて作成されたものです。Ego-Exo4Dでは、1400時間を超える映像に加えて、人の行動を理解するためのベンチマークタスクのアノテーションとベースラインモデルが含まれており、オープンソースとして公開されています。このデータセットを研究開発コミュニティに広く公開することで、映像やその他のマルチモーダル情報（注4）を通じて、人の複雑な行動を理解するための新しいAIの開発に大きく寄与することが期待されています。

○発表内容：
　映像から人の複雑な行動を理解するAIを実現するには大量の学習データが欠かせません。しかしながら、既存の大規模映像データセットはYouTubeなどのインターネット上のコンテンツから収集されたものが中心であり、ウェアラブルカメラ映像から得られる一人称視点映像を対象としたものはごく小規模なものに限られていました。2021年に公開された大規模な一人称視点映像データセットEgo4Dは、Ego4Dコンソーシアムの国際的な取り組みにより、このような状況の打破を目指し構築されました。
　今回公開されたEgo-Exo4Dデータセットは、このEgo4Dデータセットで得られた知見を踏まえて構築されたものです。Ego4Dデータセットが対象としていたのは、人が装着するウェアラブルカメラから得られる一人称視点映像だけでしたが、Ego-Exo4Dデータセットでは、さらに一歩進めて、ウェアラブルカメラから得られる一人称視点映像（Egocentric video）と、その人を取り囲むように設置された固定カメラから得られる外部視点映像（Exocentric videos）の両方が提供されている点が重要なポイントとなっています。
　また、Ego-Exo4Dデータセットは、同様のデータセットの中で世界最大の規模となっています。このデータセットには、800人を超える参加者が世界13都市の130以上の場所で記録した一人称視点映像と外部視点映像のペアが5,600組以上、映像の長さにして1400時間分以上が収集されています。さらに、作業手順の認識、作業誤りの検出、動作スキルレベルの推定など、人の行動の理解するための様々なタスクに対して、延べ20万時間以上の手作業によりアノテーションが付与され、これらのタスクに対するベースラインモデルのコードも提供されています。
　Ego-Exo4Dデータセットは、Ego4Dコンソーシアムの参加各機関における倫理審査を経て、厳しいプライバシー保護方針と倫理基準に沿って収集及び管理が行われています。また、データセット利用のためのライセンス契約の仕組みも整備されています。
　このようにして構築されたEgo-Exo4Dデータセットが、研究開発コミュニティに広く公開されることで、自己視点映像と外部視点映像から得られる情報を融合させ、人間の複雑な行動を理解できるAI技術の研究開発が大幅に進展することが期待されます。

○発表者・研究者等情報：
東京大学生産技術研究所
　　佐藤洋一教授

○用語解説：
（注1）Ego4Dコンソーシアム
　米国Meta社FAIR(Fundamental Artificial Intelligence Research)と世界各国13大学により構成される国際コンソーシアム。2020年に設立され、AIによる映像からの人物行動理解の研究開発に資する大規模一人称視点映像データセットの構築に関する取り組みを進めている。日本からは東京大学生産技術研究所の佐藤洋一教授の研究グループが参加。

（注2）一人称視点映像
　メガネ型ウェアラブルカメラなどにより得られる映像を指す。カメラ装着者自身の視点からの映像を捉えることができることから一人称視点映像、Egocentric video, first-person videosなどと呼ばれる。

（注3）ベースラインモデル
　動作認識などの特定のタスクに対して、既存手法をもとに準備されたモデルであり、新たな手法を開発するにあたって乗り越えるべき目安となるもの。

（注4）マルチモーダル情報
　映像に含まれる音、カメラの動きを捉えるIMUセンサのデータ、映像の内容を記述したテキストなど、複数の異なる種類の情報。

○問い合わせ先：
東京大学生産技術研究所
教授　佐藤　洋一（さとう　よういち）
Tel：03-5452-6278
E-mail：ysato（末尾に"@iis.u-tokyo.ac.jp"をつけてください）