当前位置:首页 > 报告详情

感知人工智能前沿:第一人称视频和多模态感知.pdf

上传人: orig****ity 编号:185115 2024-08-05 62页 8.96MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了UT Austin和FAIR联合推出的Ego4D dataset,这是一个大规模的多模态第一人称视角数据集,用于推动机器视觉和听觉学习的发展。Ego4D包含了3D环境扫描、多摄像头、眼动追踪以及音频等多种数据类型,覆盖了日常生活、工作、娱乐等场景,总时长超过3670小时,参与人数达931人。数据集通过隐私和伦理审查,确保了数据收集和使用的合规性。Ego4D benchmark suite包括了诸如Episodic Memory、Forecasting、Hands & Objects等任务,旨在促进研究社区的发展。此外,文章还提出了一种层级化的视频-语言嵌入学习方法,以及利用回声定位恢复场景形状的方法。通过这些方法,机器学习模型能够在未知环境中进行更准确的预测和导航。
如何改变机器人学习与感知?" 如何在未知环境中实现自我导航?" 如何通过语音分离提升人工智能?"
客服
商务合作
小程序
服务号
折叠