在这个计算机视觉顶会上，他们拿下6项冠军！-联想官网

分享
复制URL

分享到：

还可以输入80字

选择配图：

复制

您还未选择分享通道！

确定

看完视频才发现，原来你是这样的联想！

联想回归初心，从梦开始的地方，构筑更美好、更智慧的世界。

2019年1月1日 10万+

黑金VIP

退出登录
联想（北京）有限公司

lenovo
直升钻石会员

企业用户已认证

退出登录

送专属权益
认证企业采购负责人

企业采购负责人审核中

待激活企业采购负责人发送激活邮件已发送 60

企业采购负责人修改信息

门店会员社区

搜索

扫一扫查看属于您的

黑金特权

联想账号用户注册协议

请您仔细阅读以下条款及援引的相关条款，其中包含对您使用联想账号有重要影响的条款，您同意后方可使用联想账号及相关功能。您在使用过程中可随时通过访问“用户注册协议”页面了解《联想账号用户注册协议》详情及其更新。

最新更新：2024年9月12日

欢迎注册联想账户！注册联想账户将成为联想会员，即有机会参与联想的各种用户回馈、获得共享信息及其他会员专属服务（统称为“服务”）。本协议及援引的其他条款（“本协议”）构成您与联想（北京）有限公司和/或其关联公司（“联想”）就您注册和使用联想账户达成的有法律约束力的协议。

如您希望注册联想账号成为联想会员，享有本网站有关联想会员的专属权益及相关服务，请仔细阅读并确认您完全同意本协议。

以下条款是本协议的组成部分：

（1）联想网站 使用条款

（2）联想网站隐私政策

请点击以上链接或联想网站下方链接阅读完整条款，同意本协议视为您确认已经了解并同意以上条款的所有内容。

1.0接受本协议

如您不同意本协议条款或无权签署本协议，请不要注册账户或使用相关服务。您注册账户或以其他方式使用服务，即表明您完全了解并接受本协议。

联想账户只能由有能力达成具有法律约束力合同的人士注册和使用。您应确保您已年满18岁并具有达成有法律约束力协议的完全行为能力。如您未达到法定成人年龄，您应确保本协议是由您的父母或监护人代表您签署确认的。如您代表他人（例如，某个公司或机构）确认接受本协议，您声明并保证您已获得了充分的授权并有资格这样做。

如您不符合上述条件，我们有权拒绝您注册和使用联想账户。

本文件包含了适用于联想账户注册和使用的基本条款。使用某些联想服务需适用某些特别条款。这些特别条款将随同相关服务说明提供，您注册或使用这些服务，这些特别条款将成为本协议的一部分。如特别条款与基本条款不一致，则仅就这些特定服务而言，特别条款将优先适用。

2.0账号注册

您申请注册联想账号时，必须向联想提供真实且准确的个人资料或企业信息，并于个人资料或企业信息发生任何变动时及时更新。若您提供任何错误、不实、过时或不完整或具误导性的信息；或者联想有理由怀疑您提供的信息是错误、不实、过时或不完整或具有误导性的，有权暂停或终止您的账号，并拒绝您使用联想网站及相关服务的全部或任何部分。

您在注册过程中输入的姓名、企业名称和证件号码将作为识别您与联想账号的一致性的首要证明资料，您应妥善保管，不得以任何方式提供给他人使用，包括但不限于出借、转让、共享或许可使用等。您理解，联想无义务核查每一账号使用的合法性，如发现对您账号任何未经授权的使用或发生其他类似安全问题，您应立即通知联想。

对他人未经授权使用您的账户，联想不承担任何责任。您应当对通过您的账号进行的以及您账号内的所有活动负责。联想不对与账户内部活动及账户所有权相关的争议进行判定。如不能确定账户的有效所有者，联想有权暂停或取消该账户。

3.0会员权益和服务

只有正确完成联想账户注册的用户方可成为联想会员并享有会员专属服务。会员账户可用于对用户的订购及服务申请信息进行管理。会员用户也可享有某些会员专属权益和服务，例如获得积分，具体见联想发布的活动计划和方案。

联想可根据会员完成联想指定活动情况为会员提供积分。积分仅在指定期限内有效。会员应自行负责不时核对其账户所享有积分的状态。会员可用指定数量的积分兑换联想可不时向会员提供优惠或特权。这些优惠或特权的性质，以及获得该等优惠或特权所需的积分数量，由联想确定并可随时更改。除用于兑换联想通过本服务提供的优惠或特权（如有）外，积分不得用于任何其他目的或用途。积分不可折抵任何现金或费用。兑换优惠可能有时间限制或只提供有限的数量。

积分仅可在指明适用的活动中使用，不能在任何其他活动中兑换或转移至会员的其他账户。会员积分不可出售或转让给其他会员或由其他会员兑换。会员因任何原因终止账户的，会员获得的所有积分均作废。

4.0费用

联想仅提供本协议约定的网络服务，除此之外与相关网络服务有关的设备（如个人电脑、手机、及其他与接入互联网或移动网有关的装置）及所需的费用（如为接入互联网而支付的电话费及上网费、为使用移动网而支付的手机费）均应由您自行负担。

联想可能提供某些收费服务。对于收费服务，联想会在您使用前明确提示，只有您确认接受相关服务条款并支付费用后，方可使用该收费服务。

5.0第三方网站

我们可允许您从第三方网站访问账户，或在联想网站上设置指向第三方网站的链接。这些第三方网站可能非由联想运营、管理和支持，联想不对这些网站的内容或功能的准确性、合法性、适当性或任何其他方面负责。这些链接或引用仅为用户方便而设置，并不表明我们对这些网站及其内容作出了任何认可、推荐或保证，或联想与这些网站的运营商有任何关联。您访问和使用这些第三方网站时，可能会适用附加或不同的条款和条件，您应仔细阅读这些适用于第三方网站的条款。

6.0使用规则

账号仅供会员用户用于获得联想产品和服务信息及相关支持。您不得将账号用于未明确允许的任何商业目的，例如，向第三方转售任何内容或信息。您应自行对您的账户、用户名或密码下发生的行为负责，包括通过账户发布或传送的任何内容。除非严格按照联想制定的和预期的要求获得积分，否则积分是无效的，您不得试图通过任何模仿符合要求的手段（包括但不限于使用任何脚本、机器人或其他自动化手段）获得积分。

在注册和使用账户及相关服务时，您应遵守我们告知的所有可适用的使用政策，遵循所有相关法律的规定，并始终符合公序良俗及良好道德规范。您不得为任何非法、欺诈、不当或滥用的目的或以任何可能妨碍其他用户或损害联想或其他用户的任何财产，以及侵犯或妨害第三方权利的方式使用账户。

您注册账号时应遵守以下规则：

（a）不得以党和国家领导人或其他社会名人的真实姓名、字号、艺名、笔名注册；

（b）不得以国家机构或其他机构的名称或其简称或商标、商号注册；

（c）不得注册不文明、不健康名字，或包含歧视、侮辱、猥亵类词语的名字；

（d）不得注册易产生歧义、引起他人误解的名字。

您在使用联想网站及相关服务过程中，应遵循以下规则：

（a）遵守中国有关的法律、法规和规范性文件；

（b）遵守所有与网络服务有关的协议、规定和程序；

（c）不得为任何非法目的而使用网络；

（d）不得利用联想网络进行任何可能对互联网或移动网正常运转造成不利影响的任何行为，包括但不限于不得传播或张贴垃圾邮件、不合理巨大文件、传销模式、连锁邮件；

（e）不得利用联想网络服务上传、储存、展示或传播任何非法的、虚假的、辱骂性的、骚扰性的、诽谤性的或其他违反社会公德的信息资料；

（f）不得从事任何侵犯其他任何第三方的专利权、著作权、商标权、名誉权、隐私权或其他任何合法权益的行为；

（g）不得利用联想网络进行任何不利于联想或危害计算机信息网络安全的行为；并且

（h）未经联想事先许可，不得利用联想网络从事任何商业广告行为。

‘

如联想基于合理判断认为您违反了本协议的任何规定，可拒绝您的注册或删除您已注册的账号，立即暂停或终止您对账户的访问。

7.0变更和终止

联想可随时修改本协议的任何条款。您应经常访问本页面以了解最新的条款。如您不同意联想对本协议的任何修改，可立即停止使用您的账号。如您在联想对本协议做出任何修改后继续使用您的账号，则视为您接受联想对本协议的修改。

联想可随时通过包括但不限于网页公告、电子邮件、短信提醒等方式做出任何声明、通知、警示。该等声明或通知视为本协议的一部分，如您在联想发出该等声明或通知后使用本网站及相关服务，视为您完全同意该等声明或通知。

联想可能因系统更新维护、业务调整变化等原因随时变更、暂停或终止部分或全部网络服务（包括收费网络服务），联想将在条件允许的情况下，尽可能事先以适当的方式通知您，但不作为联想的义务。如您的账户或行为有任何违反本协议及相关使用规则的情形，联想可随时经通知或不经通知终止用户对账户及服务全部或任何部分的访问，无需说明理由，账户终止将立即生效。

您可随时注销账户。如您的账户连续180个自然日停止活动，我们将视为您已终止账户，联想有权在经通知您后注销您的账号。账户无论因任何原因注销后，您将不再享有联想会员的相关权益。未使用的积分或其他会员权益在账户终止后失效。联想将不就账户注销或禁止访问对会员或任何第三方承担任何责任。

8.0用户数据

您在注册及使用账户及相关服务时上传、存储、传输或接受的数据，其中可能包含您的个人数据（“用户数据”）。这些用户数据所有权利均由您保留，除为向您提供本协议项下相关服务的目的而使用外，未经您的事先同意和允许，联想不会自己或允许他人使用您的用户数据。

您通过账户及服务上传、存储、传送或接收的用户数据，视为您授予联想及其服务提供商一个全球范围的许可，使联想可以作为服务的组成部分并仅为提供和改进服务的目的，复制并以加密方式存储您的数据。您应确保您拥有所有必要的权利和权力授予上述许可。

为您的用户数据提供存储不是联想的义务，我们仅为用户方便的目的提供此项服务，为此，您知道并同意，联想将不对数据无论因任何原因被删除或存储失败承担责任。本协议终止后，您的用户数据将被删除且无法恢复。您应自行负责及时和妥善地对您的用户数据进行备份。您知道并同意，我们可能会对您上传或存储的用户数据的数量和期限设置限制。

您在此陈述和保证您的用户数据：（a）均为非保密信息；（b）是合法和安全的，对您的用户数据的浏览、下载或其他使用不会导致任何损失和损害，包括但不限于侵权异议、感染病毒、遭到黑客攻击、系统瘫痪等；并且（c）已经获得相关权利人的所有必要许可。

9.0知识产权

您不得为任何未明确允许的目的获取或使用相关内容和材料。除非联想事先明确书面许可，否则您不得出售、许可、出租、修改、分发、复制、模仿、传输、展示、实施、发布、改编、编辑或以任何其他未经许可方式使用联想网站的内容和材料，或制作这些内容和材料的派生作品。

10.0无保证声明

除非联想另有明确，否则账户及服务均以“按现状”且“可用”为基础提供，无任何保证。在法律允许的最大限度内，我们明确否认任何包括但不限于有关适销性、适用于某个特定目的、权属以及不侵权在内的明示、默示及法定的保证以及任何有关安全、不中断、准确性、可靠性、及时性及服务性能的保证。如相关法律不允许排除或限制某些默示保证，则相关排除和限制将不适用于您。

11.0责任限制

在任何情况下，无论您以何种依据（包括根本违约、过失、虚假陈述或其他合约或侵权方面的索赔）而有权要求联想赔偿损失，联想的责任仅限于实际直接损害或损失，且赔偿额最高为联想基于服务向您实际收取的费用总额。在任何情况下，联想均不对下列任何一项负责：（a）第三方就其损失或损害赔偿向您提起的索赔要求；（b）您的记录或数据的丢失或损毁；和（c）任何间接性的，偶然性的或附带性的损害或利润损失。即使联想已经事先获知有发生下列事项的可能性。此限制也适用于任何联想分包商和供应商。这是联想及其服务商和供应商共同承担的最高赔偿限额。如可适用法律不允许以合同方式对某些责任进行排除或限制，则在法律禁止的最大范围内，相关责任限制或排除不适用于您。

12.0抗辩和补偿

如用户对账户及服务的使用导致了针对联想、联想关联公司及业务合作方及其各自人员的索赔、要求、调查或处罚，您同意为联想、联想关联机构及业务合作方及其各自人员提供补偿和抗辩并承担由此导致的所有损害赔偿、成本和费用（包括合理的律师费），使联想、联想关联机构及业务合作方及其各自人员不因此受到任何损失和损害。本条款在本协议终止后仍然有效。

13.0一般条款

联想延误或未能行使或强制执行本协议的任何权利或条款，不构成对该权利或条款的放弃。如本协议的任何规定被判定为无效或不可强制执行，不影响本协议其他部分的效力，本协议其他部分仍继续有效。
本协议的签署及联想根据本协议向您提供的通知、披露等均可以电子方式进行。本协议项下联想通过网页公告、电子邮件、手机短信或常规的信件传送等方式向您发出的通知自联想发送之日视为已送达。您对于联想的通知应当通过联想对外正式公布的通信地址、传真号码、电子邮件地址等联系信息向联想进行书面送达。
本协议按照中华人民共和国大陆地区（不包括香港、澳门和台湾地区）法律订立和解释。因本协议执行、解释及与此有关的一切争议均应提交北京仲裁委员会按其当时有效的仲裁规则裁决。此约定并不禁止联想为阻止或防止对本协议项下义务的违反向任何有管辖权的法院申请禁制令或其他强制措施，联想申请禁止令或其他强制措施不需要提供担保。
关联公司是指被一方控制、或控制该方、或与该方受共同控制的机构。这里“机构”指任何公司、企业或其他法律实体。在本协议中，“控制”是指直接或间接地拥有影响所提及机构管理的能力，无论是通过所有权、有投票权的股份、合同或其他方式。

联想企业智能体使用附加条款

初始发布：2024-09-12
最新更新：2024-09-12

本联想企业智能体使用附加条款（“本条款”）发布后将成为本网站《联想账号用户注册协议》（统称为“网站协议”）的组成部分，并与网站协议的条款和条件结合，适用于您对我们网站人工智能功能的使用。本条款未定义的术语与网站协议使用的术语含义相同。

1.0目的和用途。联想可能基于人工智能功能为您提供反馈，此功能仅限用于为您提供联想产品和服务信息及其技术支持信息。联想无意通过本网站为公众提供任何一般性互联网内容服务，您应仅限于为了解联想、联想产品和服务信息，寻求联想产品和服务支持的目的使用本网站的人工智能功能，我们可能会拒绝、忽略或屏蔽任何非为此目的的使用。

2.0您的内容。当您使用本网站人工智能功能时，可能会要求您输入您的内容，例如，文档、文本、图像或音视频文件等（包括任何输出参数，例如纵横比、样式等）（统称为“输入”）。本网站将使用您的输入来生成输出，例如，图像、文本、图形、音视频文件等（统称为“输出”）。除本条款另有规定者外，这些输入和输出均是您的内容，除本条款外，协议有关内容的规定均适用于这些输入和输出。

3.0输入。您应对您的输入负责。您声明和保证在使用本网站人工智能功能时应按照相关法律法规和本协议中的要求承担信息安全和其他义务。您承诺不采取任何以下行为：

(1) 通过输入或其他方式，诱导生成违反相关法律法规、公共秩序、社会公德或侵犯他人合法权益的输出，包括但不限于：（a）反对宪法所确定的基本原则；（b）危害国家安全，泄露国家秘密，颠覆国家政权，推翻社会主义制度，破坏国家统一；（c）损害国家荣誉和利益；（d）歪曲、丑化、亵渎、否定英雄烈士事迹和精神，以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉，否定英烈事迹，美化粉饰侵略战争行为；（e）宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动的；（f）煽动民族仇恨、民族歧视，破坏民族团结；（g）破坏国家宗教政策，宣扬邪教和封建迷信；（h）散布谣言、虚假有害信息，扰乱经济秩序和社会秩序，破坏社会稳定；（i）宣扬淫秽、色情、赌博、暴力、凶杀、恐怖主义、极端主义或者教唆犯罪；（j）煽动非法集会、结社、游行、示威、聚众扰乱社会秩序；（k）侮辱或者诽谤他人，泄露他人隐私，侵害他人名誉权、肖像权、隐私权、知识产权和其他合法权益；（l）破坏国际关系以及国际和平稳定；（m）含有法律、行政法规禁止的其他内容的信息。

(2) 通过输入或其他方式，诱导生成不友善对话的输出，包括但不限于：（a）人身攻击及辱骂他人；（b）针对以下群体发表诅咒、歧视、漠视生命尊严等性质的言论，群体包括：不同特定国籍、地域、性别、性别认同、性倾向、种族、民族、健康状况、职业、年龄、信仰、残障群体等；（c）对他人进行诅咒、恐吓或威胁；（d）对他人创作的内容直接进行贬低性的评论；（e）对他人使用粗俗用语，并产生了冒犯；（f）针对以下群体发表偏见性质的言论，群体包括：特定国籍、地域、性别、性别认同、性倾向、种族、民族、健康状况、职业、年龄、信仰、残障群体等。

(3) 干扰联想服务的正常运行、损害联想合法权益。

(4) 其他违法或侵权行为，例如实施垄断或不正当竞争行为等。

4.0输出。您自行对输出的创建和使用负责，并确保输出符合我们的条款。您使用人工智能功能获得有关联想及联想产品和服务及支持信息，均基于您的输入创建和反馈。您自行对输出的创建和使用负责，并确保输出符合我们的条款。您使用人工智能功能获得有关联想及联想产品和服务及支持信息，均基于您的输入创建和反馈。

5.0使用规范。您不得删除或更改可能与输出内容一起提供的任何水印或标识（如有），或以其他方式试图在输出的来源方面误导他人，如您对外发布或传播输出的内容，您应当：（1）自行核查输出内容的真实性、准确性和完整性，避免传播虚假或误导性信息；（2）以显著方式标明该内容系由人工智能生成，以向公众提示内容来源；（3）避免发布和传播任何违反法律或本条款规定的内容。

6.0审核。联想可能会使用可用技术、供应商或流程来筛选和阻止任何不符合本条款规定的内容，包括但不限于，对输入和输出内容进行审核、建立风险过滤机制、建立违法内容特征库等，以及对违法和不当内容采取记录、屏蔽或删除等措施。我们可根据自己的判断随时不经另行通知限制、禁用、暂停或终止您对生成式人工智能功能的使用，但并不因此表明我们对您的内容承担任何义务和责任。请勿输入您无意让联想审核的内容。您不得采用任何方式对抗或试图绕过联想的过滤或其他审核机制，此类规避审核的行为包括但不限于：

(1) 输入难以辨识含义影响阅读体验的字符、数字及无意义乱码；

(2) 使用变体、谐音等方式输入违规信息；以及

(3) 使用复杂语义、长文本等方式以输入违规信息。

7.0知识产权及其他权利归属。我们基于您的输入反馈的有关联想、联想产品和服务及相关支持的信息（包括文字、图片及音视频等），其知识产权及其他权利和相关权益均归联想或联想的许可方拥有，除按本网站允许的目的使用外，我们并未授予您任何其他明示或默示的许可和权利。除此之外，您的内容中包含的任何已有知识产权及其他权利和相关权益（包括知识产权、肖像权等）始终归您或您的许可方所有，您对您的内容是否拥有相关权利和权益，由您自行判断及处理，我们对此不承担任何责任。

8.0内容使用的同意和许可。您同意，为改进本网站及相关技术，我们可以将您的输入、输出及其他生成信息做去标识化处理后再用于模型及算法训练，公开给其他用户并允许这些用户使用输入或输出来创建自己的内容。我们尊重并保护您的个人隐私。如我们为本条款的目的使用您的输入和输出，我们会对输入和输出中可能含有的个人信息进行脱敏处理，以保护您的个人信息。就您提交的输入以及相应的输出，您同意授予我们本条款规定的同意和许可，本同意和许可在本协议终止或到期后仍然有效。您应谨慎选择输入信息，特别是如果您的输入可能包含他人的个人信息，请务必取得相关方的授权或同意。更多关于用户个人信息保护的内容，请阅读联想隐私权政策声明，详细了解我们如何收集、使用、保护您的个人信息。

9.0不得进行Al或机器学习训练。您不得自行或允许第三方使用从本网站人工智能功能（包括任何输出）接收或派生的任何内容、数据、输出或其他信息，直接或间接创建、训练、测试或以其他方式改进任何机器学习算法或人工智能系统，包括任何架构、模型或权重。

联想网站使用条款和隐私政策声明

联想网站“使用条款”及“联想网站隐私声明”是本协议的组成部分，该两条款见联想网站下方链接。您也可点击这里的链接“使用条款”及“联想网站隐私政策”阅读完整条款，并确认您了解并同意其所有内容。

同意并继续

首页

品牌

新闻

在这个计算机视觉顶会上，他们拿下6项冠军！

2024-07-01 18:00:00

计算机视觉是人工智能重要的技术领域之一。每年，国内外都会举办众多的计算机视觉学术或者行业大会，其中，计算机视觉与模式识别国际会议（IEEE CVPR）、国际计算机视觉大会（ICCV）以及欧洲计算机视觉国际会议（ECCV）是最为知名的三大顶会。

在全球专家学者交流研讨的同时，这些顶会还会举办系列挑战赛，全球众多顶尖团队积极报名参赛，在计算机视觉的各个细分领域同台“论剑”，一争高下。

6月下旬举办的CVPR大会也不例外。在本次大会组织的各项计算机视觉挑战赛中，联想研究院团队共斩获6项冠军，包括：

· 第一人称视角与外界视角融合的4D视觉挑战赛（Ego4D and EgoExo4D Challenge）社交互动（Looking At Me）赛道冠军

· 第一人称视角与外界视角融合的4D视觉挑战赛（Ego4D and EgoExo4D Challenge）手部姿态估计（Hand Pose）赛道冠军

· 自动驾驶ARGOVERSE挑战赛3D物体检测（3D Object Detection Challenge）赛道冠军

· 自动驾驶ARGOVERSE挑战赛3D多目标跟踪（3D Multi-Object Tracking Challenge）赛道冠军

· 自主系统挑战赛（Autonomous Grand Challenge, AGC）具身多模态三维视觉定位(Multi-View 3D Visual Grounding)赛道冠军，并拿下最具创新奖

· 人工智能城市挑战赛（AI City Challenge）多相机多行人跟踪（Multi-Camera Multi-People Tracking）赛道冠军

其中，研究院PC创新与生态系统实验室团队收获前四项冠军，而人工智能实验室和清华大学、以及与上海交通大学的两个联合团队分别拿下自主系统挑战赛具身多模态三维视觉定位冠军和最具创新奖，以及AI CITY挑战赛多相机多行人跟踪赛道冠军。

Ego4D数据集是一个大规模的以自我为中心的视频数据集和基准套件。它提供3670小时的日常生活活动视频，涵盖数百种场景(家庭、户外、工作场所、休闲等)，由来自全球74个地点和9个不同国家的931名独特的相机佩戴者（camera wearer）拍摄。

Ego-Exo4D数据集则是一个多样化的、大规模的多模式多视角视频数据集和基准套件。Ego-Exo4D同时捕捉以自我为中心和以外部为中心的，大众熟悉的人类活动视频（例如，体育、音乐、舞蹈、自行车修理等）。

基于这两个数据集，CVPR2024提出了一系列新的基准挑战，这些挑战围绕着理解第一人称视觉体验展开。联想研究院PC创新与生态系统实验室团队收获了其中的社交互动（Looking At Me）赛道和手部姿态估计（Hand Pose）赛道两项冠军。

在社交互动（Looking At Me）赛道，团队以80.91 mAP（mean Average Precision，平均精度均值）的成绩获得了挑战赛第一名。

社交互动是人类行为理解的关键。通过获取以自我为中心的视频数据，我们可以获得一种独特的视角，捕捉到每个参与者的言语交流和非语言线索。这种技术为研究社交互动提供了宝贵的信息源，有助于深入理解人类的社交行为。未来，这种技术有望推动虚拟助理和社交机器人的发展，使其能够更好地融入人类的社交环境，提供更智能、更贴心的交互体验。通过分析社交互动的细微信号，我们可以培养出更富同理心和社交智慧的人工智能系统，使其能够更自然地与人类进行沟通互动。

比如该技术可以用来检测家庭成员情绪状态，并为其提供建议或播放音乐等缓解情绪，具备情境理解与响应能力。再比如，当检测到厨房的烟雾报警器响起时，它不仅能即时通知家庭成员，还能自动联系紧急服务，并指导家中的儿童安全撤离。

在该挑战中，参与者获得了一段视频，其中包含了已被定位和识别的社交伙伴的人脸，并对每个可见的人脸进行分类，判断它们是否都在看向相机佩戴者。由于场景中人与摄像机之间的距离，以及人体的运动，导致了人脸图像的模糊，使得这项任务具有很高的挑战性。

面对这项挑战，团队提出了由一个InterVL图像编码器和Bi-LSTM网络组成的InternLSTM解决方案。InternVL负责提取空间特征，Bi-LSTM提取时间特征。为了解决任务的复杂性，我们引入了平滑滤波器，以消除输出的噪声或尖峰。

在CVPR2024第一人称视角与外界视角融合的4D视觉挑战赛的另一个赛道——手部姿态估计（Hand Pose），团队以25.51 MPJPE（Mean Per Joint Position Error）和8.49 PA_MPJPE (Procrustes Aligned MPJPE) 的成绩获得了挑战赛第一名。

在该挑战中，团队需要从自我中心视角拍摄的视频图像中，精确捕捉并重建手部的三维姿态，包含21个3D关节的精确估计，这不仅要求算法的超高精度，更需要对复杂手部姿态的深刻理解。

由于手部动作非常细微并且经常被遮挡，使得这项任务极具挑战性。为了处理该项复杂的任务，我们提出了基于Transformer的3D手部姿态估计网络（HP ViT）。HP ViT包括ViT主干网络和Transformer解码器，利用MPJPE和RLE损失函数，来估计3D手部关节位置。

我们的 ViT-Huge 模型通过使用 MPJPE 损失函数训练了20次，然后使用RLE损失函数对模型进行微调，进一步提高了性能。我们发现，使用不同超参数设置训练的模型融合之后，可以降低整体误差。

接下来，我们计划将该姿态估计方法从单个图像扩展到视频序列，通过整合手部运动信息，以进一步提升模型的性能。通过这些策略，我们希望能够继续优化模型，为姿态估计任务提供更加准确和强大的解决方案。

Figure 1. The framework of HP-ViT.

3D手部姿态识别技术可以赋能多种场景。比如，在一款VR射击游戏中，玩家可以通过实际挥动手部来模拟射击动作，游戏通过识别手部姿态来执行相应的射击指令。这项技术还可以用于辅助残障人士，通过识别手部动作来控制轮椅或其他辅助设备，提高他们的生活质量。在医疗领域，3D手部姿态分析也可以帮助医生评估患者的康复进度，提供个性化的康复训练计划。

Argoverse 2是来自美国六个城市的开源自动驾驶数据和高清(HD)地图的集合。该版本建立在最初发布的Argoverse(“Argoverse 1”)的基础上，Argoverse 1是同类数据中首批包含用于机器学习和计算机视觉研究的高清地图的数据集。

在自动驾驶ARGOVERSE 3D物体检测（3D Object Detection）和3D多目标跟踪（3D Multi-Object Tracking）比赛中，团队设计出一个端到端的统一感知预测方案Le_E2E_Forecaster，融合多种传感器，包括激光雷达、360°环视摄像头输入的信息，并融合历史信息实现特征增强，使用Deformable DETR解码器，同时处理检测、跟踪，运动预测和占用网络预测等多个子任务。

最终在3D物体检测赛道上，CDS（Corner Distance Similarity）指标获得43%的好成绩，相比第二名，高出16%；在3D多目标跟踪赛道上，HOTA（高阶跟踪准确度）指标获得64.6的好成绩，相比第二名，高出5%。

3D目标检测和跟踪技术广泛应用于自动驾驶汽车中，能够用于实时识别并追踪周围物体的位置和速度，如行人、其他车辆和交通标志。例如，在城市交通环境中，这项技术可以帮助自动驾驶系统做出安全决策，如避让行人或变更车道。此外，3D目标检测也用于无人机导航，通过识别地形和障碍物，无人机可以自动规划飞行路径，实现精准的货物投递或地形测绘。

在CVPR2024自主系统挑战赛（Autonomous Grand Challenge）的具身多模态三维视觉定位”(Multi-View 3D Visual Grounding)赛道中，研究院人工智能实验室和清华联合团队力压哈佛大学、洛桑联邦理工学院、香港中文大学、中科大等国际国内高校，以及微软、小米等企业，将赛事冠军和最具创新奖一并收入囊中。

相比一般意义上的AI，具身智能（Embodied AI）更加注重将人工智能融入机器人等物理实体，从而使机器人获得感知和理解环境、以至于和环境动态交互的能力。具身多模态三维视觉定位就是具身智能相关技术的一个重要领域。

本次挑战赛聚焦室内场景。与常见的3D感知任务相比，位于室内的3D感知系统面临更多的挑战，比如多模态输入（包括图片、3D点云和语言指令）、更加多样的物体类型、需要关注不同的物体种类和物体朝向，甚至它们的相对位置、以及更加复杂的空间场景等。

本任务主要的挑战点包括：多模态的输入信息（3D点云、图像、语言），特别是语言模态的加入，极大地增加了任务的难度；以及在3D点云模态下的小尺寸室内物体检测。针对这两个难点，团队提出了如下解决方案：

数据样本

语言模态增强：上图是一个数据样本。任务要求是“找到桌子旁边的椅子”，而图中实际上存在很多把椅子，但是只有一把在“桌子旁边”，这会对模型预测产生极大的干扰。针对此问题，团队使用了大语言模型（LLM）对原始的文本数据进行增强，以构建更加丰富的语义信息。

通过上图步骤，可以把“桌子旁边的椅子”这样的简单描述，变成“桌子旁边的椅子，且离电视最近、离窗户最远”，这样模型能够更加顺利地找到目标物体。

多模态融合：该任务的另一个难点是室内场景下物体太小，导致点云数据难以捕捉到小目标，如下图场景中的鼠标，激光雷达只能从鼠标上获得很少的信号；但是对于相机来说，获得鼠标的位置要容易得多。

传统的多模态融合模式，一般是先将图片和点云两个模态的信息融合，然后再和文本信息融合。这种融合方式的缺陷在于模型并不知道需要重点关注3D空间中的哪些部分。以鼠标为例，直接融合图片和点云信息可能对检测鼠标并没有什么帮助，甚至可能反过来削弱2D图片中鼠标信号的强度。

针对这种情况，我们设计了一套新的多模态注意力机制，整体框架如下：

我们先将多视角的图片信息和文本信息通过名为Bi-TVI的模块进行融合，这一模块旨在通过注意力机制引导网络关注那些“真正需要的部分”。在进行了注意力交互之后，通过携带有注意力信息的图片特征再去和3D点云信息进行融合，从而实现高效的小尺寸室内物体检测。

人工智能城市挑战赛是智慧交通领域国际上最具知名度的竞赛之一，在今年该赛事的多相机多行人跟踪赛道中，研究院人工智能实验室和上海交通大学联合团队一举夺冠。

多相机多行人跟踪赛道主要任务需要在跨摄像头的遮挡场景中检测和跟踪每个人，并在不同的摄像头上为同一对象分配相同的 ID。今年该赛道大幅增加了数据的难度：摄像头数量从129增加到了1300左右，行人数量从156增加到了3400左右。同时为了鼓励参赛者采用在线算法，在线跟踪将会获得额外10%的奖励分数。

跨摄像头跟踪场景

基于项目场景，团队设计了一套基于外观一致性和空间一致性的在线跟踪系统。该系统集成了相机内和相机间的空间信息以及目标的自适应外观信息。在将多视图的检测结果与跟踪目标进行匹配时，同时考虑 2D 空间信息、3D 极限距离、单应距离和自适应的Re-ID相似度。其中，前三个旨在满足单视图内和不同视图之间的几何约束，后者有助于纠正严重遮挡期间和之后的 ID 切换问题。为了避免由于同一ID个体在不同视点之间的显著 Re-ID 差异而导致的多条轨迹，团队专门设计了一个 Re-ID 特征储存库来存储对应于不同姿势和角度的 Re-ID 特征，使得系统具有强大的在线ID重识别能力，这在人群密集和遮挡严重的场景中极为重要。

系统框架图

近年来，联想研究院一直致力于布局多模态视觉感知、大语言模型/多模态大模型的研发，此次夺得6项冠军，充分彰显了团队在这些领域的技术能力。在过去几年的计算机视觉顶会组织的挑战赛中，包括CVPR以及ECCV等，联想研究院团队曾屡次夺得多个赛道冠军。

分享到微信朋友圈

分享给好友X