联想回归初心,从梦开始的地方,构筑更美好、更智慧的世界。
2019年1月1日 10万+
扫一扫查看属于您的
黑金特权
请您仔细阅读以下条款及援引的相关条款,其中包含对您使用联想账号有重要影响的条款,您同意后方可使用联想账号及相关功能。您在使用过程中可随时通过访问“用户注册协议”页面了解《联想账号用户注册协议》详情及其更新。
最新更新:2024年9月12日
欢迎注册联想账户!注册联想账户将成为联想会员,即有机会参与联想的各种用户回馈、获得共享信息及其他会员专属服务(统称为“服务”)。本协议及援引的其他条款(“本协议”)构成您与联想(北京)有限公司和/或其关联公司(“联想”)就您注册和使用联想账户达成的有法律约束力的协议。
如您希望注册联想账号成为联想会员,享有本网站有关联想会员的专属权益及相关服务,请仔细阅读并确认您完全同意本协议。
如您不同意本协议条款或无权签署本协议,请不要注册账户或使用相关服务。您注册账户或以其他方式使用服务,即表明您完全了解并接受本协议。
联想账户只能由有能力达成具有法律约束力合同的人士注册和使用。您应确保您已年满18岁并具有达成有法律约束力协议的完全行为能力。如您未达到法定成人年龄,您应确保本协议是由您的父母或监护人代表您签署确认的。如您代表他人(例如,某个公司或机构)确认接受本协议,您声明并保证您已获得了充分的授权并有资格这样做。
如您不符合上述条件,我们有权拒绝您注册和使用联想账户。
本文件包含了适用于联想账户注册和使用的基本条款。使用某些联想服务需适用某些特别条款。这些特别条款将随同相关服务说明提供,您注册或使用这些服务,这些特别条款将成为本协议的一部分。如特别条款与基本条款不一致,则仅就这些特定服务而言,特别条款将优先适用。
您申请注册联想账号时,必须向联想提供真实且准确的个人资料或企业信息,并于个人资料或企业信息发生任何变动时及时更新。若您提供任何错误、不实、过时或不完整或具误导性的信息;或者联想有理由怀疑您提供的信息是错误、不实、过时或不完整或具有误导性的,有权暂停或终止您的账号,并拒绝您使用联想网站及相关服务的全部或任何部分。
您在注册过程中输入的姓名、企业名称和证件号码将作为识别您与联想账号的一致性的首要证明资料,您应妥善保管,不得以任何方式提供给他人使用,包括但不限于出借、转让、共享或许可使用等。您理解,联想无义务核查每一账号使用的合法性,如发现对您账号任何未经授权的使用或发生其他类似安全问题,您应立即通知联想。
对他人未经授权使用您的账户,联想不承担任何责任。您应当对通过您的账号进行的以及您账号内的所有活动负责。联想不对与账户内部活动及账户所有权相关的争议进行判定。如不能确定账户的有效所有者,联想有权暂停或取消该账户。
只有正确完成联想账户注册的用户方可成为联想会员并享有会员专属服务。会员账户可用于对用户的订购及服务申请信息进行管理。会员用户也可享有某些会员专属权益和服务,例如获得积分,具体见联想发布的活动计划和方案。
联想可根据会员完成联想指定活动情况为会员提供积分。积分仅在指定期限内有效。会员应自行负责不时核对其账户所享有积分的状态。会员可用指定数量的积分兑换联想可不时向会员提供优惠或特权。这些优惠或特权的性质,以及获得该等优惠或特权所需的积分数量,由联想确定并可随时更改。除用于兑换联想通过本服务提供的优惠或特权(如有)外,积分不得用于任何其他目的或用途。积分不可折抵任何现金或费用。兑换优惠可能有时间限制或只提供有限的数量。
积分仅可在指明适用的活动中使用,不能在任何其他活动中兑换或转移至会员的其他账户。会员积分不可出售或转让给其他会员或由其他会员兑换。会员因任何原因终止账户的,会员获得的所有积分均作废。
联想仅提供本协议约定的网络服务,除此之外与相关网络服务有关的设备(如个人电脑、手机、及其他与接入互联网或移动网有关的装置)及所需的费用(如为接入互联网而支付的电话费及上网费、为使用移动网而支付的手机费)均应由您自行负担。
联想可能提供某些收费服务。对于收费服务,联想会在您使用前明确提示,只有您确认接受相关服务条款并支付费用后,方可使用该收费服务。
我们可允许您从第三方网站访问账户,或在联想网站上设置指向第三方网站的链接。这些第三方网站可能非由联想运营、管理和支持,联想不对这些网站的内容或功能的准确性、合法性、适当性或任何其他方面负责。这些链接或引用仅为用户方便而设置,并不表明我们对这些网站及其内容作出了任何认可、推荐或保证,或联想与这些网站的运营商有任何关联。您访问和使用这些第三方网站时,可能会适用附加或不同的条款和条件,您应仔细阅读这些适用于第三方网站的条款。
账号仅供会员用户用于获得联想产品和服务信息及相关支持。您不得将账号用于未明确允许的任何商业目的,例如,向第三方转售任何内容或信息。您应自行对您的账户、用户名或密码下发生的行为负责,包括通过账户发布或传送的任何内容。除非严格按照联想制定的和预期的要求获得积分,否则积分是无效的,您不得试图通过任何模仿符合要求的手段(包括但不限于使用任何脚本、机器人或其他自动化手段)获得积分。
在注册和使用账户及相关服务时,您应遵守我们告知的所有可适用的使用政策,遵循所有相关法律的规定,并始终符合公序良俗及良好道德规范。您不得为任何非法、欺诈、不当或滥用的目的或以任何可能妨碍其他用户或损害联想或其他用户的任何财产,以及侵犯或妨害第三方权利的方式使用账户。
您注册账号时应遵守以下规则:
您在使用联想网站及相关服务过程中,应遵循以下规则:
如联想基于合理判断认为您违反了本协议的任何规定,可拒绝您的注册或删除您已注册的账号,立即暂停或终止您对账户的访问。
联想可随时修改本协议的任何条款。您应经常访问本页面以了解最新的条款。如您不同意联想对本协议的任何修改,可立即停止使用您的账号。如您在联想对本协议做出任何修改后继续使用您的账号,则视为您接受联想对本协议的修改。
联想可随时通过包括但不限于网页公告、电子邮件、短信提醒等方式做出任何声明、通知、警示。该等声明或通知视为本协议的一部分,如您在联想发出该等声明或通知后使用本网站及相关服务,视为您完全同意该等声明或通知。
联想可能因系统更新维护、业务调整变化等原因随时变更、暂停或终止部分或全部网络服务(包括收费网络服务),联想将在条件允许的情况下,尽可能事先以适当的方式通知您,但不作为联想的义务。如您的账户或行为有任何违反本协议及相关使用规则的情形,联想可随时经通知或不经通知终止用户对账户及服务全部或任何部分的访问,无需说明理由,账户终止将立即生效。
您可随时注销账户。如您的账户连续180个自然日停止活动,我们将视为您已终止账户,联想有权在经通知您后注销您的账号。账户无论因任何原因注销后,您将不再享有联想会员的相关权益。未使用的积分或其他会员权益在账户终止后失效。联想将不就账户注销或禁止访问对会员或任何第三方承担任何责任。
您在注册及使用账户及相关服务时上传、存储、传输或接受的数据,其中可能包含您的个人数据(“用户数据”)。这些用户数据所有权利均由您保留,除为向您提供本协议项下相关服务的目的而使用外,未经您的事先同意和允许,联想不会自己或允许他人使用您的用户数据。
您通过账户及服务上传、存储、传送或接收的用户数据,视为您授予联想及其服务提供商一个全球范围的许可,使联想可以作为服务的组成部分并仅为提供和改进服务的目的,复制并以加密方式存储您的数据。您应确保您拥有所有必要的权利和权力授予上述许可。
为您的用户数据提供存储不是联想的义务,我们仅为用户方便的目的提供此项服务,为此,您知道并同意,联想将不对数据无论因任何原因被删除或存储失败承担责任。本协议终止后,您的用户数据将被删除且无法恢复。您应自行负责及时和妥善地对您的用户数据进行备份。您知道并同意,我们可能会对您上传或存储的用户数据的数量和期限设置限制。
您在此陈述和保证您的用户数据:(a)均为非保密信息;(b)是合法和安全的,对您的用户数据的浏览、下载或其他使用不会导致任何损失和损害,包括但不限于侵权异议、感染病毒、遭到黑客攻击、系统瘫痪等;并且(c)已经获得相关权利人的所有必要许可。
联想通过账户及相关服务提供的所有内容和材料,包括但可能不限于文本、图片、图形、图表、软件、设计元素、音视频资料等,均受相关著作权、商标和其他知识产权法律的保护,这些内容和材料由联想和/或其许可方拥有并保留所有权利和权益。
您不得为任何未明确允许的目的获取或使用相关内容和材料。除非联想事先明确书面许可,否则您不得出售、许可、出租、修改、分发、复制、模仿、传输、展示、实施、发布、改编、编辑或以任何其他未经许可方式使用联想网站的内容和材料,或制作这些内容和材料的派生作品。
除非联想另有明确,否则账户及服务均以“按现状”且“可用”为基础提供,无任何保证。在法律允许的最大限度内,我们明确否认任何包括但不限于有关适销性、适用于某个特定目的、权属以及不侵权在内的明示、默示及法定的保证以及任何有关安全、不中断、准确性、可靠性、及时性及服务性能的保证。如相关法律不允许排除或限制某些默示保证,则相关排除和限制将不适用于您。
在任何情况下,无论您以何种依据(包括根本违约、过失、虚假陈述或其他合约或侵权方面的索赔)而有权要求联想赔偿损失,联想的责任仅限于实际直接损害或损失,且赔偿额最高为联想基于服务向您实际收取的费用总额。在任何情况下,联想均不对下列任何一项负责:(a)第三方就其损失或损害赔偿向您提起的索赔要求;(b)您的记录或数据的丢失或损毁;和(c)任何间接性的,偶然性的或附带性的损害或利润损失。即使联想已经事先获知有发生下列事项的可能性。此限制也适用于任何联想分包商和供应商。这是联想及其服务商和供应商共同承担的最高赔偿限额。如可适用法律不允许以合同方式对某些责任进行排除或限制,则在法律禁止的最大范围内,相关责任限制或排除不适用于您。
如用户对账户及服务的使用导致了针对联想、联想关联公司及业务合作方及其各自人员的索赔、要求、调查或处罚,您同意为联想、联想关联机构及业务合作方及其各自人员提供补偿和抗辩并承担由此导致的所有损害赔偿、成本和费用(包括合理的律师费),使联想、联想关联机构及业务合作方及其各自人员不因此受到任何损失和损害。本条款在本协议终止后仍然有效。
联想延误或未能行使或强制执行本协议的任何权利或条款,不构成对该权利或条款的放弃。如本协议的任何规定被判定为无效或不可强制执行,不影响本协议其他部分的效力,本协议其他部分仍继续有效。 本协议的签署及联想根据本协议向您提供的通知、披露等均可以电子方式进行。本协议项下联想通过网页公告、电子邮件、手机短信或常规的信件传送等方式向您发出的通知自联想发送之日视为已送达。您对于联想的通知应当通过联想对外正式公布的通信地址、传真号码、电子邮件地址等联系信息向联想进行书面送达。 本协议按照中华人民共和国大陆地区(不包括香港、澳门和台湾地区)法律订立和解释。因本协议执行、解释及与此有关的一切争议均应提交北京仲裁委员会按其当时有效的仲裁规则裁决。此约定并不禁止联想为阻止或防止对本协议项下义务的违反向任何有管辖权的法院申请禁制令或其他强制措施,联想申请禁止令或其他强制措施不需要提供担保。 关联公司是指被一方控制、或控制该方、或与该方受共同控制的机构。这里“机构”指任何公司、企业或其他法律实体。在本协议中,“控制”是指直接或间接地拥有影响所提及机构管理的能力,无论是通过所有权、有投票权的股份、合同或其他方式。
初始发布:2024-09-12 最新更新:2024-09-12
本联想企业智能体使用附加条款(“本条款”)发布后将成为本网站《联想账号用户注册协议》(统称为“网站协议”)的组成部分,并与网站协议的条款和条件结合,适用于您对我们网站人工智能功能的使用。本条款未定义的术语与网站协议使用的术语含义相同。
1.0目的和用途。联想可能基于人工智能功能为您提供反馈,此功能仅限用于为您提供联想产品和服务信息及其技术支持信息。联想无意通过本网站为公众提供任何一般性互联网内容服务,您应仅限于为了解联想、联想产品和服务信息,寻求联想产品和服务支持的目的使用本网站的人工智能功能,我们可能会拒绝、忽略或屏蔽任何非为此目的的使用。
2.0您的内容。当您使用本网站人工智能功能时,可能会要求您输入您的内容,例如,文档、文本、图像或音视频文件等(包括任何输出参数,例如纵横比、样式等)(统称为“输入”)。本网站将使用您的输入来生成输出,例如,图像、文本、图形、音视频文件等(统称为“输出”)。除本条款另有规定者外,这些输入和输出均是您的内容,除本条款外,协议有关内容的规定均适用于这些输入和输出。
3.0输入。您应对您的输入负责。您声明和保证在使用本网站人工智能功能时应按照相关法律法规和本协议中的要求承担信息安全和其他义务。您承诺不采取任何以下行为:
(1) 通过输入或其他方式,诱导生成违反相关法律法规、公共秩序、社会公德或侵犯他人合法权益的输出,包括但不限于:(a)反对宪法所确定的基本原则;(b)危害国家安全,泄露国家秘密,颠覆国家政权,推翻社会主义制度,破坏国家统一;(c)损害国家荣誉和利益;(d)歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉,否定英烈事迹,美化粉饰侵略战争行为;(e)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动的;(f)煽动民族仇恨、民族歧视,破坏民族团结;(g)破坏国家宗教政策,宣扬邪教和封建迷信;(h)散布谣言、虚假有害信息,扰乱经济秩序和社会秩序,破坏社会稳定;(i)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖主义、极端主义或者教唆犯罪;(j)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;(k)侮辱或者诽谤他人,泄露他人隐私,侵害他人名誉权、肖像权、隐私权、知识产权和其他合法权益;(l)破坏国际关系以及国际和平稳定;(m) 含有法律、行政法规禁止的其他内容的信息。
(2) 通过输入或其他方式,诱导生成不友善对话的输出,包括但不限于:(a)人身攻击及辱骂他人;(b)针对以下群体发表诅咒、歧视、漠视生命尊严等性质的言论,群体包括:不同特定国籍、地域、性别、性别认同、性倾向、种族、民族、健康状况、职业、年龄、信仰、残障群体等;(c)对他人进行诅咒、恐吓或威胁;(d)对他人创作的内容直接进行贬低性的评论;(e)对他人使用粗俗用语,并产生了冒犯;(f)针对以下群体发表偏见性质的言论,群体包括:特定国籍、地域、性别、性别认同、性倾向、种族、民族、健康状况、职业、年龄、信仰、残障群体等。
(3) 干扰联想服务的正常运行、损害联想合法权益。
(4) 其他违法或侵权行为,例如实施垄断或不正当竞争行为等。
4.0输出。您自行对输出的创建和使用负责,并确保输出符合我们的条款。您使用人工智能功能获得有关联想及联想产品和服务及支持信息,均基于您的输入创建和反馈。您自行对输出的创建和使用负责,并确保输出符合我们的条款。您使用人工智能功能获得有关联想及联想产品和服务及支持信息,均基于您的输入创建和反馈。
5.0使用规范。您不得删除或更改可能与输出内容一起提供的任何水印或标识(如有),或以其他方式试图在输出的来源方面误导他人,如您对外发布或传播输出的内容,您应当:(1)自行核查输出内容的真实性、准确性和完整性,避免传播虚假或误导性信息;(2)以显著方式标明该内容系由人工智能生成,以向公众提示内容来源;(3)避免发布和传播任何违反法律或本条款规定的内容。
6.0审核。联想可能会使用可用技术、供应商或流程来筛选和阻止任何不符合本条款规定的内容,包括但不限于,对输入和输出内容进行审核、建立风险过滤机制、建立违法内容特征库等,以及对违法和不当内容采取记录、屏蔽或删除等措施。我们可根据自己的判断随时不经另行通知限制、禁用、暂停或终止您对生成式人工智能功能的使用,但并不因此表明我们对您的内容承担任何义务和责任。请勿输入您无意让联想审核的内容。您不得采用任何方式对抗或试图绕过联想的过滤或其他审核机制,此类规避审核的行为包括但不限于:
(1) 输入难以辨识含义影响阅读体验的字符、数字及无意义乱码;
(2) 使用变体、谐音等方式输入违规信息;以及
(3) 使用复杂语义、长文本等方式以输入违规信息。
7.0知识产权及其他权利归属。我们基于您的输入反馈的有关联想、联想产品和服务及相关支持的信息(包括文字、图片及音视频等),其知识产权及其他权利和相关权益均归联想或联想的许可方拥有,除按本网站允许的目的使用外,我们并未授予您任何其他明示或默示的许可和权利。除此之外,您的内容中包含的任何已有知识产权及其他权利和相关权益(包括知识产权、肖像权等)始终归您或您的许可方所有,您对您的内容是否拥有相关权利和权益,由您自行判断及处理,我们对此不承担任何责任。
8.0内容使用的同意和许可。您同意,为改进本网站及相关技术,我们可以将您的输入、输出及其他生成信息做去标识化处理后再用于模型及算法训练,公开给其他用户并允许这些用户使用输入或输出来创建自己的内容。我们尊重并保护您的个人隐私。如我们为本条款的目的使用您的输入和输出,我们会对输入和输出中可能含有的个人信息进行脱敏处理,以保护您的个人信息。就您提交的输入以及相应的输出,您同意授予我们本条款规定的同意和许可,本同意和许可在本协议终止或到期后仍然有效。您应谨慎选择输入信息,特别是如果您的输入可能包含他人的个人信息,请务必取得相关方的授权或同意。更多关于用户个人信息保护的内容,请阅读联想隐私权政策声明,详细了解我们如何收集、使用、保护您的个人信息。
9.0不得进行Al或机器学习训练。您不得自行或允许第三方使用从本网站人工智能功能(包括任何输出)接收或派生的任何内容、数据、输出或其他信息,直接或间接创建、训练、测试或以其他方式改进任何机器学习算法或人工智能系统,包括任何架构、模型或权重。
机器如何识别“靓串串”、“麻辣火锅”那些千奇百怪的门头?
生活当中,文字是无处不在的,它贯穿了我们的衣食住行。当你进入停车场,自动识别的车牌号是文字;当你走在街上,靓串串、麻辣火锅等一个个门头也是文字。
在人类漫长的文明史中,文字从诞生就是传递最重要信息的方式,人们可以通过识别文字,来判定其中所包含的解释、警告、身份等信息。
但是,你能辨识这样的文字吗?
这是ICDAR 2019的比赛题目,ICDAR是由国际模式识别学会(IAPR)组织的专业会议之一,是文档分析与识别领域公认的最重要的国际学术会议,ICDAR的比赛有“文字识别世界杯”之称。在这种赛事上,其题目也是学术界和产业界的热点问题。单靠人眼去一个个辨识,准确无误地念出这些字都得费不少功夫,那么你有没有想过,如果把这种难题交给机器,机器又如何识别这些文字呢?这就要谈到我们今天的主角——光学字符识别(OCR)了。
世纪前的人类,一直有个梦想,就是拥有一台能读懂字符和数字的机器。
1929年,德国科学家陶舍克做了一个实验,利用10块模板对应10个数字,通过投影对10个数字进行识别,将图形中的一个个字符转换为一个个字元,并保留其格式,最后将图像文章转换成了文字文档,并获得了OCR史上的第一个专利。这一项专利是通过监测暗和亮的模式来确定文字的形状,这也是OCR一词的由来——光学字符识别。此时,虽然有了OCR技术,但这一项技术距离应用仍还有很多年。
▲ 陶舍克设计的文字阅读机器原型
20世纪60年代,OCR被应用于邮政代码识别,帮助邮局做区域分性。至此,这种技术有了应用场景,但却是一个非常窄的应用场景。OCR首次被商用发生在1965年,当时的纽约世界博览会,IBM展示了一款OCR产品——IBMI287,这款产品可以识别印刷体的数字、英文字母及部分符号,但必须是指定的字体。
这是国际上OCR技术的一部分发展史,在国内,OCR技术起步较晚。最早做中文OCR识别的也是IBM,60年代、70年代左右,IBM的两位科学家,用纯模板匹配的方法,实现了大概1000个左右汉字的OCR识别。
但坦白说,这些发展在技术上,并没有实现突破。直到2000年,中国OCR技术迎来了第一次突破。趁着互联网浪潮的兴起,IBM中国研究中心和清华大学合作,用OCR技术把大量的书籍包括古籍变成可供检索的网页,将中文OCR识别迅速推向应用。这一项应用实在是惠及了当年无数混迹于网络的“时代先锋”们,他们实现了不必买实体书、在网络上就能方便地查看诸如《周易》、《春秋》、《诗经》等经典古籍。也是在这期间,OCR技术有了飞跃式的发展,被迅速推向应用。有意思的是,这一波OCR被广泛应用,互联网方兴未艾是一方面,另一方面,也伴随有着计算机“眼睛”之称的扫描仪发展,2000年前后,台式扫描仪普及,OCR这项技术有了当时最广泛的应用场景。
2005年前后,随着摄像头的普及,OCR有了另一个应用场景——车牌识别。当时主要采用传统的文字识别方法。所用技术是先通过预处理,单字分割、特征提取、分类等各个阶段完成识别流程。它有一个问题,因为都需要通过手工选取特征,再进行分类,场景的普适性比较差。另外它不是端到端整体的识别过程,逐级叠加的错误率最后会放大。基于传统方法做的OCR应用主要集中在特定场景,如证件识别、车牌识别、发票识别等。
▲ 文字识别的传统方法
这样就带来一些限制,如要求必须输入高清扫描件,背景要简单,文本要整齐等等。比如大家可能经常会碰到,进停车场的时候,如果车头的角度稍微有点倾斜,虽然摄像头已经拍到车牌,但因为并不是正对车牌,停车场的杆可能就是不给你抬,需要你把姿势摆正了,才能给你“网开一面”;再比如你做书籍识别,如果扫描出来的图像中的字体是不规整的,识别结果也非常容易出错。这是因为当时的技术适合一些限定的场合、限定的格式下进行文字识别,并不能够做到普适场景。很多常见的复杂场景的识别,当时的技术识别率也比较低。
2012年,Google提出Alexnet(深度学习卷积神经网络),深度学习突飞猛进,使得OCR技术又有了再一次跨越提升的机会,能够突破它的平台期。整个的基于深度学习的文字识别技术,也得到了突飞猛进的进步。
▲ Alexnet模型结构
基于深度学习的文本识别技术一般需要两个阶段,文本行检测和文字识别。
对于文本行检测模型,这里要介绍一下到CTPN。CTPN是在ECCV 2016提出的一种文字检测算法,它是较早被广泛应用到文本行检测的深度学习模型。原理是通过目标检测模型形成文本框序列,再通过后处理完成形成文本行。基于深度学习的方法,可以检测复杂场景下的文本,相比基于手工选取特征的方法,准确率有了明显的提升。
▲ CTPN网络结构
什么样的场景算是复杂场景呢?好比一块指示牌,它的背景非常花哨,而且有一些图案非常容易被检测成文本,通过深度学习的方法,就可以比较好的检测出这种场景下的文字。
检测出文本行以后,下一步就是文字识别了。对于文本识别模型, 比较有代表性的是CRNN,它是由华中科技大学的白翔老师2015年提出的,到现在还是被广泛应用的文本识别模型之一。
▲ CRNN网络结构
CRNN模型的有着很多优点,比如它可以直接从序列标签学习,不必给每一个字符打标签;比其它模型参数更少;对要识别的序列对象长度没有限制等。基于深度学习的文本检测模型和文字识别模型的应用,使得OCR技术在复杂场景识别准确率方面的有了明显的提升。
同时,移动设别的不断更新也衍生出了更多的OCR需求。2015年前后,智能手机渐渐成了平常物,伴随而来的是各大制造商不约而同地在摄像头方面都卷了起来,手机成像的清晰度大幅度提升,OCR的应用场景也更加丰富。2016年左右,经过差不多一年的发展,移动设备本地算力的提升,使得摄像头的清晰度更高、能承载的应用也更加丰富。
这样,算法的提升,场景的丰富以及设备能力的发展,共同促进了OCR技术更广泛的应用,如招牌识别、海报识别、以及联想研究院目前正在做的智慧教育领域的智慧阅卷等等,逐渐涌现出来。
前文提到2015年前后,智能手机的普及,带动了OCR技术的落地应用。也是在2015年,联想研究院的HCI团队针对智能手机的场景,提出了See+概念。比如说,在一本杂志上看到一个电话号码,机器自动识别并且拨打;在网页上看到一个网址,可以自动扫描并且登陆;扫描到一个地址,可以自动进入地图并且帮你开启导航;甚至在一些倾斜场景下,当你看到某段文字,文字能够自动被识别,或者在这个基础上进行翻译、搜索。
当然,此时联想的OCR技术还停留在概念阶段。伴随着OCR算法能力的提升,联想看到了一个“弯道超车”的机会,2017年,基于技术发展趋势,以及算法、算力,数据三方面逐渐成熟,文字识别和人脸识别成为了AI产品落地最合适的技术点之一,联想开始进入文字识别赛道,投入研发自己的智能文档扫描技术,这一年,联想已经开始在移动设备端引入了深度学习框架去解决文档校正的问题,在当年就做到了平均IoU(交并比)显著高于业界平均水平。
2018年3月,联想文档扫描技术在手机产品成功落地,是业界首批支持此功能的手机设备。(Google直到2018年5月,才在Google Lens加入了文档扫描功能。)此后,联想又陆续研发了手写识别、文档版面分析等技术。
离开应用场景,技术就是无本之木,无水之源。首先在教育领域,联想做了许多OCR技术与教育场景相结合的应用。在联想备授课软件中,可以通过拍摄、扫描,使得试卷自动进行电子化;考完试,可以通过智能错题本帮助老师自动统计每道题的准确率;并且,联想OCR还应用于联想天骄系列产品,户识通过手指文字就可以识别别中英文以及解释和发音,实现“哪里不会点哪里”;联想新研发的手写去除技术,可以实现当孩子出现错题,家长不需要手工擦除手写答案,拍照后自动生成只保留原始题目的错题本,用于反复练习。
除了教育场景的应用,联想OCR还赋能了智能客服、智能财务等场景。举一个例子,当你的电脑出现蓝屏,你可以拍一张照片给联想智能客服系统,就能帮你定位当前电脑之所以蓝屏是出现了什么问题。当然,还有前面提到的办公场景的文字识别,以及平板上做的文档扫描技术。值得一提的是,2021年,带有文档扫描技术的联想平板电脑出货量达到了1200万台。
在各类OCR技术相关顶级学术会议举办的竞赛中,联想也不断斩获佳绩,包括在前文提到的ICDAR 2019,联想获得了两项冠军,在ICPR 2020,获得了六项冠军。2021年,联想参加ICDAR的文档检测竞赛,本次竞赛吸引了众多学术界与企业界的学术组织和专业机构参赛,其中包括中国科学技术大学和西安电子科技大学等高等院校,德国人工智能中心(DFKI)和NAVER(社交软件LINE的母公司)等国际知名公司,以及网易、58集团、浦东发展银行和建设银行等国内专业领域的知名机构。经过激烈的角逐,最终联想研究院智慧教育团队以0.990971(相似系数)的高精确结果,击败所有竞争对手,夺得文档检测竞赛冠军。
▲ ICDAR 2021,联想获得文档检测竞赛冠军
这些都只是现在的成绩,如果要描绘联想OCR未来的技术蓝图,可以用“一横一竖”来总结。技术演进的竖轴是内功,联想OCR会继续深耕识别技术,识别内容从文本识别,公式识别,到表格结构识别,以及文档结构识别,实现文档整体识别理解技术;横轴是场景扩展,从教育场景出发,在更多的场景中实现技术落地。
▲ 一横一竖,联想OCR的未来
综上所述,联想OCR强调的从来不止是数据或者算法,而是数据、算法和场景的深度融合,联想是一个将技术落地于应用的推动者。 接下来,我们请到了联想集团副总裁、联想研究院智慧教育产品研发平台总经理王茜莺,联想研究院高级总监武亚强,以及联想研究院智慧教育OCR技术负责人李辉,为大家解答一些疑问。
OCR这项技术诞生已经几十年了,这项技术已经成熟了吗? 联想为什么要深耕OCR这个赛道?
王茜莺:
OCR技术已经存在很多年了,某种意义上OCR像是从普通的油车变成了电车,以后可能是自动驾驶的飞机,联想的设备这些年不断更新迭代,未来可穿戴设备上文字可能也无处不在,OCR技术的应用场景可能还会得到下一次更大的飞跃,因为使用场景会越来越宽泛。
其次,行业智能与我们的衣食住行紧密相关,整个社会的运转,跟行行业业都紧密相关,产业数字化之后文字识别一定是行业自动化里非常重要的一个环节,这也是为什么我们觉得OCR技术非常值得投入。
武亚强:
OCR的技术其实还没有成熟,2017年之前,大家都是用传统机器学习的方法解决问题。用扫描仪扫描出的扫描件,识别率基本能做到98%以上,如果扫描质量很高做到99%也没问题。当手机出现以后,获取图像的渠道和手段多了许多,获取到的图像有可能不清楚、背景复杂,对于这种复杂场景化的文字识别,OCR还很不成熟。
至于联想为什么要做OCR?第一,从技术上看,我们研发一项技术,OCR是特别通用的技术;第二,从业务上看,OCR虽然是通用技术,但是当它跟场景结合,可以变成非常适合该场景的技术应用。这特别适合联想来做,联想的战略是要做行业智能,就必须有护城河,OCR就是其中之一。而且,我们有信心比别人做得更好。
除了教育方面,在其他行业,联想OCR能做什么?
武亚强:
对行业的支持,我们不仅限于教育行业。不光是在智慧教育方案里,OCR技术有很多运用,比如IT财务机器人,与服务部门做电脑蓝屏识别等等,我们是立足于教育去做扩展技术。但本质上,我们还是要支持公司的业务,用智能化帮助公司数字化转型。
联想OCR对手写的识别度如何?公式和图形能识别吗?
李辉:
从最开始OCR概念提出到现在,OCR不仅在能力上,在功能外延上做了极大的拓展:从单纯的文字识别,扩展到版面分析、可视化元素提取(VIE)等;从一维结构的文字识别,扩展到二维结构的公式识别,以及对文档中文字,图形,表格不同元素的提取和识别。
对于手写文字的识别程度,简单总结就是:人能识别的,机器基本都可以识别,人不可以识别的,机器也有可能能够识别。标准就在于图像里保存的文字特征是不是足够,如果足够,机器在模型和数据都有基本的保证情况下,都会有比较好的效果。
OCR能否识别甲骨文?
武亚强:
OCR能够识别,因为对于机器来说,它的本质就是一些特征,所以它有机会认识。文本能够承载最准确的信息,看一幅图像你可能不知道是什么意思,但是文本的含义是非常准确的,所以对于古籍、甲骨文的识别是非常重要的,而且这个技术在快速发展。这些技术会带来一个变化,可能你不认识的文字,OCR能够告诉你这些文字背后的含义。
在银行这种对票据识别准确率要求较高的地方,联想能做什么?
武亚强:
我们探讨了一个可能性叫无纸化办公,首先它很环保,将来手机拍一些发票、拍一些金融的单据,可以直接识别进入报销系统,不必走繁杂的报销流程。我们探讨的一个方向就是金融和财务领域,这个领域里,第一,数字化转型是一个非常强烈的需求,第二,人工智能有一个特点,它适合替代的就是繁琐、重复、精准化的工作,这部分恰好是OCR比较适合的。
我们在可视化信息抽取,包括文档分析检测识别有大量积累,现在小票识别已经有了技术原型,在财务和报销领域,报销单据识别领域也是我们现在的重点方向,配合现在联想在智慧城市、智慧政务、智慧金融做的方案,可以形成核心有力的护城河和竞标点。