AI:计算机视觉与自然语言处理融合的研究进展

     发布时间:2020-12-31

  通过语言给予智能体指示使其完成通用性的任务是人工智能领域的愿景之一。近年来有越来越多的学者试图通过融合

  近年来,深度学习方法已经在计算机视觉、自然语言处理和自动语音识别等各个领域得到了广泛而深入的应用,推动了人脸识别自动驾驶和语音识别等一系列技术的发展和成熟。在很多目标清晰、规则明确的任务比如物体检测、目标分割甚至是围棋、象棋领域达到甚至超越了人类的表现。但是当前深度学习领域的研究往往局限在特定领域甚至特定的任务上,对于环境往往也有许多假设或是限制,与通用人工智能或是自主智能体的目标相去甚远。

  像图像描述、视觉问答和文本图像生成等视觉与语言交叉领域的研究,往往缺乏对于环境的理解,而近年来陆续出现的将视觉和语言与行为联系的研究,比如视觉语言导航、具身问答和交互式问答等,不但需要融合视觉与语言技术,还需要智能体针对基于文本的问题,在虚拟的空间环境中进行路径规划和探索,相对而言是对视觉与语言的深度融合。

  最早被提出的问题是图像描述,即根据给定图片自动生成语言描述。初期解决方案分为图像预处理、特征提取和文本生成三个模块,比如图像算子提取特征,SVM检测可能存在的目标,根据目标属性生成句子,但是对于目标属性定义的依赖限制了描述的生成。近年来则大多基于深度学习提出解决方案,2015年谷歌DeepMind团队和李飞飞团队分别提出了基于编码—解码框架的showandtell和neuraltalk模型,均使用CNN+RNN的模式;生成对抗网络、深度强化学习和注意力机制也被陆续引入相关研究。随着解决方案的成熟,图像描述任务也不断扩展,比如基于群组的图像描述方法和生成文本的风格化问题等。

  视觉问答可以视作图像描述问题的逻辑推理扩展,任务形式通常是,给定一幅图片和基于图片的问题,输出问题的正确答案,包括是或否的二元逻辑问题和多项选择以及图像中的文本信息等。解决方法基本可划分为四类:联合嵌入模型、注意力机制模型、模块化组合模型和知识库增强模型。联合嵌入方法将图像和文字在公共特征空间学习,注意力机制使用局部图像特征对不同区域的特征加权解决噪声问题,模块化组合模型引入不同功能的神经网络模块,知识库增强模型通过外部知识库解决需要先验知识的问题。作为视觉问答的拓展领域视频问答也越来越多受到学者的关注。

  文本图像生成则正好是图像描述的逆向问题,从给定文本描述生成图像。变分自编码器、基于流的生成模型和近似PixelCNN等方法都曾用于解决此问题。但是自生成对抗网络引入文本图像生成以来,因其卓越表现已成为主流方法。当前基于GAN的优化方向主要有:其一是调整网络结构,比如增加网络深度或者引入多个判别器,其二是充分利用文本信息,比如注意力机制和MirrorGAN等工作,其三是增加额外约束,比如Condition-GAN机制等工作,其四是分阶段生成,比如李飞场景图和语义中间层等工作。同样文本图像生成任务形式也得到了进一步拓展,比如基于多段落生成系列图片的故事可视化任务和文本生成视频等。

  视觉对话可以视为图像描述问题的对线年CVPR会议上由佐治亚理工学院的DasA等人提出,与视觉问答中单次交互不同,视觉对话要求智能体基于视觉内容与人类进行多次交流。具体讲,就是在给定图像、对话历史记录和关于图像问题的条件下,智能体必须基于图像内容,从历史记录中推断上下文,并准确地回答该问题。与此相似的还有‘GuessWhat?!’任务但是其仅限于答案为“是”或“否”的布尔型问题,AlamriH等人则进一步引入了视频对话的任务。视觉对话目前的解决方案主要有基于深度强化学习的模型、注意力机制、条件变分自编码器方法和基于神经网络模块的架构等。

  多模态机器翻译则是对机器翻译工作的扩展,其目标是给定描述图片的源语言和图片本身,根据文本内容和图像提供的额外信息翻译成目标语言,同时Specia定义了两类任务,其一是单句源语言描述图片,其二是多句源语言描述图片,Elliott等人进一步将任务二扩展到多种源语言(比如关于同一图片英语、法语和德语描述),WangXin等人则进一步把任务扩展到视频层面。研究方向主要有:引入注意力机制,分解任务目标,充分发掘图片的视觉特征,强化学习方法的使用,无监督学习模型的扩展等。

  除了以上任务之外,还有定位视频中文本位置的视频文本定位任务,判断文本描述和图片内容是否匹配的视觉蕴涵任务,问题必须基于图片内容进行推理才能回答的视觉推理任务等。包括上述问题在内的大部分早期研究往往是在视觉和语言的层次上不断扩展,比如将图片扩展到视频,从句子扩展到段落等,或者在此基础上加入逻辑层面的推理等。

  但在一定意义上讲,上述任务仅仅是计算机视觉和自然语言处理两个任务的弱耦合,甚至部分任务可以把视觉部分和语言部分完全分离地进行训练,将其中一部分的输出作为另一部分的输入就能实现任务的要求,因此没有真正的发掘视觉与语言的内在联系,并且其更多的侧重于特定任务的完成,对于环境的感知是被动甚至缺失的。因此,为了真正发掘视觉与语言的内在联系,在最新的视觉与语言的研究中,加入了行为规划的部分,这使得智能体不但能够综合使用视觉与语言能力,还能够不断通过与环境主动地交互获取所需要的信息,在交互中完成对环境的理解,进而完成指定的任务。下面介绍在这最新研究方向上的任务,主要包括视觉语言导航和具身问答任务。

  基于视觉的导航往往需要环境的先验信息,或者需要使用激光雷达、深度图或从运动中获取的数据以纯几何方法构建三维地图,或者需要人类指导的地图构造过程。并且在地图构造的过程中,即使环境有明显的模式或特征,但是在被完全建模之前也是不能被观察到的。环境构建与路径规划之间的分离使得系统变得脆弱,因此越来越多的研究开始转向端到端的学习方式——不需要显式的模型或状态估计便可实现从环境图像到路径行为的转换。

  同时学者很早就开始关注对于自然语言的理解,引入语言指引的导航策略也受到过许多关注,但是其往往对于语言或环境作出了一定程度的抽象,比如语言指令限制在特定范围或假设语言命令有固定的结构以及将环境中的物体做特定标记,或者将智能体限制在只需要有限知觉的视觉受限环境中。近年来虽然有很多新的多模态非结构化的仿线-THOR和HoME等,但是其基于人工合成而非真实图像的模型一定程度上限制了环境建模的准确性和丰富性。视觉语言导航任务内容

  QiWu等人在2018年CVPR会议上提出了视觉语言导航任务,要求智能体在给定语言指令的情况下,在作者提供的Matterport3Dsimulator仿真环境中,从随机初始位置到达目标位置,并且其仿真环境构建于包含大量基于真实图像生成的RGB-D全景图的数据集Matterport3D。但是其相对复杂和具体的语言描述与实际不太相符。因此在2019年,QiWu等人进一步提出被称为RERERE(remoteembodiedreferringexpressionsinrealindoorenvironments)的任务,精简指令的同时引入了对于环境的理解。

  QiWu提出任务的同时,同时提出了将智能体建模为基于长短期记忆(longshorttermmemory,LSTM)序列到序列结构(sequence-to-sequencearchitecture)注意力机制循环神经网络的解决方案和随机移动策略和最短路径策略两种基线算法以及人类在此任务中的表现(成功率86.4%)。

  视觉语言导航任务也可以视为在给定语言指导条件下寻找从起始点到目标点最佳路径的轨迹搜索问题,基于此FriedD提出speaker-follower系统,系统中的speaker模型用于学习路径描述,follower模型用于预测和执行路径,并使用全景行为空间代替视觉运动空间的方式使得智能体可以感知当前位置360°全景视觉。

  为解决视觉语言导航任务中的解决跨模态基标对准问题和增强泛化能力,XinWang等人提出基于强化学习和模仿学习的策略,引入了强化跨模态匹配方法和自监督模仿学习方法。

  在之前的研究中,视觉语言导航任务中主要评价指标是任务完成度即最终位置与目标位置之间的关系,因此语言指示在导航任务所发挥的作用难以量化。谷歌研究院的JainV等人因此提出可刻画预测路径与语言指示之间契合度的评价标准CLS(coverageweightedbylengthscore),并根据此指标扩展了R2R数据集,提出包含更多节点和更多样化路径的R4R(room-for-room)数据集。

  在实际导航场景中,使用者更倾向于利用简练的语言给定任务的内容而非具体详尽地描述路径的所有信息,因此QiWu等人进一步提出remoteembodiedreferringexpressionsin

  realindoorenvironments(RERERE)的任务,其中包含类似“去带条纹墙纸的卧室”的导航部分和类似“把放在凳子旁边的枕头拿给我”的指称表达部分,并提供了被称为导航—指向模型的基线算法。

  具身认知(embodiedcognition)这一概念是随着哲学、人工智能和相关领域的发展关于认知的本质被重新思考和定义的过程中诞生的,新的研究越来越倾向于认为大多数现实世界的思考常常发生在非常特殊通常也十分复杂的环境中,出于非常实际的目的,并且利用外部事物的可交互性和可操作性,即认知是一种非常具体化和情景化的活动。身体的解剖学结构、身体的活动方式、身体的感觉和运动体验都决定了人类怎样认识和看待世界。简而言之,具身认知理论认为人的生理体验与心理状态之间是有着深刻的内在联系。因此具身相关任务的内涵,就是将任务具体化到可交互的场景中,而非传统的静态图片或无法互动的视频。

  具身问答(embodiedquestionanswering)是Das等人在2018年CVPR会议上提出的任务,将智能体随机安放在三维环境中的某个位置,并且以语言的形式提出类似“汽车的颜色是什么”或者“有多少个房间里有椅子”等类似需要环境信息的问题,为了得到问题的答案,智能体需要自主地对环境进行探索并且收集所需要的信息,最后对问题作出解答。智能体仅依靠单目全景RGB摄像头与环境交互,而没有类似环境地图、自身定位的全局表示或类似物体信息、房间描述的结构表示,当然也没有关于任务本身的额外信息,即先验知识几乎为零,需要智能体充分理解任务内容的情况下,通过与具体环境的不断交互,实现对环境的理解,进而完成问题的回答。

  Das等人提供的基线算法中智能体视觉、语言、导航和回答四个部分的实现,其中视觉部分基于通过CNN将RGB图像生成固定大小的表示,语言部分使用LSTM编码,导航部分引入包含选择动作(前进,左转,右转)的规划模块和指定执行次数(1,2…)的控制模块的自适应倍率计算方法,问答部分计算智能体轨迹最后五帧的图像-问题相似性的视觉编码与问题的LSTM编码进行比较并输出结果。

  在上述研究的基础上,受人类将行为概念化为一系列更高层次语义目标(比如为了吃夜宵,人类会将其抽象为“离开卧室—走到厨房—打开冰箱—找到甜点”而不会详尽地规划路线)的启发,Das等人进一步提出了模块化学习策略,将学习目标加以分解。

  YuL等人则把EQA任务扩展为MT-EQA(multi-targetEQA)即在问题形式中引入了多目标,比如类似“卧室里的梳妆台比厨房里的烤箱更大么”这样的问题。

  WijmansE等人设计了基于三维点云格式的具身问答数据集MP3D-EQA,设计并

  了多达16种不同的导航策略组合,提出损失加权方案InflectionWeighting以提高行为模仿的有效性。相关数据集介绍

  视觉语言导航任务主要包含3个数据集,其一是QiWu等人在提出视觉语言导航任务时开源的R2R(room-to-room)数据集,其二是JainV等人在改进任务评价方法时开源的R4R(room-for-room)数据集,其三是QiWu等人提出RERERE任务时建立的数据集(暂未开源)。表1是三个数据集的简单对比,从对比中可以发现,因为R4R数据集更倾向于使得智能体运动轨迹更加符合导航指令而非最短距离,因此参考路径的长度要大于最短路径的长度;而RERERE任务则倾向于使用更加简洁的指令,因此指令平均长度要小于R2R。

  具身问答任务数据集主要包括3个数据集,其一是Das等人开源的EQA(embodiedquestionanswering)v1数据集,其二是YuL等人引入多目标任务时提出的MT-EQA(multitargetEQA)数据集,其三是WijmansE等人将任务中的数据类型替换为点云时提出的数据集MP3D-EQA数据集,后两个数据集暂时未开源。表2是三个数据集的内容对比。需要注意的是,数据集中包含被称为uniquequestion的问题,是指可能产生歧义的问题,比如房间中同时存在两台冰箱时,问题‘Whatroomistheairconditionerlocatedin?’就会产生歧义。

  视觉与自然语言结合的任务取得了令人瞩目的进展,从早期简单将两部分技术简单串联加和的形式扩展到需要智能体借助视觉和语言理解环境并且采取行动的深度融合,但是绝大部分任务都是基于现有的数据集在模拟的环境中进行。诚然,考虑到目前表现较好的算法均是基于需要大量试错的深度强化学习方法,在真实环境中训练的确会消耗大量的时间与精力,但是在模拟环境表现完美的模型迁移到真实环境中也可能会遇到很多意料之外的问题。

  而现有的绝大部分研究只是在数据集上达到了较高的精度(比如视觉语言导航任务中SOTA算法在可见验证集和不可见验证集上分别达到了73.0%和61.3%的成功率),仅有少数学者将算法在实际环境中加以验证。因此未来研究重要方向之一是如何将模型迁移到真实环境中。在此过程中,泛化能力又是其中关键,即智能体若遇到训练集中未出现的环境或者未遇到的物体,能否根据过往经验作出较为合理的反应,可能的解决方案是借鉴已经在视觉对话、常识推理和事实预测等方向得到广泛使用和验证的外部知识库方法,即利用事实性或常识性的先验知识提高智能体对于环境的理解和认知能力。

  目前已经开源的数据集中,智能体与环境之间的交互相对有限,仅涉及打开微波炉、移动物体或到达指定位置等基本操作,并且可采取的运动形式限制在特定范围(比如前进、左转和右转),虽然在最新的研究中已经涉及类似“把放在凳子旁边的枕头拿给我”这类相对较为复杂的交互形式,但是显然与真实环境的交互方式和运动形式有较大的差距,并且简化了真实环境中的诸多物理性限制,比如“去厨房拿一个鸡蛋”和“去厨房拿一把勺子”语言指示,在真实的环境中智能体需要考虑分别以何种的力度夹取鸡蛋和勺子,而现有的数据集并不考虑此类区别。

  和冰箱等对于人类而言需要后天习得交互方式的电器,却因其规则明确和易于联网的性质能够与智能体直接交互。最后就是对环境中其他信息的利用,比如利用声音信息对不可见物体的非视距重建、使用工具达成指定目标甚至与环境中其他智能体的对话交流等。这些与环境的相对复杂的交互是目前研究所欠缺的,但也是未来智能体在真实环境中运行所需要的。推理能力的引入

  目前无论是视觉语言导航还是具身问答,所给的任务都相对直接(比如根据语言提示到达某个房间或者回答环境中某物体是什么颜色等),但是现实生活中更多是是需要推理能力的问题,比如类似视觉推理任务中的比较、属性识别和逻辑运算等初级推理能力,以及演绎、归纳和类比等高级推理能力。虽然在部分研究中已经涉及推理能力,但仍相对简单,未来可能会引入类似“房间装修是什么风格?”或者“到书房中取一本散文集。”

  这种涉及相对高级推理能力的任务,前者需要智能体基于房间的整体特征比如吊灯的样式、桌椅的摆放和墙纸的花饰等信息归纳推理得出装修风格的答案,后者则需要智能体能够区分散文、小说或诗歌等不同的文体。当然目前视觉和自然语言方面的进展距离解决此类问题仍有较大空间,但是推理能力尤其是高级推理能力的研究不失为一个值得关注的研究方向。

  三维点云数据可以提供比图像更丰富和准确的信息,WijmansE等人发现在具身问答任务中点云信息可以提升智能体避障能力的学习,WangY等人甚至发现仅仅将二维的双目视觉图像转换为三维点云数据就能大幅提高目标检测的准确度,因此点云数据可能不单在信息内容方面甚至是在数据表示方面均提供了更多的信息。但是一方面受制于点云数据获取的成本和难度,成本百元的相机模组在短短几秒钟内便可获取千万像素级别的高精度图像,但是点云获取设备往往动辄数十万获取时间也往往需要数分钟甚至数小时。

  另一方面基于点云的深度学习研究相对滞后于图像,虽然得益于PointNet++、ASCN、和SplatNet等方法的提出,点云数据固有的无序性和旋转性不再是应用深度学习技术的障碍,但是学术界对于点云数据的研究仍远远少于图像数据。因此不论是点云数据集的构建还是基于点云数据的研究均不同程度的存在一些困难。后续的研究可能需要更多的引入点云格式的环境信息,为了弥补目前点云数据获取困难的状况,基于双目视觉的三维重建可能是很有希望的辅助手段之一。

  建构主义者认为,学习是学习者在与环境交互作用的过程中主动地建构内部心理表征的过程。而本文现在已经拥有了多个可交互的模拟环境,因此后续的研究可以在不断地交互进行比如对自然语言的理解或者对环境中工具的使用等能力的学习和提升。此外从表1的分类中可以看出,视觉语言导航、具身问答以及交互式问答等在语言层面仍停留于“问答”阶段,即针对单一问题给出正确的答案,未来的研究中很有可能将目标优化到“对话”层面,即针对多个有内在逻辑联系的问题分别给出正确答案,同时问题之间的内在联系也有助于智能体更好地理解环境。

  [1]李睿,郑顺义,王西旗.视觉—语言—行为:视觉语言融合研究综述[J/OL].计算机应用研究:1-8[2020-09-06].

  文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

  文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

  12月18日,优必选研究院技术专家罗沛鹏在智东西公开课进行了一场的直播讲解,主题为《优必选服务机器人....

  去年以来,越来越多的AR技术被用在各大互联网公司APP的营销场景中,其中最多的便是AR识别和追踪。但....

  深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高....

  引言 计算机视觉(Computer Vision)自兴起以来就非常迅速且广泛应用于各个领域,比如我们....

  引 言   本文介绍了复旦大学数据智能与社会计算实验室 (Fudan DISC) 在AAAI 2....

  今天推荐几个优质的公众号,他们有态度、有温度、有质量,值得拥有。     Java之道 有道无术,术....

  据外媒TECHPOWERUP消息,华硕日前发布了具有嵌入式抗菌处理和升级版Eye Care Plus....

  尽管市面上已经有能够检测用户手势的计算机视觉系统和配备传感器的手套,但加州大学伯克利分校的一支研究团....

  “深度学习模型的问题在于它们是如此复杂,以至于我们实际上并不知道他们正在学习什么。”杜克大学鲁丁实验....

  目前计算机视觉的产业链,形成了国外硬件至上,主要还是由国外巨头把控,国内市场份额不足,特别是芯片领域....

  12月17日消息,据国外媒体报道,实时3D内容创作和运营平台Unity已经收购了计算机视觉和深度学习....

  Graphcore IPU-M2000在首个benchmark测试中显著优于GPU

  Benchmark中包括了BERT-Large(基于Transformer的自然语言处理模型)在IP....

  目标检测是计算机视觉领域的一个基础研究主题,它利用每张图像的预定义类标签来预测边界框。大多数主流检测....

  近年来,人工智能(AI)依靠深度学习、计算机视觉、自然语言处理等技术突破与落地应用,不断颠覆着人类的....

  本文首先总结了计算机视觉领域的重要关键技术以及典型算法模型,随后介绍了这些技术在通信工程领域内设备安装、施工验收、三维测...

  大家知道人工智能的五大核心技术是什么吗?分别是计算机视觉、机器学习、自然语言处理、机器人和语音识别。....

  27日,世界5g大会举行未来信息通信技术及国际战略研讨会,是一场大牛们的“华山论剑”。因为都是业界泰....

  新思科技(Synopsys)近日宣布与SiMa.ai开展合作,将其机器学习推理技术大规模引入嵌入式边....

  三维计算视觉研究内容包括: 1)三维匹配:两帧或者多帧点云数据之间的匹配,因为激光扫描光束受物体遮挡....

  我们这一年来做的一些工作(总结见文章最下方)现在差不多形成了一个较完善的计算机视觉工具链CVChai....

  这是一篇计算机视觉入门指南,从概念、原理、用例等角度介绍了计算机视觉。 「机器能够模拟人类视觉系统」....

  2020智能交通技术与标准论坛在南京市溧水区举行。会上,基于“智能交通研究院项目”,英特尔与南京溧水....

  该报告涵盖了与当前COVID-19大流行相关的市场动态和需求模式的变化。该报告根据COVID-19对....

  这是英伟达研究团队提出的一个模型,当画面被严重涂抹后,模型仍然能够恢复出“原来”的图像。此外,还可以....

  具体而言,该论文从可编程性、并行化表示、性能优化、系统架构和自动并行化技术等几方面对分布式并行 ML....

  日前,武汉东西湖车管所正式启用业务大厅智慧身份核验系统,群众进入业务大厅办理业务,均需进行身份证信息....

  数据是数字时代核心的产业要素,比如一个眼睛建模就需要830万个多边形来处理。目前许多数据还没有成为文....

  11月13日,全球知名的科技媒体a&s《安全自动化》发布2020年度全球安防50强榜单。这项排名针对....

  这就是北卡罗来纳大学里斯创新实验室开发的基于AI的新系统的工作方式。交互式元素是“健康迎宾亭”,即将....

  Vilynx将其技术应用于公司用于视频和其他媒体的搜索和推荐引擎的软件。在现已关闭的网站上,这家初创....

  计算机视觉和AR/VR开发工具服务商KP9与IBM合作,提供WebAR开发平台

  11月13日青亭网报道,计算机视觉和AR/VR开发工具服务商KP9宣布,将与IBM在云平台建立合作,....

  监测个体肉鸡的活动对研究人员来说是一个挑战。荷兰瓦格宁根大学的科学家用RFID系统成功地通过追踪围栏....

  “在未来十年中,将出现各种先进的计算架构,” Plummer说。“在短期内,此类技术可能包括极端的并....

  导读:本文通过案例分门别类地深入探讨人工智能的实际应用。案例甚多,此处所列举的仅是九牛一毛。本该按行....

  11月6日,竹间智能科技(上海)有限公司(以下简称竹间智能)宣布完成2亿元人民币C轮融资。本轮由中银....

  当我们在翻译软件上输入 Transformer is a novel neural network ....

  资源整理了文本分类、实体识别词性标注、搜索匹配、推荐系统、指代消歧、百科数据、预训练词向量or模型、....

  《新一代人工智能发展规划》提出,到2020年人工智能总体技术和应用与世界先进水平同步,核心产业规模....

  师兄在腾讯,就让师兄内推了一下腾讯自然语言处理的实习。在内推前,简单把李航的统计学习方法,简历涉及的....

  今天给大家介绍一篇BERT用于推荐系统的文章,题目是《BERT4Rec: Sequential Re....

  在计算机视觉领域,图像识别这几年的发展突飞猛进。例如,在PASCAL VOC物体检测基准测试中,检测....

  基于简化的目的,我只从论文中列举出在 ImageNet 上准确率最高的 top1 和 top5。注意....

  OpenCV对学术用途和商业用途都免费。它有C++、C、Python和Java的接口,并且支持Win....

  人工智能是未来产业发展的基础型产业,更是城市竞争的焦点之一,除了青岛之外,已经有不少城市先后发布发展....

  标识识别,可以包括车道识别、交通标志识别车辆行人识别以及运动的跟踪,对于它们来说,CNN技术还是比较....

  据国外媒体报道,苹果公司以5000万美元的价格收购了人工智能(AI)初创公司Vilynx,目的是改进....

  人工智能(AI)呈指数级发展。如今,它已经超越了技术和地理限制,并且正在缓慢地在全球范围内带来巨大的....

  本文作者认为,深度学习只是一种计算机视觉工具,而不是包治百病的良药,不要因为流行就一味地使用它。

  本文摘自于:雷林建, 孙胜利, 向玉开, 张悦, 刘会凯. 2020. 智能制造中的计算机视觉应用瓶....

  本文来自知乎上的同名问题,原文链接: 对几个优秀的回答进行了整理,解释权归答主所有,如有侵权请联系删....

  计算机视觉的特征提取算法研究至关重要。在一些算法中,一个高复杂度特征的提取可能能够解决问题(进行目标检测等目的),但这将...

  计算机视觉(ComputerVision,CV)正在现实活动中经历着巨大的激增,应用范围从使用手势控制电视到可提醒驾驶员汽...

  ·支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人...

  深度学习领域的“Hello World!”,入门必备!MNIST是一个手写数字数据库,它有60000个训练样本集和10000个测试样本集,...

  摘要:提出了一种改进的矩不变自动阈值算法。该算法针对矩不变自动阈值法忽略图像细节的缺点,在矩不变自动阈值的基础上增加了基...

  从“跳一跳”之后,又有一款小程序游戏因其独特好玩的个性,在朋友圈C位出道了。 几天前,谷歌发布了一款名为“猜画小歌”...

  职位描述: 1. 负责计算机视觉&机器学习(包括深度学习)算法的开发与性能提升,负责下述研究课题中的一项或多项,包括但不限于...