半岛网页版_AIR015|微软亚洲研究院常务副院长芮勇：计算机视觉从感知到认知的长征

特色主食

本文摘要：作为本届GAIR大会重量级的嘉宾之一，同时也是微软公司亚洲研究院常务副院长，CCF常务理事，IEEE、IAPR和SPIE等国际一流学术的组织成员的芮勇博士，在今天下午展开的“机器学习大浪下的巨头们”这一大会议程中，为我们带给了关于计算机视觉领域的一些近期观点和思维。

作为本届GAIR大会重量级的嘉宾之一，同时也是微软公司亚洲研究院常务副院长，CCF常务理事，IEEE、IAPR和SPIE等国际一流学术的组织成员的芮勇博士，在今天下午展开的“机器学习大浪下的巨头们”这一大会议程中，为我们带给了关于计算机视觉领域的一些近期观点和思维。芮勇博士的报告主要分不作三个部分：第一部分阐释了计算机视觉领域在过去50多年的发展，并认为在当下的2016年我们尚能处在一个从感官到理解的最重要分水岭阶段，并且还没几乎步入理解的层面；第二部分共享了未来计算机视觉领域有可能的发展方向；最后告诉他我们计算机视觉几乎从感官南北理解的3点关键因素。50年的历史在第一部分中，芮勇博士回应，对于只了解0和1两种状态的计算机而言，计算机视觉在过去50年主要经历了以下4个阶段：特征提取、图像标示、图像解读和图像的深度解读。

1. 特种萃取是所指从一幅图像中，寻找主要的特征像素并萃取出来。例如在一张白纸上写了一个字，那么“文字”这个像素就是特征像素，是必须萃取的。2. 图像标示这一点也分为两个小的部分。

第一部分是图像分类，向计算机输出一张图片，计算机要需要辨别出图中的内容是人还是物体。第二部分是像素级别的分类，计算机需要从一张图片的像素级别中辨别出有哪个像素归属于人，哪个像素归属于物体。

同时，芮勇博士也提及了深度自学对于图像标示的根本性影响。在2012年引进深度自学之前，图像标示的错误率高达28.2%，而自从引进了深度自学网络分析模型，机器标示图像的错误率早已从2012年的16%（早已高于2012年之前）降至了2015年的3.5%，而神经网络分析模型的规模也减少到152层，这在全世界范围内都是领先的。

3. 图像解读是指，输出计算机一张图片，计算机要能自动分解一句话的自然语言叙述。例如一张合影，计算机也许不会输入：这是一张两个人的合影照片。

4. 图像的深度解读是指，计算机不但能辨识出图中的内容，还能告诉图中内容的具体情况。还是用合影为事例，计算机这时能可能会这样叙述：这是奥巴马和习近平的合影。芮勇博士回应，这一点目前是几乎可以做的，目前计算机涵括的理解范畴是全球大部分名人和著名景点，比如白宫和天安门广场。

未来有可能的发展方向在总结完了发展历程之后，芮勇博士还从以下几个角度共享了他对于计算机视觉研究下一步发展的一些点子。1. 图片的说明了诗意。例如一张大象平奥巴马的图片，除了能输入上文提及的自然语言叙述之外，未来计算机有可能还能解读图像的内涵意义。

例如大象和奥巴马的象征物意味，以及美国议会选举中民主党与共和党的相互竞争等。2. 视频的解读。

例如输出一段视频给计算机，计算机某种程度可以输入一段自然语言的叙述。芮勇博士回应这其中的难题在于，视频除了图像中横轴纵轴的二维叙述之外，还加了一条时间线的三维叙述，因此对于数学建模和数据分析都造成了与图像识别几乎有所不同的研究方式和可玩性。3. 利用图片聊天。

例如输出一张甜美小狗的图片，计算机有可能恢复：萌萌哒。4. 利用图片讲故事。例如将来计算机有可能根据输出的若干图像，自动分解一个扣人心弦的精彩故事。

3个关键因素最后芮勇博士为大家说明了了计算机视觉几乎从感官南北理解的3点关键因素。1. 机器学习算法的变革。业界必须更加先进设备的算法和更加深度的分析模型来助力计算机视觉的更进一步发展。2. 各个横向领域的科学家和从业者合作。

除了计算机视觉自身领域的发展之外，将计算机视觉与各个横向领域融合，在工程和商业中确实发挥作用，推展计算机诗句的跳入发展。3. 高质量的海量数据。在大数据时代，高质量和海量的数据作为一切研究的基石也至关重要。

最后芮勇博士总结说道，这三点如果都能做了，机器学习算法本身的变革，研究学者和横向领域的专家们更加多地合作，同时优质的数据集也更加多，那么我们就能从感官月南北理解。以下是现场国史：非常高兴下午有这个机会跟大家聊聊计算机视觉，我的题目叫《计算机视觉从感官到理解的长征》。我想要总结一下计算机视觉过去50年的发展。今年的2016年也是人工智能这个词被建构出来的第60年，之前只不过没这么一个词，60年中国人叫一个来世，来世总是不会都有的进步，我们想到2016年人工智能有什么大的进步？人工智能从最开始有很多的领域，我本人花上的时间最少的是计算机视觉，人有各种感官，但人70%的信息是靠人的眼睛来看见的，计算机视觉也是人工智能当中一个十分最重要的方向。

最先大家说能无法可以让计算机可以看见，像人类的眼睛可以看见一样。过去的50年的发展，我们可以看见，就是指社群到处置到Recognition到解读，就像我们画一幅画一样，从最先的线条，到一定的灰度，到最后的全彩色的，这50年都做到了些什么事情？我们可以看一看，我想要用这张图片跟大家共享一下。

人看一张图片实在很非常简单，我一看实在这是一个人、这是一张桌子、椅子，人一下就解读了，计算机看见的很难，因为计算机看见的就两个东西，不是0就是1，让计算机看见图片里包括什么内容十分艰难。这50年走到了很多路，从最先的特征提取，比如说这么一幅图，它的特征有线条、有转角，有色彩，之后第二步比这个更加行进，叫标示。这幅图比如说是一个户外的场景，里面有人物，比这个更加前更进一步，叫Annotation。比这个再行走一步，我们对图片的解读就是Captioning，我如果把这个图片给计算机去看，它能无法分解一段我们人类看得懂听不懂的文字，比如乔治和他的父亲在迪士尼乐园在玩一个游戏，这么一句话，这就更加无以了。

比这个再行无以一点，我给计算机这个图片，我回答计算机几个问题，比如说这个图片里面躺在前面那个人穿着什么颜色的衣服？计算机这时候要告诉什么是人，衣服在哪里，它要问是红色的衣服，这就更加无以了。比这个再行无以一些的就是我们小时候都读过课，叫作看图认字，看图说出，计算机看见一幅图之后，能无法分解一个故事，这就是这50年我们大家孜孜不倦想要做到的事情。我们来总结一下这50年是怎么走的，第一步是特征提取，计算机看见的除了0就是1，当然有些像素更为最重要，哪些象素作为萃取这很最重要，比如这张图，每一个像素的重要性是不一样的，画圈的地方是我们想要把它作为特征的一些地方。

往北下看，第二步我们想要给一个图片展开标示，展开标示的话，我们就想要告诉，比如说图片里面有两个人，他们是在户外的活动，这件事情怎么做？我们来看一下是怎么做的。这个就是很最重要的一个部分，有三个部分，第一个部分是图片的分类，这个时候我们问的是什么问题呢？这张图片里面是不是所含一只小狗。第二个就更加无以一点，计算机还要告诉他这个小狗在什么方位，把它框出来。

第三个更加无以，每一个象素能无法告诉他我这个像素是归属于这个小狗身上的像素还是电视机上的像素？一个比一个无以。过去的这十年，还有相当大相当大的发展，我们来看。第一步，图象分类，图象分类在计算机视觉里有一个全球性的比赛，叫ImageNet，里面有120万个训练样本，有10万测试图像，1000个类别，你让计算机看没见过的图片，老大你分出来这是1000类里的哪一类。2012年之前，深度自学没引进计算机视觉之前，大家想到错误率，靠右边的是2010年的错误率28.2%。

2012年的时候，深度自学第一次被用在图象识别，错误率一下降至16.4%，每年的错误率越来越低。2014年有个斯坦福的博士想要挑战一下。我如果告诉他你一千类里有两百来种狗的有所不同类型你就告诉有多难了，我只了解四五种狗，但要做上百种狗都能对，十分艰难。

斯坦福博士关口在屋子里训练了几个月，他的错误率是5.1%，去年降至了3.5%，第一次多达了人类的错误率。2012年深度自学第一次引进计算机视觉，当时有八层，它的错误率减少。

再行往下走，2014年到了19层，错误率之后减少，到2015年，我研究院的同事作出了152层的极深网络。大家实在往下做到没什么真是，只不过想要做到得浅很难，在2015年以前，全球没几个团队能做多达20层，因为是训练不下去的，所以这是一个十分好的工作。用神经网络，不仅是每一层延后下一层，有的之间还可以转跳。这是图片的分类，解决问题的问题是图片里面是不是有只小狗。

更加无以的是这只小狗在什么地方，物体的检测。七八年以前，全球能做最差的程度也就是这样，今天通过深度自学的方式早已可以做这样的水平。

你看最左边的女士她只是把胳膊肘遮住一点，腿遮住一点。往北下看，这个大公共汽车后面的司机我们说明说道这是一个人，现在早已超过这样的水平，跟人类的视觉水平早已不相上下。

比物体检测更为无以的是在图片的每一个像素，像素是归属于小狗还是归属于屏幕？我们可以看一看今天用深度自学的方式，也早已可以把像素级的图像拆分做这样的水平。大家可以想一想，如果能做这样的水平，今后无论是无人机还是无人驾驶，很多应用于都可以做到了。这是我刚才提及的第一个问题，就是对物体的辨识，比这个更加无以的是我们是不是解读了，计算机是不是解读了某一个图片。

我们看一看。Beyond相比之下多达了计算机视觉。

如果只是用最近的方式去做到搜寻，只不过它并没解读，比如说你的一个输出是靠左边这个人，它就把右边这几个从搜索引擎回到，这个并不是解读，这还算不上解读。确实的解读是什么呢？我给计算机看见有这么一幅图片，它能分解一句话，说道本和他的爸爸在迪士尼乐园玩游戏。

我如果让计算机看这么一幅图（一个人打网球的照片），下面我想要跟大家做到一个小的对话，在这个明确的问题上，我们能无法多达图灵测试，有两句话：第一句话叫作一个人在网球场上手拿着一个网球拍。第二句话：有一个人在网球场上打一场比赛。大家实在这两句话哪一个是人写出出来的？哪一个是机器写出出来的。

（大家跪下后表明比例基本上50%比50%）下面我们想到究竟哪个是人写出的哪个是机器写出的。上面的是机器写出的，如果都说的诸位是50%的话，早已可以通过图灵测试了。我们再试一题，上面停车了一辆自行车，有两句话，一句话是小河边停车了一辆自行车，第二句话是水体旁边有一辆自行车停车在。

哪句是计算机写出的？（现场大部分人自由选择第二句）现在大不部分人指出下面一句话是计算机写出的。我们来想到，下面是人写出的。我们又一次通过了图灵测试。

这是给计算机看一个图片，它分解的这么一句话，比那更加无以一点的是前一阵奥巴马一家带着小孩来采访，我们如果让计算机看见这么一幅图片，它如果只是告诉他我有几个人在照片也没意思，它如果有本事告诉他我说道，Sasha奥巴马、米歇尔奥巴马，彭丽媛，我们大约前50万名人都能认出来是谁，并且我们分解了一句话说道，这几个人在故宫前面照片，早已可以超过这样的水平。往北下看，明确算法有可能没那么多时间去谈。但基本上就是指名人到明确的物体，通过各种深度自学的方式能分解出有这么一个自然语言的话。

我们往北下看，这就是整个的流程，算法等等就不必花上时间去看了。早已可以让计算机看见一个图片，谈出有一句还一挺气馁的话，下面还可以往哪里回头，我实在最少四个方向可以回头。第一个方向是说道在语义的层面上，Go higher，我们能无法想起一些没讲出来，但它能推理小说出来的意思。

第二个我们给它看一段视频是不是也能说出一段话，Go longer。第三个是它能跟我聊天。第四个我可以回答他明确问题，他能问。

第一个，Go higher，如果我给计算机看这么一幅图片，今天能做的水平就是这样，有一群象，前面有一个人，这是我们之前可以做的水平。今天可以做的水平，因为有实体，我们可以说道一群象在奥巴马的旁边，因为我们可以辨识出有这个人是奥巴马。我们期望做什么水平？它衍生的一些含义，我们人来看见这个可以想起很多衍生含义，今年正好是美国总统大选年，民主党是驴，奥巴马是民主党，共和党是象，它的意思是说道奥巴马被共和党的一些竞选者在追上，我们今后如果能分解这样一句话，我们对图片的解读感叹到了一种理解的水平，但还没做。

第二个，Go longer，我们给它看视频，它也能分解一句话，当然这里面有很多的算法，明确算法我就不一一讲解，基本上是用一个深度自学的网络，然后目标函数里面由两种变换在一起的新的水平。这是我托的两个方向，第一个把它的伪装含义谈出来，第二个是把视频也需要用文字的形式表达出来。第三个我想要托的是，比如说我们今天跟小冰聊天，我们敲打一段文字，它也能返一段文字，我们给它上载一张图片，它是不是也能跟我们闲谈呢？今天它也能了。

它今天可以做的水平是，如果我上载了一张图片，它不会说道小眼神过于诙谐了，这就像人在聊天一样，早已可以做这样的水平。比如说你想要秀秀六块腹肌，它不会跟你说道大叔真为牛。某种程度是文字的聊天，图片也可以聊天，这都是归功于我们对计算机视觉技术的发展和深度自学的发展。

第四个方向，略为花上多点时间讲讲，我实在这是很有意思的方向，不仅对科研、产业界来说都很有意思。叫作Visual Question Answering，我回答计算机一个问题，什么东西在自行车筐里？我们期望它的答案是说道狗，但是想做到这一点很难，你首先告诉自行车在哪儿，筐在哪儿，筐里有什么东西，都不更容易，但今天我们有技术，需要把这个做。怎么做呢？我略为托一下这个算法。

四个部分，两个输出，第一个是你回答的问题是什么，你回答的问题是说道自行车的筐里面是什么，这是一句话，这是第一步。第二步是你同时送给计算机看一个图片，有个Image model，我们用深度自学的方式把两种有所不同的模式做到两次之后，就告诉和这个问题最有关的部分就在暗的这个部分，这就是和问题再次发生关系的地方。如果告诉这个区域和这个问题再次发生关系就有相当大的可能性告诉答案。

还有更好的几个例子要跟大家共享，比如我们让计算机看这幅图片，问：在一片空旷的海滩上，两个蓝色的椅子中间那是什么物体？这是它答案的过程，第二层探讨到伞，一把太阳伞。还有更好的例子，在一片泥泞的土路上，什么东西在拖着马车？答案是马在拖着马车。右边那个，筐的颜色是什么？答案是红色的。右下角这个女士戴着两只红色牛的角，答案是说道红色的，它告诉牛角的颜色是红色的。

这些都是我们今天通过计算机视觉的方式超过问题的问水平。刚才回顾过去50年计算机视觉发展的历程，从最先的特征提取，有直线转角，直到说道这是一个户外的场景，场景里面有人，到说道这个图片里面这个人的名字是什么，到分解一句话来叙述这个图片，到最后我刚才提及的Visual QA，还有很长的路要回头，就是我们看见图能说出一个故事来，这是我们今后要做到的事情。我今天的题目叫《计算机视觉从感官到理解的长征》，长征大家也告诉，最先就是指江西的瑞金开始长征的，很具备里程碑的事件就是遵义会议，最后很顺利的跑到陕甘边区，今天的计算机视觉也是一个长征，但还没抵达陕甘边区，今天2016年我们获得了相当大的成就，很像遵义会议获得的成就，但今后还有很长的路要回头，这就是长征的一部分，怎么样最后抵达陕北，最少三个方向可以想要。第一个是计算机自学算法的本身。

今天“深度自学”这个词很热。今天因为有了好的算法，深度自学算数得很顺利。第一块很最重要的能让我们抵达陕北的就是计算机自学算法。第二个就是我们必须一些计算机的科学家，我们也必须和一些横向行业的朋友们一起来做到这件事情，比如我们是和做到金融的朋友们，就像上午杨强谈的，我们能预测股票市场。

我们如果和不懂医疗的朋友来做到，可不可以作出更加精准的医疗，如果和植物所的朋友来做到这件事情，是不是可以作出一个用手机照片给定的花，或者一个树根，我就告诉这个花上叫什么名字，树根叫什么名字，最先从哪里来？等等。我想要说道这个的目的就是除了机器学习的专家之外，还要和很多横向行业领域的专家一起合作这件事情。第三个，右下角这个圈我实在也一样最重要，我们必须高质量的数据，这三点如果我们都能做了，机器学习算法本身的变革，我们和行业的专家们的合作和更加多的数据的提供，我们就能从瑞金经过西昌抵达陕北。

谢谢大家！主持人：刚下面的观众托了问题，只不过你最后一页PPT就是最差的答案，它说道计算机从视觉感官到理解还必须哪些条件。但我还有另外一个问题，因为你刚给的都是图片，如果给的是一段视频，你不会不存在什么样的结果，如果没做到的话，你不会设想一下，这里面可能会带给什么样的期望和挑战？芮勇：你有可能没很留意听得，我刚才把图片变为文字之后，我谈了四个方向，把视频放进来以后今天也可以做了，但视频中显然很多挑战，因为做到图片分析的时候，二维的做到了，视频的时候有一个时间轴，所以要一个3D的视频自学的方式，也是可以解决问题的。谢谢！原创文章，予以许可禁令刊登。

下文闻刊登须知。

本文关键词：半岛网页版

本文来源：半岛网页版-www.bustingthemyths.com

特色主食

半岛网页版_AIR015|微软亚洲研究院常务副院长芮勇：计算机视觉从感知到认知的长征

特色菜品

关于我们

特色菜品

新闻资讯

半岛网页版