2024 T-EDGE文章详情页顶部

从Magic Leap出走的博士说,计算机视觉有三个变化值得关注

从1966年到2016年,正好恰恰过去了五十年,过去的五十年计算机视觉发展非常快。今天计算机视觉是不是变成了很成熟、很完美的技术?并不是。

钛媒体注:从1966年到2016年,正好恰恰过去了50年,过去的50年计算机视觉发展非常快。今天计算机视觉是不是变成了很成熟、很完美的技术?在钛媒体和《商业价值》主办的移动互联网创新大会(MIIC2016)上,xPerception创始人包英泽不这么认为(钛媒体作者硅星闻曾介绍过包英泽创办的公司见《这家做智能感知的公司,想要给你的家居设备都安上“眼睛”》

在他看来,新的技术革命即将到来。手机之后的计算平台有两个方向,一种是VR、AR;另一种是智能机器人,而这两者都需要计算机视觉技术做基础。

历经50年的发展,计算机视觉产生了诸多的应用。而包英泽则用特斯拉车祸事件,给我们讲述这样一个观点:虽然计算机视觉技术并没有发展到成熟的阶段,但随着应用市场的打开,新的机会与技术革新将马上到来。

对于未来3-5年,他认为这个领域有三个方向值得注意:

计算机视觉有很多开源软件包,可以解决很多问题,但是问题复杂与安全性要求高的需求,则会催生解决问题的专业团队。

在移动化的设备里面,要以低能耗的方式进行复杂的算法,芯片一定是必经之路。

深度学习之后会产生什么样的数学模型,解决计算机负责问题的终极框架到底是怎样的。 

以下是包英泽在2016MIIC移动互联网创新大会上的演讲实录,经钛媒体编辑:

手机是当今最主流的计算平台,手机之前的计算平台是PC,手机之后计算平台是什么?

VR、AR可能会取代手机,他们是最接近我们日常生活的平台。但是这种虚拟技术,其中存在很多技术细节,技术难点。第一个是AR系统需要对房间进行准确的3D建模,这样才能把物质展现给用户;位置角度也要进行跟踪,这样才把虚拟世界正确的视觉呈现给大家。像是判断你手指在空间的位置,这就需要AR系统中的计算机部分,以及对环境进行感知。如果没有计算机视觉,就不可能有真正意义上的AR和VR。

另一种可能是智能机器人。智能机器人也需要通过摄像机对环境进行扫描,从而确认对自己的轨迹进行合理的规划。在这个场景中,我们看到机器人平台需要对房间进行3D建模,还需要检测场景中动态物体,这样确保百分之百的安全。

对于计算机视觉这个词,我想下一个定义:它是一个过程,是真实世界的信息,经过传感器的捕捉,再将抽象信息(包括事件、位置、大小等等)进行提取的过程。比如去海边玩拍照片,照片用人类视角很容易看到大海、船只,而同样一张照片,计算机只能看到一组抽象的数字。

计算机视觉技术风风雨雨50载,仍旧不能说成熟

大概十年前,包英泽在清华进行计算机研究的时候,很少有人提到这个词,今天随着新科技的普及,人们越来越多地谈论起计算视觉。它不是最近才出现的黑科技,这个学科年龄比在座的各位都要大。

1966年,麻省理工大学教授突发奇想——计算机能否像人类一样读图片?于是,他便给自己的研究生布置了这个课题,这个事件标致着计算机视觉的诞生。

计算机视觉首先被应用于军事领域,在80年代开始应用于工厂,进行流水线上瑕疵品的检测,随着PC的普及,越来越多的应用走入我们生活。在座开车的都能记得,以前在进入停车场的时候,进门时候要拿一张卡片,出门的时候归还,停车场以此来记录停车时间。之后,进出的时候只需要拍两张照片,后台就直接识别出你停车时间。

进入2000年,计算机视觉遍地开花,举两个例子:一个是人脸的检测和识别,用智能手机拍照的时候可以检测出人脸,以此来确定焦距和视角;还有一个例子是二维码扫描,一维码五十年代就得到了发明和普及,照片中获取二维码,这是最近十年成熟的技术。最新的进展大家都非常熟悉,像是信息检索,自动驾驶。

从1966年到2016年,正好恰恰过去了五十年,过去的五十年计算机视觉发展非常快。今天计算机视觉是不是变成了很成熟、很完美的技术?并不是。

比如说,蓝天白云下,公路上有一辆白色的大卡车,计算机就可能说,这是一朵白云。大家可能都想到了这是一个惨剧:一辆特斯拉没有检测出的卡车,使得高速行驶的特斯拉司机当场死亡。

尽管计算机视觉技术并没有发展到成熟的阶段,但随着应用市场的打开,新的机会与技术革新将随之而来。

未来3-5年,计算机视觉领域将有三个变化值得关注

做为一个计算机视觉行业的从业者,讲讲我个人对未来三到五年的看法。

首先,计算机视觉有很多开源软件包,但是随着视觉的问题越来越复杂,以及我们对安全性的要求越来越高,复杂的问题一定要找专业的团队来解决。比如解决摄像机运动轨迹的问题,你如果拿一个手机从一个房间走到另外一个房间,再回到原来的位置,生成了一条轨迹。把这个数据给Orb slam去分析,它所得出的轨迹就有所变化,而且和墙壁有很大的重叠。如果有一个机器人使用了这个Orb slam项目,出门的时候会撞到墙。

即使现在有许多开源的项目,但商用化的计算机视觉系统能在不同的平台和不同的使用环境下反复测试对比,最终可以实现平均性能更加优越,并且没有重大安全隐患。复杂的问题与应用,一定要找专业的团队去解决。这个领域会出现超过十亿台下一代测算平台,新一代的智能手机,还有无人机。与这对应的技术有数百亿的市场,计算机视觉领域将诞生出很多上市企业。

第二个关注的变化是芯片化。我们知道计算机视觉往往需要非常复杂的算法去解决,应用往往都是移动化的,例如移动化的设备,移动的机器人。在移动化的设备里面,要以低能耗的方式进行复杂的算法,芯片一定是必经之路。现在行业里面,大量团队在进行算法的研发,一些走的比较快的同行已经开始将成熟的算法芯片化了。这样,除了算法的优越程度以外,肯定还存在芯片的功耗与成本问题。

第三个关注的变化是理论上的,即深度学习之后会产生什么样的数学模型。深度学习的缺点也是人尽皆知,它需要进行海量的资料的学习。曾经有这个领域的权威Davis Marr,在生前预言说,计算机是复杂的问题,最后会有单一理论框架使之得到解决。

深度学习不会是这种终极框架,还将有更强大的数学模型出现。它对人类影响也会是更深远的,我们应该深刻关注理论上的变化,把最新的技术做成产品来解决实际的问题。(本文首发钛媒体,由张霖根据包英泽在2016MIIC大会上的演讲整理)

更多趣闻和爆料,关注钛媒体微信号:钛媒体(ID:taimeiti)

钛媒体微信二维码

本文系作者 张霖 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 自动识别的范围。未来自动识别的应用将高度整合和堆积。

    回复 2016.07.22 · via android

AWARDS-文章详情右上

1

扫描下载App