撰文 | 邸利会(《《知识分子》》主笔)
责编 | 李晓明
Professor X,中文名肖健雄。他擅长黑科技,其名却难以用英文发音,同事和学生们干脆以X称呼之。X也象征着未知,确实,他所从事的领域,无人驾驶,很长时间里也是一个待解的难题。不过,目前来说,X已经部分可解,部分场景下的应用即将落地。
看起来很年轻,还像一位研究生的肖健雄,其实已经是无人驾驶领域的老兵。早在十几年前,还是本科生的他就跟随香港科技大学权龙教授做计算机视觉,并发表了计算机视觉顶级会议(ICCV)的论文。在香港科技大学的本硕连读完成后,肖健雄赴麻省理工学院(MIT),跟随Antonio Torralba教授在计算机科学和人工智能实验室继续其研究,之后成为普林斯顿助理教授、普林斯顿计算机视觉和机器人实验室创始主任,学有渊源且成绩卓著。他在2017年被《MIT技术评论》选为35岁以下的创新者。他的研究还影响到谷歌的无人驾驶团队。
因为渴望研究能发生“看得见”的效用,肖健雄在2016年创立自动驾驶公司AutoX并担任CEO,其意愿是将自动驾驶平民化,让每个人都能从单调乏味的驾驶中解放出来。在刚刚结束的深圳CCF-GAIR大会上,肖健雄介绍了AutoX的最新进展并分享了自动驾驶的见解。会后,他接受了《知识分子》的独家专访,谈了谈这几年他走过的研究道路以及对于自动驾驶技术落地的看法。
1开创三维深度学习学术领域
《知识分子》:你从什么时候开始对机器人和计算机视觉产生兴趣的?
肖健雄:说实话研究了十几年,挺久的了。我从本科的时候就开始在研究计算机视觉,当初读的是香港科技大学,我那时候在考虑要不要读研究生,就仔细学习了系里老师的各种研究,其中权龙老师的研究,做三维重建技术,特别吸引人。我在上大学之前也是搞计算机的,包括我高考是计算机保送的,所以也是研究计算机各个方向很多年。我觉得最吸引我的还是人工智能这个领域。
人工智能也有很多方面,有医疗、自然语言处理,但是最吸引我的是视觉,所见即所得,更直观一点,结果好不好立竿见影。所以我在本科的时候选择了跟权龙老师一起做研究,我是他职业生涯里带的少数的几个本科生之一。跟他一起做研究,第一个项目就成功发表了ICCV论文。权老师的要求很严格,只有这样他才会收我做他的研究生。我们当时做的是谷歌的街景分析。像语义分析、三维场景分析,这些已经很成熟、最起码比较流行的技术,但在当初是很少人研究的。
权老师研究非语义的三维重建,我加入他的组里做研究的时候,希望有进一步的突破,所以我提出把语义跟三维结合起来,那个时候也发表了ICCV的另外一篇文章,专门做三维语义的街景分析,可以直接应用在自动驾驶上。在马路上看三维场景,做语义分析,这是树,这是人,这是汽车。所以那个时候已经开始研究这个,其实也是谷歌资助的研究项目,数据是谷歌给的,连我们的研究经费也是谷歌赞助权老师实验室,所以很多成果被用进了谷歌地图。后来谷歌地图那个团队又变成了谷歌无人车的组,我们给他们贡献了一些的最早期的那个版本的技术。
《知识分子》:原来是这样的故事,你和权老师的研究还是不一样?
肖健雄:那个时候本科读完,刚上研究生。当然权老师主要强项是做三维的,图形学应用方面。我在三维的基础上再扩展了语义,所以真正有了人工智能,不是纯三维而已。我觉得图形学应用挺好的,卡通和视频看起来很酷炫,但是没什么实际用处,所以我更偏向是那种能够真正跟物理世界发生交互的研究,所以我们那个时候就自己采集了大量的数据,当然更多的数据都是谷歌提供的。
《知识分子》:那个时候你们已经有车?
肖健雄:谷歌有车,我们没车。他们用他们的车抓数据给我们。因为数据量很大,谷歌就寄了整个硬盘过来。我还记得当初很开心,第一次见到有这么多数据。当初整个硬盘很大,网络还是很慢的,传不过来,所以从美国寄到香港。用大量的数据做大量的分析。
《知识分子》:那个时候已经在做无人车了吗?
肖健雄:那个时候还没彻底地弄一个车在路上跑,我们合作的是谷歌街景地图团队,也就是后来的谷歌无人车的团队。但是这些技术都是相通的,我之后在MIT读博士早期的时候还去谷歌实习了一段,也是在谷歌地图组,所以也是挺有渊源的。后来我主要在学术圈做,他们自己在公司内部做。他们一开始从学术圈借鉴这些算法,再把它工程化,所以其实大家本质上殊途同归。
《知识分子》:后来你去了MIT做博士主要做了哪些研究?
肖健雄:我在MIT师从Antonio Torralba,他是做语义分析的一个教授,特别擅长大数据分析。像ImageNet也是最近的事情,ImageNet的前身有一个LabelMe的数据集,是我的导师做的(按:作者是Bryan C. Russell,Antonio Torralba);SUN Database是我和导师一起做的,都是比较老的历史。那时候我们开始做大数据分析,语义切割、语义分析,深度学习还没火起来,但是我们在实验室得到的结论是大量的数据非常有用。后来深度学习出来了,那是一种很好的使用大数据的用法。我在MIT实验室最后一年,在导师的基础上再跨越一步,扩展到三维的,用三维深度学习开始做物体的检测、跟踪,像车辆的三维检测。现在每个人都在说融合,前融合、后融合,那时候在MIT读博士的后期,这些技术我们已经发明了。
《知识分子》:什么时候开始把深度学习的方法引进去?
肖健雄:那个是2012年就开始做的,我还发表了一篇文章,第一次用深度学习,把颜色、摄像头跟深度的信息融合起来,用三维深度学习做前融合,其实这个工作开创了整个三维深度学习学术领域。现在这个领域很火,如果去CVPR(注:IEEE国际计算机视觉与模式识别会议)这种会议,里面有几百篇论文都在讨论这个,但是当初没人做的,我们是第一个做这个。因为我还记得刚开始做这个的时候,我博士导师还觉得不可能做出来,我就暗自给自己打气,我一定要做出来给你看,就憋一口气。后来在普林斯顿大学,我的实验室已经在做无人驾驶了,用仿真器做各种试验。真实路测方面我们没有正常的汽车,但是我们有移动的机器人。也蛮大的,开30公里每小时的机器人,其实就是自动驾驶的车,跟我们现在的送货小车蛮像的,但是没方向盘。
《知识分子》:在普林斯顿的时候,也做机器人吧?
肖健雄:对,除了无人驾驶,我们也做机械手抓取东西,就是先物体检测,检测出来要抓。我带领团队跟MIT合作,用机械手参加Amazon Picking Challenge的比赛,就是机械手的物体识别、抓取、放下,拿了全世界第三、第四名。
《知识分子》:这都是很难的任务。
肖健雄:对的。这个技术跟无人车非常相关,也是用三维深度学习的方法,认出这个物体在哪儿,大小多少,朝向是什么,这些都得做得很好。
2“希望整个行业不要吹到太火”
《知识分子》:但是大家感觉到还是不能完全实现自动驾驶,假设别的条件都没问题,单纯技术是可以达到的吗?
肖健雄:我觉得这个技术现阶段好到能演示,这个肯定没问题,问题是能不能真正运营,因为演示只需关心正常情况下会发生什么,但是运营的时候要想的是最糟糕情况下会发生什么。我觉得现阶段很多地方还没办法做无人驾驶的运营,特别是中国的路况特别复杂。我觉得中国路况演示也可以,但是敢真的无人吗?这是问题。
我觉得在一些限定场景,像园区或者速度稍慢可以做,但是那些在大马路上完全无人驾驶技术还不成熟。距离完全无人、完全不出任何事故,我觉得还得一定的年份,没那么快。包括谷歌的无人车团队做了这么多年,现在在美国也不是挑纽约这种大城市,而是挑比较简单的路,人比较少,地广人稀的地方开始运营。所以我觉得任何公司号称两年后在北上广深大规模运营(无人车),要么就是在打擦边球,要么就是在吹牛。
《知识分子》:所以你觉得目前整个行业的技术还没达到那个高度么?
肖健雄:对,因为我是做学术和技术出身的,喜欢实事求是,我也希望整个行业不要吹到太火,到时候没法实现,出现AI冬天。技术有所能,有所不能。在大暴雨天里无人驾驶,我们公司在一年半前早就做了演示,但是真敢在大暴雨天没有安全司机,开那么快,还能确保万无一失吗?这个要求是完全不一样的。运营的时候要考虑的是最糟糕的情况下,性能也要够安全。
《知识分子》:尤其要做成一个大众都使用的产品,这个难度就相当高了。
肖健雄:对,千奇百怪的事情都可能发生。
《知识分子》:无人驾驶的历史是很久很久了,德国很早,包括美国DARPA Grand Challenge,伯克利的智能交通,到现在谷歌等,我们有没有可能最后完全在一个限定的场景,比如说改造整个交通系统,用智能交通的概念来做?
肖健雄:这个肯定可以。但是这个在纯市场经济情况下很难达到这种水平,除非是政府计划就是这么搞。纯市场经济很难进化到那一步。这包括车子、人的智能化等。但总不能强迫路上每个人都装个传感器,这不可能,就像大家会忘了戴手表,除非把全世界人民注入一个芯片在体内,一出生就打进去,要不然没办法。也看城市规划怎么设计,要全规划成有一层根本没有人可以走,只有车,就像地铁一样,那么没有问题,地铁早就可以无人驾驶了。
《知识分子》:你觉得某一个阶段人和车是混在一起的?
肖健雄:对的,人和车混在一起肯定是可以,但是来得没那么快,我觉得肯定在一些比较特殊的场景,一开始肯定不会就是无人出租车。我觉得一开始是物流的小车,或类似的这种非常接近的应用,这些场景已经到临界点了。
《知识分子》:现在来说AutoX关注的产品都是能落地的?
肖健雄:我们特别擅长研究,要研究什么特别酷炫的,我们向来干这行的,但是光研究酷炫的没什么用。我们所有的发明创造都是为了产品服务的。我们是以产品为导向的公司,如果产品需要我们研究发明这些,如果产品不需要,我们不研究发明这些。
《知识分子》:你现在觉得哪些现在可以落实成产品?
肖健雄:我觉得我们的三款产品中,小车是最容易落地的。因为送货跟送人不一样,比如说从A到B,如果送人,因为人坐在上面是要求走得又快又舒服,肯定要抄最短路过去,假设有个路口特别难走,还是得走,要不然绕一大圈,虽然也到达目的地,但是乘客不开心,舒适度很差。
送货就没这个问题,稍微绕一点,可以挑一些简单的路径开过去,这样的话也能达到目的地,慢一分钟没问题,只要按时到就好,那么快也不一定特别有作用,所以我觉得这是最可能让我们这个技术更早落地,我们不会专门钻牛角尖。载人车不是我们不做,技术一直在开发,在改进,数据一直在积累,有一天就可以进化到走那种复杂的路,但是在没那么成熟的情况下,我们也可以用在货运上,而不是一定要等到有一天突然觉得技术特别成熟了才可以开始用起来。我觉得小车送货,是先落地的,行业也逐渐意识到这一点。
《知识分子》:运货的车是不是可以只靠视觉?
肖健雄:我们是以视觉为主,但是多传感器,里面有激光雷达、毫米波雷达、GPS还有超声波雷达,这些都有。
《知识分子》:这些是为了更安全一些?
肖健雄:对的,多层冗余确保万无一失。我们第一层是靠摄像头,单靠摄像头就可以走了,完全可以,没问题。但是万一出事呢?所以加了一个激光雷达,但是也不够。万一激光雷达也出错了呢?我们就用超声波雷达和毫米波雷达,多层冗余。做一个安全性要求高的产品的心态是考虑最糟糕情况下行不行,而不只是能演示。所以现阶段这种多层冗余是必须的。以后随着技术越来越好,可能越来越精简,比如说我们大量运营的数据证明这个超声波雷达从来没被用到,再跑三年,也没被用到,那我们下一款就省了超声波雷达。一开始上来肯定是要过分的小心。安全第一,宁可过分的小心,确保万无一失。
《知识分子》:送货包括在公路上送货?
肖健雄:对,但我们不做城际间的无人驾驶,因为城际间的无人驾驶更遥远,落地会更远。因为城际间大家会用大卡车,大卡车有两个重大问题,一是特别重,一旦重惯性就大,一旦惯性大刹车距离就远,也就是你要看很远,精确判断,要不然太近,反应过来的时候已经刹不住了;二是大卡车一旦出事就是大事,灾难性后果,比如在加州到现在还不让无人驾驶的大卡车测试,法律也会有巨大的障碍。
《知识分子》:但有的公司专注大卡车送货?
肖健雄:有,我觉得这个肯定早晚会做得通,问题是做多少年才能通。我认为短期内港口可以,但是真上大马路、高速公路上,很难有一个全无人驾驶的大卡车。我自己开车,看到一个有人驾驶的大卡车都要赶紧躲远远的,你搞个无人的,压力更大。我觉得这个肯定是比较远的未来。
3无人送货车会来得更快更猛烈些
《知识分子》:初创公司无论在任何技术潮流当中要战胜大的公司必然有一些特别的优势,你觉得AutoX主要的优势在哪里?
肖健雄:我觉得我们选了一条不会有很大巨头的路。你看中美市场,我觉得中国市场的无人驾驶会比美国慢很多,为什么呢?中国路复杂,这个没办法,AI要求更高,对技术要求更高。大家肯定会努力,无数个公司,包括我们公司肯定都会努力。但是人类的科学水平就是这么高,没办法,不可能要求在此时此刻就突然有了重大突破。第二,中国的人力成本非常便宜,无人驾驶需要使用传感器、电脑和线控系统,算半天比人还贵,大家就不想用。美国没这两个问题,美国有很多地方的路都是非常简单,地广人稀。美国的人特别贵,工资高,传感器不用降到太便宜,已经比人便宜了。所以,我觉得无人驾驶的爆发点肯定会在美国先开始,再在中国开始。中国北上广深这种路太复杂了,而且有大量的二三线城市和农村人口进入这些大城市去当司机,这个成本实在是很难算过来。但是中国市场非常大,未来的前景是非常好的。所以除了美国市场的布局以外,我们也在中国设立了办公室,准备长期深耕打硬仗,做好一切准备就绪只欠东风,等到最后中国爆发点的到来。
《知识分子》:主要的赛道是怎样的?
肖健雄:有一些偏小众的赛道,特殊应用场景,像扫地机、港口这些都可以做,但是这个市场很小,成为小公司可以,但是很难成为大公司。大的市场主要有三条赛道,一个是载人出租车,一个是我们这种本地送货车,另外一个是长途无人大卡车。无人大卡车技术最难,在美国方面也是最慢的。
除了技术不成熟,载人出租车的另一个坏处就是巨头众多,有Waymo、Cruise、Uber,跟他们PK,就是蚂蚁战大象:大象跑着跑着,还没看到蚂蚁宣战,蚂蚁就被大象不小心给踩死了。巨头的优势还不仅仅是技术,还包括资金、生态、人力、品牌一系列的。我觉得这些都是很难克服的,所以我们公司是比较巧妙地选择不跟他们正面竞争的一条道路。这也有一个好处,因为他们在打硬仗攻克无人出租车的过程中,留给了我们一个时间窗口,比如说他们用十年时间终于攻克技术和商业,整个美国都全部有了无人驾驶出租车,那我们就有十年时间。无人出租车这个问题本身很难,会消耗他们大量精力,所以他们没空来抢我们的地盘。我们有十年的时间可以让自己成长的很强大,十年后他们肯定会看中我们这块地盘,我们也会打他们那块地盘。载人出租车我们也做,不是不做,我们通过送货车,积累大量的数据,通过自己的业务赚到大量的资金和建立自己的品牌,然后再回到无人出租车上跟巨头们一决高低。
《知识分子》:你们跟一些车企合作或者一些芯片公司合作吗?
肖健雄:我们跟这些公司都合作。我们公司是有所为,有所不为。你看我们做很多东西,但其实我们不是没事干自己偏要做那么多东西,而是什么东西买不到我们做什么,买得到就通通拿来主义,又快又好。我们做整体系统的集成,如果别人有一个激光雷达,我们就用它的激光雷达,别人有摄像头就用它的摄像头,别人有芯片我们用它的芯片,我们跟这些公司都保持着非常良好的关系。别人的公司有个车很好用,我们也用。但是有时候反而是他们没办法提供给我们一些我们需要的东西,包括我们公司自己开发我们的载货车线控系统也是这样。无人驾驶需要线控系统能用电脑控制方向盘,油门刹车,但是很多汽车厂没这个能力,我们只能自己开发这个能力,跟他们合作把这个车做出来。
《知识分子》:你觉得在自动驾驶人才这方面有没有缺口?
肖健雄:我们不只是有某个单一方面的人才,我们有一系列的人才。我们有感知的人才,有规划、决策、系统人才,有软硬件的人才,硬件包括机械工程师、电子工程师,因为我们做产品化已经很成熟了,所以我们最基本的链条已经形成闭环。所以我们公司人虽然多,但是每个人都会有所侧重,都是公司重要的一份子。
《知识分子》:有点不可想象,因为你们成立时间也不太长。
肖健雄:对的。但是我们非常专注,所以跑得很快,我们是奔着做一款真的产品出来的,来进行统筹规划。我们做大量的技术研发,所以我们也有大量的算法人员,发挥我们的强项,在算法上突破;我们也有大量工程能力特别强的工程师,来自谷歌、苹果、脸书和车厂等等做过大型系统的,做好软件和硬件架构设计。出于保护原创技术,我们不是经常出来说我们的技术,但是向一些同行在技术上做了一些宣传,适当地透露一些我们可以透露的技术,包括我刚才在演讲中,也首次披露了我们的三维仿真器。当然我们还有很多不可以透露的,比较机密的技术。
《知识分子》:你们现在可以披露的独特技术有哪些?
肖健雄:第一是摄像头的感知,这方面之前有很多媒体的报道,因为我就是做这个出身的,所以做了大量的研发,包括双目摄像头、目标检测、实时分割、从图片就可以估计出物体三维的框,这些都是可以的。
第二项是大规模地图的建立。我们给大家看的视频里面都是区状的,每个区域里面的大街小巷都有,全部扫描起来,这是多传感器融合,融合了摄像头、激光雷达、GPS、IMU,还有车的速度这些全部集成在一起做出这个大规模的地图,这是一个很强的能力。这个是很多公司没有的能力,因为我们现在要运营的都是区状的任何两点的自动驾驶运营,所以我们需要这种技术,这是我们比较领先、领跑的。
我觉得世界上拥有这个技术的公司不是很多。Waymo和Cruise是肯定有的,其它公司都是只有一两条线,百度稍微有小片区域。很多初创公司还是一个圈的地图而已,只能跑一个圈。我们还融合激光雷达和摄像头,所以我们的高清地图都是有颜色,很多公司的高清地图都是纯激光雷达的,没有摄像头,所以你看它的地图没有颜色的,只有反射率,是黑白的。
第三是三维仿真器,这也是比较重大的一个开发,这已经突破了谷歌跟百度的水平。我们从零开始搭建,自研了一个三维仿真器,跟我们的自动驾驶系统大量集成,这也是非常重要的。市面上有些公司可能在卖三维仿真器,其实没法用,因为它从来没有真的和自动驾驶系统连在一起用,当然开发三维仿真器的人员也不知道自动驾驶公司需要什么,所以做的也不是特别好。我们在仿真器里面是多传感器可以仿真出车在开的时候摄像头能看到什么,可以仿真出激光雷达能看到什么。我们一系列全部测试都可以在三维仿真里面进行,就在车上路之前就已经知道这个版本做的多好,多安全。可以在仿真器里做大量的测试。
第四是软硬件一体化设计的能力,包括计算平台的冗余设计和线控系统。
《知识分子》:你们也在路测?
肖健雄:当然,我们有大量的车在实际路测,我们路测比谁都勤快,比很多其它初创公司车多,我们在美国比百度车还多。
《知识分子》:大部分人,还是很关心怎么样从天天开车当中解脱出来,即使美国在什么时间点有可能会看到大量的运营?
肖健雄:在美国一些小区域实现无人出租车的落地,在2021年可能Waymo可以达到。不是全部城市,少数一两个城市,可以真的无人驾驶。我觉得某些厂商说可以做得比这个快的,我觉得都是不科学的,除非是特定场景。在中国,可能需要更长的时间,但是势不可挡。无人车即将落地,但是最先的,可能不是大家想的那样坐无人出租车,反而是无人送货车会来得更快更猛烈些。
0
推荐