演讲实录丨戴琼海院士《人工智能：算法·算力·交互》

8月29日至30日，由中国科学技术协会、中国科学院、南京市人民政府为指导单位，中国人工智能学会、南京市建邺区人民政府、江苏省科学技术协会主办的主题为“智周万物”的2020年中国人工智能大会（CCAI 2020）在江苏南京新加坡·南京生态科技岛举办。在大会上，国务院参事、CAAI理事长、中国工程院院士、清华大学信息学院院长、教授、CAAI Fellow戴琼海做了主题为《人工智能：算法·算力·交互》的特邀报告，从算力、算法与人机交互三方面展开了分享。

戴琼海

国务院参事、CAAI理事长、中国工程院院士

清华大学信息学院院长、教授、CAAI Fellow

以下是戴琼海院士演讲实录：

人工智能是一个很交叉的学科，要关注的问题很多。大家看，图灵奖获得者有研究心理学的，有研究认知的，有研究人工智能的，还有做数学的。我聚焦算法、算力和交互这三个方面和大家讨论。算力就需要有力量。说到力量，我们先回顾一下历史。在人类历史上中，从原始、农耕到工业和电气革命，最重要的是要把人的力量，人对资源环境的认识，用以改造自然，带来更好的生活和工作；我们把我们的力量交给了机械、交给了电力，蒸汽机的发明，包括电力方面的工作，那是我们力量的发挥。直到信息时代，也是有一种载体，希望在这上面把力量给机器也好，电力、电气也好。

到信息时代就发生一些变化，很多人很幸运，在信息时代享受到了计算机、芯片、互联网的力量。在这个时代里，实际上人工智能也在不断地发展。在这个发展中最大的特点是，我们把大脑一部分的力量也交给了计算机，比如一些解析和计算于是推动了更多的自然科学和工程科学的发展。比如大家看原子能技术、空间科技、生物工程和基因技术都在发展，使得我们人更加认识到自己。

现在往人工智能发展，这个时期正在这样往前推进。到人工智能时代以后，大家发现学科的概念好像更加模糊了，更加是一种交叉的概念在这里面讨论。这个里面也有力量，刚才杨强老师说的，机器学习模型，包括周志华老师也是在做机器学习，包括我们的算法，这个时候我们想解析的问题更多，想把更多大脑的思考和不可解析的问题交给机器来做。这个时候我们才发现我们的脑力和机器的脑力是不一样的，机器的脑力不够，我们的脑力是够的。但是在那些固定的算法上面，我们的脑力是不够的，这个时候怎么办呢？包括量子计算、纳米科技、物联网、工业互联网、无人系统，发现我们要交给机器的时候，机器的力量还有点不够。因为什么呢？我们很多的模型算法也没有达到它所需要的特点，于是杨强老师发现用联邦的学习方法、迁移学习的方法，把数据从大数据怎么摘一个小数据进行工作，这个时候人工智能发展更需要机器学习模型，我们大脑交给机器的算法是什么，怎么样提高它的算力，这是人工智能时代要考虑的问题。

大家都知道，人工智能时代发展得非常快，快在哪儿呢？大家可以看到现在是逻辑推理，推理的这个功能能不能交给机器来做？另外，视觉，包括自然语言处理，大家看周围的应用非常多。比如说机器人，有了机器人就存在人和机器人怎么去交互？机器人和环境怎么交互？又出现了很多的新的问题需要我们去探讨。

另外，比如自动驾驶，我们突然发现我们的学习算法模型在车路协同，在车全天候全天时驾驶的时候，你的机器学习模型应该是什么？如果强大的复杂模型出来以后，你的算力够不够？这都是我们需要探讨的问题。

我今天给大家汇报一下在算力、算法和交互方面，这上面我们应该怎么去一些什么工作，我们也做了一些工作，在这上面发力发现。

算力和人工智能是相辅相成的，大家都知道，最早Rosenblatt发明了512个计算单元。但是如果做更复杂的数据算法和分类的话，做不到，算力不够。于是人工智能第一步存在什么根本问题呢？一个是模型不够，就是这个数学模型存在问题。第二个是算力不够，实际上算力里面就体现在软件和硬件的结合怎么发展。

第二个是摩尔定律出现，每单位面积18个月晶体管的数量要翻一番，为的是提高算力，提高算法可实现性，变成一个芯片，这是信息时代最伟大的贡献，计算机、芯片加上互联网。

大家都知道，到了1999年，英伟达为了提升算力的能力，他提出了GPU，为我们的算力做贡献，因此我们的力量从体力已经到脑力这个方面移植了，这个算力体现在脑力上面。大家可以看到AlphaGo用176个GPU，1000多个CPU。包括AlexNet GPU加速开启了深度学习的黄金时代。人工智能要继续发展，一定要在算力上有所保障才行。

大家可以看到这个，我们要想把我们的算法和机器学习模型用上去，无人系统、无人驾驶、智能医疗和智能制造，算法是越来越复杂。我们知道，无人系统、自我感知的视觉系统，4节电池支持不到25分钟，怎么去工作？这是一个很大的问题。

视频在全世界的播放量，大家可以看到58%是我们的下行流量，还有包括每月超过20亿的注册访问量，因此人工智能的蓬勃发展带来了算力需求的指数增长。

科学家在研究在硬件和软件上如何提高算力，如果这个提不高，就限制了人工智能的发展和应用，所以它是一个非常大的问题。

最近MIT专家发了一篇文章，对1500篇文章关于算力方面的问题做了仔细的分析。这个算力的分析结果是什么呢？深度学习正在逼近现有芯片的算力极限，计算能力提高10倍相当于三年算法的改进。算力提高的硬件、环境和金钱成本接下来将无法承受。因为人们对于人工智能的期望越来越高，希望它能做更大舞台上的事，在这上面承受的压力很大。

最后是底层技术（半导体物理与硅制造），在人工智能已经大规模应用和发展的时候，这个空间比较小了。这个方面我们专门和清华微电子系的吴华强老师也专门讨论过，这个PPT是我们和吴华强老师一块来讨论的。大家知道，摩尔定律近五年已经逐步放缓了，已经达不到每18个月翻一番。

这个里面大家都提出不同的路径来做：

第一个是量子计算，最近Google、IBM纷纷发起了量子计算的能力。这个量子计算未来给我们带来到底是什么？要做一个特殊任务大规模的计算，用别的很难算，我们要搭一块量子计算。而这个量子计算要搭起来，至少100平方米的大房子，为什么呢？因为要保证那个时间段所捕获量子的相关性要强，而且在持续工作当中，稳定性要高。所以这种是属于特种计算应用的方面，因此对我们现在十年二十年人工智能算法算力的提升是有难度的，因为我们需要用到各个方面，而不光是特殊计算。

第二个就是存算一体的架构，这个是用一体机阵列来做这个东西，使得它的算力能够大大提升。

第三个就是类脑计算，希望能够逼近人脑的计算力，这样以来也能够提升一定的算力。

还有一种就是光电智能计算，用光来计算。这是不是一种很好的算力提升的方面呢？

接下来我们讨论一下如果用光电智能计算和存算一体，包括再和类脑结合起来，这个算力的提升，这个做成了保证十年二十年的算力能够满足人工智能发展的需求，这个时候才能保证人工智能不像有些人说的人工智能到泡沫了，不是泡沫，是我们的技术、算力遇到了瓶颈。

光电智能计算，大家可以看到这是一个物理学家，他专门对光电智能计算基本理论做了一个推导，推导的结果是如果用这个光计算的话，算力能提升3个数量级，功耗下降6个数量级。有了这个理论的保障，大家才说再去做光电计算，用光和电，就是有硅基和光基，这样做的话是不是能更好地解决问题。

于是我们就讨论光计算，这个是我们所说的光计算的发展路径，这是1956年提出光计算，大家都在做。1964年光计算出现下坡，因为那个时候根本不需要那么高的算力，于是光计算就跌下来。到1990年，贝尔实验室采用了砷化镓，到1990年英伟达发展非常快，受到市场的冲击，又没有完成，直到2017年、2018年突飞猛进，这个和人工智能2010年开始起来，刚好滞后近10年。为什么滞后近10年？因为人工智能发展起来当时还不需要那么大的算力，但是2015年以后对算力需求很强，于是光计算马上在这个时候发展，所以我说光计算比人工智能发展慢半拍，就是接近5年的样子。

大家可以看，这个是三维可控的光传输实现并行光速计算，大家知道光里面的维度很高，有光射、折射、反射，还有其他方面，维度高带来大量的并行计算。而我们的硅计算是电，一维计算、二维计算，大规模计算比较难，因此可以提供很强的计算能力。

第二，如果做全相位调制通光率带来损耗，大家知道用电耗电能量很强。

第三，高维光场信号带来通量带宽很大。

第四，感存算一体是光的特点。大家知道拿一个手机照个相光进来了，转成电才能计算，如果是光计算的话，直接计算了。存算一体是大家都在做的，能不能实现感存算一体，要找到好的材料，以可控高维光场传播实现高速高效并行计算。

这里面最重要的特点是什么？

第一、范式颠覆了传统，采集与计算无缝衔接，突破存算分离、感存算机制。

第二、速度提升了3个数量级，功耗能下降6个数量级。

对比一下国际上三个重要的机构做的，第一个是MIT，麻省理工2017年发到《Nature》上的，是计算能效显著提升，最重要的是做光学矩阵的乘法，算力非常快。

第二个是牛津大学和剑桥大学，用相阵材料做脉冲网络，这里面光学相阵材料能够起到很大的作用。

清华大学是2019年做衍射的神经网络，在这里面可以做到大规模光学、神经元的光学并行计算，现在清华大学在国家研究中心组织一个团队，包括材料、芯片、架构和范式、机器学习与算法，有一个大的团队，也开展了这个方面的研究。

如果说把光计算这个做好了以后，大家看智能仿真机器人、微型修理机器人都能做，如果功能做好了，云计算的服务器功耗会大大下降。光电计算机在自动驾驶上面速度可以不断提升。

如果说3个数量级达不到，1个数量级、2个数量级至少能够支持现在人工智能的大规模应用。

光电智能芯片，使庞大的计算中心小型化，而且可以做到纳秒级目标感知与识别，这种无人系统都能够用得上。再一个是工业互联网、计算机视觉、大数据分析、光通信能够带来大规模提升。

第二部分要讲到算法，大家一说算法都很敏感，应该是怎么去讨论，怎么去做？这张图大家都知道，从达特茅斯会议走出来，一直走到这儿，2012年、2013年深度学习掀起了人工智能热潮，实际上就是我们做的算法。

但是这些算法，我们现在去分析分析，存在几个方面的问题。

第一个问题是鲁棒性的问题，大家用机器学习的算法，在汽车的后世，大家可以看到尾灯，我们通过提升亮度来检测，我们的检测就失败。输入这种小的变化，引起输出大的变化，鲁棒性差，怎么改进这个算法？

我们先分析问题，不是说做得不好，在应用当中存在这个问题。

第二个，就是刚才杨强老师讲的迁移性。大家可以看到在这个场景里面，特殊场景效果欠佳，没有迁移性。

这里面就存在一个问题，无人驾驶要全天时全天候开这个车，可是这个数据不够，难学到这些东西，因此这种迁移性就比较差。

能效比，大家都知道我们的大脑所能理解的场景，所能分析的场景，所能解决的场景，都是功耗在20W左右，而我们现在要用GPU的话，这是英伟达GPU250—300W，这个功耗还是比较大的。相对生物神经网络，能效比较低。

自适应性，我们有6万条脑的数据，在做的过程当中，就发现不同类型不同症状，最后要做成自适应性是非常难的一件事情，因此在这里面也存在它的问题。

最后一个问题，大家都非常清楚，不可解释性，通过这个场景，通过计算、深度学习以后，到输出，怎么解释是一个问题。

这三个图灵奖都表达了深度学习有严重的缺陷，欠鲁棒性、难解释，人脑在无监督学习方面远远优于深度学习，因此怎么做算法上的创新，我们要思考这样的问题。

实际上大家可以看看非常简单的一个问题，就是机器把东西放到桌子上的问题都做不好。在初级感知、信息处理与高级认知过程当中远不如人脑。借鉴神经系统的多模数据表示、变换和学习规律及反馈方式，能不能通过鲁棒性进行改进？

深度学习路在哪里？这是人工智能诞生、人工智能初步产业化、人工智能变革迎来了爆发，各个地方都在用，但是大家想到不可解释性就限制使用，鲁棒性差、自适应性差限制了自动驾驶的应用，所以很多方面没有办法做。

深度学习的来源，是优化控制论在这里面。大家可以看到这个公式是深度学习使用最广泛的一个东西，也是卷积神经网络、语言和注意力模型、生成对抗网络，包括深度强化学习，能不能从根本上解决深度学习里的问题，我们要讨论能不能构成一个认知计算模型。

在这里面大家会看到，我们以前的做法也是从这里面做的，也是从神经科学家里面来的。第一个是什么呢？发现简单和复杂细胞，发现视觉系统的卷积特性这里面来的。包括日本的科学家借鉴简单复杂细胞概念提出新认知机，在这里面一系列的工作，包括提出卷积神经网络、认知计算模型，2015年开始做这个方面的工作。

所以能不能再反过头来重新认识脑科学，再到我们的深度学习算法，来讨论这个问题。

当然还有一个类脑的方向，大家可以看，从1907年开始做，到1989、2013、2018、2019年，中国的两位科学家，这是从类脑角度去做。

还有脑观测到启发，我们以前观察脑观测通过什么呢？通过核磁共振，通过CT。但是大家都知道，我们那时候探讨的脑，包括现在看不到神经元细胞，只能看脑功能区，因此我们说这些模型来的特点是从脑功能到深度算法，到卷积算法，这么一个算法层面的工作。能不能到神经元角度来？这是一个非常重要的特点。神经元是通过轴突与树突建立关系，人脑有860亿个神经元，这些神经元要通过构建环路，不同的环路解决不同的问题。还包括我们的记忆。大家看突触尺寸有26类，我们神经元的细胞10个微米左右，我们的轴突和树突500纳米，现在用核磁共振都看不到，因此极其希望研究界观尺度的脑科学成像，看神经元的环路怎么样，把轴突和树突的尺寸看清楚，因此我们觉得应该是这么一个架构。

这边是脑科学，那边是人工智能。我记得五年前听李德毅老师的报告，说脑科学和人工智能是两条平行线，不相交，我们就搞了两个堡垒，它们都是平行的。

多模态回路观测，就是包括宏观、微观、界观，能不能做得到？那边提出多层次认知模型，能不能构建这样一个桥梁，使得在认知计算情况下达到这么一个算法的特征。

这是两条平行线，这都是脑科学的诺贝尔奖，从1906年以来，我们调研了一下，到现在获得脑科学的诺贝尔奖有23项。到现在我们主要和神经信息传递机制，和人工智能相关的，梳理出来，人类如何思考，那边是机器如何思考，是图灵奖提出和解决的一些问题。这两条平行线建立起来了，如何从脑思考到机器思考，建立一个路径。

2016年美国阿波罗项目1亿美金奖励给三位科学家，这三位科学家做什么呢？这三个是神经元计算模型到下面机器学习算法模型，这两个能不能打通，10万个神经元之间的连接关系要找到，就是研究这套机制。啮齿动物就是神经小鼠，能不能来做？第一位叫Tai Sing Lee，是脑神经科的专家；第二位叫David Cox，是生物学家、计算科学家；第三位叫Andreas Tolias，是神经科学家。

在这里面我们就探讨从记忆角度看，能不能从记忆的角度研究算法，第一个记忆痕迹假设，包括海马体与记忆、记忆多脑区的协同。这里面和它的算法有什么关系？我们要建立这种关联关系，就比较容易打通这个通路。这就是尖波涟漪等记忆曲线，这是脉冲的。清华大学课题组通过三年的努力，已经开始构建这么一个模型架构，当然还正在研究，供大家一块讨论，共同研究。

这是生物机制，那边希望做到物理原理的平衡，就是短期记忆和长期记忆。在研究这样一套机制以后，我们能不能建立一套新型的网络模型。这个模型正在架构当中，也有一个组专门讨论。给大家共享，也是看看各位老师各位同学们能不能在这个上面做出更新的一个算法模型的贡献？

全脑观测，大家可以看到上面是介观，我们现在有这个仪器，小鼠全脑的连接，这个是宏观观测，我们能够看到神经元的结构加这个功能，和机器学习深度学习算法的关联关系是什么。大家都知道一个系统有什么样的结构，就能表达什么样的功能，所以结构是主体。因此从微观、宏观到介观，三个层面目前架构都有了，怎么样从结构到功能，来研究机器学习的算法、人工智能算法的模型。在这里面主要打通这个。

大家可以看到，这是知识驱动模型和脑科学驱动，包括数据的驱动。最后能不能有一个认知的驱动？提出一个问题。这个问题也是可以在人工智能学界，大家可以关注和研究，能够产生一些颠覆性的算法和应用，给我们的算力算法上都能够往前走的这么一个架构，才能得到更好的东西。

第三个，有人工智能了，有机器人了，人类的发展就是不断地和环境交互，不断地把自己的能力提升。

AI赋能人类，而不是成为人类，更不是取代人类。

这里面讲的问题，我们能不能开发用于模拟、延伸和扩展人类智慧能力的理论方法、技术及应用系统，从而解决复杂问题的基础科学并服务于人类。

通过这样一来，我们就想到刚才杨老师专门讲联邦学习里面隐私的问题，这是非常重要的问题。

以人为本、服务于人，包括协同性、安全性、公平性和隐私，这里面怎么样搭开一个架构，人工智能整个算法和算力应用的架构。

因此这里面需要做到人工智能和AI怎么交互，AI和物理世界怎么交互？我们要教AI和物理世界交互。什么意思？我们人眼能看到，看不见的交给机器去看，看不清的听不见的听不清的都能交给AI，人和AI的交互。

这里面体现很多的东西，大家知道AI里面的交互，包括汽车，包括多足机器人、人形机器人、服务机器人，这是不同AI的实体有不同的接口，因此把它定为AI的专用接口。

还有一种，信息时代，十年前就在说AR/VR，一直起不来，到了人工智能时代，AI通用接口希望能成型、能起来、能应用，因为人工智能算法、算力足以支持它们的应用。包括眼镜、虚拟主播、数字化AI的形象就可以建立起来。

目前AI通用接口驱动AI与AR的融合。北航赵老师一直在搞AR，都应用到数字虚拟手术上去。通用接口能做什么？

第一，拓展人类的能力。

第二，改变产品的形态和服务模式。

第三，推动认知、智能与文化艺术的变革。

第四，促进未来人-AI-物融合社会发展。

这是AI的通用交互接口能带来非常大的变革。

以前要做AI对人体行为的理解，要理解人的行为，才能跟你交互。因此对人的行为怎么样建设好，视觉三维重建是重中之重。对视觉怎么样三维重建，包括人的属性怎么样去做，AI怎么样去理解？这是大的方面。

其次，疫情时代，基本上是线上，线上上课，中小学，包括大学，上课质量受到影响，据统计大一、大二的授课存在30%的知识获取下降。因此能否做一个新的虚拟线下的工作？这个发展也有历史，最早以前是写邮件，第二是电报，第三个语音电话，然后是视频电话，未来是全息投影，这些人都不在会场，戴上AR眼镜就可以看到他们在线上开会，这个demo在清华已经做成了，这个系统一旦做完，清华大学首先要试用。

从三维重建里来做，目前做到单相机的三维重建。三维重建是AI和人接口的一个重要关键，三维重建是核心关键技术。

影创、谷歌AR眼镜只有50克，非常轻，使得我们教育、教学、医疗都可以引用。包括301提出虚拟手术问题怎么做？用这样的东西，包括讲课中的PPT，人书写的demo，包括上面的东西，都可以放到虚拟线下环境当中，能够提高各方面AI和人交互的能力。

混合现实虚拟手术，包括中关村一条街上可以虚拟看到人在走过的场景，还有教学平台等都可以用AI来做，人和AI的交互变得直接可以讨论。

AI和物理世界的交互。把人和AI的交互传递给AI和物理世界的交互，这方面工作清华大学孙老师团队做得很好，人类以前进化是不断和自然环境打交道，三维重建是人和AI的交互，人和环境交互是AI认识环境。所以智能是在智能体与环境的相互作用中逐步产生和发展的。所以在这里我们要做包括触觉、视觉、听觉多模态的感知能力能否结合起来，AI才能对自然界能够有认知能力。

要让电脑如何像人一样下棋是相对容易的，但要让电脑有如一岁小孩般的感知和行动能力却是相当困难的。它做复杂的行为、牵涉感情方面的东西还不如一岁小孩，我们要学习灵巧的手能抓取东西，抓取操作对机器来说是非常困难的事情。所以要一步一步去操作，让AI去感知这种环境和理解这里面的东西。这是国际上非常大的研究热点，操作的三大重要因素是感知、学习和多模态，利用视觉和触觉多模态融合，实现AI和环境的学习能力和复杂的交互能力的提升。

我们要想AI能够感知到各方面。人手具有上百亿个触感神经元，有哪一种材料做出来能放到AI上，使得人体动态触觉可以区分出不超过十几纳米的凸凹的感觉，我们手能感觉到，机器能否感觉到？我们考察人的特征，把这些东西赋予AI，它对场景的获取能力、感知能力就会变得非常强。

触觉感知是非常难的问题，也是非常重要的问题，在国际上，欧盟、美国学术界都开展了这方面研究，包括欧盟的new touch，包括机器人领域著名的国际会议都在考虑触觉的问题，机器人具身触觉智能引起广泛关注和高度重视，我们国家多个团队都在研究这方面工作。

视觉与触觉能够结合，眼见为实，但是感觉为真，有时候看到和摸到的东西不一样。所以触觉先于视觉也先于语言，既是第一语言也是最后的语言，所以触觉在AI感知自然场景当中起着非常重要的作用。视觉帮助我们了解全貌，触觉使我们了解细节。

触觉里面包括很多细节，包括指尖、指掌、躯干等等，因此触觉传感器是机器人的核心部件。《科技日报》登了35项“卡脖子”技术问题之一，触觉是很难的一个问题，大家也都在这方面开展应用。

包括空间视觉敏锐度和时间视觉敏锐度方面，孙老师团队在国际智能机器人大会上抓取操作比赛获得冠军，说明我们在这上面也有向上走的趋势，未来能够做得更好。

清华做的一件事情，能飞的机器人，当感知到前面有障碍时，路被挡住时，能飞着跳跃过去，这也是视觉和触觉整个感知功能在这里体现的一个特长。

人-AI-环境的协同交互能够给我们带来更多人工智能的应用，也给我们人带来更多发展，包括人工智能像人一样思考以后，人工智能像人一样能够去做事，能达到多少量级，这是我们现在要分析和研究的问题。人工智能怎样去发展、怎样去应用？视觉、触觉、听觉都能体现非常重要的特征。

发挥多智能体的群体效应是未来重要了发展方向，包括群体协同交互问题，一群机器人怎么样交互也是很重要的一个研究。群体协同交互是构筑智能通天塔的必由之路，也是有望挑战莫拉维克悖论的重要途径。

我们希望能够有更灵巧的手，有更明亮的眼睛，更灵敏的耳朵，把这些东西交给AI，交给机器人，它们能够对环境有更加深刻的认识。

智能光电芯片、知识驱动、数据驱动、认知驱动使得未来的AI能够发展的更好，能够更有效地发展。

算力有很多提升方法，大家在做光电计算架构，能不能先行把这个做出来，这也是国际上竞争的制高点。

在算法上能够更加逼近本源的认知计算理论与方法，做的过程中需要做新的认知机理测试的范式出来。

更高的工作效率、生活质量和安全保障。这是我们强调的交互问题，交互给我们带来人工智能更加重要的特点。

信息时代，计算机强调人机交互，人和机器交互，那个交互完全是机器被动式，人主动式，未来人和AI的交互就是互相都有主动式，AI和环境交互，AI是主动式，和我们信息时代的人机交互有着不同的理解和相关方面的工作。

（本报告根据速记整理）

<hr>

CAAI原创丨作者戴琼海

未经授权严禁转载及翻译

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会