科大讯飞研究院副院长王士进：“人工智能+”会颠覆行业发展

　　11月27日，以“未来已来，人工智能赋能新时代”为主题的新华网思客讲堂在北京举行，本期为“创新路?工匠心”系列讲堂第三期。科大讯飞北京研究院院长、科大讯飞研究院副院长王士进发表了题为“人工智能技术最新进展及产业应用”的主旨演讲，并与来自高通、百度、阿里云等相关机构的多位权威专家进行对话，共同探讨人工智能未来发展的机遇和挑战。

　　周靖杰拍摄水印-23

　　思客讲堂上，王士进与众专家共同参与圆桌对话。新华网周靖杰摄

　　观点提要：

　　从工业界人工智能技术和应用结合的成功案例来看，ABC是当前的主流途径。

　　从技术本身分析，人工智能分为三个主要的智能场景：计算智能、感知智能和认知智能。

　　虽然在某些场景中，人工智能的联姻效应暂时看不到非常明显的优势，但是将来“人工智能+”一定会有非常好的表现。

　　人工智能技术目前在智慧城市、教育、医疗等方面已经有很多创新应用。

　　王士进在思客讲堂发表主题演讲。新华网周靖杰摄

　　虽然在某些场景中，人工智能的联姻效应暂时看不到非常明显的优势，但是将来一定会有非常好的表现。新华网周靖杰摄

　　本文根据实录整理：

　　非常荣幸在思客讲堂与大家分享科大讯飞关于人工智能的理解，人工智能最新技术的进展，这些进展与产业中可能的结合点，以及我们做的初步工作。

　　ABC是当前工业界人工智能的主流途径

　　 1111

　　从2016年到2017年，人工智能技术发展非常之快，人工智能技术进入到各个行业、各个产业，甚至进入了千家万户。以AlphaGo为例，它在行业里、大众面前都为人所熟知。AlphaGo在2015年10月份战胜了欧洲围棋冠军樊麾，当时我们对这个技术还看得不是很清楚，后来它又在2016年3月份战胜了李世石，在2016年10月份战胜了柯洁。上个月，AlphaGo zero通过几天的学习便战胜了之前的AlphaGo。大家可以看到，人工智能的技术和产业、行业的结合非常之快。

　　从工业界人工智能技术和应用结合的成功案例来看，ABC是当前的主流途径。A称之为算法，深度学习的算法快速发展；B是大数据，特别是互联网和移动互联产生了大量的业务数据，包括每次看到很多人在玩手机时贡献的个人数据；C是云端的快速计算以及从CPU、GPU面向深度学习的定制芯片，这种计算能力的发展，使得A+B有了更好的平台，可以做出更快、更精准、以前不能想象的数据。

　　记得2007年的时候做云识别，虽然我们当时在国内算做得最好的，但也只有2000到3000个小时的训练数据，每训练一次完整的迭代模型，需要一个月左右的时间。现在很多技术都发展得非常之快，比如语音识别的训练，十几万小时的训练数据，需要几天的时间就可以非常好地进行迭代。这是基于互联网和移动互联网的“研究-工程-产品-用户”闭环优化加速了迭代优化进程。

　　“人工智能+”模式会使行业发生颠覆性变化

　　 2222

　　虽然在某些场景中，人工智能的联姻效应暂时看不到非常明显的优势，但是将来一定会有非常好的表现。很多时候，我们用智能产品时并不觉得它那么智能，因为没有业务数据围绕技术做迭代。很多专家提出，智能数据就是数据不停地产生，不只是存储在那里，而是数据迭代以后使算法不停地优化、进化，从而使得前端感觉到的服务和产出变得越来越智能。

　　前两年有一个词是“互联网+”，任何一个行业通过数字化和信息化的流转使得原来的工作流程、生活流程变得越来越方便，数字化和信息化也为现在的智能化提供了非常好的条件。现在业内关于人工智能的主要观点有两种：第一种是人工智能感知技术和认知技术的发展，使人和机器之间的交互越来越便捷。第二种就是“人工智能+”模式，行业和产业并不仅仅是人和机器之间的交互。很多行业有自己的流程，在这些流程里面有很多时候是人的力量所不能及的，一些机器学习人类专家的处理流程，具备了人类一部分能力后，会使很多行业发生颠覆式变化。现在，越来越多的行业都发生着类似的变化，包括教育、医疗，特别是对优质人力非常重视的行业。

　　感知智能技术“智能语音”的成长历程

　　从技术本身分析，人工智能分为三个主要的智能场景。第一是计算智能。因为计算能力的发展，使得原来不可能实现的事情通过快速的计算力变得更加可能。第二是感知智能。希望计算机可以像人类一样通过听觉、视觉等人类的感觉，做到各种类型的传感或基于传感的处理。第三是认知智能。认知是很多人在电脑、科幻片里看到的，主要是模拟人类判断和决策的流程，对信号的输入做更好的预测和判断。

　　科大讯飞与BAT（B=百度、A=阿里巴巴、T=腾讯）三家互联网公司一起入围了国家新一代人工智能开放创新平台名单，科大讯飞主要做智能语音技术。

　　 4444

　　第一，语音合成，可以将任意的文字信息转化为自然流畅的语音，相当于给机器装上了人工嘴巴。听起来比较简单，就是把一段文本变成一段声音，但现在的合成技术已经与科大讯飞最早成立那时做的语音合成技术不可同日而语了。最早我们做的是波形拼接，把每个字、每个词录一些语音，需要合成的时候就把这些东西抽出来拼成一段语音，进而听到内容。但是有个缺点，语音听起来不流畅。目前最新的语音识别合成的语音听起来非常流畅，甚至听不出来是机器合成的。

　　第二，语音识别技术，可以将语音中内容、说话人、语种等信息识别出来，相当于给机器装上了人工耳朵。通过个性化技术，能够根据目标说话人一个小时左右的语音，仿照其音色合成完全相似的语音。例如，导航中听到的一些明星的声音都是通过这种技术合成的。

　　第三，语音评测技术，可以进行发音标准评价和错误反馈指导，相当于把机器变成语音评测老师。这是通过技术把语音变成文字的过程。人类语言中包含的信息并不只是文本，还有“声文”（即是谁所说）。语音识别就是即使你的语言说得不太标准也可以被识别出来，知道你想干什么。语音评测则不太一样，我要知道你说得好不好。这项技术在我们学习本土语言、第二语言或是其它外语的时候就非常有用。比如中国的普通话水平考试、英语口语能力测试等都应用这项技术。以后可能所有的中考都会使用计算机来辅助评判，辅助学生做类似的学习。

　　人工智能技术的创新应用

　　 3333

　　很多应用场景是技术的融合，比如智能硬件，现在我们通过翻译机可以进行不同语言间的快速对话，你说一种语言，它可以及时地听到第二种语言，使交互非常便捷。

　　在智慧城市中也有很多场景需要用到语音技术、图像技术等。传统城市规划和管理的数据全面性和时效性较差，“手机大数据”+“语音大数据”建立量化、动态、可视、可预测的城市管理大数据支撑中心，政府和公安部门、统计规划部门、交警、公路局等目标客户都存在强需求，用这些技术能帮助解决交通拥堵问题、路径调整问题等。

　　在智慧教育中，通过使用语音识别技术和扫描识别技术，可以采集全过程的学习数据。采集结束后进行数据分析，包括语音图像的分析等，这样就可以基于知识点、指示体系对学生、老师进行各种类型的精准画像，向老师、学生推荐精准的学习信息。

　　在医疗方面，讯飞医考机器人以456分的高分数通过了执业医师资格考试笔试，机器人在一定程度上具备了运用医学知识解决医学相关问题的能力。正是这样的学习和智能的进化，使我们的工作和生活变得更加便捷。

　　王士进在思客讲堂与众专家讨论人工智能行业该如何差异化发展。新华网周靖杰摄

　　行业和产业并不仅仅是人和机器之间的交互。新华网周靖杰摄

　　最后，科大讯飞是大学生创业公司，我们把语音技术、OCR技术、行业解决方案等通过讯飞人工智能的开放平台向很多合作伙伴提供技术支持，我们也希望能够在将来更多的平台上与更多的合作伙伴共创更好的合作生态。

（责任编辑：马常艳）