互联网

搜狗CTO杨洪涛:摘取人工智能皇冠上的“明珠”

来源:艾瑞网    作者:yangkun      2018-08-23

导语:让机器理解人的语言,这是人工智能皇冠上的明珠,谁能够攻克这个问题,这就获得最大的价值。

【艾瑞网 直播】2018艾瑞(深圳)年度高峰会于2018年8月23日在深圳瑞吉酒店召开。此次峰会以 “智能·无界·决策”为主题,通过艾瑞多年的研究经验及海量数据分析结果,透析中国新经济领域现状及未来发展趋势,共同探讨2018年中国新经济领域投资行业投资趋势与动向,并通过思想的交流与碰撞,掀开对新一轮互联网成长的憧憬与展望,以期探索更高效的投资策略。

以下是搜狗CTO杨洪涛发表题为“摘取人工智能皇冠上的‘明珠’”的演讲实录。

杨洪涛.png搜狗CTO杨洪涛

很高兴今天有机会跟大家做汇报分享,希望在语言应用方面对大家有一些启发!

今天的话题是谈一下“如何让机器理解人的语言”。让机器理解人的语言,这是人工智能皇冠上的明珠,谁能够攻克这个问题,就会获得最大的价值。

人工智能刚提出来的时候,人工智能的专家提出两个问题能够攻克人工智能,第一个是机器能够下棋,这个事情20多年前已经完成了,下围棋也已经完成了。第二个事情是机器翻译,能不能让机器理解人的语言,把不同的语言翻译过来,这个事情今天已经做到60分,还没有完全的解决。很多人工智能领域的发展,都是基于对语言的理解。当前机器不能分辨语言是人还是机器,这目前还是科学家想要攻克的难题。

最近这一年多以来,有很多在语言上的AI成果或者是技术亮点,特别受到从业者的关注。我们看到行业音箱大战,谷歌苹果都做音箱,国内的互联网公司、技术公司没有参与到音箱大战当中好象有点落伍了。上半年谷歌研发者大会,他们攻克了一个难题,让机器帮人打电话,对面的餐馆接线员听不出来是机器还是真人的语言。微软在上半年发布了智能会议,如果你去开会,会议室里面有张三、李四,在视频里面识别出来,并且发言者的发言都可以记录下来,会后还可以形成会议纪要。语言的黑科技特别受我的关注,这也是整个行业探讨的话题。

如果放到更大的层面去谈,人工智能技术突破上面,把今天最受关注的领域演变出来,机器人、无人超市、AI手机、翻译机、AI同传机器、AI智能音箱。每个产品里面都需要机器对人的语言的理解有突破,才可以做得更好。中间把技术演变出来,视觉、语音,今天有很多领域的专家把人工智能分成几个层次,计算智能已经解决,然后是感知智能,把对声音、图象的理解放感知层面,把声音转成文字,能够理解画面的物体,这个事情也可以做到商用的程度,但是再往上走一层,就是认知理解,目前人工智能还没有做到。其实应用领域都离不开认知理解,自动驾驶之所以一直没有推开过来,这跟认知理解有关系。

语言为什么这么重要?人的工作体现出文字,我们写书,经验是通过文字表达;思想是通过文字交流来呈现的;在工具之外,人跟语言根本分不开。如果放掉语言,不用文字,你能不能够思考?你会发现你做不到。我们整个人都是被语言所控制的,我们经常说,如果你到一个语境里面,你利用这个语境、文化去表达,你就会受语境、文化的控制,这是很有意思的思想现象。人的存在、视觉的存在都是基于语言。

几十年来,人工智能专家一直试图理解语言,今天说的语言合成,它目前只是转成文字而已,中间的这些是语言处理,这些是相对比较模块化的,是语言的基础技术。能不能把词性定义出来,能不能发现这个词是公司名字、人名,比如说碰到一个邮件是垃圾邮件还是正常邮件,或者在新闻里面,是新闻头条,是体育新闻还是科技新闻;句法分析,比如主谓宾;指代消解,比如说小明吃了一个苹果,逗号,很甜,它是指小明很甜,还是小明心情很甜,还是苹果很甜?这是指代消解。

这些理解的东西,在今天我个人认为是不及格的,是很困难的领域,是很多科学家需要攻克的问题。关系抽取,比如说奥巴马是美国的总统,他的出生地是夏威夷,夏威夷是美国的一部分,我们描述事物与事物间的关系,有这种关系,未来才知道做这种关系和知识上的抽取和推理,知道奥巴马是夏威夷出生的,夏威夷是美国的一部分,奥巴马的国籍是美国国籍。

我们看到自然语言的理解和处理,其实有更广泛的应用领域。我不知道大家所在的行业里面是不是已经利用相关的技术应用。比如说金融领域,公司对产品的表述是正面的还是负面的,做投资分析,市场的情绪是正面的还是负面的。美联社的账号被黑客攻击了,黑客在上面发了一条消息,白宫被炮弹攻打。这条消息美联社发出来之后,几秒时间内,股票指数大跌,市值增发1000多亿。这是因为美国有大量的公司是用机器去分析今天产生的新闻,根据新闻产生的认知,然后作出自动交易。之后讨论机器对市场的干预是不是已经是一个负面的问题?我们先不关注这个事情,其实也代表机器对新闻的处理和理解,在金融领域里面已经得到很大的应用。

给大家放一段小视频,表达自然语言的理解和处理还是非常困难的。虽然这个画面没有完全放出来,但是我相信大家看到这个视频其实也特别能够理解,我相信在座各位也用过语言类的智能产品,体会到它笨拙的地方,这是因为人的表达,除了方言之外,还有很多困难点。这个视频有两个特点,一个特点是模糊的,以前跟大家举例子,乒乓球拍卖完了,机器理解是分词,"乒乓球,拍卖完了"和乒乓球拍,卖完了",这是有歧义的。"要你管VS不要你管",在整理这些例子的时候,我想到一些表达"我出门差点翻跟斗"、"我今天差点赶不上火车"。

第二个特点,人具有特别强大的能力,人具有知识,特别是常识。说两句话"爸爸背不动孩子,他太重了",这个"他"是指谁,这是指孩子;"爸爸背不动孩子,他太老了",这是指爸爸,他老了。遇到常识的时候,人的常识怎么表达,如何被机器理解,现在机器还做不到。这也是特别有意思的例子,这句话里面没有一个字的顺序是对的,但是我们一眼看上去完全可以理解,丝毫没有障碍,但是机器就完全不能理解,人在做什么工作?机器没有脑补能力,人是具有脑补能力的。

后面我把我们团队在这件事情上面所做的工作,以及产品方面的思想跟大家做一下展示,希望引起一些共鸣,或是未来共同推动行业的进步。语言方面是搜狗的核心,我们的搜狗输入法也是帮助大家做语言的表达,它的计算规模是相当大的,在这个基础上,我们有机会做AI语言攻克的能力。

我们把自己的AI工作分成两个层面,第一个层面叫自然交互,这是解决什么问题?机器能不能懂人,和人能够互动起来,以前的交互,人向机器发出命令指令,未来是交互的发出命令。未来是知识计算,其实就是搜索引擎天生的本职,我们要把信息从互联网上海量的信息中提取出来,进行推理、计算、回答人们的问题,这是搜索引领要攻克的问题。今天的搜索引擎,你敲一个关健词,然后列出十个结果,让你自己去判断。在未来,这样的搜索引擎结果是不够好的。

语音识别方面,我们借助用户规模非常大的输入法,使我们有数据土壤做出非常好的技术,我们现在做到97%的识别准确率,日均语音输入调用次数峰值达4亿次。我们也有做合成,大家很习惯用郭德刚、林志玲的语音去做导航。我们可能录了郭德刚、林志玲很长时间的语音,然后做成语言合成。除了做语音合成之外,我们还能不能借助他的风格,模拟他的语言风格。

这个是虚拟主播技术,这是机器交互的时候,既要把语音合成出来,还要把唇形合成出来。这是做人脸实验的小视频,我们相信有这样的技术,才能够让机器和人非常自然的互动。

知识计算领域,这回到问题的核心上。搜狗做翻译领域的时候,我们进入比较晚,2016年才推出机器翻译的产品,我们不想再做又一个翻译APP,而是如何能够在搜狗原有的产品上增添功能,在搜狗输入法上面直接就可以敲入日语、韩语、英语。中国人的语言障碍,比如说敲糖尿病检测这些词语的时候,我们把国外最先进的网页数据引擎过来。我们还可以做离线翻译,不需要联网就可以进行翻译。

搜狗的本职工作是做搜索,未来我们希望攻克用户一个问题,我们通过一个答案就可以回答用户的问题。"用户提问违章需要什么证件","学生证买火车票一年能用几次",这些问题,一个答案就可以回答。给大家放一个小视频,这个机器人实际上是利用语音技术识别主持人的问题,然后放到海量网页库里面提取出来,然后进行回答。这虽然是应用到娱乐节目里面,但背后的技术难度非常高。

最后一个是对话系统,现在市场上的对话系统非常多,让机器帮你开电视、开空调;还有一类是聊天用的、情感用的,目标是给人足够长时间去聊天。做的是人机对话,但人与人的对话上,机器能够做什么工作,我们也想探讨机器+人是不是可以胜过人?放一个小视频给大家展示我们这方面的想法和工作。如果机器+人,在表达和回复上面超过人,更有乐趣、知识,人不知道的知识,机器帮你辅助表达,这样的输入法和知识的回复能力是非常有意思的价值场景。

把我们的语言工作总结一下,基于输入法和搜索的海量用户数据场景,攻克自然交付和知识计算的问题,自然交付是界面上;知识是海量知识提取回答问题。我们期待未来真的能够实现对人的注意,能够实现无处不在的搜索能力。希望我们的引擎工作能够给大家带来启发,也希望我们大家一起共同推动行业技术的发展。

(本文为艾瑞网独家原创稿件 转载请注明出处)
  • 合作伙伴

  • 官方微信
    官方微信

    新浪微博
    邮件订阅
    第一时间获取最新行业数据、研究成果、产业报告、活动峰会等信息。
     关于艾瑞| 业务体系| 加入艾瑞| 服务声明| 信息反馈| 联系我们| 广告赞助| 友情链接

Copyright© 沪公网安备 31010402000581号沪ICP备15057083号-1