为什么百度要加码NLP
百度的大脑语言与知识技术峰会在网上举行。
会议主要分享了十年来百度语言知识技术的发展,最新的突破,新发布的产品和未来的挑战。
正如你所看到的,百度用自然语言(NLP)下了一场大棋,而且野心很大。
为什么百度要设计NLP?因为语言和知识技术是人工智能认知能力的核心。换句话说,NLP是"人工智能的明珠"。
众所周知,人工智能是近几年来最热门的话题,也是未来的大势所趋:获得人工智能的人得到了世界。但让机器拥有相同的思想,越来越接近"智能",或者说道路阻力和漫长。在这段时间里,存在许多沟通障碍,其中语言不通是核心障碍。
语言是意义的基石和载体,正如俗语所说,语言是万物的代名词。语言的缺失,使人类赖以生存的整个意义世界和系统瞬间崩溃。因此,人工智能要想成为"智能",就必须掌握人类的语言。
然而,随着人类的发展,语言越来越广泛而深刻。我们早已习惯于用同一个句子来表达不同的意思:在不同的语境中,相同的句子可能有不同的含义。但对于没有人类心理机器的人来说,更难以理解这些歧义。
在早期,第一语言处理系统,如Sshdlu,有局限性:当它们处于"真空环境",以有限的词汇量说话和处理时,它们可以正常运行。然而,当这个系统被应用到一个充满不确定性的现实世界时,它们就无法胜任这项工作。
例如,"我们把草给兔子,因为它们饿了"和"我们把草给兔子,因为它们已经煮熟了"有着相同的结构。但是代名词"它们"在第一句中指的是"兔子",在第二句中是"绿草"。如果你不了解动植物的特性,你就无法区分它们。
因此,语言是人工智能的最大障碍。因此,如果我们解决人与机器之间的沟通障碍,我们也将掌握打开人机交互渠道的关键。
因此,不难理解百度和其他巨人在NLP上的添加:事实上,NLP不仅是为了帮助计算机学习人类语言,也是为了帮助计算机掌握人类的思维--理解人类的思维系统和交流方式。
因此,自2010年以来,百度成立了一个自然语言处理部门,一直在添加代码。例如,缺乏数据和计算能力一直是语言和知识技术研究和开发的瓶颈。
为了突破这一瓶颈,百度与中国计算机学会和中国信息社会共同推出了中文自然语言处理数据共建程序,千言万语,解决了数据匮乏的问题。
千岩一期工程由中国11所高校和企业的数据资源开发人员共同建设,涉及开放领域对话、阅读理解等七项任务,以及20多个开放源码数据集。
不仅如此,正如百度CTO的王海峰所说:"在百度语言知识技术的布局和发展中,我们一直注意把握两种趋势,即技术发展趋势和产业发展趋势。
你可以看到,百度NLP不仅在技术突破上取得了很大的成就,而且在产品的登陆方面也取得了一定的成绩。
01
百度技术突破
百度NLP的成绩如何?
正如你所看到的,百度在过去十年中在大脑语言、知识和技术方面取得了许多成就:它获得了20多个奖项,包括国家科学技术进步奖、30多个国际竞赛冠军、300多篇学术论文,并申请了2000多项专利。
同时,技术不断突破创新,也在产品创新探索中,有能力登陆,为特定行业服务。
在这次会议上,王海峰充分分享了百度语言、知识和技术的完整布局和最新成果。
首先,百度创造了世界上最大的知识图表。
知识图是机器认识世界的一个重要基础:它相当于在儿童时期教机器"阅读图片和阅读"。另一方面,百度拥有50多亿个实体和5500亿个事实,并且在不断地进化和更新。今天,百度的知识图表被应用于各种行业,每天有超过400亿次电话。
第二,在知识整合的基础上,不断提高语言理解能力。
在2019年3月,百度提出了知识增强的语义理解框架Ernie,它整合了基于深度学习的知识,具有持续学习的能力。百度首次登上权威全球数据集的榜首,首次突破90大关,刷新了列表的历史。基于知识图和语义表示,阅读理解、对话理解和跨模态深度语义理解被突破。
不仅如此,语言生成是语言和知识技术的重要组成部分。
基于预训练技术的成功经验,百度提出了一种基于多流程机制的语言生成预训练技术,该技术考虑了词、短语等不同粒度的语义信息,大大提高了生成效果;百度还探索了多文档摘要的生成,通过图形结构的语义表示来引入文本知识,提高了单文档和多文档摘要的生成效果。
此外,百度在应用系统、对话系统和机器翻译方面也取得了显著的成绩。
百度提出了知识图驱动的对话控制技术,以及第一个基于隐藏空间的大规模开放领域对话模型柏拉图,并推出了智能对话定制和服务平台单元,帮助开发者高效构建智能对话系统,实现大规模应用。
目前,百度翻译支持200多种语言,每天响应超过1000亿字符的翻译请求,支持400,000多个第三方应用。从技术上讲,它提出了多智能体联合学习、基于语义单元的同声传译模型、稀缺语言分组混合训练算法等。
同时,这些技术以平台的方式输出,通过授权不断提高工业智能水平。
02
百度NLP登陆应用
如果一项技术无法登陆,它只能生活在空中的城堡里。百度NLP显然不是这样的海市蜃楼,相反,它已经积极登陆并扎根。
正如百度所言:"我们一直致力于将语言和知识技术整合到一系列技术平台和产品中,为广大开发者和行业从业者创造大量的应用价值,并提供一系列由语言和知识技术驱动的产品。
在特定的场景中,NLP有一个特定的应用程序。
例如,百度推出了语义理解技术和平台文信,在深入学习平台构建的基础上,依托领先的语义理解核心技术,集成了优秀的预训练模型、综合的nlp算法集、端到端的开发套件和平台,提供一站式的nlp开发和服务,使开发人员能够更简单、更高效地定制企业nlp模型。文信已经被大量的实际应用场景所淘汰,具有出色的产业登陆实力。
例如,百度新发布的智能文档分析平台TextMind基于OCR和NLP技术,以文档解析为核心功能,支持文档比较和文档审核,具有"速度快、性能好"的核心优势,促进了企业办公的智能化升级。
同时,百度脑智能创作平台为媒体应用场景升级,新推出智能策划、智能采集与编辑、智能审校三大媒体场景程序,进一步帮助媒体人创造更快、更好的创作,切入媒体人的"痛点"。
智能会话定制和服务平台单元升级,具有更智能化的基于任务的对话理解、极其方便的形式问答和通用新对话引擎的集成。新升级单元的三大功能将进一步降低基于任务的对话、智能问答的定制成本,并整合一般对话的能力,以增强交互体验。
新发布的AI同声传译会议解决方案涵盖了会议的整个场景和过程,目的是创建一个"会议同声传译专家",供用户随身携带。
吴田演示了如何用一台电脑和一部手机快速建立一套同声传译服务。只要点击鼠标,输入几个单词,就能迅速获得专业的同声传译服务。
吴华还发布了百度语言知识和技术计算能力共享计划,通过百度AISTUDIO平台提供计算支持,使广大开发者打破了计算能力的枷锁,专注于技术创新。
正如百度技术委员会主席吴华所说:
今后,我们希望更多的数据集作者能够参与到数千字的建设中来,共同推动中国信息处理技术的进步,增强中国信息处理在世界范围内的影响力。在未来三年,我们计划收集和建立不少于100个中国自然语言处理数据集,用于20多项任务,涵盖语言和知识技术的所有领域。