百度联合中国计算机学会、中国中文信息学会共-中国科技信息杂志社投稿

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

百度联合中国计算机学会、中国中文信息学会共

作者:

关键词:

摘要：

近年来，尽管自然语言处理技术飞速发展，但在模型鲁棒性、可解释性、复杂知识表示与文本融合、跨模态语义理解等方面依然面临挑战。为了解决自然语言技术发展中所面临的挑战和推进中文信息处理技术的进步，8月25日百度大脑语言与知识技术峰会在线上召开，百度联合中国计算机学会、中国中文信息学会共同发布“千言”数据共建计划(网址:

百度联合中国计算机学会、中国中文信息学会共同发布千言数据共建计划

目前，“千言”项目第一期已涵盖7大任务、20余个中文开源数据集，由百度携手哈工大、清华、中科院信息工程研究所等在内的10所顶级高校、企业共同建设完成。吴华表示:“我们希望通过这些计划，与业界同仁一起解决中文信息处理技术发展中的挑战，并在世界范围内建设中文信息处理影响力。”

除两大重磅计划公布外，此次峰会凝聚了百度在语言与知识领域十年的技术积累和产业实践。百度CTO王海峰发表主旨演讲，解读了百度语言与知识技术的发展历程、最新成果及趋势展望，百度集团副总裁吴甜重磅推出5款产品的新发布，加速技术大规模应用发展。

共建中文开源数据集 “千言”计划应对语言与知识技术应用新挑战

让机器像人一样理解语言、掌握知识的自然语言处理技术，是人工智能中认知智能的核心;对语言信息的处理能力也是一个国家的核心竞争力。我们每天都在使用的搜索、翻译、信息流推荐、时刻回应你每个需求的智能助手等，背后都是语言与知识技术在发挥作用。

这样大规模的产业化应用也对技术提出了新挑战。包括模型需要具有全面的、处理多个子任务的能力;在跨领域数据上具有较好的泛化能力;在应用中有足够的鲁棒性以保证安全等等。此外，这些大规模应用对语义理解提出了更高的要求，要求模型具备一定的常识、背景知识甚至推理能力;同时随着内容承载形式的多元化，也需要模型具有多模态融合的内容理解能力等。

为应对以上问题，百度联合中国计算机学会、中国中文信息学会共同发起了“千言”数据共建计划，携手高校和企业的数据资源研发者共同建设中文开源数据集。在此次峰会上，百度技术委员会主席吴华、中国中文信息学会副理事长兼秘书长孙乐、中国计算机学会自然语言处理专委会主任周国栋共同解读了“千言”数据集，“千言”的目标是覆盖丰富的任务类型，从语义理解、知识融合、跨模态融合等角度推动技术进步，同时提供能进行多维度综合评价的数据集，从而评价模型的全面性、泛化性和鲁棒性等。

截至目前，第一期千言项目已涵盖了7大任务、20余个中文开源数据集，包括开放域对话、阅读理解、机器同传、情感分析、语义解析、信息抽取和文本相似度等。由百度携手来自哈尔滨工业大学、清华大学、中国科学院信息工程研究所等10所顶尖高校和企业的数据集作者共同建立完成。

为了使千言能够提供一站式的数据浏览、下载和评测的科研体验，百度还对所有数据进行了处理，每个任务都有统一的数据格式和评测，并在此基础上提供了基线系统，帮助加速模型的研发。

吴华表示，在未来3年中，千言计划面向超20个任务，收集和建设不少于100个中文自然语言处理数据集，全面覆盖知识图谱、语言理解、语言生成、跨模态融合、NLP 应用系统等多个领域。也期待更多数据集作者能够加入共建，共同推动中文信息处理技术的进步。

推出算力共享计划!百度全力支持语言与知识技术开发者、研究人员

除数据外，算力是语言与知识技术发展中面临的另一大挑战。超大规模深度学习模型带来显著效果提升的同时，算力的需求也呈现出指数级的增长。算力的缺乏已经成为了许多开发者、研究人员进行技术研发的一大瓶颈。

为此，百度正式发布了语言与知识算力共享计划。通过AI STUDIO平台，百度将提供算力支持，为语言与知识技术开发者助力。吴华表示，后续百度会邀请“千言”数据集的使用者，百度语言与知识开源开放的用户以及更多的中文语言与知识技术开发者、研究人员免费使用这些算力。

文章来源：《中国科技信息》网址: http://www.zgkjxx.cn/zonghexinwen/2020/0825/728.html