平均1秒生成1篇高分高考作文飞桨文心大模型是怎么做到的？ ... ...

2022-6-7 19:23| 发布者: | 查看: 46| 评论: 0

摘要: 6月7日消息，全国高考正在进行中，百度AI技术也迎来一场高考。6月7日，百度数字人度晓晓在高考语文考试结束后，化身为数字人考生，挑战高考作文写作，引发全网热议。AI写作涉及自然语言处理、数据挖掘、知识图谱等多 ...

[aipingce]6月7日消息，全国高考正在进行中，百度AI技术也迎来一场“高考”。6月7日，百度数字人度晓晓在高考语文考试结束后，化身为“数字人考生”，挑战高考作文写作，引发全网热议。AI写作涉及自然语言处理、数据挖掘、知识图谱等多项人工智能技术，百度使用飞桨文心大模型支持度晓晓又好又快地完成了高考作文的写作。据报道，度晓晓参与作答了全国新高考Ⅰ卷题为《本手、妙手、俗手》议论文，40秒就根据题目创作了40多篇文章，平均1秒生成1篇，随机抽取其中一篇，其分数已赶超约75％高考考生。

平均1秒1篇，成绩超75%考生文心大模型写作又快又好

将AI应用于文字创作，在技术圈里早已不算新鲜事。随着大数据、深度学习等技术的发展，AI在文本生成能力上有了大幅度提升。从财经、体育类新闻快讯，再到诗歌、小说等文学创作，AI写作覆盖的领域越来越广，创作形式和内容也变得更加丰富多彩。

但相比于评论、摘要、快报等内容形式，用AI生成高考作文的难度显然更高。高考作文的写作在“审题”、“逻辑”和“创意”等三个方面对AI提出了更大的挑战。在审题层面，高考作文题材、形式众多，再加上纷繁复杂的内容主题，每一种千变万化的组合都是对AI的理解能力的极限考验。逻辑层面，高考作文要求800字以上，如何保证长文各个片段之间的逻辑性和连贯性对AI是另一大挑战。最后，在创意层面，可读性是高考作文最重要的评分标准之一，AI写作不仅要切题连贯，还要善于引经据典、巧用修辞，甚至推陈出新，避免文章空洞乏味。

面对这些挑战，度晓晓在飞桨文心大模型的帮助指导下，又快又好地完成了写作。曾担任北京高考语文阅卷组组长的申怡为度晓晓的作文打出了48分的成绩（满分60分）。她表示，根据往年情况，获得48分及以上作文成绩的考生，仅占不到25%，也就是说，度晓晓的作文分数已赶超约75％高考考生。曾参加过《最强大脑》的学霸网红潘周聃也对度晓晓的作文水平表达了“欣赏”。

这背后得益于文心大模型最新发布的融合任务相关知识的千亿大模型ERNIE 3.0 Zeus，该模型在学习海量数据和知识的基础上，进一步学习百余种不同形式的任务知识，增强了模型的效果，在各类NLP任务上表现出了更强的零样本和小样本学习能力。通俗地讲，文心大模型就像个见多识广的“尖子生”、“学霸”，它的理解能力和创作能力比传统模型更强。不仅具备“倚马可待”的快速生产能力，还具备“下笔如有神”的质量保证。

在文心大模型的支持下，度晓晓完成的高考作文比以往有了明显的质量提升。首先，生成的作文能够紧扣主题、立意明确，度晓晓很好地理解了给定的作文题目，围绕主题进行文字的组织，佐证文章观点，输出对于主题积极正向的见解；然后在800字的长文本中，度晓晓能够保证生成的内容结构完整、语言流畅，并在开头引入和结尾扣题，上下文衔接流畅。同时，由于文心大模型具备更强的知识储备，度晓晓生成的作文更善于引经据典，并恰当使用排比、比喻等修辞手法，大大提升了文章的可读性。

不过，让申怡感到意外的是，度晓晓在作文里犯了个小错误——使用了网络热词YYDS。而之所以会出现这样的“丢分点”，是因为度晓晓学习了一些热门网络数据。从生成文章的前后文看，度晓晓是领会了YYDS的“精髓”，本身用法贴切，但不太符合高考作文写作规范，也侧面反映了AI写作还可以继续学习、进步。

文心大模型助力智能创作，推动AIGC时代到来

过去一年，百度AI技术落地加速，其中尤以近来新兴的AIGC引人注目。AIGC是继UGC、PGC之后一种新型的内容生产方式，指运用人工智能技术自动生产内容，数字人、TTV（Text to Video）等都是其标杆性应用。百度研究院预测，2022年AIGC技术将借助大模型的跨模态综合技术能力，可以激发创意，提升内容多样性，降低制作成本，实现大规模应用。

本次度晓晓写高考作文，就是基于飞桨文心大模型实现的AIGC创作。文心大模型具备“知识增强”的核心特点，能从大规模知识和海量数据中进行融合学习，学习效率更高、效果更好，具有通用性好、泛化性强的特点。

除了智能写作，在文心大模型的支持下，AI已经具备了很强的理解和生成能力，能够实现创意作品的自动生成，包括AI作画、AI写歌、AI剪辑等。目前，智能作画、智能对话、智能创作、故事生成等大模型的创意应用已经上线文心大模型创意与探索社区——旸谷社区，搜索「文心大模型」即可进入官网进行体验。未来，基于大模型的AIGC将会开放赋能到更多的内容生产领域。

预训练大模型的兴起，使得人工智能的通用性进一步增强。大模型具有效果好、泛化性强、研发流程标准化程度高等特点，正在成为人工智能技术及应用的新基座。百度自2019年开始深耕预训练模型研发，先后发布知识增强文心系列模型。在刚刚结束的WAVE SUMMIT 2022深度学习开发者峰会上，文心大模型迎来一系列升级：发布10个新的大模型，包括融合学习任务知识的知识增强千亿大模型、多任务统一学习的视觉大模型、跨模态大模型、生物计算大模型、行业大模型等；提出支撑大模型产业落地的3个关键路径：建设更适配场景需求的大模型体系，提供全流程支持应用落地的工具、平台和方法，建设激发创新的开放生态等。

除了在智能创作上的应用，文心大模型也已经应用于工业、能源、教育、金融、通信、媒体等行业，例如工业领域的零部件质量检测、能源领域的输电线路巡检、金融行业的合同信息抽取等等，真正帮助企业降本增效并激发创新。同时，文心大模型也全面应用于智能搜索、信息流、智能音箱等互联网产品，提升用户获取信息、知识和服务的效率和效果。

目前飞桨已构建了业内布局最全、最适宜产业应用的模型库体系，大模型作为人工智能 “基础设施”的一部分，进一步拓宽了人工智能技术落地的场景覆盖广度，更加深了产业应用的深度。文心大模型将持续降低应用门槛，推动产业智能化升级，让人工智能技术惠及每一个人。