财新传媒
位置:博客 > 周鑫 > 中文智能写作开发的瓶颈在哪里?

中文智能写作开发的瓶颈在哪里?

和两年前的轰轰烈烈不同,现在中文智能写作的开发,似乎都停了下来。那么到底是什么原因,会让两年前大家觉得大有希望,并且有可能会代替人工写作的,中文智能写作开发,一下子就变得偃旗息鼓了呢?而中文智能写作开发又到底碰到了什么样的瓶颈呢?

我自己曾经有幸,在两年前,加入到一个人工智能写作的开发团队当中,参与了这项工作。但随后,非常遗憾的是,随着我个人的离职,我的这种实验也戛然而止。但从我个人的兴趣来看,我对这项工作的关注却始终没有中断过。

在两年以前,也就是2016年和2017年的样子。人工智能写作开发的情况大概是这样的。无论是走在前沿的阿里巴巴、腾讯,还是人民日报、新华社,大家似乎都有一种非常焦急的心态,似乎都希望看到人工智能能够一下子出现一个跨越式的发展。所谓这种跨越式的发展,指的是,机器能立即写出供人们阅读的稿件来。而这种尝试事实上,包括以上提到的几家单位和我们自己都已经做到了。而这种人工智能写作,就是所谓的,基于大数据和数据的挖掘来进行的写作。讲的通俗一点,也就是说,我们首先有一个庞大的语料库,在这个语料库的基础上,我们更新一些新的事实,比如数据,比如某些名词,或者是一些人物的名字,来形成一篇文章。这种智能写作,非常现实,我们像是在做填空题,比如说一篇文章基本成型,就空出几个具体的数字、或者名字来,在当有新的信息进来的时候,将这些空格填上。2016年和2017年,人工智能写作的突破,大约就是这样。

但是,这种人工智能写作,有一个非常大的问题,那也就是说,你无论写什么样的文章,那都不算是一种真正的创作,而是你要依托一个具体的场景,来进行具体数据的替换,或者说是填空。而这个前提条件,就大大让写作的场景变窄了,于是乎,人们把这种写作的方式,通常应用在股市的报盘,或者是某一个具体股票价格的变动,还有就是市场异动,以及国家统计局在公布统计数据时快速发稿。而除此之外,你要让这部机器去写一些散文或者是人物通讯这样的,需要大量发挥的稿件,以及场景变化很快,需要进行大量描绘的文章的话,就变得非常的困难了。

从我们自己的实验来看,我们曾经将中文的格式,快速的变成一种英文的格式,也就是说把中文填空题变成英文填空题,并且很快实现了英文股票稿件,或者是股票大盘的报盘稿件的人工智能写作,而且非常成功。我们还将这种由机器自动生成的稿件,和推特发稿相结合,让推特自动生成推文,在推特社交媒体平台上发布,形成了非常好的效果。

然而问题是,这种快速的成功,并不见得带来的是一个长期稳定的发展,以及智能写作产品的迭代,似乎到了这一步,我们和其他的研发单位,就都卡住了。也曾经有人想过,用这种做填空题的方式去写一些诗,替换某些诗词当中具体和固定的部位,比如说将春天替换成夏天,或者将冬天替换成秋天等等,但这些所谓的应用场景都非常非常的狭窄,没有办法和人类写作所需要的那种创造力相比拟。

所以说到了后期,希望得到这样的人工智能写作工具的,通常是一些需要格式化写作的单位,比如说政府机关,比如说是统计部门,再比如说是教育部门固定需要更新的一些表格式内容的写作部门。另外一些比较常见的应用,就可能是在淘宝商家的一些商品的描绘上,你比如说,当描写连衣裙的时候,它就会自动的生成,长的带着蕾丝边的连衣裙;而他在描写一口铸铁锅时,就会出现耐用耐烧,或者是煮出的饭菜,更加的可口等等的词。

对于这样一种,人工智能写作方式,有的数据科学家将它称之为,依托于场景的人工智能写作。而这种人工智能写作,对场景的要求是相当之高的,你比如说,我们首先要为这种写作系统配备一个非常大的语料库,比如说你要写股市,就要首先将股市当中所有的股票信息,以及可以变动的这种情景和情况,都录入到这个系统当中去,然后格式化的编成一篇一篇的像填空题一样的稿件,而等到新的信息进来的时候,就把这些新的数字填到这些空的空格当中去。所以说,在我经理的开发,工作当中去这这种人工智能写作方式,大部分工作与其说是由数据专家来完成的,还不如说是由原先的采编人员去做的。因为无论是稿件的模板,还是所有的语料都是由采编人员人工提供的。而在这个过程当中,数据专家,或者说是算法专家,在其中发挥的作用并不是特别大。

我说这些,并不是想说我们中国的人工智能写作开发人员,想做一个偷懒的人工智能产品,这种开发方式,其实在那个时点是全世界的大趋势,你比如说当时在美国,最重要的几家人工智能开发公司,他们甚至为路透社和美联社提供智能写作的产品,用的都是同样的方法。而从他们那里反馈回来的信息来看,他们的这条道路似乎也卡在了那里。

那么,人工智能写作的下一步该如何走?我们是不是有可能突破这个瓶颈,看到人工智能写作真正的春天呢?我觉得还是有可能的。在两年前参与我们自己的人工智能写作产品开发的过程当中,我就注意到了这个问题,事实上,我们需要的一种产品,并不是100%的做填空题,当然我也并不是说做填空题的这种产品是不重要的,它作为一种初步的产品,事实上对于推动人工智能写作的发展起到了相当大的作用,但是,我们在开发上一代产品的时候,忽略了一个非常重要的问题,那就是对语言本身的关注。我们用了太多的时间,去想办法解决,怎么将一篇文章写得完整,将一个成品立即呈现在我们读者的面前,而忽视了一个非常基本的问题,就是用我们的机器,怎么去识别句子当中所处的时态是什么?它的语法是什么样子的?怎么样能让这部人工智能写作的机器首先写出一个完整的句子来,而不是直接过渡到去写一篇完整的文章。

所以说,下一步的人工智能写作开发,应该是从写文章,回到写句子上来,先让我们的机器能写出一句时态正确,语法正确的句子来。这样一种开发工作,看起来,没有那种让机器直接写文章的工作的成果看上去那样精彩。但却显得更加的扎实,而且是我们要将人工智能写作推向前进的必要和关键的一步。我们必须要看到,这种智能开发商,美国有一家公司,也许是走在了全世界的前面。它就是Grammarly。Grammarly,这家公司已经成为了全世界英文辅助写作系统的,较好的开发商。他们走的智能写作的开发路子,和其他的公司都不大一样,从以往我们的角度来看,他们开发的道路似乎比较简单,因为它帮助用户修正它们的拼写,语法和时态错误,并且给予一些建议。但他们的这种做法,事实上,是为他们赢得了更多的用户。特别是在人们意识到,用人工智能的方式立即写出一篇完整的文章来,是比较困难的时候。

当下,人工智能写作开发的2.0时代,我认为我们的开发人员,和我们的采编人员,应该进一步的合作在一起,将我们的开发和应用回归到一个更基础应用的时代,也就是,帮助中文写作人员率先能写出没有语法错误,没有时态错误的句子来。然后,在实现了句子的完美表达之后,再去呈现一篇完整的文章。假如我们有这样的思路,可能会为中文智能写作开发带来一个更美好的明天。

推荐 9