中文智能写作开发的瓶颈在哪里？-周鑫的财新博客-财新网

和两年前的轰轰烈烈不同，现在中文智能写作的开发，似乎都停了下来。那么到底是什么原因，会让两年前大家觉得大有希望，并且有可能会代替人工写作的，中文智能写作开发，一下子就变得偃旗息鼓了呢？而中文智能写作开发又到底碰到了什么样的瓶颈呢？

我自己曾经有幸，在两年前，加入到一个人工智能写作的开发团队当中，参与了这项工作。但随后，非常遗憾的是，随着我个人的离职，我的这种实验也戛然而止。但从我个人的兴趣来看，我对这项工作的关注却始终没有中断过。

在两年以前，也就是2016年和2017年的样子。人工智能写作开发的情况大概是这样的。无论是走在前沿的阿里巴巴、腾讯，还是人民日报、新华社，大家似乎都有一种非常焦急的心态，似乎都希望看到人工智能能够一下子出现一个跨越式的发展。所谓这种跨越式的发展，指的是，机器能立即写出供人们阅读的稿件来。而这种尝试事实上，包括以上提到的几家单位和我们自己都已经做到了。而这种人工智能写作，就是所谓的，基于大数据和数据的挖掘来进行的写作。讲的通俗一点，也就是说，我们首先有一个庞大的语料库，在这个语料库的基础上，我们更新一些新的事实，比如数据，比如某些名词，或者是一些人物的名字，来形成一篇文章。这种智能写作，非常现实，我们像是在做填空题，比如说一篇文章基本成型，就空出几个具体的数字、或者名字来，在当有新的信息进来的时候，将这些空格填上。2016年和2017年，人工智能写作的突破，大约就是这样。

但是，这种人工智能写作，有一个非常大的问题，那也就是说，你无论写什么样的文章，那都不算是一种真正的创作，而是你要依托一个具体的场景，来进行具体数据的替换，或者说是填空。而这个前提条件，就大大让写作的场景变窄了，于是乎，人们把这种写作的方式，通常应用在股市的报盘，或者是某一个具体股票价格的变动，还有就是市场异动，以及国家统计局在公布统计数据时快速发稿。而除此之外，你要让这部机器去写一些散文或者是人物通讯这样的，需要大量发挥的稿件，以及场景变化很快，需要进行大量描绘的文章的话，就变得非常的困难了。

从我们自己的实验来看，我们曾经将中文的格式，快速的变成一种英文的格式，也就是说把中文填空题变成英文填空题，并且很快实现了英文股票稿件，或者是股票大盘的报盘稿件的人工智能写作，而且非常成功。我们还将这种由机器自动生成的稿件，和推特发稿相结合，让推特自动生成推文，在推特社交媒体平台上发布，形成了非常好的效果。

然而问题是，这种快速的成功，并不见得带来的是一个长期稳定的发展，以及智能写作产品的迭代，似乎到了这一步，我们和其他的研发单位，就都卡住了。也曾经有人想过，用这种做填空题的方式去写一些诗，替换某些诗词当中具体和固定的部位，比如说将春天替换成夏天，或者将冬天替换成秋天等等，但这些所谓的应用场景都非常非常的狭窄，没有办法和人类写作所需要的那种创造力相比拟。

所以说到了后期，希望得到这样的人工智能写作工具的，通常是一些需要格式化写作的单位，比如说政府机关，比如说是统计部门，再比如说是教育部门固定需要更新的一些表格式内容的写作部门。另外一些比较常见的应用，就可能是在淘宝商家的一些商品的描绘上，你比如说，当描写连衣裙的时候，它就会自动的生成，长的带着蕾丝边的连衣裙；而他在描写一口铸铁锅时，就会出现耐用耐烧，或者是煮出的饭菜，更加的可口等等的词。

对于这样一种，人工智能写作方式，有的数据科学家将它称之为，依托于场景的人工智能写作。而这种人工智能写作，对场景的要求是相当之高的，你比如说，我们首先要为这种写作系统配备一个非常大的语料库，比如说你要写股市，就要首先将股市当中所有的股票信息，以及可以变动的这种情景和情况，都录入到这个系统当中去，然后格式化的编成一篇一篇的像填空题一样的稿件，而等到新的信息进来的时候，就把这些新的数字填到这些空的空格当中去。所以说，在我经理的开发，工作当中去这这种人工智能写作方式，大部分工作与其说是由数据专家来完成的，还不如说是由原先的采编人员去做的。因为无论是稿件的模板，还是所有的语料都是由采编人员人工提供的。而在这个过程当中，数据专家，或者说是算法专家，在其中发挥的作用并不是特别大。

我说这些，并不是想说我们中国的人工智能写作开发人员，想做一个偷懒的人工智能产品，这种开发方式，其实在那个时点是全世界的大趋势，你比如说当时在美国，最重要的几家人工智能开发公司，他们甚至为路透社和美联社提供智能写作的产品，用的都是同样的方法。而从他们那里反馈回来的信息来看，他们的这条道路似乎也卡在了那里。

那么，人工智能写作的下一步该如何走？我们是不是有可能突破这个瓶颈，看到人工智能写作真正的春天呢？我觉得还是有可能的。在两年前参与我们自己的人工智能写作产品开发的过程当中，我就注意到了这个问题，事实上，我们需要的一种产品，并不是100%的做填空题，当然我也并不是说做填空题的这种产品是不重要的，它作为一种初步的产品，事实上对于推动人工智能写作的发展起到了相当大的作用，但是，我们在开发上一代产品的时候，忽略了一个非常重要的问题，那就是对语言本身的关注。我们用了太多的时间，去想办法解决，怎么将一篇文章写得完整，将一个成品立即呈现在我们读者的面前，而忽视了一个非常基本的问题，就是用我们的机器，怎么去识别句子当中所处的时态是什么？它的语法是什么样子的？怎么样能让这部人工智能写作的机器首先写出一个完整的句子来，而不是直接过渡到去写一篇完整的文章。

所以说，下一步的人工智能写作开发，应该是从写文章，回到写句子上来，先让我们的机器能写出一句时态正确，语法正确的句子来。这样一种开发工作，看起来，没有那种让机器直接写文章的工作的成果看上去那样精彩。但却显得更加的扎实，而且是我们要将人工智能写作推向前进的必要和关键的一步。我们必须要看到，这种智能开发商，美国有一家公司，也许是走在了全世界的前面。它就是Grammarly。Grammarly，这家公司已经成为了全世界英文辅助写作系统的，较好的开发商。他们走的智能写作的开发路子，和其他的公司都不大一样，从以往我们的角度来看，他们开发的道路似乎比较简单，因为它帮助用户修正它们的拼写，语法和时态错误，并且给予一些建议。但他们的这种做法，事实上，是为他们赢得了更多的用户。特别是在人们意识到，用人工智能的方式立即写出一篇完整的文章来，是比较困难的时候。

当下，人工智能写作开发的2.0时代，我认为我们的开发人员，和我们的采编人员，应该进一步的合作在一起，将我们的开发和应用回归到一个更基础应用的时代，也就是，帮助中文写作人员率先能写出没有语法错误，没有时态错误的句子来。然后，在实现了句子的完美表达之后，再去呈现一篇完整的文章。假如我们有这样的思路，可能会为中文智能写作开发带来一个更美好的明天。

话题：