本来想晚一点再来讨论此事,但由于DeepSeek动不动就卡住了,于是就有空写下此文。理论上来说,作为一个学文科的人,我可能不太适合讨论DeepSeek,但因为我接触大语言模型特别早,大约在2016年初,并且在一个全球人工智能社区担任了三年多的执行总编辑,可以说见证了这些年来AI从一度热情满满,到成为炒作,再到沉浮,直到ChatGPT的崛起,一直到今天。
2016年2月,我正在负责创建一财英文版,也就是后来的Yicai Global。在时任一财CEO周健工的引见下,我认识了刚从美国回国不久并担任阿里巴巴人工智能科学家的汤开智博士。汤博士与我同龄,是中国最早一批学习并应用人工智能的人之一。在美国时,他一直从事AI应用研究,特别专注于自然语言处理(NLP),即大语言模型(LLM)。然而,当时我们对LLM的了解还非常有限,只是用一个简单的目标来说明我们希望他在媒体领域做的事情——用机器(计算机)代替人工写作。
为什么会有这个想法呢?在做财经英文新闻的过程中,我发现财经新闻中有一类稿件的格式非常固定。例如,有关股市开盘、收盘的消息,几乎每个开盘日都是一样的,只是数字有所不同。过去,记者需要盯着盘面,然后将数字替换后发布稿件,这不仅耗费人力,而且容易出错。比如,有些媒体甚至会将一年前的稿件当作当天的新闻发布,闹出笑话。我和汤博士讨论后认为,通过智能写作完全可以实现这一目标。当时的基本思路是,以记者的人工稿件为模板,将其中的日期、指数、涨跌幅度等变成变量,并接入股市信息系统以追踪这些变量,最终让机器自动生成稿件。当时,路透社和彭博社也在开发类似的系统。
我还记得当计算机“吐出”第一篇稿件时,我非常激动。我们很快将这个系统部署在网站上,效果相当不错。然而,问题也随之而来。这种所谓的机器写作非常局限,只能在人类现有模板的基础上生搬硬套,而且适合这样写作的内容大多非常枯燥。看多了,连我都感到厌倦。于是,我和汤博士讨论是否能让机器对股市的变化进行一些分析,这便开始进入自然语言处理的阶段。也是在这个时期,我开始接触到机器学习。
与此同时,阿里巴巴也在利用机器学习处理自然语言的挑战。当时的淘宝已经在研究如何利用机器自动生成商品描述,以帮助数以千万计的电商卖家以最省钱的方式搭建他们的“在线商店”。在近十年前,这并非易事。但我、汤博士以及所有淘宝商店的后台管理者们对人工智能仍充满希望。
然而,这场人工智能的热潮在2018年迅速消退。一方面,资本对自然语言处理失去了信心;另一方面,极度复杂的自然语言也让各种算法无所适从。直到2021年,我读到南京大学周志华教授的《机器学习》一书,才重新思考当年遇到的问题。原来,由于自然语言的逻辑太过复杂,仅用一种或几种算法来处理是不够的,必须将多种算法结合应用,形成“加强算法”,并最终实现“深度学习”。也就是在这个时候,我开始理解在机器学习领域,“deep”这个词与众不同的含义。
从2018年到2022年(ChatGPT出现之前),我将这段时间称为自然语言处理的“黑暗时代”,几乎没有人认为自然语言处理会有突破。我记得2020年初我买的一辆奔驰GLE也安装了某种语音处理系统,但那真是一场灾难,谁用谁心烦。
然而,我个人却在这一阶段阴差阳错地进入了一家人工智能制药公司,并开始搭建一个全球人工智能社区。有趣的是,我的工作总是富有开创性。社区建立不久,我就注意到整个人工智能领域的焦点几乎都放在了图像识别上。例如,在美国的李飞飞团队和中国的汤晓鸥团队。李飞飞当时有一篇很有意思的文章,谈到通过图像来预测物体的下一步动作,这显然为后来自动驾驶的成功奠定了理论基础。而汤晓鸥团队则在全球部署了规模最大的人脸识别实验,其结果保证了中国在这一领域的绝对领先地位。
此外,在医学影像分析等其他图像识别领域也取得了突破,机器几乎在所有图像识别领域都超越了医生。然而,当时我们在讨论人工智能时,仍然喜欢用“assistant”(助手)这个词。直到有一天,我读到一篇2021年中的文章,作者来自希腊,提到微软正在进行一项名为“copilot”(副驾驶)的实验。这让我感到非常有趣——人工智能不再仅仅是“assistant”,而是成为了“copilot”。这意味着AI需要听懂人类的语言,而这正是自然语言处理的关键。文章还提到,微软已经大量投资于一个大语言模型团队,而这个团队正是后来的OpenAI。
然而,在2021年底到2022年底,除了图像识别团队之外,其他人工智能团队都陷入了资金困境。对于人工智能的关键突破点——自然语言处理,大家仍然没有好办法。当时,全球与自然语言处理最为接近的是大量出现的“ChatBot”。这些问答机器人与我们当年开发的写作模板差距不大,只是在某些语境框架下进行文本变量替换,基本没有分析能力。
当时,我和德国Deggendorf Institute of Technology的Patrick Glauner教授以及伦敦未来学家协会主席David Woods几次见面,都谈到一个问题:人工智能是否会在自然语言处理方面取得突破,大语言模型是否会再次成为一场炒作?Glauner教授是全欧洲最年轻的人工智能教授之一,他坚信突破将在一年内实现。而David Woods则认为,我们期待的“奇点”将在大语言模型被广泛应用的那一天到来。
2022年11月30日,ChatGPT发布时,我正在雅典,与妻子住在当地最具人文气息的Pangrati地区的一处公寓里。背靠炉火,品尝着Yanis家的卷饼,我突然看到我们的社区内作者们都在讨论这个消息,WhatsApp不断发出“叮”的声音。那一刻,我意识到世界变了。我立即给汤博士发了微信,告诉他,当年我们想做的事情可能已经实现了。
几天后,我与希腊前外交部长及内政部长Spyros教授吃饭,他也和我聊到ChatGPT。这让我感到,自然语言处理的大门一旦打开,人们进入人工智能世界的速度实在太快了。它确实不再是“assistant”,而是“copilot”。
此前,我处理过许多关于OpenAI的文章,并与这个团队进行了直接或间接的交流,其中一个重要方式是通过我们人工智能社区的作者与他们互动。交流的结果是,这是一个精彩的故事,但也是一个难以复制的故事。作为一个中国人,我自然会想到中国大语言模型的发展阶段以及是否有追赶的机会。然而,缺乏耐心的资本和团队,使得中国在这一领域的追赶仍面临挑战。
接下来,2023年5月,我离开了我参与创立的人工智能社区,并把家搬到了香港,开始进入一个新的赛道。由于这里与人工智能的关系较远,我对AI的发展也没有那么关注了。但在人工智能社区的最后阶段,中国出现了一大批类似ChatGPT的产品,我也试用了一些,它们各有长处。但有几个问题一直没有解决:
1、是否要照搬OpenAI进入海量知识的学习或再学习;
2、在以英文为主语言的互联网世界中,中文的ChatGPT产品是否有优势;
3、中国的人工智能专家与美国的差距到底有多大。
第一个问题在一次讨论中被提及:当有了老师的情况下,是否要对老师的知识进行重新学习。这就是DeepSeek出现后常常提到的“蒸馏法”。我不是人工智能专家,也没有学理科,所以对于“蒸馏”的解释可能不够准确。但从我的有限认知来看,这相当于老师把一门学问教给了你,你面临两个选择:一是要不要把老师教的东西再学一遍,二是用老师教的方法进一步学习。如果ChatGPT是一个老师,那么它已经了解的东西,我们是否需要重新学习?
这个问题在当时的讨论中分歧很大。由于算法的“黑箱效应”,要完整了解它,显然重新学习是必要的。这又引发了第二个问题:语言与成本的问题,最终又引出了第三个问题:谁能想出一个解决方案。
这里可以插一句,这些年来对人工智能的接触,特别是经历了从最早的自然语言学习探索、到图像识别、再到大语言模型,人工智能时代在我认知上的一个最大突破是:最重要的是决策和解决方案。也就是说,我们需要的是一个不带道德优先级、不带对错的“适配结果”。
我想对于DeepSeek的开发者来说,“蒸馏”就是他们的解决方案。它就像一个学生,跳过了老师对原始知识的学习,直接利用老师教的结果进入新的学习,并使自己成为一位老师。这个方法并不新颖,但确实是一个解决方案。
然而,这一方案可能会面临第四个问题:如果老师的学习未穷尽,或者老师的学习出错,该怎么办?我们在使用DeepSeek时,已经发现它在照搬ChatGPT的答案(推理),甚至在分析问题时,也会犯老师曾经犯过的“胡扯”错误。这显然可以被视为蒸馏的“杂质”,但也可能在某些领域成为蒸馏的“结果”。这显然是DeepSeek马上要面对的问题。
不过,从2016年2月我第一次接触人工智能到今天,世界已经在AI的影响下发生了深刻的剧变。似乎AI已经从“副驾驶”蜕变为“驾驶员”,这究竟是惊喜还是诅咒呢?
0
推荐