张亚勤：热议的“中国版ChatGPT”，如何理解其意义？-williamhill(中国)官网

“经过这两次大的产业升级之后，中国在数字化支付、网络、用户终端，基本上都和美国在同一阵线，比其他所有国家都要好。我们在最高端的计算芯片、算法系统和一些大的平台性技术方面，现在感觉到是有些距离。但我觉得中国的创业者、工程师和科研人员，一旦把资源集中，并且有耐心，是可以赶上的。有很多挑战，但我还是充满信心。”

尽管中国是ChatGPT未开放服务的区域之一，但2023年2月初，在ChatGPT正式发布两个月后，这一聊天机器人程序在中国的热度开始走高——与之相关的话题多次登上社交媒体热搜榜单，A股市场上ChatGPT概念股板块历经多番涨停潮，百度、阿里、京东、网易等科技公司相继宣布推出或研发对标产品的计划。

在ChatGPT和同类产品引发持续热议的当下，大模型技术正在触发IT行业怎样的变革？我们应该如何理解“中国版ChatGPT”的意义？在新一轮行业爆发期，中国AI产业会面临怎样的挑战与机遇？就这些问题，本刊专访了williamhill官网智能科学讲席教授、智能产业研究院（AIR）院长、中国工程院院士张亚勤。

在学术界和工业界，以及人工智能前沿研究与产业应用领域，张亚勤都有着堪称辉煌的履历。他在1997年成为IEEE（电气电子工程师学会）历史上获授会士荣誉最年轻的科学家；自上世纪90年代末起，曾在微软公司工作16年，历任微软亚洲研究院院长兼首席科学家、微软中国董事长等职位；在2014年9月到2019年10月之间担任百度公司总裁。2019年底，张亚勤正式受聘于williamhill官网，牵头组建williamhill官网智能产业研究院（AIR）。

大模型重构行业生态

三联生活周刊：ChatGPT的出圈代表了大模型的第一次成功吗？

张亚勤：如果ChatGPT是指的一个产品，那它是大模型产品化和大众化的最大成功。大模型已经做了多年了，2020年GPT3.0的出现可以算是大模型的第一次成功。只不过那个模型更多是给专业人员用的，但在技术界已经有很大的震动。ChatGPT第一次有一个界面让普通用户使用。去年12月初，它刚刚出来的时候，我也注册了，简单用了一下，第一感觉是做得真好，会出很多错，但语言能力很强，后面又看到它很大的进步。实际上，从GPT3.0到GPT3.5，做了两年多，算法本身当然改进很多，但数据工程和系统工程尤其成功。算法里很大的改善是InstructGPT以及多了有人类反馈的强化学习（reinforcement learning from human feedback），用的人越多，迭代越快。那么现在GPT4就更不得了，功能比GPT3.5大多了。

但对我来说，ChatGPT更大的震撼在于它如此受欢迎！不到两个月的时间就有了上亿个月活用户。其实生成式AI，在过去这两年是进展最快的技术。比如在AI作图方面，有DALL-E、Midjourney、Stable Diffusion这些产品出来。我们学院也研究这类技术，比如自动驾驶的仿真模拟，也需要在机器人里面做生成，学生也发表了这方面的论文。总之，这个领域发展十分快，但没有感觉跳变。

而ChatGPT确实是一次跳跃和质变，是AI的一个里程碑。人机对话已经做了半个多世纪了，进步很大，但整体没有实质性的飞跃，主要应用在某些垂直领域（比如聊天、客服等），整体感觉更多是玩具和工具，是个机器人，不能通过“图灵测试”。但ChatGPT是第一个可以通过“图灵测试”的智能体，我看到一个通用人工智能的雏形。

三联生活周刊：在整个职业生涯中，你还经历过哪些类似的新技术爆发的时刻？

张亚勤：类似的让我感到震撼的经历有几个。一次是1986年，我刚到美国的时候，第一次用了苹果Macintosh电脑。因为之前在国内，我们最初用的还是字符型的输入，一行一行、一闪一闪的。到了美国之后，在集团的系里面第一次看到了带鼠标的电脑，看到它显示得如此之清楚、漂亮。那时就感觉到，哇，原来电脑还可以这么做，图形无界面，可以把鼠标放在任何地方，相当于立体化了。不仅仅能打字符，还可以用来画图。特别是出国前我们申请集团时，每天还在用打字机打表格，一张一张地打，感觉很困难。到了美国看到这样一个界面，完全是一个全新的体验。

还有一次体验是90年代初期，那时我在Sarnoff（注：美国桑纳福研究院，现SRI研究院）。当时我们在做高清数字电视，做视频压缩。我们第一次把所有系统集成在一起，加上5.1的立体声关在一个黑屋子里，放了15分钟SONY高清摄像机专门拍的高尔夫比赛/滑雪片段视频，雪花和高尔夫球是那样清晰，色彩是那样鲜艳，大家都震撼于电视还可以这么清楚。那时候有很多人，包括政策制定者，反对数字电视，但那15分钟放完，大家从黑屋子里走出来，都改变想法了。

再有就是2016年AlphaGo出来的时候。我自己也下围棋，之前我不相信AlphaGo可以赢李世石，即使要赢，我想可能还需要至少5年左右。因为这是人类最难、最复杂的棋类，虽然我已经在做AI，我还是没法相信它能赢了世界最优秀的九段。那次确实是第一次感受到AI的强大。

三联生活周刊：过去相当长一段时间，科技圈似乎都在等待下一个颠覆性的技术。人工智能行业内也经历了所谓的寒潮。现在可以说这种停滞过去了？

张亚勤：对。2016年AlphaGo让大家都感到AI很厉害的时候，人脸识别、语音识别其实已经比较成熟，但大家仍然感觉AI只能做一件事。自动驾驶给人的感觉很酷，但一直没变成一个主流的东西。包括搜索也用了很多AI技术，但大家可能感觉不到。总之，普通老百姓没有感受到AI给生活带来什么改变。但这次大家发现，可以跟它直接对话了，它什么都知道，虽然有时候胡说八道，有时候说废话和套话，但人也会这样。而且它很多地方做得比普通人要好，比如写东西很顺畅，语法也很正确，还可以帮你写程序、规划任务，在认知层有了很大提升，开始有了通用人工智能的雏形。

我们一直在探索，哪条技术路线会走向通用人工智能。GTP3.0出来的时候，我们有一批人感觉到，大数据和超大模型可能是一个正确的方向，ChatGPT和GPT4.0+ 给大家带来了信心。规模效应很重要。因为模型会自己进行in-context learning（上下文学习），这在规模不够大的时候看不出效果，但到一定规模会产生一些我们不知道的现象和能力。就像互联网，当年Metcalfe（今年的图灵奖获得者）定律提出，把N个人连在一块，创造的效益是N的平方，呈指数型增长。模型的规模效益也是如此。

三联生活周刊：大模型这条路走通后，会给整个AI行业带来什么？

张亚勤：我觉得可以把GPT这个系列的生成式AI模型看作一个由大模型组成的AI操作系统，和PC上的Windows，以及移动的安卓、iOS基本具有相似的意义。一个新的操作系统出来是什么意思？下面的硬件、上面的应用都会被重构、重塑，形成一个新的生态。如果说PC互联网的生态价值是1X，移动互联网的生态价值至少是10X，那么AI生态至少是100X。

PC时代，底层用的是英特尔的x86，在Windows上建立了许许多多的应用，也因此被叫作温特尔（WinTel）时代。到了移动时代，Android和iOS的底层硬件都是ARM系统，上面是各种不同的APP（应用软件）。当然，APP公司本身可能变成巨大的公司，比操作系统更大，比如微信和TikTok这样的Super APP（超级软件）。

到现在这个云计算的时代，硬件有GPU、CPU、FPGA、ASIC，操作系统就是AI大模型，或许可以叫它GPTx或者基础模型（Foundation Model，FM）。在AI还没发展到这个阶段的时候，有很多算法、模型、框架等，现在有了FM，你可以做各种各样的应用开发：大模型上层还会有小模型，还可以有插件，和现有的APP组合在一块。微软目前在这方面做得最好，把能力组合到了搜索、Office和Azure云等每一个产品。

三联生活周刊：这样一个新的生态，已经在很快地形成了？

张亚勤：对，但我也不认为马上就定了。在美国的话，OpenAI和微软抢先了一步，但是谷歌实力也很强，因为这里面其实很多最核心的技术是谷歌发明的。微软和谷歌这两家公司目前可能在全球领先所有人，无论是规模效应也好，还是应用场景、算法的成熟程度和产品的生态。当然英伟达的GPU芯片和架构最有竞争力。那么在中国的话，百度应该是走在最前面的。

三联生活周刊：百度的CEO李彦宏在大模型产品文心一言的发布会上也提到，之前云计算行业比拼的是厂家的算力，以后可能会更看中模型本身。

张亚勤：对，大模型变成操作系统之后，就形成了一个抽象层，开发者和用户对下面用什么就不太关心了。比如你现在用电脑还会在乎下面是什么芯片吗？无论算力多少、存储多少，基本就被这个操作系统隔离了，你更关心的是模型能提供什么功能。所以对云公司来讲，这也是重塑云的时刻。

三联生活周刊：还有一种挺普遍的看法，认为生成式对话产品会颠覆搜索引擎现有的商业模式，科技公司不得不自我革命。你也会这么认为吗？

张亚勤：我觉得不是。要是你没有这个产品的话，别人会革你的命。我们在搜索的时候，其实是在找知识，那现在有了生成式技术，它确实提供了一种找到知识的新能力。所以没办法，新技术来的时候，一个公司说我没有，那只能说太糟了。

但是有这个技术的话，生成本身又需要花很多钱，这也是谷歌遇到的问题。谷歌在搜索市场占有93%的份额，微软只占3%，那3%的份额加点东西可能没关系，93%的份额就要用很多算力，就会影响利润。从这个角度说，所谓的颠覆市场可能是因为，我们俩做一模一样的生意，但你谷歌的份额太高了，要比我（微软）的成本高得多，微软等于没什么可失去的。在中国的话，百度可能会有优势，因为它正好搜索和人工智能都很强，短期里挑战它的公司不太多。但我想，有公司挑战不是坏事，还是需要一些竞争的。

后ChatGPT时代，中国AI产业的机遇

三联生活周刊：百度发布文心一言大模型后，吸引了大量的关注和讨论。实际上，自从ChatGPT推出，很多人就在问，国内什么时候能有一个自己的ChatGPT。中国一定需要能和ChatGPT对标的产品吗？国内大模型中文能力更强的原因可能是什么？

张亚勤：首先，我觉得这种多模态、预训练的大模型，特别是基于Transformer模型的，技术还会向前演进，所以不论是产品还是系统，肯定会出现不止一个。而由于地域的区别和限制，中国会有自己的类似ChatGPT的产品，或者自己的操作系统。就像云一样，美国有至少5个云，中国也有好多云，大家都会存在。

仔细看一下，你会发现ChatGPT中文做得也很好。这点其实很有意思，因为Transformer模型一开始是用于翻译的，在训练的时候就用了各种不同的语言。但它不仅仅是可以用很多语言工作，还在语言映射之间找到了结构，学到了语法、语义。所以，模型被训练的语言越多，其实会越好。如果要做中文大模型，最好里面也有英文和其他语言。

尽管我在百度曾经做过五年总裁，但我对百度目前的产品和技术不了解，所以关于文心一言的细节你要问李彦宏。百度是在2018年就开始做这个大模型（ERNIE），在那前一年，Google发布了Transformer模型（BERT）。百度在人工智能方面的实力最强，投入时间也最长。因为做搜索和推荐最需要AI，它也做各种各样的AI产品，比如小度、无人驾驶、智能云，等等。所以大模型背后的技术是它必然涉及的。我认为ChatGPT的“灯塔效应”使得包括百度在内的很多公司都发力了。中国最终会有多个横向的大模型，百度有先发优势。

三联生活周刊：有人会觉得文心一言很明显还不够成熟，推出得有点着急。当然，模型的迭代有赖于人的反馈，很多技术上的考虑，普通人可能之前不是很了解。

张亚勤：我觉得一个产品成熟起来的最好方式，就是让大家使用，用了之后，公司知道了反馈，相当于大家一起帮助这个产品做得更好。事实上，ChatGPT很好的一点就在于，它让整个行业意识到，原来很多不成熟的东西大家是可以接受的。谷歌研发这个东西的时间最长，它为什么不敢推一个产品出来？因为大公司会害怕产品不完善、会犯错，而ChatGPT相当于提供了一个用户的标准。包括ChatGPT为什么是由OpenAI推出来而不是和微软一起发布？其实微软已经一直在产品中集成GPT4.0，看到ChatGPT用户反馈好，微软马上光速推出，但它其实早就可以这么做。但大公司有时候会因为搞不清市场的接受度在哪里，比较谨慎。

因为我已经不在百度工作了，细节我不太知道，但我想，百度肯定是在比较之后，认为用户应该是可以接受的。推出之后，显然产品不完美，但是很多人会发现价值，会去使用。所以我觉得，这个推出的时间还是对的。GPT4和微软的搜索结合起来的时候，在美国也有各种各样的调侃。我觉得这些都正常，关键是要看主流是什么，它有没有价值。如果它有问题，也有价值，但价值大于问题，大家就会用。如果都是问题，没什么价值，这个产品自然而然就没人用了。

三联生活周刊：无论用ChatGPT还是文心一言，很多人都热衷于比较中英文回答的差异。一些分析也提出，中文的自然语言处理可能面临数据的局限，互联网上中文语料的数量和质量都不如英文语料。数据会成为中国研发这类大模型的限制吗？

张亚勤：这是个好问题。我不认为目前的模型用尽了所有的数据。现在我们生成的数据基本每一年都要翻倍，速度比摩尔定律要快，这适用于英文也适用于中文。中文语料的绝对数量可能少一些，但我不认为目前是个限制，也不认为以后会成为限制。有两个原因。第一，可以用英文以及别的语言去训练语言模型。第二，以后模型里面的大部分数据未必是语言，输入输出都可以是多模态的，视频、语音都可以放进去做训练。就像我们正在讲话，有语言的交互，但视觉所产生的信息量其实也很大。我们现在看到的数据很多都还是用户自然生成的数据、机器生成的数据，但还有很多关于物理世界的数据，比如说开车，车里产生的数据量每天是TB级别的，生物世界也产生很高量级的数据量。总之，数据量是很大的，我不认为这会是一个大的瓶颈。

但很重要的是，怎么用好数据。ChatGPT能做这么好，其实是在外围花了很多工夫。数据来了之后怎么清洗？怎样做半监督的学习？他们做了很多这类调试，包括在肯尼亚雇了很多人做各种标注、调试，还用了刚才提到的由人类反馈的强化学习，相当于我们每次用它都在反馈。所以，除了最重要的模型训练，这些环节也很重要。

三联生活周刊：关于哪几家公司会成为国内大模型的头部玩家，现在众说纷纭。有人说只有云计算厂家才有足够的算力基础，有人说拥有超级APP的公司掌握了独家优质数据。做大模型需要怎样的“入场券”？在后ChatGPT时代，国内科技行业的最大机会可能在哪里？

张亚勤：我可以画张图来说这个问题。ChatGPT之后，整个行业的结构会变成什么样。

首先，最下面一层是云，这里面可能会有上万个GPU（图形处理器）或者XPU（某种处理器），表示算力。

接着往上一层是现行的IaaS（Infrastructure- as-a-Service，基础设施即服务）操作系统，包括计算、存储、网络、数据、安全……

这一层上面，就是我们现在讨论的基础模型（foundational model），或者说MaaS（Model-as-a-Service，模型即服务）。

在这个上面，还会有很多垂直基础模型（Vertical Foundational Model，VFM）。比如，自动驾驶的、蛋白质解析的、气象预报的、面向教育的……

这些垂直模型还可以相互结合起来，再形成不同的应用，也就是SaaS（Software-as-a-Service，软件即服务）。

那么这样看下来，基础模型这一层当然是有机会，也需要具备底层才能有入场券，但其实不需要那么多人去做这一层。大部分的机会在垂直基础模型这一层及以上的SaaS。

同时，要在部署端（电话、个人电脑、物联网、机器人、智能汽车等等组成的）把人工智能用上，需要做边缘的模型部署，这一块也存在很多工作。而且在部署端，模型不是越大越好，而是越小越好，越快越好。比如自动驾驶，你把模型部署到车的时候，不会在乎它会不会写诗，而是要精确，在最短的时间内能把车开好，延时越短越好。边缘的机会其实很大，所以我们现在在做边缘计算、边缘模型、模型交互、联邦学习、小模型。

我觉得，可能有几家中国公司都会做自己的系统，最有可能就是BAT（指百度、阿里巴巴、腾讯），还有字节跳动、华为都可能做。当然，初创公司如果能拿到百亿的投资也可以做，OpenAI就是这样起来的。但我觉得，大家不一定都要一窝蜂去做操作系统这一层，主要的机会还是在上面的应用。就像手机时代，大家不能都去做安卓、iOS，不去做头条、滴滴、淘宝了。当然，这个操作系统可能也不只有一家。

还有，同一个App也可以接入不同的系统，和不同的基础大模型结合起来。所以我觉得以后要考虑模型和模型之间的互动，怎么把它运用起来，在模型之间工作，怎样在模型里面把知识收集起来。

这样做的一大好处是，过去做什么应用都需要海量数据，现在很多基础数据通过预训练模型给你了，那么每家就可以结合自己的专有数据做fine-tuning（精调），做prompting（提示），做这种适应就行了。之前做个公司，最怕数据不够，因为数据散着或者在别的公司那里。那在这个新的生态里面，它的模型已经建好，甚至以后模型都不再需要那么多，可能从模型里面再抽取知识去用就可以了。

总之，我觉得有好多事可以做。ChatGPT的成功促进了整个行业的生态改变，带来新范式，这可能才是它真正的含义。

三联生活周刊：目前行业各部分的参与者处在什么样的状态？

张亚勤：ChatGPT出来之前，GPT3.0/3.5和生成式AI已经在业界引起很大关注，但美国已经很快就形成了产品，比如做图的DALL-E、Stable Diffusion、Midjourney，还有帮助生成文案的Jasper.ai，这些应用马上就实现了盈收，变成真正的公司了。

在中国的话，目前也有很多这样的公司。ChatGPT是一个信号，就是这东西行得通。所以现在中国的VC（风险投资）、高科技企业，都开始意识到这件事的重要性。反正这个月每天都有很多人找我，希望给我们学院的团队投资，因为我们一直在从事这方面的工作。

现在大家都说想做大模型，可能只是“大模型”听起来比较容易理解，未必是非要自己做那个平台性的大模型，而是要去做上面的应用，或者某一个垂直行业的模型。我想创业者最终都会调整好方向，找到不同的东西去做。目前大家都很兴奋，每天绝对不无聊。

在基础技术上下工夫

三联生活周刊：在大国竞争的背景下，GPT这类技术在早期就展现出这么强大的实力，战略意义不言而喻。但我们在某些环节上可能受到一定限制，比如芯片的进口。你会怎么看待这些问题？

张亚勤：这些都要考虑的。像2017年我还在百度的时候为什么决定自己做昆仑芯片？那时就是我们所有AI任务的训练都需要大量的算力，买的GPU太贵，供不应求，而且对我们的具体任务也不是最优的。我们就决定自己做，开始给内部业务，后来变成独立公司。

芯片的问题是个很复杂的问题。除了设计，还有光刻机、制程、EDA等问题。我们需要在基础的技术方面进行长期和有耐心的投入，以及扎扎实实的研发，没有捷径。

三联生活周刊：和之前几次行业变革发生时相比，这次中国的位置有什么不同，在积累上有什么不一样？

张亚勤：在PC和互联网时代刚开始的时候，中国基本上什么都没有，所以全是copy to China（复制到中国）的。美国有什么，我们copy什么。到了移动互联网的时代，中国在一些领域做得比美国要好，比如说5G、移动支付、微信、短视频等。

那么到现在，我们经过这两次大的产业升级之后，中国在数字化支付、网络、用户终端，基本上都和美国在同一阵线，比其他所有国家都要好。我们在最高端的计算芯片、算法系统和一些大的平台性技术方面，现在感觉到是有些距离。但我觉得中国的创业者、工程师和科研人员，一旦把资源集中，并且有耐心，是可以赶上的。有很多挑战，但我还是充满信心。

三联生活周刊：在williamhill官网智能产业研究院（AIR），产业内正在发生的变化会怎样体现在工作中？

张亚勤：对我们来讲，我们一直在做这事。我们没有做那种超大规模的模型，集团做不合适，我们也不可能买上万个A100/H100，但是我们一直在做多模态、强化学习、联邦学习、生成技术、自动驾驶和机器人。如果说改变的话，更多的是可以假定一个大的平台已经存在了，在这个平台上，可以做更多的新研究。我们现在很多东西不再用自己做，可以用横向的模型。实际上，我们每个团队都在研究，怎么能把这个东西融入到工作里面，这两三个月做了很多这样的讨论。对所有做研究、做产品开发的人来说，面对ChatGPT都一样震撼，我们看到大家对AI更有信心了，整个市场，不管是投资人也好，企业也好，政府也好，都知道这个东西是这样一个大的革新力量。我从2016年一直在讲，人工智能是第四次工业革命的技术引擎，是我们这个时代最大的技术变革力量，听的人有的信，有的不信，但现在大家都看到了AI的力量。而且AI现在所展现的只是冰山一角。

三联生活周刊：你之前一直在产业的前沿，但这次的变革发生时在学院里面，会感到稍有遗憾吗？还是说，在如今这个位置上，可以做你更感兴趣的事情？

张亚勤：其实有好多人问我，你怎么不下场？我觉得，现在只是处在这个场的不同地方了。培养人做研究、和企业一块创新，本来就是我这个时间想做的事。企业相当于前线，我们在后方和它们一起合作，都在“场”里面，也感觉挺好的。而且我们现在每天都在和公司一起讨论，一起规划，一起研发。这是我们和企业合作的模式。

三联生活周刊：这是williamhill官网智能产业研究院（AIR）比较独特的模式吗？国内的产学研结合目前处于一个怎样的水平？

张亚勤：我觉得是因为我们与产业联合得更紧密一些，这也是为什么我们叫智能产业研究院。

国内产学研的结合整个做得还是不好，我也不能讲美国做得有多好，但我觉得中国整体改善的空间还很大。因为大部分公司想的还是今天的产品，这样它就觉得离“研”比较远。如果公司很大，它能想到明天的下一代产品，甚至想到后天的产品，这个时候公司就会想到和集团合作，因为集团在做最前沿的研究。但如果你就想做今天的产品，集团也做不好，因为它不是做产品的地方。所以研究和产业自然就没法结合好。

在美国的话，很多公司像微软一样，自身就有研究院，想问题会想得很长远。还有很多制药公司对研发投入巨大，而且会看10年之后怎么办，可能是因为一种药只能占领市场10年。那么这个时候，产学研的合作就比较容易一些。国内还是需要时间。我觉得也是自然而然有的，10年甚至5年前，都很难和国内企业合作。现在发现比原来好一些了，但是没那么完美，一点一点来。

编辑：李华山

2023年04月03日 08:16:35