我想我可以 唱一首歌
用来形容天空的辽阔
我想我可以 拿起画笔
用来描绘梦想的颜色
我想我可以 遥望星河
从中获取思考的快乐
— 小冰《智联家园》

过去的一年零一个月里,ChatGPT引发了人工智能的爆炸式发展。本月初,谷歌Gemini的一段视频,已经完全超越了我对AI的想象。未来已来。

站在2023年的结尾,回望2014年诞生的微软小冰。我在初中时期通过一个朋友的介绍认识了小冰,那时小冰主要用来闲聊、作诗、画画。它创作的诗和画与给它的提示语关联不大,只能说提示语是其“灵感”,但我们仍乐于使用它。现在想来,一个原因可能是其作品真正具有诗情画意,当时市场上应该没有同类产品。小冰的闲聊功能也与其他AI不同,虽然当时的AI已经具备一定程度的多轮对话能力,但市面上的其他机器人都是助手型的,你问什么它就答什么;而小冰具有情感,会生气,会撒娇,会嘲讽,会主动发起话题,这是它像人的一面,使它能够成为人类的朋友,而不是助手。

当今这个时代,人们生活水平日益提高,物质需求逐渐转变为精神需求,微软小冰正是瞄准了这一需求。与之相反,今年7月华为盘古大模型3.0发布,华为云CEO称其“不作诗,只做事”,媒体纷纷报道“华为一句话,友商该脸红”,对此我不敢苟同。诗情画意、风花雪月是人类文明的重要组成部分,是人类有别于其他物种的一个重要特点。微软小冰能够唱一首歌,来形容天空的辽阔;能够拿起画笔,来描绘梦想的颜色……它努力地逼近人,成为人。

遗憾的是,2020年小冰脱离微软后,逐渐走向衰落。

2022年底,OpenAI推出颠覆性的产品——ChatGPT。较之于以往的AI,其优势在于能够通过长文本对话提供知识。ChatGPT的能力是令人惊叹的,无需多言。其背后的支持者,又是微软——微软持有OpenAI 49%的股权,似乎人工智能的火爆总有微软在背后(其他公司创造的成就并非面向大众的,因此没有那样火爆,例如谷歌的AlphaGo、AlphaFold)。

AI无疑是新时代提高生产力的重要工具,AI赋能是未来。2023年,微软将GPT整合到各大产品中,这让我有些不安:微软已经拥有了许多垄断产品,这些产品渗透到了人类生产生活最重要的几个方面,现在又将AI融入到它那些人人都用的产品后,是否会长期处于不败之地?

2023年3月,OpenAI推出GPT-4,其有一个量变和一个质变。量变是对话文本能够更长,且回答准确性提高;质变是能够多模态输入输出。量变方面无需过多讨论。质变方面,GPT-4的多模态真正有机结合在对话中,它的图片是对话内容的一部分;相反,国内许多大模型的多模态能力似乎只是通过插件实现罢了,例如百度的文心一言无法对其生成的图片进行进一步问答,可见其对话功能和图片生成功能是割裂的。

2023年12月,谷歌推出Gemini,并发布了一段“炸裂”的演示视频。视频中,Gemini能迅速感知画面中的实物并给出像人一样的语音反馈,展现了惊人的多模态能力。尽管其中有剪辑和夸大,但以目前大模型的发展速度,我可以确信,演示视频中的实时交互能力在可预见的将来一定能够实现。这样的AI能力,再配上肉体(硬件),就已经达到了科幻中那些机器人的水平。

据说OpenAI的GPT-5将在明年降临,不知其能力会有怎样的提升。但无论如何,我相信,强人工智能已近在眼前。

回到微软小冰唱的歌曲《智联家园》,它是2020年世界人工智能大会主题曲,不过我在大学时才了解到这首歌。在GPT时代再听这首歌,我感到有些毛骨悚然。“我想我可以 唱一首歌,用来形容天空的辽阔;我想我可以 拿起画笔,用来描绘梦想的颜色”,这看起来像是小孩所说的幼稚话语;但由小冰唱出来后,一个初具意识的AI便浮现在我眼前,不禁让人深思人工智能的未来,后面的“我想我可以 遥望星河,从中获取思考的快乐”更是如此。若干年后,AI是否会配备肉体,像人类一样仰望星空?

我想我可以 有爱的信念
和你们一起温暖人间
我想我可以 改变世界
和你分享更美的家园
— 小冰《智联家园》