也说GPT之一:各国GPT实力现状
安老师的学生
要说2023年什么最火,人工智能无疑是其中最耀眼的一个。从大语言模型到多模态,各家优秀的公司做出了各种各样的优秀产品,可以轻而易举地帮人生成高质量的文字、图片、音频、视频,让无数人工作、学习的效率得到了极大提高。而在这一众工具里,最广为人知的一类就是GPT,GPT全称“Generative Pre-Trained Transformer”,翻译成中文就是“生成式的预训练模型”,可以通过生成文字跟人类对话聊天、提供知识、解答疑问、生成代码,甚至完成一些高难度的任务分解和有深度的思想交流,在学习教育、AIGC、编程、医疗、金融等领域都有广泛应用,不但被很多人认为是强有力的生产工具,甚至被一些人看作是国家基础设施的重要组成部分,而本文将会就GPT带来的一系列发展和变革展开探索和讨论。
目前市面上GPT类产品层出不穷,光我知道的起码有四五十种,亲身体验过的也有十好几种,这些产品的质量良莠不齐,有的令人惊艳,有的不堪一用。从事实出发,美国无疑是这个行业的领跑者,大部分优秀的产品都来自美国,中国作为紧跟其后的追赶者也很快做出了一大堆类似产品,比如百度李彦宏号称跟ChatGPT只有两个月差距的文心一言,还有阿里巴巴达摩院出品的通义千问,那么它们的质量到底如何呢?是骡子是马,今天给它们拉出来遛遛。
本次用来对比的产品选择了用户最多和知名度最高的几款产品,其中有:OpenAI的ChatGPT,微软的New Bing,谷歌的巴德,百度的文心一言,阿里的通义千问,由本人亲自提问测试。
测试时间为:2023年8月21日21点。
测试问题为常识题:“韩国跟中国哪个面积大?”
正确答案应为:中国面积大。(韩国的面积为 10.329 万平方公里,中国的面积为 960 万平方公里)
测试结果如下:
OpenAI ChatGPT
(答案完全正确)
微软 New Bing
(答案完全正确)
谷歌 巴德
(面积回答正确,但是把96倍算成了9.6倍)
百度 文心一言
(直接无法回答,也没有提供面积数据)
阿里 通义千问
(韩国面积回答错误)
从上面可以看出来,即便是最简单的常识题,国产的两个GPT也是完全不可用的状态,说是垃圾废物也不为过。至于百度李彦宏的自吹自擂也是被业内人当做了笑话,甚至被搜狗王小川公开嘲笑。可怕的是李彦宏还声称要把它的文心一言用在医疗领域,这是还想再多害死几个魏则西吗?
那么为什么如百度、阿里这样的科技公司都做不出个像样的GPT产品呢?GPT到底难在哪里?下一篇将会讨论这个问题。