也说GPT之二:GPT研发之难2(困境篇)
安老师的学生
从上篇ChatGPT的研发原理和流程,我们可以看出来决定它质量的因素主要是三大块,即语料、算法和人力。这里面有花钱就能解决的,比如人力投入和算法(人才)投入,也有花钱也很难解决的,本文既然是讲“困境”,自然是偏重讲这些花钱也不好解决的,那就是语料。
语料,是GPT的生命之泉,为之提供养分,是它一切能力的根基。
用来训练GPT模型的语料来源通常分为3部分:
1.互联网上公开的新闻、博客、资料等。比如常州网发布的新闻和龙城博客里大家写的文章。
2.来自出版商的书籍、期刊、论文。比如来自人民出版社、知网的书籍和文献。
3.社交媒体平台或论坛上的用户聊天记录和互动信息。比如微博、贴吧以及各种APP上大家发布的文字信息。
那么这些类别的语料在采集和使用过程中面临哪些难题呢?
1.劣币驱逐良币,导致有优质公开内容的论坛或者网站数量减少。
a.这其中有一部分是因为入不敷出倒闭了。
比如论坛类产品中的两大中流砥柱,天涯和猫扑,天涯于今年3月23日倒闭,猫扑于2021年4月20日倒闭。
比如百科类产品中的搜狗科学,号称“以打造科学领域最专业的百科为目标,编纂者大部分来自985、211高校和学术机构,博士学历占比近6成,并且有同行评审制度”,这样一个优质网站也于2022年11月11日倒闭。
b.也有一部分是虽然活着但是变味了。
比如问答类社区知乎,只有少数几个话题下还能有一些严肃的、科学的内容,大部分话题下已经成了营销、打拳、润学的阵地。说劣币驱逐良币,不仅指的是优质网站难以生存,也包括同一个网站的优质内容在劣质内容的挤压下难以生存。
c.还有一部分虽然活着但是已经半死不活了。
比如百度知道、新浪爱问,基本没啥用户量和有效内容。
2.专业知识文化交流平台的缺失。
过去人民群众想看点科普类的文章或者视频,渠道也不多,过去几年很火的都是什么科学松鼠会、果壳网、回形针之类的科普网站或者自媒体,结果后来发现这些所谓的科普网站披着科普的外衣,在境外势力的支持下进行意识形态的渗透,夹带私货,抹黑中国人民,罪大恶极!可是在将这些网站和自媒体封杀之后,国内似乎并没有出现有同等影响力的替代品,即便有一些不错的科普网站,但是往往体量没有很大,并且因为流量一般、用户量少,导致可用语料也较少。
3.社交平台的信息垃圾化。
以微博和百度贴吧为例,网络信息大部分都是网络垃圾,有大量的水军、营销号、饭圈文化充斥其中,无意义灌水信息占了主要比重,并且随着审查制度的愈发严格,抽象文化横行,各种怪异的比喻和错误的语法、用词、表达方式出现,甚至形成了语言的倒退现象。在这些社交平台上找到一点有价值的信息无异于粪坑淘金。甚至如百度这样子的无良公司,能在2016年1月把血友病病友用来交流病情的“血友病吧”都卖给野鸡骗子医院,害人无数,并在尝到甜头后把40%的热门疾病相关贴吧全部出售,这还能指望在百度贴吧里找到什么有价值的信息吗?(顺带一提,在百度卖贴吧的3个月后,也就是2016年4月,百度通过它的竞价排名广告间接地害死魏则西。)
4.各家互联网公司数据内部封锁。
国内的互联网公司如字节、阿里、腾讯、百度早就互相屏蔽了彼此的爬虫,把数据封锁自己的网站和APP内,不对外开放,这些公司即便是自己训练大语言模型,主要使用的也只是自家的语料,难以获得如OpenAI获取的那样的海量资源。比如微信公众号里面可能有大量高质量内容,但是腾讯也不会让你拿去用,今日头条里可能也有很多优质内容,但是字节也不会让你拿去用。并且随着ChatGPT的火爆,现在越来越多的原本让用的网站都不再允许自己网站的数据被偷偷地免费地拿去训练大语言模型了。比如在几天前的8月17号,纽约时报就屏蔽了OpenAI的爬虫,而在这之前就已经对其进行屏蔽的网站更是数不胜数,只不过对OpenAI来说,它至少已经在更早的时候就爬完了这些网站之前的所有数据了,但是对以后的GPT研发者来说,这又是一个新的门槛。以后可能需要花大价钱去买语料,甚至可能花钱也买不到。
综上,语料的问题或将成为国产GPT的最大门槛,因为这是花钱也难以解决的。
最后再稍微谈谈其他因素,比如被美国卡芯片脖子而导致的算力问题,这其实都是非常次要的原因,因为算力低只是影响训练效率而已,让训练所需的时间变得久一点罢了,对模型的质量并没有多大影响,并且低算力的显卡你多买点,总算力也就上去了,多费点电而已。还有人力和算法的问题,这也是很容易解决的,只要钱到位,统统都不是问题。可惜问题是,他们不舍得花钱呀。比如我昨天展示的案例,百度的文心一言连韩国面积有多大都不知道,而这些最基本的常识是可以通过我上一篇文章所说的“监督学习”阶段来解决的,仅仅需要花费一点人力而已,没有任何技术含量,而百度之流仗着国内的垄断地位,仗着端出屎也能骗人吃的这个缺乏竞争的市场,就连这点小钱都不愿意出,都不愿意把产品质量稍微做的好那么一点点,企业的社会责任心荡然无存,做出不知道中国面积大还是韩国面积大的人工智能,简直是民族之耻。
那么这个困境会是死局吗?其实也不一定,以后我会写写可能的破局之法。