也说GPT之一:各国GPT实力现状(2)
安老师的学生
测试时间:2023年11月3日
晚上正准备吃饭,收到了表姐发来的微信,问我忙不忙,说如果有空的话让我帮忙看看外甥的卷子有没有做错的,她自己拿不准,害怕误导了孩子。外甥是她家二胎,今年五年级,五年级的题目本不会有多难,然而表姐已经丢了书本整整二十年,辅导起来难免有些吃力。
其实这也是很普遍的现象,真正能在学业上辅导孩子的家长并不在多数。小学能辅导的,到了初中又辅导不了了,初中能辅导的,到了高中也是犯难。如果家长本身不是211、985出来的,就意味着家长本人在18岁那年做高考的题目也不过得六七十分、四五十分(按满分100分算),在20年后,当年的知识也忘了七七八八了,又如何能来辅导别人。以江苏省为例,2022年211的录取率也不过5.19%,这意味着有能力把孩子从小学辅导到高中的家长也就5%左右。
表姐其实也是第一次向我求助,过去她在孩子教育这块儿都是放养,主要依仗学校老师,自己最多在假期的时候给孩子报个补习班就算完事,孩子成不成才皆是随缘,颇有点无为而治的意思。而我呢,因为叔家、姑家的弟弟妹妹们都是小时聪明,长大后却于上学读书一道一塌糊涂,所以我慢慢地就只关心他们未来的生计如何,对诸多晚辈们的上学读书就再也不关注了。一次跟我妈闲聊,意外得知表姐家的大女儿聪颖过人又沉稳内敛,爱学习也耐得住性子,故而成绩极好,在当地重点中学读书,我心想这或许是个读书种子,万不可再埋没了。于是我当时就给表姐打了电话,聊了一晚上,叮嘱她一定要把孩子的教育重视起来,又支招她应该如何从方方面面给孩子做好辅助工作,并承诺孩子有任何学习方面的问题都可以主动找我帮忙。本意是看重这外甥女,不料却为外甥先找了我,总之因这缘故有了微信找我这事。
言归正传。当时表姐发来了4张卷子照片,我花两分钟看完,一共22道题,错了两道,其中有一题本来是做对了的,然后又涂改掉,写了个错的。我随后将两道题的解题思路和详解回了过去,然后从表姐那儿得知那涂改掉的原本是外甥写的正确答案,表姐认为他答的不对,因为表姐用了一款名叫“作业帮”的app扫描了这些题,而这道题app给出的答案跟外甥的不同,外甥没法,遂改成了错的。我哑然失笑,由此可见表姐一开始的担心——“害怕自己拿不准,误导了孩子”是非常有道理的。
其实我的本意是在教育理念上帮她,教她如何引导孩子,如何辅助孩子,毕竟学习真真是孩子自己的事,外人能引导好、辅助好,孩子自然而然就成了才,事事都手把手,那成了填鸭,成了揠苗助长,孩子也成了提线傀儡,缺乏自主能力,那称不上是教育。很多家长正是因为没有引导好,最后孩子对学习丧失了兴趣和动力,也没有辅助好,甚至很多时候都是在拖后腿,比如管教过严或动辄责骂,对孩子的学习不但没有正向帮助,还给孩子徒增了很多心理压力,再比如安排了过多的作业,浪费了孩子的思考和消化知识的时间、消耗了孩子的专注力,让他本能学好却无法学好,这种家长的瞎干预还不如不干预来的好。
总之,我其实并不太愿意在具体的题目上去给他解惑的,一则与他意义不大,提升很有限,二则我也没那么多的闲空,三则如上面所说,家长能给孩子提供指导的,最终也就5%的比例,所以这个问题一定应该有别的更好的解决方法。依我看,某个题目做错了这样的小事,本该由他自己去探索去发现,或者由老师帮他答疑,或者同学间互相探讨、共同进步,再或者在当下这个科技进步的年代,他也可以借助于AI这样的工具。
用AI来辅助学习,我之前也给表姐推荐了很多次。在我看来,AI是当下解决教育不公问题的最好的工具之一。在教育这方面,城市跟农村之间有差距,重点学校跟普通学校之间有差距,碰到好的老师跟碰到一般的老师之间有差距,父母的教育背景之间有差距,可以购买到更好课外教育资源的有钱人跟穷人之间有差距,而AI,可以极大程度地拉小这些差距,弥补弱势方的先天资源不足,在这方面它有任何其他途径都无可比拟的效果!
于是为了给表姐推荐一款好用的AI工具,我又测试了一把目前市面上的主流大语言模型,用的就是外甥做错的那道题。
题目如下:
某市出租车按以下规定收费,收费标准如下:
3km及以内,10 元;
3km以上~15km部分,每千米1.2元(不足1km按1km计算);
15km以上部分,每千米1.5元(不足1km按 1km计算)。
问题:
(1)叔叔从家乘出租车到16.8km 外的公司,要花多少钱?
(2)叔叔上班下班一来回乘出租车需要花多少钱?
(3)叔叔乘该出租车花费 16 元,行驶的路程是?
本次分别选用了国内知名度最高的几个大模型,有百度的文心一言、阿里的通义千问、讯飞的星火大模型、字节跳动(抖音母公司)的豆包。
文心一言:三题全错!
第一题没有注意到不足一公里也按一公里计算,所以错误。
第二题算法错误。
第三题没有回答。
通义千问:对了半题。
前两题跟文心一言一样的错误,没有注意到不足一公里也按一公里计算,并且数值计算错误。
第三题结果答对,但过程有错误。
星火大模型:三题全错且错得离谱!!!
第一题错的很离谱。
第二题和第三题完全不知所云,离谱中的离谱。
豆包:三题全错!
前两题跟文心一言一样的错误,第三题不知所云,错的离谱。
本意给表姐推荐个国产大模型,因为这些产品在国内用起来方便,只要有个手机或者电脑就能直接使用,只是不料一个小学五年级题目,国产大模型竟全军覆没,最后无奈拿出美国佬的产品,OpenAI的ChatGPT。
GPT4:不出意外,三题全对,且答题过程规范、清晰,一目了然!
不得不令人唏嘘,中国人竟连个能辅导小学生学习的AI工具都没有,整天净看百度、讯飞之流天天吹牛逼了,个个声称赶超ChatGPT,结果拿来一用却是狗屎不如。
现下国家一直都在强调要实现教育公平,甚至为此直接对教培行业动了刀子,并且下各种举措来规范学校教育、提升教育水平,力求减少因城乡差距、贫富差距带来的教育不公,由此可见国家的决心。而这些在国内有垄断地位的互联网公司,却无视自己的社会责任,做一些草包产品来忽悠老百姓,企业的社会责任感何在?阿里的通义千问、字节的豆包、讯飞的星火,虽然垃圾,但是它是免费的,也不便过于苛责,而百度这么垃圾的文心一言,近期居然开始收费了,50块钱一个月,这是当中国的老百姓是傻子吗?企业的良心何在?
为了能真正有效地减少教育不公,我在此呼吁:
1.希望国产的大模型能够肩负起自己的社会责任,加大人力物力投入,做出真正对老百姓有利的产品。大模型的需求很大、市场很大,你只要能做好,不管多大的投入,最后都能有数倍、数十倍的收益赚回来。
2.希望国家能对国产大模型进行政策上的扶持,尤其是要给予其宽松的生存环境。生成式大模型在发展的过程中肯定会存在些许瑕疵,如果他们的产品出现一点瑕疵就对其进行严厉的处罚,使其运营风险远大于收益,那就严重地打击了他们的积极性,他们压根就不愿也不敢投入太多,宁肯自断双臂,只求糊弄了事。
3.希望国家能重视生成式大模型对国家的重大意义。它不管在教育方面还是在医疗、科研、文化、工作效率提升等方面都有着不可忽视的重要作用,是不可或缺的生产工具,是新时代国家基础建设的重要组成部分。我建议国家或者地方政府成立国有企业,利用政府资源研发国有GPT,本人在GPT研发之难的系列文章里已经提到了一些GPT研发的难点,这些难点从企业层面去解决是非常难的(这也是百度之流做不出好用的GPT的原因),而从政府层面去解决却是非常容易的,不管是语料问题、还是投入问题、还是监管问题,政府来做会比百度、讯飞之流要强得多,现在眼看着百度之流是指望不上了,只能指望政府了。过去十几年,地方政府的土地经济蒸蒸日上,现在正好是转型的契机,很多地方政府都在想尽办法发展高新技术产业,谋求产业升级,发展高质量GDP,AI正是高新技术产业里最耀眼的明星,正在当搞时。
4.希望国家能适当放宽对国外大模型产品的进入限制。目前来说,由于国家的信息安全和国家安全政策,国外的这些产品都是进入不到国内市场的,完全一刀切了。这在一开始,还是很无妨的,一来能保护国家安全和信息安全,二来能在国产大模型还不具竞争力的时候保护国产相关行业的发展,给其一个发展空间。这种做法在一开始是利大于弊,但是依现在的发展形势看来,国产大模型追赶无望,且产品质量低劣,不堪一用,我认为可以在强有力的监管下适当地放开国外大模型产品的进入,以惠及普通老百姓。生成式大模型是可以高度定制的,它的输出内容也是高度可控的,在强有力的监管下,它能带来的国家安全风险也是高度可控的。在强有力的监管下,取其利而避其害,岂不美哉?
总之,如果像我的外甥这样的小学生、中学生能用上GPT4这样高质量的大模型,不管是国产的也好,进口的也好,用上了那学习效率定会得到极大的提高,老师家长也少操心,教育公平也会更大程度地实现,全民素质也能顺带提升了。只是不知这一天,要等到何时?