戏说ChatGPT八
安 文
不出所料,两会高度关注数字中国战略及其相关产业生态体系建设,人工智能产业ChatGPT更引发热烈讨论。ChatGPT人机交互水平极高,核心是用海量数据和海量算力对算法模型进行重投入的长期训练,系统性提升底层技术能力。而在AI领域,限于经济发展阶段,中国科技企业目前更多注重实际场景应用,国内底层技术和国外相比还存在不小的差距,如不及时补缺,将限制产业数字化发展空间,甚至类似ChatGPT的大规模预训练模型本身也会成为“卡脖子”技术。目前ChatGPT产业生态体系建设存在三大突出问题。
首先,“数据孤岛”问题突出。公共数据开放太少,产业数据共享太弱。美国2009年已建立全国性公共数据开放平台,整合了来自各公共部门、各级政府、自愿参与的企业与大学的所有开放数据,截至目前已有33.5万个数据集,涉及农业、商业、教育、能源、制造业、科研等多个领域。相比之下,我国数据开放起步较晚、进展较慢,目前相关数据公开以地方为主,还没有全国性平台,较难满足跨地区、跨部门、跨层级数据综合分析需求。
其次,开源体系建设基础薄弱。ChatGPT并非从零开始,而是在谷歌Transformer模型基础上迭代多次发展而来,是站在全球众多开源贡献者肩膀上出现的。目前发达国家已形成成熟开源生态,令开源项目基本覆盖当下主流技术领域,通过“集众智”模式突破单一组织边界和资源限制,加速算法生产和迭代,实现持续创新。目前我国开源社区、开源平台等组织建设仍处在起步阶段,基础相对薄弱,优秀开源项目总体较少,未能充分融入全球开源开发体系。
最后是企业端智能算力成本较高。目前我国算力总规模已超140EFLOPS(每秒140百亿亿次浮点运算),算力规模排名全球第二。同时,我国实现目标算力的成本却高于国外,这与芯片技术密切相关,应该引起高度重视。因为未来数字经济是拼智能,如果人工智能领域落后,我国力推的数字经济将会打折扣,甚至会落伍。
基于ChatGPT产业生态体系建设这些现状,我们呼吁国内行业要从以下三方面携手共建开放共享协同的AI产业生态体系。
一是加快推动数据要素高效流通使用。要因地制宜,加快构建国家层面公共数据开放体系,深入推动公共数据跨层级、跨地域、跨部门有序共享和开发利用,提供统一规范高效的数据开放服务,释放公共数据红利。
二是加快推动开源体系建设。大力弘扬共建共创共享的开源文化,营造有利于开源发展的环境。完善开源知识产权和法律体系,为开源生态建设提供良好的制度基础。大力加强开源基金会建设,逐步放开对开源基金会设立的限制,鼓励社会资本参与。
三是加快推动智能算力服务体系建设。鼓励相关云服务企业与基础电信企业建设公共算力服务平台,提升公共算力服务水平,鼓励围绕训练、推理等人工智能领域实际算力需求,建设专用行业云及融合赋能应用平台,鼓励推出算力共享、算力错峰等新业务模式,进一步降低公共算力成本,实现普惠包容算力。