中国的AI到底是不是独立于ChatGPT这个各大公司自己应该有底,人类的知识都是积累于前人再有新创造,如果没有open source项目,我们的AI是否能如此快速的跟上这个不好说,open source项目的兴起促进了人类智慧的跨国界发展,让各国技术人员少走了很多弯路。智能电视的内核就是最好的例子,核心是在Open source项目linux操作系统派生出的安卓平台,OpenAI起步时就是一个Open Source项目,中文AI大概率是借用了Open Source的代码发展起来的,完全独立重新搞一套经济成本、时间成本、算力成本都不足以满足中国科技跟上国际发展的要求。

中文AI大模型的关口是中文语义的算法,如同当年中文输入法本来是中国在计算机领域的一个门户一样。AI的突破发展是以西语培训出来的,中文培训资料的占比当时据说不到1%,国内各大研究机构、大学、公司进行的中文大模型训练,对中文语义理解的算法才是我们的技术关口,因为中国市场或是中文市场最大的中文数字化资源在中国,AI只有在足够的语言数字化的条件下才能训练出来,小语种你想训练AI都会因为样本不够多而无法实现AI化。

如果以AI为基础,回看科技的发展,简单概括如下:

机械化:通过一套物理机构完成某种重复性人工任务,如农田灌溉用的水车,运输用的火车、螺旋桨飞机,汽车,机床等;

自动化:在机械化基础上添加各种传感器,通过传感器的数据使用机械可执行的可编程操作完成一些精细化的条件任务,如数控机床,程控电话,自动档汽车,喷气式飞机等

智能化:以自动化为基础,通过机械可理解的可编程控制器完成一些模糊化的、多条件并行的复杂任务,如飞控系统,宇航、发射系统,工业机器人,扫地机器人,交通违章监控系统等

人工智能化:是以自动化为基础,让自动化系统可以理解人类语言并执行相应的各种复杂任务。

从以上的概括中可以看到,人工智能是基于让机器理解人类语言来实现代替人类完成任务。所以一种语言的数据化越大越多,可人工化越容易进行。互联网是以英语为基础发展起来的西语种数据源,AI学习的语言模式主要是以英文为基础,中文是全球上使用最多的语言之一,中文资源中国也是最多的,训练AI理解中文,或是说建立中文大模型是中国的天生优势,谷歌的Gmini调用百度的文心一言更客观的说是百度的中文大模型数据比谷歌样本更多,语义理解更准确,而不一定如宋科言所说的中国的AI独树一帜、自成体系,如果是自成体系就不存在谷歌的AI去调用百度的中文模型。

作者 阿彬

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注