周末相信,就算是不喜欢荣誉手机的人。
在得知荣誉手机的性能后,肯定也会为之刮目相看。
接下来,就是显卡和星云聊天机器人了。
在目前市面上,还没有太多公司发现显卡的重要性。
也没有人意识到,显卡是大模型训练非常重要的一个关键点。
不过,只要星海科技在发布会上推出了星云聊天机器人。
周末再介绍如何对聊天机器人进行训练后。
周末相信,购买他们公司先开的肯定会乐绎不绝。
显卡对于大模型至关重要,是大模型训练与部署的基石。
显卡可以提供强大并行计算能力。
AI模型训练本质上是大量矩阵乘法和张量计算。
与传统cpU相比,GpU能够并行处理数以千计的计算任务。
其通过成百上千个cUdA核心并行处理,在矩阵运算上效率远超cpU。
例如,一张NVIdIA A100显卡的浮点运算能力可达312 tFLopS,是传统高端cpU的几十倍。
大模型的参数和训练数据往往无法装载在一块显卡的显存中,需要借助多GpU集群进行训练。
此时,显卡的通信性能成为影响训练效率的关键。
支持多卡并行的显卡架构,如NVIdIA的NVLk技术,使得多GpU之间的通信延迟大幅降低,模型切分更加高效。
为了满足大模型对显存的高需求,AI大模型通常需要占用大量显存。
例如,训练一个130b参数规模的语言模型,至少需要每卡80Gb以上的显存,否则很难存储前向传播和反向传播的梯度数据。
高端GpU和消费级GpU都在支持模型训练方面发挥着不同程度的作用。
模型训练完成后,进入推理部署阶段,虽然对算力的要求相对较低,但响应速度、并发请求能力、功耗等因素对GpU提出了新的要求。
例如利用INt8量化后,Gpt-3模型能在仅16Gb显存的显卡上运行,极大降低了对硬件的依赖。
目前市面上,最先进的显卡就是星海科技的显卡。
当然了,星海科技在最初,使用的还是英伟达的显卡。
周末通过自己的指点,让研发人员提前好几年研发出了用更少的算力来实现大模型的训练。
这在后来,也是非常恐怖的发现。
因为要知道,那个时候,阿美莉卡都准备对全球输出算力了。
可是最终,在2025年初的时候,直接被东大的dS给打懵了。
dS-V3是dS于2024年12月26日发布的模型,其基座模型采用了混合专家机制,总共有6710亿参数。
该模型在2048块英伟达h800 GpU集群上完成训练,在阿美莉卡数学竞赛和全国高中数学联赛上大幅超过其他所有开源闭源模型,生成吐字速度从20tpS大幅提高至60tpS。
dS-R1是基于dS-V3 base基座模型,通过纯强化学习方法训练出来的推理模型。
deepSeek团队仅用29.4万美元和极短的训练时间就训练出了该模型,极大地降低了顶级AI模型的研发门槛。
dS最终证明了,训练大模型根本不需要这么多功能强大的显卡!
dS训练大模型使用的算力,只是ta的1\/11,甚至十分之一都不到。
但是dS的性能却赶上了世界先进水平。
不过其他公司并不知道这种情况。
这就给了星海科技收割其他科技公司的机会!
星海科技这次可不会手软的!