励算科技近期调研纪要
- 2025-09-09 22:49:50
- 743
广东
团队背景:S3从2002年成立,上海分公司,最多200-300人,主要做软件、图形API适配,当时从Windows98,做DirectX适配。中间经历威盛(有x86授权)收购,和上海国资委成立兆芯,后又出来成立格兰菲,后又到中天恒星,后2021年独立出来自己干,现在在上海、南京,现在100人中肯定有至少10来个S3专家,这些人来砺算就是认可宣总。研发投入:融资6亿,目前差不多消耗了这么多,真正有效投入5亿,中间有7-8个月处于经营很困难的状态。流片1亿,外部IP1000w$(PCIe、GDDR等),其他是团队运营费用(3亿+)。
Q:怎么理解低投入、高产出?
A:砺算的硬件团队配置核心就20人左右,memory2-3人,PCIe2-3人,Codec2-3人,GPU核心10人,这些不需要培养梯队,下一代还是这一批人,但不能同时做两代产品;软件人多,也需要培养梯队。不理解其他厂商为什么投入这么多,可能购买的IP是自己不熟悉的IP,需要从头开始理解。其实GPU最大的投入在后期与客户适配。从零开始做软件会比较难,但如果有经验的话,100人做三年是可以做到兼容市面主流的图形API。同时,GPU架构比CPU简单,设计出一条管线,再复制,再做好核间通信等。
产品性能评判参数:摩尔线程S80比较高,8个IMG核处理器,面积比较大,功耗比砺算高,理论算力号称14.4,等同4060,像素渲染和纹理填充也比较高,显存搭配16G(同档次产品是最高的);7G106显存少4个G,算力17-18(游戏一般用FP32精度),像素和纹理填充低于摩尔线程。因此参数上,摩尔线程>7G106>4060(4nm)。
效果:与参数反之,英伟达软件效率体现在各方面,除了专业应用吃显存,大多数游戏也是4060效果比较好,7G106能做到85-95%,有时候能超过一点。专业应用上,7G显存大,比4060好一点。摩尔线程差距更大,8个IMG核心拼凑起来,中间有通信效率问题,所以除了部分优化过的跑分和优化过的游戏外,其他的不太好。我们认为他们出在软硬件协同优化问题。
定价策略:成本高于英伟达,所以不太会牺牲太多利润。摩尔当年起售价2999,送一个主板(主板900),可以理解为单卡2000。专家不是销售,推测可能2000上下。专业级的版本会贵一些,显存大,芯片大,对标英伟达A4000水平,价格估计类似。
市场推广与竞对两类市场:1)消费级市场很难,不如英伟达,可能国内有些人会买,但不会成为主流消费。2)专业卡方面(信创升级版),会是比较好的市场,比如国产CAD、作图、点云处理。拓展方向和目标市场空间:专业方面(信创)的应用为主,消费级市场为辅。信创市场,目前国产卡往上、英伟达的卡往下有几十万卡的需求,这样的话团队规模翻倍也是可以实现盈亏平衡的。信创的八大行业有国产化需求,作图、设计、虚拟现实、医疗CT,现在很多都在用英伟达、AMD,我们会做国产替代,摩尔线程/景嘉微现在达不到需求。
Q:联想?A:肯定有,但不知道到什么阶段了。产品节奏:老板说9月量产,如果9月初送过去,年底回片,1个月测试生产,春节前后就能出货(在不delay的前提下)。
下一代目前还不清楚具体规划,有可能26年底/27年才会去推下一代。下一代产品方向:研发人员明年估计要加百十来人。下一代产品会命名为G200系列,架构会发生一定的变化,提升效率,软件协同的过程中有发现一些更好的地方。软件招人,应对应用软件适配工作。
是否考虑做AI方向GPGPU?
台积电300mm2已经限死,顶多4070Ti水平,目前没听到规划搞GPGPU,除非回到国内。晶圆厂选择:本来今年更早能回片,拖到现在就是因为中美原因,一开始要求不超过300,然后就各种查要求,后来封测白名单,遇到排产问题。国内流片渠道的考虑一直都有,但不到万不得已不会去,产能紧张,良率低,在消费级市场很难竞争了。
现在这一代做AI训练、推理的能力:
1)训练肯定做不了,对卡间互连要求非常高,远期也没有规划这方面能力。2)推理已经展示AIPC的功能,对DeepSeek也有支持,办公没有问题。3)我们完全支持OpenCL,对工业CV质检类场景如果有人去开发也没有问题。4)超分辨率(类似于英伟达DLSS)本身也是基于AI计算对于游戏分辨率的提升,这方面也会有布局。计算核心CUDAcore负责通用计算,Tensorcore负责AI处理。现在英伟达都比较融合了,CUDAcore可以跑通用计算+AI处理,但是AI效率还是Tensorcore更高。砺算也采用两种core的架构,砺算的shadercore相当于英伟达的CUDAcore。后续提升是否等比例提升不知道,但大概率不会破坏原有比例。CUDA生态:没有考虑适配CUDA,有些同事从AIGPU的公司过来的,他们反馈CUDA转译效率很低,工作量很大,也不是AI卡,所以把AIPC方面的功能支持好就行。
光追:听说下一代会有,看面积会不会超。理论上4090以下的产品加光追没什么意义,下一代肯定也不会超过4090的水平。AMD被人诟病的掉驱动问题,砺算有遇到吗?暂时无法回答,现在没有掉,但后续开卖不保证。目前测试次数太少,需要百万玩家去做才能发现这类问题。DLSS技术:公司类似DLSS的技术目前只能做2倍插帧,对标前两代,也有拖影现象(AMD也有拖影,英伟达前两代也有拖影,除非客户针对那个游戏进行训练,否则确实解决不了)。英伟达的水平需要强大的推理能力+软件游戏方面针对性的支持,我们现在只能先用通用模型(大量游戏影像画面训练出来模型),去做插帧工作。3A实测:黑神话1080P下70帧,那个就是原始帧。开插帧应该不会那么差,4K高画质能做到40-50帧。实际使用建议开DLSS,肯定会更流畅,拖影问题只要不是那么高清的显示器、人盯着看,就不会影响。
网游实测:有测试过,但不多,目前效果都还可以。一般来讲3A能做好,网游也可以。另外,一些网游有反作弊系统,我们无法抓取里面的参数做分析,后续还是建立联系后合作才行。
Q:古墓丽影和黑神话两款游戏什么样的差别,导致我们产品实测效果有好有坏?
主要是引擎差异。黑神话用的是UE5(我们优化非常多),古墓丽影用的另一个引擎(我们没怎么优化)。老板发布会上选择古墓丽影做测试,可能是想表达当年在哪里跌倒就在哪里爬起来。后续优化方向:主要问题就是出在生态方面,之前市面上基本上只有英伟达,所有软件都基于英伟达做优化。我们用户量太小,别人一开始不会主动找我们做适配。假设卖给国内图形软件公司,我们一个一个去找,至少找50家公司先一一优化,才会有更多公司来主动找我们优化。游戏软件也是一个道理,但更难的点在于,专业软件就那几个,但游戏有几万个,不像中望CAD只吃OpenCL,游戏有不同引擎(UE5、Unity等),还有些公司在国外,比较困难,现在只能先针对UE5优化,因为UE5部分是开源的。
生态方面,以下两个维度的事情做好,90%的工作就做完了。1)图形API的角度,只需要做到兼容了就行,目前市面上用的就是DirectX(市面上DX支持到10/11/12就可以,不需要支持更早版本)、OpenCL、OpenGL、Vulkan,所见即所得。砺算已经全部支持。2)引擎层(在图形API上层)的角度,引擎层面理论上都可以支持,只是效率高低的问题。第一档是UE、Unity,第二档是大游戏厂商自己的引擎(索尼、育碧、EA、动视),第三档是小游戏。需要很多年,没有三五代产品,很难和英伟达掰手腕