互联网频道 频道

刚完成C轮融资的墨芯,软硬协同技术破局,能否实现弯道超车

深耕半导体与AI算力赛道的从业者都有清晰体感:当前行业正深陷算力虚胖的结构性困局。各地智算中心密集上马、AI芯片迭代节奏持续加快,资本源源不断加码算力基建投入,产业呈现出账面TFLOPS峰值算力节节攀升、大模型参数规模持续膨胀的表象繁荣。

据中国信通院《大模型推理优化关键技术及应用实践研究报告(2026年)》统计,国内大模型推理需求正呈现井喷式爆发态势。短短两年全网日均Token调用量暴涨超1400倍,2026年初全网Token调用规模直接突破140万亿量级,推理已成为当前 AI 产业规模最大、占比最高的核心算力负载。

但繁荣背后隐忧凸显,传统稠密架构的先天短板叠加行业算力利用率低,推理成本居高不下,已然成为制约AI规模化落地的核心瓶颈。大量企业陷入“技术能算、硬件能跑、商业用不起”的三重尴尬,算力投入与产业价值产出严重失衡。

就在半导体制程红利逐步见顶、GPU稠密计算陷入同质化桎梏之际,稀疏计算引领者墨芯人工智能正式完成C轮近十亿元人民币融资。本轮融资汇聚了深创投、岩山科技、大湾区共同家园、力鼎资本、蕴盛资本等重磅产业资本及市场化机构,凯旋创投、创享投资、盛景嘉成等多家老股东共同参与。这一“产业巨头+国资背书+财务资本”的多元股东结构,既保障了技术协同的深度,也为墨芯在全国算力网络布局中提供了坚实的资源保障与产业支撑,标志着稀疏计算正从技术验证期加速迈入规模化产业爆发的新阶段。

AI算力竞争已从单一比拼峰值TFLOPS,转向算力有效性、能效比与综合落地成本的多维较量;单Token推理成本、集群部署密度、硬件能效比已成为政企客户选型核心指标。在“双碳”战略与“东数西算”政策驱动下,数据中心核心枢纽节点PUE被严格限制在1.2以内。传统稠密算力模式高功耗、低利用率,既难满足合规要求,又推高运维成本,已触及产业发展天花板。

当行业多数厂商扎堆追随GPU稠密计算路线时,墨芯坚持底层稀疏计算创新,以范式级技术变革与全链路自研能力重构国产AI算力格局,开辟出高效、低成本、低能耗的全新路径。

算力虚胖根源:稠密架构天生冗余

但主流 GPU 的计算架构,尤其是张量核心(Tensor Cores)与流处理器(CUDA Cores),本质上是面向稠密矩阵运算优化的同步单指令多线程(SIMT)架构。这意味着,无论输入数据是否稀疏,执行单元在每个时钟周期内都必须按固定数据位宽与固定矩阵粒度完成加载与运算,无法在指令级动态跳过零值元素。因此,即便数据中存在大量零值与冗余计算,硬件仍会消耗同等的寄存器、共享内存、片上带宽与功耗执行全量运算,无法真正实现 “按需计算”。

用通俗场景类比更为直观:如同一列固定配置100个货箱的货运列车,无论箱内是否有货物,都必须满载发车、全程运行。即便其中60个都是空箱无效负载,列车依旧需要消耗同等能源完成运输全程,造成无可规避的能效资源浪费。

PyTorch官方2025年11月发布技术博客《Beyond Quantization: Bringing Sparse Inference to PyTorch》明确指出:“部署前沿大模型必须依托大规模专用GPU算力集群,同时伴随海量电力能耗消耗。长期以来行业普遍依靠低精度量化、定制化混合精度算子内核,缓解大模型部署成本压力、提升落地实用性。但仅靠量化优化,已经难以满足边缘计算、端侧推理的严苛需求,行业亟待寻找下一代模型优化路径,而稀疏计算正是公认的未来核心方向。”

墨芯技术破局:跳出 TFLOPS 军备竞赛,重新定义有效算力标准

融资宣布之际,公司核心产品:全新一代计算卡SparsePrime®(以下简称“SparsePrime®”)将于今年内正式推出。SparsePrime®计算卡是一款面向智算中心和数据中心的高性能AI通用推理计算卡,基于自研的Antoum2.0芯片架构,专为大模型与复杂推理场景优化设计。该产品采用自顶向下的整体设计理念,广泛适用主流Transformer模型,强化通用适配性,配备完善的工具链,实现客户零接受成本、快速获得稀疏加速。开发者现有的基于PyTorch、TensorFlow的模型代码,以及高效的vLLM等推理框架,能够近乎零代码修改地完成迁移并直接部署运行,同时支持开发者使用Triton语言进行自定义算子开发,最大程度降低使用门槛。SparsePrime®将基于多个算力中心千卡集群部署中积累的真实负载数据,在稀疏计算效率上实现新的突破,进一步夯实墨芯在AI推理算力领域的差异化竞争力,初步实现精度无损,算力翻倍的技术路径可能。

SparsePrime®的底气,源于墨芯在稀疏计算领域持续积累的技术实力。在此之前,墨芯旗下S30、S40等计算卡已在国际权威AI基准测试MLPerf™ Inference中连续三届夺冠,在视觉、自然语言处理、大模型等主流模型任务上展现出领先的能效比与单位算力推理吞吐量,以显著低于行业旗舰产品的功耗达成更优推理性能,充分验证了稀疏计算在真实数据中心负载下的工程可行性与商业价值。

在行业堆砌纸面算力的环境下,墨芯技术路线精准契合信通院“有效算力优先”的产业导向。不盲目追逐虚标峰值参数,聚焦真实业务负载场景,持续优化硬件算力利用率与综合能效比,真正实现从“账面算力”到“应用算力”的跨越。

落地硬核验证:全国千卡集群规模化,用实景数据佐证技术价值

硬科技赛道从不靠概念讲故事,前沿技术最终必须经过大规模工程落地、真实场景负载检验。在区域布局上,墨芯已在西北、西南、华东、华北四大片区实现战略性铺开,在多个行业场景和领域实现规模化应用,与国家宏观战略高度共振,紧扣“东数西算”与“算电协同”。

西北片区部署千卡级推理集群,支撑传统产业智能化转型,在电子制造、消费品生产等场景落地多个工厂安防项目,于边缘侧实现高效实时AI分析;西南片区充分结合当地充沛绿电资源,构建低功耗绿色算力池;华东片区部署面向生信分析、医疗健康等高端服务业的算力集群,可大幅加速基因测序数据分析流程,已与行业头部企业合作,为高通量测序、蛋白质结构预测等计算密集型任务提供高性能AI算力支持;华北片区则赋能城市治理与社区智能化升级,落地人脸识别、姿态识别等视觉多模态应用,实现异常行为的实时智能监测与预警。

全国算力网络可承接互联网CSP厂商大模型训练与推理业务。企业外购高品质算力需求稳步上升,墨芯千卡集群凭借低TCO、高能效优势填补市场缺口,也为SparsePrime®计算卡拓宽落地空间。

目前墨芯已携手头部电信运营商落地算力服务,同步布局酒店智慧管理场景,并联合车企研发适配方案,探索车路协同全新模式。

产品迭代+产学研:卡位前沿,筑牢长期技术护城河

在国际学府合作方面,墨芯围绕推理加速、长上下文服务和稀疏化训练等关键技术,与卡内基梅隆大学相关研究团队开展合作。其LLM 稀疏化训练方向已经取得阶段性成果,未来将持续推进大模型加速技术从前沿研究走向产业落地。在国内产学研合作中,墨芯与复旦大学可信具身智能研究院就“半结构化稀疏”方向展开横向课题合作,旨在通过智能化的稀疏模式搜索,大幅提高模型稀疏率并提升硬件友好性,为下一代大模型推理降本打开新空间。与此同时,墨芯正与清华大学CCNI Lab和SparseMind在稀疏计算前沿课题方向上推进合作,共同探索稀疏计算理论在专业应用领域中的更多可能性,并与杭州电子科技大学已成立稀疏计算联合实验室,探索“云-边-端”协同的创新推理算力解决方案。

墨芯抢先布局稀疏计算赛道,打通芯片架构、产品、工具链全栈协同体系,配套成熟生态与商业化布局,已然跻身AI算力产业变革关键节点。在全球算力竞争从单纯追求峰值 TFLOPS,转向有效算力、能效比、综合部署成本多维比拼的大趋势下,墨芯以原生稀疏计算为核心突破方向,凭借底层范式级技术创新与覆盖全国的千卡集群产业布局,构建起其他厂商难以复制的核心壁垒,打破传统稠密算力长期主导的市场格局,全面重塑行业未来。



特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章