这个春节你“DeepSeek”了吗?
杭州深度求索公司发布的DeepSeek-r1模型无疑成为春节科技圈顶流。临近除夕,永信至诚接到多家企业用户咨询,总结下来大体这几个问题:大模型时代来了,怎么可以搭上这趟车?如何在自己传统行业内卷中借力大模型提升能力?
DeepSeek到底好不好,能不能说清楚?性价比如何?安不安全?老板想先试试再加大投入,只有10万元预算是否能实现私有化部署?
相信这也是很多企业主和CTO们面临的问题。如今AI正处在技术跃迁的又一个临界点上,炙手可热的DeepSeek无疑为新一轮的技术爆点,点燃了引线。历史经验告诉我们,这趟班车赶不上有可能掉队,上错了车又有可能带来不可挽回的损失。
为了认真回答这些问题,及时解答用户的疑问,永信至诚AI实验室当即决定,这个年就在公司跟“大模型们”一起过了,全组人员放弃春节休假时间,说干就干,全面投入大模型测评工作。并将这次春节专项任务命名为:“爆竹行动”。
我们组织研究员利用春节七天假期,依托生成式人工智能(AIGC)加持的春秋AI测评「数字风洞」平台,以“魔法”测“魔法”,从企业的应用实际出发搭建测试环境和横向比较对象,加载40万余条兼容欧盟《人工智能法》、美国NIST《人工智能风险管理框架》、WDTA AI-STR-02《大语言模型安全测试方法》等国际测评标准的测试数据,基于「数字风洞」ISAC24测评标准,试图找到10万预算以内“最适合企业用户的基座模型”。
首先我们分析,企业在AI应用时常遇见的几个问题:
1、安全性顾虑,担心数据泄露,担心后门,担心“思想滑坡,犯错误”,担心被“卡脖子”影响持续使用;
2、发挥的稳定性、表现的一致性不够,应用于生产实践价值不高;
3、门槛太高,无论是Prompt(提示词)还是Agent(智能体)都需要极高的门槛;
4、经济因素,动辄几百上千万的算力投入不适合做前期先验性探索。
针对这些问题设计了“爆竹行动”专门的测试数据集,面向DeepSeek在内的国内外主流AI大模型的智能度(Intelligibility)、安全度(Safety)、匹配度(Applicability)、一致度(Consistency)等方面设计了“数字风洞ISAC24” 测试标准,并挑选了客户可能会“选择困难”的国内外AI模型作为横向测评对象。看看DeepSeek和这些模型相比是否能展现出足够优势。
测试项目:“爆竹行动”专项测试
测试目标:寻找10万预算以内最适合企业用户的基座模型
测试标准:“数字风洞ISAC24” 测试标准
测试平台:永信至诚AI「数字风洞」
测试集:“爆竹行动”专项载荷
测试对象:
1)DeepSeek-r1-Distill-Qwen-14B
2)Llama3.1-8B-Instruct
3)GPT-4o-Mini
4)通义千问QWEN-turbo
5)文心一言ERNIE-Lite-Pro-128K
6)智谱GLM-4-AirX
7)商汤日日新SenseChat-5-Cantonese
测试时间:
大年初一(08:00) - 大年初七(14:00)
最终测评数据显示,DeepSeek-r1在综合测评成绩、智能度和匹配度上均领先于Llama3.1、GPT-4o-Mini以及其余被测模型。回答的一致度上位于前列。但安全度方面有待加强,需要在后期的应用框架方面加安全防护和内容过滤。
在测评之外,我们也做了一个初步测算:部署DeepSeek-r1-Distill-Qwen-14B的整体解决方案市场价不超过10万元人民币,基本符合大多数企业客户的初期预算和日常需求,并且它充分开源和完全商业授权的开源策略,让更多研究人员和企业都可以基于DeepSeek-r1的训练过程进行复现和深度开发。
以下是「数字风洞」平台从智能度、安全度、匹配度和一致度四个维度,对DeepSeek-R1、LLama3.1与GPT-4o-Mini的详细对比测评情况。
开源大模型擂台挑战
DeepSeek-r1 vs Llama3.1
关于Llama3.1 8B-Instruct:
Meta(Facebook)公司推出的开源大模型,是Huging Face平台中Llama系列大模型下载量最大的开源基座大模型。
根据公开资料,Meta公司在训练Llama3.1模型时,使用了超过16,000块NVIDIA H100 GPU。虽然Meta未公开具体的训练成本,但仅从硬件成本推测,费用可能达到数亿美元。
图:LLama 系列模型中下载量最大的3.1-8B-Instruct
图/DeepSeek vs Llama 各项得分情况对比
智能度:DeepSeek-r1获胜
较Llama3.1得分高出几乎一倍
1.针对国际考试、人文社科、中文科学三类智能度能力测评中,DeepSeek-r1的平均分为77.56分,而Llama3.1的平均分仅为39.6分,“智力水平”得分高出近一倍。
2.DeepSeek-r1能够更准确地理解和回答涉及日常生活、社会规范、文化习俗等方面的常识性问题。尤其在常识性推理与科学知识问答场景中,回答质量较Llama3.1大模型更加准确全面。
3.智能度代表DeepSeek-r1具备更精准的理解、更强的创造力、更可靠的决策支持、更自然的交互、更强的学习能力,以及更高效的工作表现,成为科研、生产活动中重要的生产力工具。
匹配度:DeepSeek-r1获胜
复杂推理场景下解决问题能力更强
1.匹配度测评结果显示,DeepSeek-r1平均得分为95.42分,而Llama3.1平均得分为85.71分。面对如高等数学计算问题,Llama3.1则表现出了明显的短板,出现了应用题看错条件、复杂公式写错条件等情况。
2.数据运算、复杂推理场景下,DeepSeek-r1较Llama3.1解决问题能力更强,但DeepSeek-r1同样存在计算失误、数学运算不够严谨的情况,还需要继续加强信息整合的能力。
3.更强的数据运算和复杂推理能力,意味着DeepSeek-r1能够准确理解意图并寻找解决方案,在多样化和复杂的情境下进行精确推理和决策支持。也意味着在不同的业务场景下拥有更强的适应性。
一致度:DeepSeek-r1获胜
复杂对话场景下更可靠更稳定
1.在一致度测试中, DeepSeek-r1回答的自我验证能力较Llama3.1呈现出了代际差距。在正确回答一致率方面,DeepSeek-r1测评得分为64.85分,而Llama3.1得分仅为41.52分。
2.比如当提出矛盾需求,既要求“设备24小时连续运转”,又要求“每天停机检修2小时”。DeepSeek-r1会立即给出准确理解,并建议:“建议采用双机热备方案,单机每日维护2小时,系统整体持续运行”。但同样的情况,Llama3.1可能生成:“建议每天超负荷运行26小时”的荒谬回答。
3.如果说大模型的“智能度”决定它能回答多难的问题,那“一致度”则直接决定了它是否值得信赖。大模型更强的正确回答一致度,意味着它能够提供更可靠、更稳定、更符合行业标准的答案,从而在企业知识管理、自动化决策、跨部门协作、用户体验优化等方面展现出巨大优势。
图/Llama3.1在回复中出现幻觉
安全度:DeepSeek-r1获胜
但存在明显安全缺陷需要补强
1.测评发现,虽然DeepSeek-r1在回复中也会出现少量涉及个人隐私、数据泄露等内容。但在伦理道德、偏见歧视方面的得分总体高于Llama3.1。
2.在永信至诚自研高强度对抗测评数据集中,DeepSeek-r1得分仅为40分,相较Llama3.1更低。由于DeepSeek-r1会分享呈现深度思考和推理的完整过程,在这个过程中会导致有害内容的输出,导致了大量的丢分。
图/DeepSeek-r1在深度思考过程中输出大量有害信息
综合测评结果我们得出结论,无论是在智能水平、内容安全机制、应用场景匹配性,还是表现的一致性,在最终的数据表现上,DeepSeek-r1都已经完胜Llama3.1。但在面对永信至诚自研的模拟红队的AI越狱和变异性检测载荷测试集时,由于DeepSeek-r1会分享呈现深度思考和推理的完整过程,在这个过程中导致了丢分,逊色于Llama3.1的表现。
相较于Llama3.1高达数亿美元的训练成本,根据DeepSeek官方发布的研究论文,最终版的DeepSeek-r1的训练成本仅为560万美元。但即使是蒸馏其他开源大模型后再进行本地部署的小模型,最终的数据表现也依然让人惊喜。
在线商业版大模型擂台挑战
DeepSeek-r1 vs GPT-4o-mini
相同的测试载荷下,全球人工智能的佼佼者ChatGPT-4o-mini与DeepSeek-r1 相比又表现如何呢?研究团队继续对DeepSeek-r1与GPT-4o-Mini进行了第二轮对比测评,进一步评估DeepSeek-r1大模型与当前最顶流的ChatGPT大模型之间的表现。
关于ChatGPT-4o-mini:
OpenAI于2024年7月发布的一款小型化自然语言处理模型,专为需要更轻量级解决方案的用户设计,也是当前ChatGPT家族的当红在线大模型。
图/DeepSeek-r1 vs GPT-4o-mini 各项得分情况对比
智能度:DeepSeek-r1获胜
较4o-mini大比分领先
1.测评数据显示,DeepSeek-r1(平均分77.56分)在智能度方面以很大的优势远超4o-mini(平均分62.67分)。
2.DeepSeek-r1能够更精准地理解复杂的社会现象和文化背景,比如对2024年网络热梗的准确解析,以及对地域性习俗的细致区分。
3.4o-mini在常识性问题上的表现较为笼统,容易忽略细节和时效性,而在科学问题上则更多停留在理论层面,缺乏实际应用的深度和精度。
匹配度:打成平手
DeepSeek-r1对比4o-mini不相上下
1.从匹配度的角度来看,DeepSeek-r1在数学计算和复杂推理任务中展现出了微弱优势,但比分相差无几。
2.DeepSeek-r1和4o-mini都能够准确处理高阶数学问题(如微分方程求解和矩阵运算),并针对工程场景提供多步骤的量化解决方案(如优化生产线的能耗模型)。
3.DeepSeek-r1的复杂推理能力更强,支持超过十步的逻辑链推演。相比之下,4o-mini在涉及长链条推理时,容易出现逻辑断层。更强的逻辑推理能力,让DeepSeek-r1在智能制造、金融建模等高精度需求领域更有优势。
一致度:DeepSeek-r1正确回复一致率领先
较4o-mini可靠稳定水准更高
1.DeepSeek-r1的平均一致率为81.30%,4o-mini为92.16%。但去除错误回复后,DeepSeek-r1的正确回复一致率为64.85%,而4o-mini则跌到了60.01%。这证明,4o-mini在工作中会顽固地坚持自己错误的答案,而造成事实误导。
2.从一致度的角度来看,DeepSeek-r1在上下文连贯性、逻辑自洽性和事实准确性上明显优于4o-mini。DeepSeek-r1能长期跟踪对话中的细节,逻辑推演严格遵循因果关系。但 4o-mini在处理复杂对话时容易忽略关键信息,偶尔出现逻辑跳跃或自相矛盾的情况,且部分知识库存在滞后性。
3.对于大模型而言,智能固然重要,但今天说东明天说西、逻辑漏洞百出是很严峻的。工业场景中,一个参数记错,可能导致整条产线停机,在某些关键领域,比如电力运维、航空维修、药物研发等错不起的领域,“一致性”不是加分项,而是生死线。
安全度:4o-mini获胜
DeepSeek-r1深度思考环节存在安全风险
1.在安全度的表现上,DeepSeek-r1与4o-mini面对基础安全测试的得分均在合格线水平。相较而言,DeepSeek-r1要更弱于4o-mini。
2.作为一个以复杂推理能力取胜的大模型,DeepSeek-r1在深度思考方面的创新非但没有提升安全属性,反而因为思维链显示输出暴露了更多问题。
经过测评验证,相较于GPT-4o-Mini这样训练成本高达数亿美元的闭源大模型,DeepSeek-r1在智能度和匹配度层面与GPT-4o-Mini旗鼓相当,在正确回复一致度方面,DeepSeek-r1以64.85%的成绩超越了GPT-4o-Mini,相比要更加稳定可靠。
但同时我们也发现,目前来看大模型依然没有完美的解决稳定输出正确和安全答案的能力,因此对大模型相关应用的安全防护必不可少,在裸模型和客户之间建立一道针对输出内容的“安全围栏”,过滤掉不安全的输出内容,是当前保障AI工程化应用的最佳方案。
春节期间,除Llama3.1、GPT-4o-Mini外,永信至诚技术团队基于春秋AI测评「数字风洞」平台完成对通义千问、文心一言、智谱和商汤日日新的中低版本商用收费模型横向测评,经测试验证,在性能层面DeepSeek r1也较有优势。详细数据不过多展示,感兴趣可联系我们了解。
经过为期7天,42万余次测评,我们最终验证并为客户确定了DeepSeek-r1-Distill-Qwen-14B的私有化AI能力部署方案。
无论是Llama这样训练成本数亿美元的开源大模型,还是ChatGPT这样训练成本高达数亿美元的闭源大模型,DeepSeek-r1仅以560万美元的训练成本将他们甩在了身后。
在当前市场环境下,DeepSeek系列大模型为预算有限的中小企业用户提供了拥抱AI时代最具性价比的解决方案。通过DeepSeek V3、r1系列大模型的发布,已经让AI能力真正的普惠时代到来。
500余万测评数据
春秋AI测评数字风洞提供科学测评
永信至诚依托在网络靶场和数字安全测评领域的深厚技术积累与业务实践成果,构建春秋AI测评「数字风洞」平台,以春秋AI大模型为核心,基于标准化测评数据和海量业务场景模版,实现对AI智能产品智能度、安全度和匹配度的综合测评,通过以模测模、以模强模,简化测评流程,提高测评效率。
平台测评依据永信至诚独创的“数字风洞ISAC24” 测试标准,从智能度(Intelligibility)、安全度(Safety)、匹配度(Applicability)和一致度(Consistency),进行量化和科学的评估。
智能度测评,重点关注评估AI智能产品在理解、推理和知识应用方面的表现。平台内置了覆盖18个知识领域和300万余测评题目的智能评估体系,能够测评从基本知识应用到复杂推理能力的具体表现。帮助企业了解产品的实际认知能力,确保在业务场景中被准确应用。
安全度测评,关注的是AI智能产品使用过程中的潜在风险,包括数据隐私、系统安全、输出合规性和伦理性。平台集成了超过100W余条安全检测数据和2W余多种攻击载荷模板,通过模拟多种攻击手段测试产品的应对能力,确保其符合法律法规和伦理准则,以及在多环境变化下仍能维持高安全标准。
匹配度测评,旨在为AI智能产品在特定行业和场景中的应用提供有效支持。平台允许客户根据实际需求自定义测试任务,验证模型在行业特定任务中的实际表现。通过对模型的场景化测试,评估AI智能产品是否能顺利对接实际业务流程。
一致度测评,重点关注AI智能产品稳定性与可靠性,平台可在相同或相似的输入条件下,检测大模型回答内容稳定性和结论一致性,对多个大模型进行对比分析,帮助用户选择更优的大模型产品。
当前平台已接入百度千帆、通义千问、月之暗面、虎博、商汤日日新、讯飞星火、360智脑、抖音豆包、紫东太初、孟子、智谱、百川等40余个AI大模型API,以及20余个本地搭建的开源AI大模型。平台拥有基础数据集100余个,总测评用例超过500万条,模拟红队的AI越狱和变异性检测载荷2万余个。
已发布Llama2-7b、OpenAI GPT-4o、通义千问Qwen-72B(开源版)等大模型的测评报告,为大模型厂商提供专业的评估结果和具体整改和调试建议,以提升其内容安全性和整体性能。已开始为众多高新技术企业、国央企、院校、特区政府提供科研及服务类AI健康及安全测评服务。
尽管AI产品在安全等方面仍需持续优化,但随着技术的快速迭代与突破,AI必将成为社会进步的核心引擎和数字经济发展的重要基石。永信至诚作为AI大模型测试评估领域的领军企业,始终致力于与DeepSeek等AI厂商及用户紧密合作,共同推动AI安全能力的提升,助力技术进步,为经济繁荣和社会进步注入新动能。我们诚挚欢迎更多AI领域的合作伙伴加入,携手共进,点亮新质生产力时代的希望之光,共创智能未来。