墨鱼AI导航,国内专业的AI工具导航网站!
Ctrl + D 收藏本站
当前位置:首页 » AI行业资讯

从被攻击到被追捧,DeepSeek 如何重塑 AI 游戏规则

Moyuxx 2025-02-07 136

今年春节,一款来自中国的大模型 DeepSeek,如同一颗重磅炸弹,在全球 AI 圈掀起了惊涛骇浪。其发布的 DeepSeek R1,直接对标 OpenAI 去年 9 月推出的 OpenAI o1 系列模型,瞬间成为全球 AI 从业者关注的焦点。


DeepSeek 的火爆程度令人咋舌。1 月 27 日,它在中国区和美国区苹果 App Store 免费榜上同时冲到下载量第一,单周下载量高达约 240 万次 。上线仅 20 天,日活就突破 2000 万,这一成绩对于一家 AI 创业公司来说,无疑是巨大的成功,也彻底冲击了 AI 行业格局。

然而,伴随而来的并非只有鲜花和掌声。1 月 28 日凌晨,DeepSeek 官网连续发布两条公告,称线上服务受到大规模恶意攻击,攻击形式从最初的 SSDP、NTP 反射放大攻击,逐渐演变为大量 HTTP 代理攻击,且层层加码。与此同时,OpenAI 对媒体指控 DeepSeek 未经许可 “蒸馏” 其专有技术,美国多位官员发声支持这一指控。据外媒报道,微软的安全研究人员发现,DeepSeek 相关人士可能使用 OpenAI 应用程序编程接口 (API),未经授权窃取了大量数据。

但被质疑、被攻击的另一面,DeepSeek 也收获了众多企业的力挺与拥抱。在云领域,华为云、腾讯云、阿里云、百度智能云、火山引擎、京东云、360 数字安全等多平台纷纷宣布上线 DeepSeek 大模型,海外的亚马逊云、微软智能云等云巨头此前也已官宣支持。在芯片领域,英伟达、AMD、英特尔等海外芯片巨头,以及国内芯片公司天数智芯、摩尔线程都接连宣布支持 DeepSeek 模型 。

DeepSeek 之所以能引发如此大的波澜,关键在于它打破了大模型行业原有的游戏规则。一直以来,大模型行业拼算力的共识深入人心,OpenAI 训练模型耗费巨大,而 DeepSeek 却另辟蹊径,用不到 OpenAI 十分之一的资源,就做出了性能对标 OpenAI o1 的 DeepSeek R1。

早在去年 12 月底,DeepSeek 发布对标 GPT-4o 的 V3 模型,仅使用 2048 块英伟达 H800 芯片,耗费约 560 万美元,相比之下,GPT-4o 使用上万块英伟达 H100 芯片(性能优于 H800),训练成本约 1 亿美元 。在价格方面,DeepSeek 同样走亲民路线。去年 5 月发布的 DeepSeek-V2,价格仅为 GPT-4 Turbo 的近百分之一,此后更是一年内 3 次降价,每次降幅超过 85%。

技术创新是 DeepSeek 的另一大法宝。它提出了新的 MLA (多头潜在注意力) 架构,与 DeepSeek MoESparse (混合专家结构) 结合,把显存占用降到了其他大模型最常用的 MHA (多头注意力) 架构的 5%-13% 。还通过 “数据蒸馏” 技术来训练模型,用一个高精度的通用大模型当老师,仅用 1/5 的数据量就能达到同等效果,大大降低了成本。

在技术性能上,DeepSeek R1 也表现卓越,被公认为目前最先进的大语言模型之一,在数学、代码、自然语言推理等任务上的性能可比肩 OpenAI o1 模型正式版。在 AIME 2024 数学基准测试中,DeepSeek R1 得分率为 79.8%,OpenAI o1 的得分率为 79.2%;在 MATH-500 基准测试中,DeepSeek R1 得分率为 97.3%,OpenAI o1 的得分率为 96.4% 。它还摒弃了传统的监督微调 (SFT) 路径,转而通过强化学习 (RL) 来优化推理路径,为行业提供了新的思路。

DeepSeek 的开源与免费策略更是对行业产生了深远影响。相比 OpenAI 在模型上的闭源以及 o1 模型付费使用限制,DeepSeek R1 不仅开源,并且免费供全球用户无限调用。开源协议能使中小开发者基于前沿模型二次开发,推动大模型创新从少数科技巨头向分布式社区转移,为中小软件企业创造更多创新机会。
在 DeepSeek 的冲击下,OpenAI 的压力也显而易见,两周内接连发布三个大模型:两个 AI 智能体 Operator、Deep Research、推理模型 o3-mini。AI 行业的格局正在发生微妙变化,DeepSeek 已然站在了风暴中心,成为重新制定游戏规则的关键力量。

相关推荐

评论 ( 0 )

回顶部