95后AI“天才少女”刷屏！雷军千万年薪挖角！

liukang20241周前 (04-13)吃瓜始末111

来历：证券时报

国产大模型DeepSeek在全球火了，并带火了一个95后AI“天才少女”罗福莉。

最近，我国头部量化私募公司幻方量化旗下专心于AI大模型研讨开发的Deepseek（深度求索公司），宣告旗下的全新系列模型DeepSeek-V3首个版别上线并同步开源。DeepSeek-V3是深度求索自研的MoE模型（混合专家大模型），不仅以杰出的功能逾越或比美全球尖端的开源及闭源模型，更重要的是练习本钱极低，被称为“AI界的拼多多”，以前所未有的性价比被国内外一众圈内大佬点赞，引发广泛重视。

与DeepSeek一同进入咱们视界的，是95后AI“天才少女”罗福莉。她曾在DeepSeek参加了DeepSeek-V2的研制，是这款模型的要害开发者之一。在DeepSeek-V3发布前几天，媒体报道称小米创始人雷军已开出千万年薪，将罗福莉招至麾下，罗福莉将上任于小米AI实验室，领导大模型团队。

“AI界拼多多”刷屏海外

据最新发布的技能陈述，DeepSeek-V3参数量为671B，激活参数为37B，运用的预练习token量为14.8万亿。其多项评测成果逾越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等其他开源模型，并在功能上和国际顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

“我国AI公司Deepseek发布并开源了一个前沿的大言语模型，而其练习的预算却十分低。”前OpenAI联创、闻名AI科学家AndrejKarpathy在其个人交际渠道上表明，DeepSeek-V3整个练习进程仅用了不到280万GPU小时，相比之下，Meta旗下顶尖的开源模型Llama-3405B的练习时长是3080万GPU小时。假如DeepSeekV3的优秀体现可以得到广泛验证，那么这将是资源有限情况下对研讨和工程的一次超卓展现。

若从本钱上进行更直观的比照，假定H800的租金为每GPU小时2美元，DeepSeek-V3的总练习本钱仅为600万美元不到，是Llama-3405B超6000万美元练习本钱的十分之一不到。

极高的性价比让DeepSeek-V3一经发布便引发国内外广泛重视。Meta的AI研讨科学家田渊栋称“在十分有限的预算下完成微弱体现”，“这是一项了不得的作业”。闻名AI数据公司ScaleAI创始人兼CEOAlexandrWang也表明，DeepSeek-V3“练习所需核算量减少了10倍”，“在美国歇息的时分，他们尽力作业，以更低的本钱、更快的速度和更强的实力迎头赶上。”

这一圈粉许多的大模型，由被称为“AI界拼多多”的DeepSeek研制。揭露材料显现，DeepSeek专心于开发先进的大言语模型和相关技能，由国内闻名量化资管巨子幻方量化于2023年创建，也被美国硅谷称为“来自东方的奥秘力气”。

事实上，DeepSeek并非榜首次“出圈”。早在半年前，其发布的DeepSeek-V2就因功能达GPT-4等级，但开源、可免费商用、且API价格仅为GPT-4-Turbo的百分之一而引发业界重视。关于为何能做到如此高的性价比，DeepSeek官方解说称，DeepSeek-V2采用了立异的架构，例如注意力机制方面的MLA（多头潜在注意力）和前馈网络方面的DeepSeekMoE架构等，以完成具有更高经济性的练习作用和更高效的推理。

正因为在练习功率和本钱方面的优势，DeepSeek也是国内最早敞开大模型降价的厂商，也是大模型价格战的源头和推动者。在其发布DeepSeek-V2之后，字节、阿里、百度等厂商纷繁跟进降价。一起，DeepSeek也是我国互联网大厂以外，仅有一家储藏了万张A100芯片的公司，这为其前期的技能研制供应了坚实的算力根底。

“咱们不是有意成为一条鲶鱼，仅仅不小心成了一条鲶鱼。”在回应最初为何打响大模型价格战榜首枪时，DeepSeek创始人梁文锋表明。这位结业于浙江大学电子工程系的80后，一向潜心研讨技能。据媒体报道，梁文锋在作业中一直保持着低沉的风格，和一切研讨员相同，每天“看论文，写代码，参加小组讨论”。

一名人工智能职业资深业界人士向证券时报记者剖析称，DeepSeek以200人左右的小团队，且不依托外部融资，做出了一个有性价比并被全球干流AI界人士所认可的大模型。“一是他们在前期就买了许多算力卡，投入了许多资源做研讨；二是他们是做量化的，不像大厂有其他各式各样的盈余需求，也跟他们不构成竞赛联系，能更专心于模型开发。”该业界人士表明。

背面的AI“天才少女”引发重视

在DeepSeek-V3爆火之后，背面的AI“天才少女”罗福莉也进入了人们的视界。据媒体报道，小米创始人雷军以千万年薪吸引DeepSeek开源大模型DeepSeek-V2的要害开发者之一罗福莉，领导小米AI大模型团队。

揭露材料显现，罗福莉本科就读于北京师范大学核算机专业，硕士结业于北京大学核算言语学专业。2019年，还在北大读硕士的她在人工智能范畴尖端国际会议ACL上宣布8篇论文（其间2篇一作），登上了知乎热搜。罗福莉用自己知乎账号回应称，“这次投稿ACL是我近一年的产出，所以我以为自己是付出了满足的尽力的，当然也或许也有命运成分加持。”

硕士结业后，罗福莉先是进入阿里达摩院做人工智能研讨，从事预练习言语模型相关的作业，担任阿里达摩院AliceMind开源项目，主导开发了多言语预练习模型VECO。2022年，罗福莉参加幻方量化从事深度学习相关战略建模和算法研讨，后又换岗到DeepSeek担任深度学习研讨员，参加研制MoE大模型DeepSeek-V2。

本年5月，在DeepSeek-V2发布今后，罗福莉在知乎上撰文，宣布了关于DeepSeek-V2的观点。她表明，“单论DeepSeek-V2模型的中文水平，是实在处在国内外闭源模型的榜首队伍”，“外加1元/百万输入Tokens的价格，只要GPT4价格的1/100，性价比之王”。

事实上，罗福莉被重金招入小米，是小米全面发力AI大模型的其间一个动作。2023年4月，小米正式组建了AI实验室大模型团队，并表明将不断发掘AI相关的用户场景，发挥本身技能优势，并以敞开的情绪与合作伙伴开辟更多时机。本年11月，小米成立了专门的AI渠道部，小米的元老级技能大牛张铎为担任人。张铎本硕结业于清华核算机系，曾被雷军揭露称誉是“小米的大神”，送以“铎神”的称谓。

兵马未动，粮草先行。除了招募人才以外，最近，媒体报道称小米正着手建立自己的GPU万卡集群，并在曩昔几个月里继续提高算力储藏，为大模型研制供应更充沛的算力供应。雷军在揭露演讲时曾表明，小米做大模型的思路和许多公司不太相同，挑选主力打破的是轻量化和本地布置。关于小米这样不管在手机仍是造车上都考究“性价比”的公司而言，如安在烧钱的大模型事务中平衡本钱，无疑是雷军考虑的核心问题。而这，或许也是具有DeepSeek-V2研制布景的罗福莉被雷军看中的原因。

告发/反应