更新时间: 浏览次数: 258
叶君临李子染最新更的味觉探索者:勇敢探索美食的无限可能-上门服务是备受期待的动画系列续集,继续讲述在黑暗与希望交织的世界中,主角们的冒险和成长故事。本季将揭开更多秘密,探索角色之间复杂的人际关系与内心冲突。随着剧情的推进,观众将目睹激烈的战斗场面以及感人至深的情感瞬间,震撼人心的视觉效果也让人叹为观止。该系列不仅延续了前作的高品质制作,还加入了更丰富的情节和深刻的主题,值得每一位粉丝期待与观看。
叶君临李子染最新更的味觉探索者:勇敢探索美食的无限可能-上门服务是一部引人入胜的泰国剧,讲述了两个男主角之间复杂而深刻的情感故事。故事围绕着他们在生活中遇到的挑战与困惑,探索了友谊、爱情与自我认同的主题。随着情节的发展,两位男主角在面对外界压力与内心挣扎时,逐渐发现了彼此的真实感情。剧中的细腻情感描写和扣人心弦的剧情,使观众深陷其中,感受到爱的多样性与纯粹。无论是温馨的瞬间,还是心碎的时刻,都让人印象深刻。
叶君临李子染最新更的味觉探索者:勇敢探索美食的无限可能-上门服务是一部备受瞩目的泰剧,讲述了校园爱情与成长的故事。剧中,男主角是一位阳光开朗的学生,因一次偶然的机会邂逅了性格内向但才华横溢的女主角。两人在校园生活中逐渐相识、相知,面对友情、爱情的多重考验,他们携手共度青春的迷茫与挑战。剧集通过细腻的情感描写,展现了年轻人对梦想与爱情的追求,同时也传递了勇敢面对困难、珍惜身边人的重要性。清新的画面和动人的音乐让观众不仅感受到浓厚的青春气息,更引发对美好时光的回忆。
叶君临李子染最新更的味觉探索者:勇敢探索美食的无限可能-上门服务是一部充满幽默与感动的韩国青春爱情电影,讲述了两个性格迥异的闺蜜在追寻梦想和爱情的过程中所经历的成长与变迁。影片通过轻松愉快的情节展现了友谊的力量,同时也探讨了自我认同与内心的挣扎。两位女主角在面对生活的挑战与感情的波折时,彼此支持与鼓励,最终勇敢追寻自己的幸福。这部电影不仅让人捧腹大笑,更引发对友情与爱情深刻的思考。
叶君临李子染最新更的味觉探索者:勇敢探索美食的无限可能-上门服务一部充满浪漫与诗意的爱情电影。它讲述了两个陌生人在火车上相遇并度过一夜的故事,让人在浪漫中感受到爱情的美好与奇妙。
叶君临李子染最新更的味觉探索者:勇敢探索美食的无限可能-上门服务是一部充满生活气息的都市剧情片,围绕着一位年轻男子与他的新邻居之间微妙而复杂的关系展开。影片通过细腻的情感描写,展示了两人在生活中的碰撞与交集。邻居的丰满身材不仅成为了男主心中的一种吸引,更让他在追求梦想与现实生活之间进行深刻反思。影片通过真实的情感和幽默的桥段,探讨了人际关系中的信任与脆弱,带给观众温暖而又发人深省的体验。
叶君临李子染最新更的味觉探索者:勇敢探索美食的无限可能-上门服务是一部备受欢迎的泰剧,讲述了一段充满甜蜜与挑战的爱情故事。剧中,男主角是一位阳光帅气的青年,而女主角则是一个活泼可爱的女孩。两人因为误会而相识,接着展开了一系列搞笑又温暖的互动。随着剧情的发展,他们逐渐克服了误解,建立起深厚的感情。这部剧不仅有精彩的剧情,还有动人的音乐和美丽的风景,让人沉浸其中。喜欢浪漫爱情剧的观众一定不容错过!
叶君临李子染最新更的味觉探索者:勇敢探索美食的无限可能-上门服务是一部由著名作家创作的奇幻爱情小说。故事围绕女主角春花与男主角秋月之间的错综复杂的爱情关系展开。春花性格坚韧,天真烂漫,而秋月则是一位深邃内敛的英雄。两人在命运的交织中历经波折,从相识、相互扶持到最终的心灵契合,展现了成长与爱情的历程。小说不仅包含了丰富的情感描写,还穿插了奇幻元素,引人入胜,令人反思人生的意义与真爱。
叶君临李子染最新更的味觉探索者:勇敢探索美食的无限可能-上门服务是一部围绕复杂情感纠葛展开的爱情小说。女主角在职场和生活中不断追求自己的梦想,却因一段秘密恋情而陷入两难。她深深爱着的,是一个深藏不露、与自己背景截然不同的男人。两人之间的感情在默默无闻中蓄积,既有甜蜜又伴随着无奈。随着剧情的发展,女主不得不面对现实与理想的冲突,最终,她能否勇敢追求自己的爱情,找到真正的幸福,成为故事的最大悬念。
让我们再复习一遍:小红靠捧,大红靠命。
DeepSeek 已经爆火了一个春节,红起来自然是非就多。尤其在海外局势变化错综复杂的情况下,DeepSeek 的中国血统,给它招来了许多谣言。
Stability AI 曾经的研究主管 Tanishq Mathew Abraham 昨天挺身而出,以自己业内人士的身份下场,指出了 DeepSeek 极为特殊的几点:
1.性能实际上与 OpenAI 的 o1 一样好,这是一个前沿模型,标志着开源真正赶上了闭源
2.与其他前沿模型相比,DeepSeek 以相对较低的训练费用完成
3.易于使用的界面,结合其网站和应用程序中可见的思维链,吸引了数百万新用户加入
除此之外,他更是针对几大流行的谣言,写了长长一篇博文,分析解释了围绕在 DeepSeek 四周的(离谱)言论。
以下为博客文章,内容有所编辑:
2025 年 1 月 20 日,一家名为 DeepSeek 的中国 AI 公司开源并发布了他们的推理模型 R1。鉴于 DeepSeek 是一家中国公司,美国及其 AGI 公司存在各种「国家安全担忧」。由于这一点,**关于它的错误信息已经广泛传播。**
这篇文章的目的是反驳自 DeepSeek 发布以来,许多关于 DeepSeek 的极端糟糕的 AI 相关观点。同时,作为一个在生成式 AI 前沿工作的 AI 研究人员,提供更有平衡性的观点。
谣言 1:可疑!DeepSeek 是一家突然冒出来的中国公司
完全错误,到 2025 年 1 月,几乎所有生成式 AI 研究人员都已经听说过 DeepSeek。DeepSeek 甚至在完整发布前几个月就发布了 R1 的预览!
任何传播这种谣言的人,很可能并不从事人工智能工作——如果你不涉足该领域,却以为自己了解这个领域的一切,是荒谬且极其自负的。
DeepSeek 的首个开源模型 DeepSeek-Coder,于 2023 年 11 月发布。当时是业界领先的代码 LLMs(编者注:专注于理解和生成代码的语言模型)。正如下面的图表所示,DeepSeek 在一年内持续发货,达到 R1:
这不是一夜之间的成功,他们进步的速度也没有什么可疑之处。在人工智能发展如此迅速,且他们拥有一个明显高效的团队的情况下,一年内取得这样的进步在我看来是非常合理的。
如果您想知道哪些公司在公众视野之外,但 AI 领域内备受看好,我会推荐关注 Qwen(阿里巴巴)、YI(零一万物)、Mistral、Cohere、AI2。需要注意的是,它们没有像 DeepSeek 那样持续发布 SOTA 模型,但它们都**有潜力发布出色的模型**,正如它们过去所展示的那样。
谣言 2:撒谎!这个模型的成本不是 600 万美元
这是一个有趣的问题。这类谣言认为 DeepSeek 想避免承认他们有非法的幕后交易来获取他们不应获得的计算资源(由于出口管制),从而在关于模型训练成本的真实性上撒谎。
首先,600 万美元这个数字值得好好研究。它在 DeepSeek-V3 论文中有提及,该论文是在 DeepSeek-R1 论文发布前一个月发布的:
DeepSeek-V3 是 DeepSeek-R1 的基础模型,这意味着 DeepSeek-R1 是 DeepSeek-V3 加上一些额外的强化学习训练。所以在某种程度上,成本已经不准确,因为强化学习训练的额外成本没有被计算在内。但那可能只会花费几十万美元。
好的,那么 DeepSeek-V3 论文中提到的 550 万美元,是不正确的吗?基于 GPU 成本、数据集大小和模型大小的众多分析,已经得出了类似的估计。请注意,虽然 DeepSeek V3/R1 是一个 671B 参数的模型,但它是一个专家混合模型,这意味着模型的任何函数调用/前向传递只使用约 37B 参数,这是计算训练成本所使用的值。
然而,DeepSeek 的成本,是基于当前市场价格估计的这些 GPU 的成本。我们实际上并不知道他们的 2048 个 H800 GPU 集群(注意:不是 H100s,这是一个常见的误解和混淆!)的成本。通常,连续的 GPU 集群在批量购入时成本会更低,因此甚至可能更便宜。
但是这里有个问题,这是最终运行的成本。在这成功之前,可能进行了许多在小规模的实验和消融,这一部分会需要相当大的成本,但这些并未在此处报告。
除此之外,可能还有许多其他成本,如研究员薪资。SemiAnalysis 报告称,DeepSeek 的研究员薪资传闻约为 100 万美元。这相当于 AGI 前沿实验室如 OpenAI 或 Anthropic 的高薪水平。
通常,当报道和比较不同模型的训练成本时,最终的训练运行成本是最受关注的。但由于糟糕的论调和错误信息的传播,人们一直在争论额外的成本使 DeepSeek 的低成本和高效运营性质受到质疑。这是极其不公平的。无论是从消融/实验的角度,还是从其他 AGI 前沿实验室的研究人员薪酬的角度来看,成本都非常显著,但这些通常在这样的讨论中没有被提及!
谣言 3:这么便宜?所有美国 AGI 公司都在浪费钱,看跌英伟达
我认为这又是一个相当愚蠢的看法。与许多其他 LLM 相比,DeepSeek 在训练中确实效率更高。是的,许多美国前沿实验室在计算上效率低下是非常可能的。然而,这并不一定意味着拥有更多的计算资源是坏事。
老实说,每当听到这样的观点,我就清楚地知道他们不懂 scaling laws,也不懂 AGI 公司 CEO(以及任何被视为 AI 专家的人)的心态。让我就这个话题发表一些看法。
Scaling laws 表明,只要我们继续将更多的计算能力投入到模型中,我们就能获得更好的性能。当然,AI 扩展的确切方法和方面随着时间的推移而发生了变化:最初是模型大小,然后是数据集大小,现在是推理时间计算和合成数据。
自 2017 年原始 Transformer 以来,更多的计算能力等于更好的性能的整体趋势似乎仍在持续。
更高效的模型意味着您可以在给定的计算预算下获得更高的性能,但更多的计算资源仍然更好。更高效的模型意味着你可以用更少的计算资源做更多的事情,但使用更多的计算资源,可以做到更多!
你可能有自己的关于 scaling laws 的看法。你可能认为即将出现一个平台期。你可能认为过去的表现并不能预示未来的结果,正如金融界所说。
但如果所有最大的 AGI 公司都在押注 scaling laws 能够持续足够长的时间,以实现 AGI 和 ASI。这是他们的坚定信念,那么唯一合理的行动就是获取更多的计算能力。
现在你可能认为「NVIDIA 的 GPU 很快就会过时,看看 AMD、Cerebras、Graphcore、TPUs、Trainium 等」,blabla。有数百万种针对 AI 的硬件产品,都在试图与 NVIDIA 竞争。其中之一可能在将来获胜。在这种情况下,也许这些 AGI 公司会转向它们——但这与 DeepSeek 的成功完全无关。
个人而言,我认为没有强有力的证据表明其他公司会撼动 NVIDIA 在 AI 加速芯片领域的统治地位,鉴于 NVIDIA 目前的市场统治地位和持续的创新水平。
总体而言,我看不出为什么 DeepSeek 意味着你应该看跌 NVIDIA。你可能有其他理由看跌 NVIDIA,这些理由可能非常合理且正确,但 DeepSeek 似乎不是我认为合适的理由。
谣言 4:模仿罢了!DeepSeek 没有做出任何有意义的创新
错误。**语言模型的设计和训练方法有很多创新,其中一些比其他更重要**。以下是一些(不是完整的列表,可以阅读 DeepSeek-V3 和 DeepSeek-R1 论文以获取更多详细信息):
多头潜注意力 (MLA) – LLMs 通常是指利用所谓的多头注意力(MHA)机制的 Transformer。DeepSeek 团队开发了一种 MHA 机制的变体,它既更节省内存,又提供更好的性能。
GRPO 与可验证奖励 – 自从 o1 发布以来,AI 从业者一直在尝试复制它。由于 OpenAI 对它的工作方式一直相当保密,大家不得不探索各种不同的方法来实现类似 o1 的结果。有各种尝试,如蒙特卡洛树搜索(谷歌 DeepMind 在围棋中获胜所采用的方法),结果证明不如最初预期的那样有希望。
DeepSeek 展示了一个非常简单的强化学习(RL)管道实际上可以实现类似 o1 的结果。除此之外,他们还开发了自己变种的常见 PPO RL 算法,称为 GRPO,它更高效且性能更好。我想 AI 社区中的许多人都在想,我们为什么之前没有尝试过这种方法呢?
DualPipe – 在多个 GPU 上训练 AI 模型时,有许多效率方面需要考虑。你需要弄清楚模型和数据集如何在所有 GPU 之间分配,数据如何通过 GPU 流动等。你还需要减少 GPU 之间任何数据传输,因为它非常慢,最好尽可能在每个单独的 GPU 上处理。无论如何,有许多设置此类多 GPU 训练的方法,DeepSeek 团队设计了一种新的、效率更高且速度更快的解决方案,称为 DualPipe。
我们非常幸运,DeepSeek 完全开源了这些创新,并写了详细的介绍,这与美国 AGI 公司不同。现在,每个人都可以受益,用这些创新的办法来提高他们自己的 AI 模型训练。
谣言 5:DeepSeek 正在「汲取」ChatGPT 的知识
戴维·萨克斯(美国政府的 AI 和加密巨头)和 OpenAI 声称,DeepSeek 使用一种称为蒸馏的技术「汲取」ChatGPT 的知识。
首先,这里的「蒸馏」一词使用得非常奇怪。通常,蒸馏指的是在所有可能的下一个词(token)的全概率(logits)上进行训练,但这个信息甚至不能通过 ChatGPT 暴露出来。
但是好吧,就假设我们在讨论如何使用 ChatGPT 生成的文本进行训练,尽管这并不是该术语的典型用法。
OpenAI 及其员工声称 DeepSeek 自己使用 ChatGPT 生成文本并在此基础上进行训练。他们没有提供证据,但如果这是真的,那么 DeepSeek 显然违反了 ChatGPT 的服务条款。我认为这对一家中国公司来说,法律后果尚不明确,但我对此了解不多。
请注意,这仅限于 DeepSeek 自己生成了用于训练的数据。如果 DeepSeek 使用了来自其他来源的 ChatGPT 生成数据(目前有许多公开数据集),我的理解是这种「蒸馏」或合成数据训练并未被 TOS 禁止。
尽管如此,在我看来,这并不减少 DeepSeek 的成就。与 DeepSeek 的效率方面相比,作为研究人员,让我印象更深刻的是他们对 o1 的复制。我非常怀疑对 ChatGPT 进行「蒸馏」有任何帮助,这种怀疑完全是出于 o1 的 CoT 思维过程从未公开过,那么 DeepSeek 如何能够学习它呢?
此外,许多 LLMs 确实在 ChatGPT(以及其他 LLM)上进行了训练,而且在新抓取的任何互联网内容中自然也会有 AI 文本。
总体而言,认为 DeepSeek 的模型表现良好仅仅是因为它简单提炼了 ChatGPT 的观点,是忽略了 DeepSeek 在工程、效率和架构创新方面的现实。
应该担心中国在人工智能领域的霸权吗?
或许有一点?坦白说,现在和两个月前相比,中美 AI 竞赛在实质上并没有太多变化。相反,外界的反应相当激烈,这确实可能通过资金、监管等方面的变化影响整体 AI 格局。
中国人一直都在人工智能领域具有竞争力,DeepSeek 现在让他们变得无法忽视。
关于开源的典型论点是,由于中国落后,我们不应该公开分享我们的技术,让他们赶上。但显然,中国已经赶上了,他们实际上很久以前就已经赶上了,他们在开源方面实际上处于领先地位,因此不清楚进一步收紧我们的技术,实际上的帮助是否有那么大。
请注意,像 OpenAI、Anthropic 和 Google DeepMind 这样的公司肯定有比 DeepSeek R1 更好的模型。例如,OpenAI 的 o3 模型的基准测试结果相当令人印象深刻,他们可能已经有一个后续模型正在开发中。
在此基础上,随着像星门项目以及 OpenAI 即将到来的融资轮等重要额外投资,OpenAI 和其他美国前沿实验室将拥有充足的计算能力,以保持他们的领先地位。
当然,中国将向人工智能发展投入大量额外资金。所以总的来说,竞争正在升温!但我认为,美国 AGI 前沿实验室保持领先的道路仍然相当有希望。
结论
一方面,一些 AI 人士,尤其是 OpenAI 的一些人,试图淡化 DeepSeek。而另一方面,一些评论家和自称专家对 DeepSeek 又反应过度。
需要指出的是,OpenAI/Anthropic/Meta/Google/xAI/NVIDIA 等并没有就此完蛋。不,DeepSeek (很可能)没有在说他们所做的事情上撒谎。无论如何必须承认的是:DeepSeek 应得到认可,R1 是一个令人印象深刻的模型。
xtt最近2019中文字幕电影免费看这部电影让我感受到了人性的复杂和时间的宝贵,很有深度。原来是真的!