LLM Training - 搜索 News

本项目旨在帮助对大模型训练感兴趣的初学者从零开始了解和实践大模型训练流程。无论你是否有编程经验，都可以通过本教程逐步掌握大模型训练的核心概念和实践方法。

自ChatGPT为代表的大语言模型（Large Language Model, LLM）出现以后，由于其惊人的类通用人工智能（AGI）的能力，掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后，业界涌现了非常多基于LLM的 ...

1 天

Nous Research启动分布式AI训练，颠覆大模型开发方式

在快速发展的生成式 AI 领域，Nous Research 团队正在进行一项独特的实验:他们正在利用分布在全球的机器，预训练一款15亿参数的大型语言模型（LLM），这一过程避免了传统上需要在昂贵且耗电的数据中心或超级集群中进行的集中式开发。

2 天

NeurIPS 2024｜杜克大学&谷歌SLED解码框架，无需外部数据与训练

针对这一问题，来自杜克大学和 Google Research 的研究团队提出了一种新的解码框架 —— 自驱动 Logits 进化解码（SLED），旨在提升大语言模型的事实准确性，且无需依赖外部知识库，也无需进行额外的微调。

腾讯网13 小时

万亿美元AI市场还能成吗？这里是12位业内人士的看法

为此，Business Insider采访了12位人工智能行业的前沿人士，包括初创公司的创始人、投资者，以及谷歌DeepMind和OpenAI的现任（和前任）员工，探讨了在追求超智能人工智能（superintelligent AI ...

腾讯网7 天

LLM后训练绝招：1%预训练成本，实现最高20倍算力扩展效果

：我们提出了计算等效增益这一概念，用于量化各类增强方法带来的性能提升。CEG被定义为在不采用增强的情况下，预训练计算量需要增加多少才能达到与增强方法相同的基准性能提升。我们开发了一种基于公开基准进行评估的估算方法，以此来计算CEG。

新浪网24 天

「压缩即智能」，成就LLM的Transformer 未必是终极解？

LLM是否能验证知识压缩理论 ... 许多声音指出 Scaline Law 的范式正在从 Training-Time 转向 Inference-Time。 6、北大对齐团队撰文解读了o1在技术上的细节 ...

来自MSN10 天

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

Janus团队投稿自凹非寺量子位 | 公众号 QbitAI 在多模态AI领域，基于预训练视觉编码器与MLLM的方法（如LLaVA系列）在视觉理解任务上展现出卓越性能。而基于Rectified Flow的模型（如Stable Diffusion ...

13 天

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

今年 4 月，AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。 llm.c 旨在大幅简化大模型的训练，ta 使用纯 C 语言 / ...

6 天

Scaling Law撞墙？复旦提出大模型推理新思路：Two-Player架构打破自我 ...

在 AI 领域，近期的新闻焦点无疑是关于「Scaling Law 是否撞墙？」的辩论。这一曾经被视作大模型发展的第一性原理，如今却遭遇了挑战。在这样的背景下，研究人员开始意识到，与其单纯堆砌的训练算力和数据资源，不如让模型「花时间思考」。以 ...

12 小时

“云计算一哥”一口气发布六个大模型、3nm芯片！多模态还要搞Any-to-Any

NeuronLink是亚马逊云科技专有的网络互连技术，它能够将多台Trainium服务器组合成一个逻辑上的单一服务器，连接带宽可达2TB/s的带宽，而延迟仅为1微秒。在现场，苹果也来为亚马逊站台，机器学习和人工智能高级总监Benoit ...

腾讯网7 天

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

文章转载于新智元创业一年半后，前谷歌大脑高级研究科学家、Reka首席科学家兼联合创始人Yi Tay宣布已重返谷歌！他回到了谷歌DeepMind，回到了他的前经理Quoc ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果