本项目旨在帮助对大模型训练感兴趣的初学者从零开始了解和实践大模型训练流程。无论你是否有编程经验,都可以通过本教程逐步掌握大模型训练的核心概念和实践方法。
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的 ...
在快速发展的生成式 AI 领域,Nous Research 团队正在进行一项独特的实验:他们正在利用分布在全球的机器,预训练一款15亿参数的大型语言模型(LLM),这一过程避免了传统上需要在昂贵且耗电的数据中心或 超级 集群中进行的集中式开发。
针对这一问题,来自杜克大学和 Google Research 的研究团队提出了一种新的解码框架 —— 自驱动 Logits 进化解码(SLED),旨在提升大语言模型的事实准确性,且无需依赖外部知识库,也无需进行额外的微调。
为此,Business Insider采访了12位人工智能行业的前沿人士,包括初创公司的创始人、投资者,以及谷歌DeepMind和OpenAI的现任(和前任)员工, 探讨了在追求超智能人工智能(superintelligent AI ...
:我们提出了计算等效增益这一概念,用于量化各类增强方法带来的性能提升。CEG被定义为在不采用增强的情况下,预训练计算量需要增加多少才能达到与增强方法相同的基准性能提升。我们开发了一种基于公开基准进行评估的估算方法,以此来计算CEG。
LLM是否能验证知识压缩理论 ... 许多声音指出 Scaline Law 的范式正在从 Training-Time 转向 Inference-Time。 6、北大对齐团队撰文解读了o1在技术上的细节 ...
Janus团队 投稿自 凹非寺量子位 | 公众号 QbitAI 在多模态AI领域,基于预训练视觉编码器与MLLM的方法(如LLaVA系列)在视觉理解任务上展现出卓越性能。 而基于Rectified Flow的模型(如Stable Diffusion ...
今年 4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。 llm.c 旨在大幅简化大模型的训练,ta 使用纯 C 语言 / ...
在 AI 领域,近期的新闻焦点无疑是关于「Scaling Law 是否撞墙?」的辩论。这一曾经被视作大模型发展的第一性原理,如今却遭遇了挑战。 在这样的背景下,研究人员开始意识到,与其单纯堆砌的训练算力和数据资源,不如让模型「花时间思考」。 以 ...
NeuronLink是亚马逊云科技专有的网络互连技术,它能够将多台Trainium服务器组合成一个逻辑上的单一服务器,连接带宽可达2TB/s的带宽,而延迟仅为1微秒。 在现场,苹果也来为亚马逊站台,机器学习和人工智能高级总监Benoit ...
文章转载于新智元创业一年半后,前谷歌大脑高级研究科学家、Reka首席科学家兼联合创始人Yi Tay宣布已重返谷歌!他回到了谷歌DeepMind,回到了他的前经理Quoc ...