2023年3月7日 — 主要看了下Mete半开源的llama,顺便也看了下国人大佬开源的RWKV,主要是想测试下能不能帮我写一些代码啥的。 首先看llama,模型本来需要申请,但是目前不需要了, …
2023年7月20日 — meta这是卷死openai的阳谋,让openai无利可图. chatGPT的api收费和订阅虽然很贵,但是现阶段他们还是亏钱运营的,唯一指望是利用现阶段抢占市场以及期望未来成本可 …
2024年1月11日 — LLaMa 采用了高效的 causal multi-head attention (基于 xformers),不存储注意力权重,且不计算 mask 掉的 query 和 key 的值。 为了进一步提高训练效率,LLaMa 通过 …
大语言模型(Large Language Models)英文缩写LLMs和“llama”这个词看起来很像。 之所以Meta给自家大语言模型取名“llama”,应该是考虑到“LLMs”不太好发音,所以就补上了元音字 …
2023年11月14日 — 他们给的数据全方位吊打 llama 2-70b,这种贴出来就问你信不信? 之前就写过一篇文章,聊了聊大模型测评国内的一些乱象,感兴趣的可以点击这里: 然后呢,有网友就 …
1、向原始LLaMA的词汇表中添加2w个中文词汇,增强了中文的编码和解码效率,提高了LLaMA的中文理解能力。 2、采用Low-Rank Adaptation (LoRA)方法,实现了中文LLaMA和Alpaca的高 …
在LLaMA-1预训练时候,从各种开源数据集,凑够了1.4T的tokens,所以最大的版本是70B,很接近Chinchilla Scaling Law的计算结果了。 另外,用1024张A100,MFU=0.55情况下,训练时 …
LLaMA 2在各种跑分当中都是遥遥领先,但到用户那里这种重复基本上就是一个不可用的状态。就这还拿什么对标OpenAI? 至于题主问的如何解决? 根本解决:等Meta发布LLaMA 3吧,现阶 …
2024年3月16日 — 目前比较推荐的有千问系列、glm 系列、百川系列、llama 系列的大模型,其他的比如猎户的 14B、Yi-6b、以及其他国外的大模型,我本身是用频率不是很多就不做过多推荐 …
这种独特的学习率调整策略与Llama的传统余弦学习率衰减法截然不同,显示出其独特的训练效率。 开放和可访问性 值得一提的是,DeepSeek提供了70亿和670亿两个参数版本的基础模型和 …