2023年3月7日 — 主要看了下Mete半开源的llama,顺便也看了下国人大佬开源的RWKV,主要是想测试下能不能帮我写一些代码啥的。 首先看llama,模型本来需要申请,但是目前不需要了, …
2023年7月20日 — meta这是卷死openai的阳谋,让openai无利可图. chatGPT的api收费和订阅虽然很贵,但是现阶段他们还是亏钱运营的,唯一指望是利用现阶段抢占市场以及期望未来成本可 …
大语言模型(Large Language Models)英文缩写LLMs和“llama”这个词看起来很像。 之所以Meta给自家大语言模型取名“llama”,应该是考虑到“LLMs”不太好发音,所以就补上了元音字 …
2024年1月11日 — LLaMa 采用了高效的 causal multi-head attention (基于 xformers),不存储注意力权重,且不计算 mask 掉的 query 和 key 的值。 为了进一步提高训练效率,LLaMa 通过 …
2023年11月14日 — 他们给的数据全方位吊打 llama 2-70b,这种贴出来就问你信不信? 之前就写过一篇文章,聊了聊大模型测评国内的一些乱象,感兴趣的可以点击这里: 然后呢,有网友就 …
1、向原始LLaMA的词汇表中添加2w个中文词汇,增强了中文的编码和解码效率,提高了LLaMA的中文理解能力。 2、采用Low-Rank Adaptation (LoRA)方法,实现了中文LLaMA和Alpaca的高 …
在LLaMA-1预训练时候,从各种开源数据集,凑够了1.4T的tokens,所以最大的版本是70B,很接近Chinchilla Scaling Law的计算结果了。 另外,用1024张A100,MFU=0.55情况下,训练时 …
LLaMA 2在各种跑分当中都是遥遥领先,但到用户那里这种重复基本上就是一个不可用的状态。就这还拿什么对标OpenAI? 至于题主问的如何解决? 根本解决:等Meta发布LLaMA 3吧,现阶 …
2024年3月16日 — 目前比较推荐的有千问系列、glm 系列、百川系列、llama 系列的大模型,其他的比如猎户的 14B、Yi-6b、以及其他国外的大模型,我本身是用频率不是很多就不做过多推荐 …
实践中的成功. GPT系列模型就是Decoder-only架构的一个成功例证。通过大规模的预训练,这些模型能够在多种NLP任务上实现出色的表现,甚至在某些情况下超越了专门为特定任务训练的 …