Llama - 搜索

约 1,880,000 个结果

在新选项卡中打开链接

一周内

zhihu.com
https://www.zhihu.com/question/587479829
如何评价 LLaMA 模型泄露？ - 知乎
2023年3月7日 — 主要看了下Mete半开源的llama，顺便也看了下国人大佬开源的RWKV，主要是想测试下能不能帮我写一些代码啥的。首先看llama，模型本来需要申请，但是目前不需要了， …
zhihu.com
https://www.zhihu.com/question/613072688
Meta AI 为什么会开源 Llama2 呢? - 知乎
2023年7月20日 — meta这是卷死openai的阳谋，让openai无利可图. chatGPT的api收费和订阅虽然很贵，但是现阶段他们还是亏钱运营的，唯一指望是利用现阶段抢占市场以及期望未来成本可 …
zhihu.com
https://www.zhihu.com/tardis/zm/art/648774481
LLaMa-1 技术详解 - 知乎
2024年1月11日 — LLaMa 采用了高效的 causal multi-head attention (基于 xformers)，不存储注意力权重，且不计算 mask 掉的 query 和 key 的值。为了进一步提高训练效率，LLaMa 通过 …
zhihu.com
https://www.zhihu.com/question/23887798/answers/updated
草泥马是alpaca还是llama，两者的区别主要是什么？ - 知乎
大语言模型（Large Language Models）英文缩写LLMs和“llama”这个词看起来很像。之所以Meta给自家大语言模型取名“llama”，应该是考虑到“LLMs”不太好发音，所以就补上了元音字 …
zhihu.com
https://www.zhihu.com/question/630152920
如何看待李开复零一万物开源Yi大模型被指抄袭LLaMA? - 知乎
2023年11月14日 — 他们给的数据全方位吊打 llama 2-70b，这种贴出来就问你信不信？之前就写过一篇文章，聊了聊大模型测评国内的一些乱象，感兴趣的可以点击这里：然后呢，有网友就 …
zhihu.com
https://www.zhihu.com/question/603607594
对LLaMA进行中文词表扩充，不使用大量中文推理数据集做微调， …
1、向原始LLaMA的词汇表中添加2w个中文词汇，增强了中文的编码和解码效率，提高了LLaMA的中文理解能力。 2、采用Low-Rank Adaptation (LoRA)方法，实现了中文LLaMA和Alpaca的高 …
zhihu.com
https://www.zhihu.com/question/627258986
现在LLM 的大小为什都设计成6/7B、13B和130B几个档次？ - 知乎
在LLaMA-1预训练时候，从各种开源数据集，凑够了1.4T的tokens，所以最大的版本是70B，很接近Chinchilla Scaling Law的计算结果了。另外，用1024张A100，MFU=0.55情况下，训练时 …
zhihu.com
https://www.zhihu.com/question/615201703
llama2 回答重复咋办? - 知乎
LLaMA 2在各种跑分当中都是遥遥领先，但到用户那里这种重复基本上就是一个不可用的状态。就这还拿什么对标OpenAI？至于题主问的如何解决？根本解决：等Meta发布LLaMA 3吧，现阶 …
zhihu.com
https://www.zhihu.com/question/648879790
目前有什么可以本地部署的大模型推荐? - 知乎
2024年3月16日 — 目前比较推荐的有千问系列、glm 系列、百川系列、llama 系列的大模型，其他的比如猎户的 14B、Yi-6b、以及其他国外的大模型，我本身是用频率不是很多就不做过多推荐 …
zhihu.com
https://www.zhihu.com/question/632543011
如何评价深度求索发布的DeepSeek LLM 67B? - 知乎
这种独特的学习率调整策略与Llama的传统余弦学习率衰减法截然不同，显示出其独特的训练效率。开放和可访问性值得一提的是，DeepSeek提供了70亿和670亿两个参数版本的基础模型和 …
分页
- 1
- 2
- 3
- 4
- 下一页