除了人类评审员,VibeCheck还调用了GPT-4o mini来评价不同大模型的回复,结果发现与人类的评估结果相符。也就是说,GPT-4o mini也能发现上述人类评审员总结的细微差异。
每经记者:郑雨航 每经实习记者:岳楚鹏    每经编辑:高涵虽然像ChatGPT等大语言模型一直是AI新闻的焦点,但现在人们开始意识到它们的局限性。最近,OpenAI表示,其旗舰GPT模型的改进速度正在放缓,这引发了业内对未来发展方向的疑问。Sale ...
临近年末,各大手机品牌新机新机陆续发布,一场接着一场的发布会导致我们加班成了常态。疲惫之时小雷突然想到,或许我们可以用生成式AI撰写一些信息量较多,无需过多解读的文章,以缓解工作疲劳。但在真正使用生成式AI帮助我们工作之前,自然要对比测试一下当前行业人气比较高的几款AI大模型,看看它们是否真的可以完成我们 ...
中国的LLM正在变得强大,一个全新模型登上LiveBench榜单第五名,而且在多个基准测试中超越了GPT-4o,甚至在其中一个基准上击败了o1-preview ...
OpenAI刚刚大幅提升了 ChatGPT 的写作能力。对其基础模型GPT-4o的最新更新极大地增强了AI的创造力。这一更新还帮助它超越了 Google ...
据报道, 一位英国程序员在使用GPT生成的代码时遭遇了不幸。他按照GPT提供的代码进行了操作,结果导致自己的私钥被泄露给了钓鱼网站,最终损失了2500美元(约合人民币1.8万元)。
国际权威榜单 LiveBench 官网发布最新的榜单成绩显示,阶跃星辰自研的万亿参数语言大模型 Step-2 在榜单中位列国产基座大模型第一,成绩逼近 OpenAI 的 o1-mini-2024-09-12,超越GPT-4o-2024-08-06 ...
在新版GPT-4o刚登顶竞技榜后1天,立马发布最新试验版模型Gemini-Exp-1121夺回冠军宝座。 谷歌DeepMind首席科学家Jack Rae,称这是一场有趣的后训练“闪电战”。暗示post-training的迭代速度要比预训练快得多。
OpenAI 宣布对其旗舰模型 GPT-4o 进行了重大升级,进一步提升了其在推理、跨媒体和对话能力等方面的表现。此次更新被称为 ChatGPT-4o(20241120),旨在为用户提供更自然、引人入胜的文本生成体验。
近期,谷歌的Gemini实验版模型Gemini-Exp-1121迅速夺回了人工智能竞技榜的第一名,仅在OpenAI的新版GPT-4o登顶一天后就展现出强大的实力。这场技术上的角逐不仅吸引了科技界的广泛关注,也引发了对未来人工智能竞争格局的深入思考。这一事件中的关键在于谷歌在短时间内推出了一个显著强化的模型,显示出了他们对市场动态的敏感和迅速反应的能力。
谷歌DeepMind 最新 推出的Gemini实验版本(Exp1114)在Chatbot Arena平台上取得了令人瞩目的成绩。经过一周多的社区测试,累计超过6000票的数据显示,这款新模型以显著优势超越竞品,在多个关键领域展现出惊人实力。
OpenAI本周在ChatGPT网页版上线高级语音模式,面向付费用户。依托GPT-4o模型,可感知非语言信号并模仿情绪。Plus和Teams用户有语音使用上限。OpenAI正优化交互方式,免费用户将有机会体验。