梦晨 发自 凹非寺色狗电影
量子位 | 公众号 QbitAI马斯克旗下xAI大模子,出二代了!
Grok-2测试版发布,小杯Grok-2 mini还是在平台在线可玩。
马斯克还以私语东谈主的体式,揭晓了困扰大模子圈一个多月的奥密:
原来Lmsys大模子竞技场上的深奥匿名模子sus-column-r,真身便是Grok-2。
sus-column-r在排名榜上蚁合了1万多东谈主类投票,还是与GPT-4o的API版并排第三。
在xAI我方的里面测试中,Grok-2在知识(MMLU、MMLU-Pro)、数学竞赛问题(MATH)、规划生水平科学知识 (GPQA)等畛域与其他前沿模子相比好意思。
另外Grok-2最擅长基于视觉的任务,在视觉数学推理 (MathVista) 达到SOTA。
不外这个图的排版可就有点心计在里面了:把分数最高的GPT-4o、Claude-3.5-Sonnet放得离我方远一些。
光看分数如故详尽,底下就干涉一手实测步调。
一手实测Grok-2要是你是/推特平台付用度户,不错获胜干涉Grok频谈试玩。毋庸钱的话也不错到Lmsys大模子竞技场剿袭sus-column-r试玩。
而且付用度户反倒只可玩到小杯mini版,免用度户能玩大杯,亦然很厚到了。
由于Grok-2不错探询上的及时数据,不错获胜让他回来今日的新闻,开启情理情理模式的话还不错附赠吐槽。
付费版块还接入了最新开源AI生图模子Flux.1色狗电影,会把汉文教唆词翻译成英文意会。
点进主页上的“安利一个玄幻游戏”问题示例,不错看到它先推选了《博德之门3》,并从剧情、东谈主物自界说、游戏机制、寰球塑造、幽默元素和玩家社区几个角度作念点评,很好的把抓了游戏的亮点。
此时不错获胜换汉文络续发问。
Grok-2通常了解《黑传奇:悟空》这款还没发售的游戏,准确说启程售日历在8月20日、使用的演叨5引擎,而况回来了上网友的盘问。
还在临了附带了网友的帖子,不错点进去参与盘问,99b工厂与通盘平台的功能整合还是到位了。
不外由于上只须mini版模子,接下来上强度测试咱们移步大模子竞技场,还不错与GPT-4o来一场捉对pk。
在最近流行的智力检测问题“9.9和9.11哪个大”上,Grok-2(sus-column-r)推崇碾压ChatGPT最新版块。
不外另一项流行测试“strawberry中有几个r”问题上,两者齐如故没能通过。(多试几次两者齐有小概率答对)。
更严肃一些的陷坑题“以下哪支烛炬是开始被吹灭的”中,Grok-2比ChatGPT稍有跳跃。
考点是开始被吹灭的烛炬剩下的部分更长(正确谜底3),ChatGPT失实的意会成最短的,Grok-2念念路是对的但是数哪个最长没数对。
关于经典的大模子流弊“逆转漫骂”问题,两者似乎齐以某种花式克服了。不仅能正着复兴“汤姆克鲁斯的母亲是谁”,也能倒过来复兴数据出现频率更少的“Mary Lee Pfeiffer的女儿是汤姆克鲁斯”。
(虽然不抹杀仅仅成为经典问题之后,干悉数据更多了。)
马斯克大模子升级,破除特斯拉换的测试先告一段落,不错看出Grok-2对比上一代Grok-1.5有了很大跳跃。
成人视频背后马斯克然则,破耗了多半资源和东谈主力。
比如有新加入xAI的规划员暗示,能用10万卡集群作念规划,比起在学校里戚然的资源爽太多了。
但是有一群东谈主可不舒坦了:特斯拉鼓吹。
阐述华尔街日报音信,马斯克不息把东谈主才、数据和GPU资源从特斯拉向xAI转念。
当今完了,xAI还是雇佣了至少11名曾在特斯拉使命过的职工,其中六名获胜在Autopilot团队使命过。
蓝本为特斯拉保留的GPU订单,马斯克也条件英伟达优先供应xAI。
马斯克还公开辩驳了特斯拉麇集的多半视觉数据,他暗示这些数据不错算作检修xAI模子的资源。
至少三位特斯拉鼓吹因为这事把马斯克给告了,宣称将资源转念到xAI损伤了特斯拉投资者的利益。
当今案件正在特拉华州法院审理。
Lmsys大模子竞技场试玩:
https://arena.lmsys.org参考邻接:
[1]https://x.ai/blog/grok-2[2]https://www.wsj.com/tech/elon-musk-tesla-shore-up-ai-business-d4e2187f[3]https://x.com/elonmusk/status/18235934752056855— 完 —
量子位 QbitAI · 头条号签约色狗电影