Grok 4 – 马斯克旗下xAI推出的最新大模型

吐司AI

Grok 4是什么

Grok 4 是 xAI 推出的最新AI大模型,Grok 4 的推理能力相较于前代提升 10 倍。模型具备卓越的推理能力,能在 SAT、GRE 等高难度考试中接近满分,在多项基准测试中超越其他前沿模型。Grok 4 支持多模态功能,能理解主观概念、生成代码和可视化内容,在语音交互上进行重大改进。Grok 4分为两个版本,Grok 4 是单代理(single agent)版本, Grok 4 Heavy 是多代理版本(multi agents),支持四个代理同时工作,上下文窗口最高支持 256k tokens。

Grok 4 – 马斯克旗下xAI推出的最新大模型

Grok 4的主要功能

  • 科学家级推理能力:在 xAI 的 Colossus 超级计算机上训练,具备博士级别的学术问题处理能力。
  • 深度知识优化:通过识别和纠正错误信息,提供更精确、可靠的知识,目标是重写人类知识库。
  • multimodal support:支持文本和图像输入,未来将扩展至视频。
  • 先进语音功能:Grok 4 Voice 拥有自然、酷似真人的声音,端到端延迟缩短一半,对话体验更流畅。
  • 专业编码模型:Grok 4 Code 专为编程优化,支持多种语言,能高效编写、调试和解释代码,可嵌入 IDE 实时修改代码。
  • 实时网络访问:配备 DeepSearch 工具,可从 X 平台等网络来源实时抓取最新信息。
  • 互联网文化通晓:高精度理解网络“梗”、俚语和幽默,成为最“懂网上冲浪”的 AI 助手。
  • 函数调用与结构化输出:支持函数调用以触发外部工具,返回结构化数据(如 JSON),方便程序解析。
  • API Support:通过 xAI API 提供,支持函数调用、JSON 模式响应等,兼容 OpenAI 和 Anthropic。

Grok 4的官网地址

  • Official website address:https://x.ai/grok

如何使用Grok 4

  • 通过X平台直接使用
    • 订阅X Premium+:每月16美元,可直接在X平台(原Twitter)使用Grok 4的对话功能,支持实时网络访问和图像分析。
    • 认证账号特权:蓝V认证用户可通过官网快速认证,优先获得试用资格。
  • 通过SuperGrok应用:独立应用界面,支持语音交互、文件上传(PDF/Excel等)和深度搜索,适合非技术用户。
  • 开发者API集成
    • 注册与密钥获取
      • 访问xAI开发者门户注册账户。
      • 创建API密钥,设置权限和速率限制。
    • free quota:新用户首月获150美元API额度(需参与数据共享计划)。
    • 快速代码示例
      • Python(兼容OpenAI SDK)::
        from openai import OpenAI
        client = OpenAI(
            base_url="https://api.x.ai/v1",
            api_key="YOUR_GROK_API_KEY"
        )
        response = client.chat.completions.create(
            model="grok-4-beta",
            messages=[{"role": "user", "content": "用Python写个快速排序"}]
        )
        print(response.choices[0].message.content)
      • cURL请求::
        curl https://api.x.ai/v1/chat/completions \
          -H "Authorization: Bearer YOUR_GROK_API_KEY" \
          -d '{"model":"grok-4-beta","messages":[{"role":"user","content":"分析X平台AI讨论热点"}]}'

Grok 4的核心优势

  • 博士级跨学科表现:在数学(AIME 25满分)、物理、化学、人文学科等所有主要学科上均超越博士水平。
  • 人类终极考试突破:在涵盖2500道博士级难题的HLE基准测试中,Grok 4 Heavy(多代理模式)以50.7%的解答率成为全球首个过半模型。
  • AGI测试领先:在接近通用人工智能标准的ArcAGI v2测试中,以15.8%的成绩创纪录,是第二名(Claude Opus)的两倍。
  • Grok 4 Heavy多代理协同:支持4个智能体并行推理,通过交叉验证与方案竞优,将复杂问题解决效率提升指数级。
  • 实时动态优化:演示中仅用4.5分钟完成MLB冠军概率预测,整合信息检索、数据建模与概率计算。
  • 算力碾压:基于Colossus超级计算机(20万GPU集群),训练计算量较Grok 3提升100倍,响应速度提升50%以上。
  • 首个token生成延迟:32K tokens上下文下仅需10秒,比Grok 3快15%。
  • 专用编码模型:Grok 4 Code支持一键嵌入IDE(如Cursor),代码生成准确率与效率超越GPT-4 Code Interpreter。
  • API自动化:支持函数调用、JSON结构化输出,可自动触发外部API,适合金融、法律、医疗等高精度场景。
  • 成本优势:每百万tokens输入3美元、输出15美元,仅为Claude 3 Opus的1/3。

Grok 4的模型测试

  • 官方测试::
    • Humanity's Last Exam:包含 2500 个跨学科专家级问题。Grok 4 Heavy 在使用工具的情况下得分达到 44.4%,若进一步优化可提升至 50.7%。
    • AIME25(数学竞赛):Grok 4 Heavy 拿到 100% 满分,碾压其他模型。
    • GPQA(研究生水平问答):Grok 4 Heavy 得分 88.9%,领先于 Gemini 2.5 Pro(86.4%)和 Claude 4 Opus(79.6%)。
    • HMMT25(高中数学竞赛):Grok 4 Heavy 得分 96.7%,远超 Gemini 2.5 Pro(82.5%)。
    • USAMO25(美国数学奥赛):Grok 4 Heavy 得分 61.9%,大幅领先于 Gemini DeepThink(49.4%)和 Gemini 2.5 Pro(34.5%)。
    • ARC-AGI(抽象推理):Grok 4 得分 15.9%,接近翻倍于之前的商业 SOTA。
    • Vending-Bench(模拟经营):Grok 4 净赚 $4694,远超 Claude Opus 4($2077)和人类玩家($844)。
  • 第三方测评(大模型性能评估平台Artificial Analysis 测试):
    • 人工智能指数:Grok 4 拿到 73 分,超过 OpenAI o3(70 分)、谷歌 Gemini 2.5 Pro(70 分)、Anthropic Claude 4 Opus(64 分)和 DeepSeek R1 0528(68 分)。
    • 编码指数和数学指数:Grok 4 均排名第一。
    • GPQA Diamond 得分:创历史新高,达到 88%,超过 Gemini 2.5 Pro 的 84%。
    • Humanity’s Last Exam 得分:创历史新高,达到 24%,超过 Gemini 2.5 Pro 的 21%。
    • tempo:Grok 4 为 75 token/秒,虽不及 o3(188 token/秒)和 Gemini 2.5 Pro(142 token/秒),但优于 Claude 4 Opus Thinking(66 token/秒)。

Grok 4的产品定价

  • 付费订阅计划::
    • SuperGrok:年费300 美元,月费30 美元。
    • SuperGrok Heavy:年费3000 美元,月费300 美元。
  • API 调用定价::
    • importation:3 美元 / 百万 token。
    • exports:15 美元 / 百万 token。

Grok 4的适用人群

  • 顶尖开发者:全栈工程师、算法专家、开源项目维护者,需处理百万级代码库或构建复杂系统。
  • AI/科研工作者:高校教授、实验室研究员、数据科学家,用于学术突破、实验模拟或跨学科分析。
  • 技术创业者:初创公司CTO、独立黑客,需48小时内从0到1验证产品或自动化运营。
  • 金融量化团队:对冲基金、高频交易机构,依赖实时数据与博士级推理制定策略。
  • 国家/企业级机构:航天、能源、医药等重研发领域,需私有化部署解决超复杂工程问题。
© Copyright notes
AiPPT

Related articles

No comments

none
No comments...