Grok 4 – 马斯克旗下xAI推出的最新大模型

Latest AI tools3dys agorelease Sharenet.ai

122 0

Grok 4是什么

Grok 4 是 xAI 推出的最新AI大模型，Grok 4 的推理能力相较于前代提升 10 倍。模型具备卓越的推理能力，能在 SAT、GRE 等高难度考试中接近满分，在多项基准测试中超越其他前沿模型。Grok 4 支持多模态功能，能理解主观概念、生成代码和可视化内容，在语音交互上进行重大改进。Grok 4分为两个版本，Grok 4 是单代理（single agent）版本， Grok 4 Heavy 是多代理版本（multi agents），支持四个代理同时工作，上下文窗口最高支持 256k tokens。

Grok 4的主要功能

科学家级推理能力：在 xAI 的 Colossus 超级计算机上训练，具备博士级别的学术问题处理能力。
深度知识优化：通过识别和纠正错误信息，提供更精确、可靠的知识，目标是重写人类知识库。
multimodal support：支持文本和图像输入，未来将扩展至视频。
先进语音功能：Grok 4 Voice 拥有自然、酷似真人的声音，端到端延迟缩短一半，对话体验更流畅。
专业编码模型：Grok 4 Code 专为编程优化，支持多种语言，能高效编写、调试和解释代码，可嵌入 IDE 实时修改代码。
实时网络访问：配备 DeepSearch 工具，可从 X 平台等网络来源实时抓取最新信息。
互联网文化通晓：高精度理解网络“梗”、俚语和幽默，成为最“懂网上冲浪”的 AI 助手。
函数调用与结构化输出：支持函数调用以触发外部工具，返回结构化数据（如 JSON），方便程序解析。
API Support：通过 xAI API 提供，支持函数调用、JSON 模式响应等，兼容 OpenAI 和 Anthropic。

Grok 4的官网地址

Official website address：https://x.ai/grok

如何使用Grok 4

通过X平台直接使用
- 订阅X Premium+：每月16美元，可直接在X平台（原Twitter）使用Grok 4的对话功能，支持实时网络访问和图像分析。
- 认证账号特权：蓝V认证用户可通过官网快速认证，优先获得试用资格。
通过SuperGrok应用：独立应用界面，支持语音交互、文件上传（PDF/Excel等）和深度搜索，适合非技术用户。

开发者API集成

注册与密钥获取
- 访问xAI开发者门户注册账户。
- 创建API密钥，设置权限和速率限制。
free quota：新用户首月获150美元API额度（需参与数据共享计划）。

快速代码示例

Python（兼容OpenAI SDK）::

from openai import OpenAI
client = OpenAI(
    base_url="https://api.x.ai/v1",
    api_key="YOUR_GROK_API_KEY"
)
response = client.chat.completions.create(
    model="grok-4-beta",
    messages=[{"role": "user", "content": "用Python写个快速排序"}]
)
print(response.choices[0].message.content)

cURL请求::

curl https://api.x.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_GROK_API_KEY" \
  -d '{"model":"grok-4-beta","messages":[{"role":"user","content":"分析X平台AI讨论热点"}]}'

Grok 4的核心优势

博士级跨学科表现：在数学（AIME 25满分）、物理、化学、人文学科等所有主要学科上均超越博士水平。
人类终极考试突破：在涵盖2500道博士级难题的HLE基准测试中，Grok 4 Heavy（多代理模式）以50.7%的解答率成为全球首个过半模型。
AGI测试领先：在接近通用人工智能标准的ArcAGI v2测试中，以15.8%的成绩创纪录，是第二名（Claude Opus）的两倍。
Grok 4 Heavy多代理协同：支持4个智能体并行推理，通过交叉验证与方案竞优，将复杂问题解决效率提升指数级。
实时动态优化：演示中仅用4.5分钟完成MLB冠军概率预测，整合信息检索、数据建模与概率计算。
算力碾压：基于Colossus超级计算机（20万GPU集群），训练计算量较Grok 3提升100倍，响应速度提升50%以上。
首个token生成延迟：32K tokens上下文下仅需10秒，比Grok 3快15%。
专用编码模型：Grok 4 Code支持一键嵌入IDE（如Cursor），代码生成准确率与效率超越GPT-4 Code Interpreter。
API自动化：支持函数调用、JSON结构化输出，可自动触发外部API，适合金融、法律、医疗等高精度场景。
成本优势：每百万tokens输入3美元、输出15美元，仅为Claude 3 Opus的1/3。

Grok 4的模型测试

官方测试::
- Humanity's Last Exam：包含 2500 个跨学科专家级问题。Grok 4 Heavy 在使用工具的情况下得分达到 44.4%，若进一步优化可提升至 50.7%。
- AIME25（数学竞赛）：Grok 4 Heavy 拿到 100% 满分，碾压其他模型。
- GPQA（研究生水平问答）：Grok 4 Heavy 得分 88.9%，领先于 Gemini 2.5 Pro（86.4%）和 Claude 4 Opus（79.6%）。
- HMMT25（高中数学竞赛）：Grok 4 Heavy 得分 96.7%，远超 Gemini 2.5 Pro（82.5%）。
- USAMO25（美国数学奥赛）：Grok 4 Heavy 得分 61.9%，大幅领先于 Gemini DeepThink（49.4%）和 Gemini 2.5 Pro（34.5%）。
- ARC-AGI（抽象推理）：Grok 4 得分 15.9%，接近翻倍于之前的商业 SOTA。
- Vending-Bench（模拟经营）：Grok 4 净赚 $4694，远超 Claude Opus 4（$2077）和人类玩家（$844）。
第三方测评（大模型性能评估平台Artificial Analysis 测试）：
- 人工智能指数：Grok 4 拿到 73 分，超过 OpenAI o3（70 分）、谷歌 Gemini 2.5 Pro（70 分）、Anthropic Claude 4 Opus（64 分）和 DeepSeek R1 0528（68 分）。
- 编码指数和数学指数：Grok 4 均排名第一。
- GPQA Diamond 得分：创历史新高，达到 88%，超过 Gemini 2.5 Pro 的 84%。
- Humanity’s Last Exam 得分：创历史新高，达到 24%，超过 Gemini 2.5 Pro 的 21%。
- tempo：Grok 4 为 75 token/秒，虽不及 o3（188 token/秒）和 Gemini 2.5 Pro（142 token/秒），但优于 Claude 4 Opus Thinking（66 token/秒）。

Grok 4的产品定价

付费订阅计划::
- SuperGrok：年费300 美元，月费30 美元。
- SuperGrok Heavy：年费3000 美元，月费300 美元。
API 调用定价::
- importation：3 美元 / 百万 token。
- exports：15 美元 / 百万 token。