扫码查看

生成视频并支持音频和编辑的AI工具

Grok Imagine API

综合介绍

xAI在2026年1月28日发布了Grok Imagine API。这是一个专为创意工作流程设计的API集合。核心是视频和音频生成模型。它把文本提示或静态图像转成动态视频。还支持对视频做精确编辑。模型叫grok-imagine-video。生成视频带原生音频。质量高,延迟低,性价比好。在多个评测中排第一,比如Artificial Analysis的视频排行榜。它支持电影级运动控制,比如缩放、平移、延时等。风格也很灵活,能做动漫、赛博朋克、水彩等多种效果。用户通过xAI官方API或合作伙伴平台使用,比如fal.ai、HeyGen、ComfyUI。开发者能快速集成到应用里。普通创作者也能用控制台试玩。API推出后,很多伙伴反馈质量出色,生成速度快。

功能列表

  • 从文本提示生成带音频的视频 - 直接输入描述,就能输出几秒到十几秒的视频片段。
  • 从静态图像生成视频 - 上传或提供图片链接,让图像动起来,加上自然运动。
  • 视频编辑功能 - 在已有短视频上改动,比如加减物体、换风格、调整颜色、动画角色动作。
  • 电影级运动控制 - 支持Zoom In/Out、Pan、Timelapse等专业镜头效果。
  • 风格灵活转换 - 能转成Block、Cyberpunk、Anime、Retro、Watercolor等多种艺术风格。
  • 对象精确编辑 - 添加、移除、替换视频里的具体物体,保持一致性。
  • 原生音频生成 - 视频自带同步声音,不用后期配音。
  • 多种分辨率和比例 - 支持480p和720p,宽高比包括16:9、9:16、1:1等。
  • 异步生成流程 - 请求后轮询或等待结果,适合批量或长任务。

使用帮助

Grok Imagine API是xAI提供的开发者接口。主要用来生成和编辑视频。使用前需要先注册xAI账号,生成API密钥。访问https://x.ai/api页面,登录后创建密钥。密钥像一串长字符,保存好不要泄露。

官方推荐用xAI SDK来调用。SDK支持Python。先安装SDK。

pip install xai-sdk

安装完后,初始化客户端。把API密钥设成环境变量,或者直接传进去。

import os
from xai_sdk import Client
# 通过环境变量(推荐)
os.environ["XAI_API_KEY"] = "你的密钥"
client = Client()

或者直接在代码里传密钥(不推荐放公开代码里)。

client = Client(api_key="你的密钥")

现在来看最常用的功能:文本生成视频。

用client.video.generate方法。传prompt描述,模型固定用"grok-imagine-video"。duration控制时长,1到15秒。aspect_ratio选画面比例,默认16:9。resolution选480p或720p。

response = client.video.generate(
prompt="一只猫在草地上追蝴蝶,阳光明媚,慢动作",
model="grok-imagine-video",
duration=8,
aspect_ratio="16:9",
resolution="720p"
)
print("视频链接:", response.url)
print("视频时长:", response.duration, "秒")

这个方法会自动轮询等结果。生成完直接给你视频的公开URL,能下载或嵌入使用。如果想手动控制,用start方法先发请求。

start_response = client.video.start(
prompt="城市夜景,高楼灯光闪烁,飞车穿梭,赛博朋克风格",
model="grok-imagine-video",
duration=10
)
request_id = start_response.request_id
print("请求ID:", request_id)

过一会儿再用get方法查结果。

result = client.video.get(request_id)
if result.url:
print("完成!视频链接:", result.url)

从图像生成视频也简单。加image_url参数。图片链接要公开可访问,比如imgur或自己服务器。

response = client.video.generate(
prompt="让这张静态图动起来,人物走路,风吹头发",
model="grok-imagine-video",
image_url="https://example.com/your-image.jpg"
)

视频编辑功能用video_url参数。输入视频要短,最多8.7秒。prompt写修改指令。

response = client.video.generate(
prompt="把背景换成秋天落叶,角色穿红衣服",
model="grok-imagine-video",
video_url="https://example.com/input-video.mp4"
)

编辑后视频时长不变。SDK自动处理轮询。想批量处理任务,用start发多个请求,记录request_id,定时查结果。

合作伙伴平台用起来更简单。比如fal.ai。注册fal.ai账号,获取他们的API密钥。安装fal客户端。

npm install @fal-ai/client

然后提交任务。

import { fal } from "@fal-ai/client";
fal.config({ credentials: "你的FAL密钥" });
const { request_id } = await fal.queue.submit(
"xai/grok-imagine-video/text-to-video",
{
input: {
prompt: "樱花树下女孩跳舞,动漫风格",
duration: 6,
aspect_ratio: "9:16",
resolution: "720p"
}
}
);

之后查状态和结果。fal.ai支持webhook,生成完自动通知你的服务器。适合网页或app集成。

控制台试玩:在https://docs.x.ai或合作伙伴平台有在线demo。输入prompt点生成,看效果。适合先测试再写代码。

注意几点。视频生成是异步的,别指望秒出。输入链接必须直链公开。编辑视频别超过8.7秒。分辨率最高720p。生成带音频,但文档没强调音频参数,默认有。遇到问题看https://docs.x.ai/docs/guides/video-generations。里面有更多例子和参数说明。

用API时关注用量。xAI有速率限制,具体看模型页面或控制台。价格按使用算,视频按秒收费,但官方没公开确切数字。合作伙伴如fal.ai有自己定价,先小规模测试。

应用场景

  1. 内容创作者快速制作短视频用文本描述想法,几秒出带声音的片段。适合TikTok、Reels、YouTube Shorts。迭代快,不用拍实景。
  2. 广告和营销团队原型设计输入产品描述或图片,生成演示视频。快速试不同风格,选最佳方案给客户看。
  3. 游戏开发者做预览动画把角色概念图转成走动、攻击动画。或编辑已有片段加特效,帮策划可视化关卡。
  4. 教育工作者制作教学素材把历史事件或科学过程用动画展示。比如“细胞分裂过程”,加旁白音频,直观易懂。
  5. 父母给孩子做个性化故事视频输入童话描述或孩子画的图,生成动画故事。加声音,孩子爱看,还能学语言。

QA

  1. Grok Imagine API能生成多长的视频?目前支持1到15秒。编辑视频保持原时长,输入视频不能超8.7秒。
  2. 生成的视频带声音吗?是的,支持原生音频生成。视频出来就有同步声音,不用额外加。
  3. 需要自己训练模型吗?不需要。直接用现成模型grok-imagine-video。输入prompt就行。
  4. API怎么收费?按使用量算,视频按秒计费。具体价格看xAI控制台或文档。合作伙伴平台有独立定价。
  5. 支持中文prompt吗?支持。模型理解多种语言,中文描述也能生成好效果。
  6. 怎么集成到我的网站或app?用xAI SDK或OpenAI兼容方式调用。合作伙伴如fal.ai提供简单JS客户端,适合前端集成。
微信微博邮箱复制链接