API Docs
  1. 聊天(Chat)
API Docs
  • 指南
  • 获取 Base URL 和 API Key
  • 通知设置-WebHook参数介绍
  • 配置方式
  • 列出模型
    • Models(列出模型)
      GET
  • 聊天(Chat)
    • 所有对话模型均兼容 OpenAI 格式
    • Realtime (实时语音、对话
    • 聊天完成对象
    • 聊天完成块对象
    • 视觉语言模型介绍
    • Claude 官方格式
      • Messages(官方Anthropic格式)
      • Messages(识图)
      • Messages(思考)
      • Messages(函数调用)
    • GPTs
      • 简介
      • 通过关键词搜索 GPTs
      • 通过ID搜索 GPTs
      • 通过关键词搜索 GPTs V2
      • 通过ID搜索 GPTs V2
    • Chat(聊天)
      POST
    • Chat(流式返回)
      POST
    • Chat(分析图片)
      POST
    • Chat(结构化输出)
      POST
    • Chat(工具tools调用)
      POST
    • Chat(指定GPTs)
      POST
    • Chat(修改图片)
      POST
    • Chat(生成图片)
      POST
    • Chat(分析视频)
      POST
    • Chat(Claude Thinking)
      POST
    • gpt-3.5-turbo-instruct
      POST
  • RAG(嵌入、重排序
    • 嵌入(Embeddings)
      • 嵌入对象
      • 多模态向量嵌入
      • 创建嵌入
    • 重排序(Reranker)
      • 介绍
      • rerank
  • 视频模型
    • 视频生成模型简介
    • pixverse
      • 通用版
        • 接入文档
        • 生成任务
        • 查询任务(免费
        • 创建角色
      • 简单版
        • 接入文档
        • Generate(图生视频
        • Generate(文生视频
        • 获取进度(免费
    • 快手可灵(官方格式)
      • 对接教程
      • Callback协议
      • 绘图、虚拟试穿请看绘图模型-可灵
      • 文生视频
      • 图生视频
      • 视频延长
      • 对口型
      • 视频特效
      • 查询任务(免费
    • Luma 文生视频
      • 官方接口格式
        • 任务查询
          • 查询单个任务(免费
          • 批量获取任务(免费
        • 提交生成视频任务
        • 扩展视频
        • 提交生成视频任务-异步
        • 获取视频无水印链接(VIP版才支持)(废弃,查询接口有返回
      • GoAmzAI格式(兼容版,开发接入请勿对接
        • 生成视频 (兼容版,开发接入请勿对接
        • 获取视频(免费
    • 智谱清影 文生视频
      • 生成(generations)
      • 查询(async-result)(免费
      • 查询(async-result) 批量(免费
    • Runway
      • 官方格式
        • 接入介绍
        • 提交视频生成任务
        • 查询视频任务(免费
      • 简单版(goamz/rocket
        • style 列表
        • generate(文生视频
        • generate(参考图片)
        • 查询视频任务(免费
        • video2video(视频转视频 风格重绘
        • Act-one 表情迁移
    • Viggle 舞蹈合成
      • 介绍
      • Pro 无水印
        • 上传舞蹈视频
        • 创建舞蹈视频任务
        • 上传角色图片
        • 获取任务进度、结果(免费
        • 获取官方舞蹈视频模版-获取tag
        • 获取官方舞蹈视频模版-获取tag下的模版
      • 普通版 有水印
        • 上传舞蹈视频
        • 创建舞蹈视频任务
        • 上传角色图片
        • 获取任务进度、结果
        • 获取官方舞蹈视频模版-获取tag
        • 获取官方舞蹈视频模版-获取tag下的模版
    • Pika
      • 通用版
        • 接入介绍
        • generate (文生视频\图生视频\视频生视频)
        • 获取pika affect列表(免费
        • 查询视频任务(免费
  • 数字人
    • 简介
    • 生成数字人视频
    • 获取任务详情(免费
    • 查询默认 voice 列表(免费
  • 绘图模型
    • 生图模型简介
    • OpenAI Dall-e 格式
      • Flux
      • Recraftv3
      • 生图
      • 图像编辑(gpt-image-1)
    • OpenAI 聊天格式
      • Chat(兼容Flux)
      • Chat(兼容Recraftv3)
      • Chat(兼容Dalle3\Dalle2)
    • Mid journey 文生图
      • Midjourney接入向导
      • 补充 其他参数以及回调
      • 换脸任务提交
        • 提交swap_face任务
      • 任务提交
        • 绘图变化(UPSCALE; VARIATION; REROLL)
        • 执行动作(所有的关联按钮动作UPSCALE; VARIATION; REROLL; ZOOM等)
        • 绘图变化-simple(UPSCALE; VARIATION; REROLL)
        • 提交Blend任务(图生图)
        • 提交Describe任务(图生文)
        • 提交Imagine任务(文生图、文图生图)
        • 提交Modal(提交局部重绘、ZOOM)
        • 提交Shorten任务(prompt分析)
        • 上传图片获得url
      • 任务查询(免费
        • 根据ID列表查询任务(免费
        • 指定ID获取任务(免费
        • 获取任务图片的seed(免费
    • Flux 文生图
      • Openai Dalle3 格式
      • Replicate 格式
      • Openai Chat 格式
    • Ideogram(官方格式
      • Generate 3.0(文生图)
      • Edit 3.0(编辑)
      • Remix 3.0(混合图)
      • Reframe 3.0(重构)
      • Replace Background 3.0(背景替换)
      • ideogram(文生图)
      • Remix(混合图)
      • Upscale(放大高清)
      • Describe(描述)
      • Edit(编辑)
    • recraft 官方格式
      • 附录
      • Generate Image(生成图片)
      • Vectorize Image(矢量化图片)
      • Remove Background(删除背景)
      • Clarity Upscale(清晰度提升)
      • Generative Upscale(生成高清)
      • Create style(创建样式)
    • 快手可灵(官方格式)
      • Callback协议
      • 简介
      • 视频、对口型请看视频模型-可灵
      • 虚拟试穿
      • 图像生成
      • 查询任务(免费
    • SeedEdit(图片编辑
      • Dall-e 格式
      • OpenAI 聊天格式
    • Replicate
      • 接入教程
      • 获取任务进度(predictions (免费
      • 创建任务-通过模型version(predictions)
      • 创建任务-通过url路径
      • 创建任务-stability-ai/stable-diffusion
      • 创建任务-stability-ai/sdxl
      • 创建任务-stability-ai/stable-diffusion-inpainting
      • 创建任务-stability-ai/stable-diffusion-img2img
      • 创建任务-lucataco/flux-schnell-lora
      • 创建任务-lucataco/flux-dev-lora
      • 创建任务-andreasjansson/stable-diffusion-animation
      • 创建任务-lucataco/animate-diff
      • 创建任务-sujaykhandekar/object-removal
      • 创建任务-cjwbw/rembg
      • 创建任务-black-forest-labs/flux-1.1-pro
      • 创建任务-black-forest-labs/flux-1.1-pro-ultra
      • 创建任务-black-forest-labs/flux-dev
      • 创建任务-black-forest-labs/flux-pro
      • 创建任务-black-forest-labs/flux-schnell
      • 创建任务-minimax/video-01-live
      • 创建任务-minimax/video-01
      • 创建任务-recraft-ai/recraft-v3
      • 创建任务-recraft-ai/recraft-v3-svg
      • 创建任务-ideogram-ai/ideogram-v2-turbo
    • 豆包智能绘图
      • 能力介绍&计费说明
      • 同步请求例子: SeedEdit
      • 异步请求提交例子: SeedEdit
      • 异步请求查询例子: SeedEdit
      • 即梦3.0
      • 通用2.1-文生图
      • 通用2.0Pro-指令编辑(SeedEdit)
      • 通用2.0Pro-文生图
      • 通用2.0-角色特征保持
      • 通用2.0-文生图
      • 通用2.0Pro-图生图
      • 通用1.4-角色特征保持
      • 通用1.4-文生图
      • 动漫1.3.X-文生图/图生图
      • 通用XL pro-图生图
      • 通用XL pro-文生图
      • AI营销商品图
      • 单图写真(pv版
      • inpainting涂抹消除
      • inpainting涂抹编辑
      • outpainting智能扩图
      • 实时生图-图生图
  • 音频接口
    • Suno文生歌
      • 补充
      • 音乐生成参数介绍
      • 场景一: 灵感模式
      • 场景二: 自定义.歌词歌名
      • 场景三: 纯音乐.自定义
      • 场景四: 纯音乐.灵感模式
      • 场景五: 续写自定义音频
      • 场景六: 续写音乐并获取完整音乐
      • 场景七: Cover 音乐翻版\修改风格
      • 场景八: Replace Section.替换片段
      • 场景九: Persona.歌手风格
      • 场景十: 上传续写
      • 生成歌曲(灵感模式)
      • 生成歌曲(自定义模式)
      • 生成歌曲(续写模式)
      • 生成歌曲(歌手风格)
      • 生成歌曲(上传歌曲二次创作)
      • 生成歌曲(拼接歌曲)
      • 生成歌词
      • 上传请求
      • 报告上传完毕
      • 查询上传处理状态
      • 初始化音频文件
      • Persona:创建歌手风格
      • 查询歌词
      • 查询歌曲
      • 批量获取任务
      • 声曲分离
      • Timing:歌词、音频时间线
      • wav:获取 wav 格式文件
      • mp4:生成 mp4 mv 视频
      • 上传音乐通过 url
      • 生成歌曲 (v1 版本)
      • 拼接歌曲 (v1 版本)
      • 生成歌词 (v1 版本)
      • 查询歌曲 (v1 版本)
      • 查询歌词 (v1 版本)
    • OpenAI(TTS\Wishper
      • 创建语音(tts
      • 创建转录(whisper
      • 创建翻译(whisper
  • 文件上传(Files)
    • README
    • 文件对象
    • 上传文件
  • PPT接口
    • 文多多(官方格式)
      • 介绍
      • 分页查询 PPT 模板(免费
      • 更换 PPT 模板(免费
      • 修改大纲(免费
      • 解析文件内容(免费
      • 生成大纲(免费
      • 生成大纲内容(免费
      • 随机 PPT 模板(免费
      • 获取 PPT 列表(免费
      • 加载 PPT 数据(免费
      • 下载 PPT(免费
      • 更新 PPT 属性(免费
      • 保存 PPT(免费
      • 删除PPT(免费
      • 生成大纲内容同时异步生成PPT(免费
      • 查询异步生成PPT信息(免费
      • ppt转json(免费
      • json转ppt
  • 帮助中心
    • 常见问题及解决办法
  • 平台API
    • 获取用户信息(余额
  • 废弃、未开放
    • Vidu(官方格式)
      • 普通
        • 创建视频(tasks)
        • 高清视频(tasks)
        • 视频状态(state)
        • 视频查询(tasks-get)
    • Udio文生歌
      • 接入流程
      • 根据描述创建音乐
      • 根据歌词创建音乐
      • 音乐续写
      • 获取任务进度(免费
    • Sora
      • 创建视频
      • 查询视频任务(免费
  1. 聊天(Chat)

视觉语言模型介绍

使用场景#

视觉语言模型(VLM)是一种能够同时接受视觉(图像)和语言(文本)两种模态信息输入的大语言模型。基于视觉语言模型,可以传入图像及文本信息,模型能够理解同时理解图像及上下文中的信息并跟随指令做出响应。如:
视觉内容解读:要求模型对图片中包含的信息进行解读、描述,如包含的事物、文字,事物的空间关系,图像的颜色、气氛等;
结合视觉内容及上下文,开展多轮会话;
部分替代 OCR 等传统机器视觉模型;
随着模型能力的持续提升,未来还可以用于视觉智能体、机器人等领域。
​

使用方式#

对于 VLM 模型,可在调用 /chat/completions 接口时,构造包含 图片 url 或 base64 编码图片 的 message 消息内容进行调用。通过 detail 参数控制对图像的预处理方式。
​
2.1 关于图片细节控制参数说明
SiliconCloud 提供 low,high,auto 三个 detail 参数选项。 对于目前支持的模型,detail 不指定或指定为 high 时会采用 high(“高分辨率”)模式,而指定为 low 或者 auto 时会采用 low(“低分辨率”)模式。
​
2.2 包含图像的 message 消息格式示例
​
使用图片 url 形式
{
    "role": "user",
    "content":[
        {
            "type": "image_url",
            "image_url": {
                "url": "https://sf-maas-uat-prod.oss-cn-shanghai.aliyuncs.com/outputs/658c7434-ec12-49cc-90e6-fe22ccccaf62_00001_.png",
                "detail":"high"
            }
        },
        {
            "type": "text",
            "text": "text-prompt here"
        }
    ]
}
2.2 base64 形式
{
    "role": "user",
    "content":[
        {
            "type": "image_url",
            "image_url": {
                "url": f"data:image/jpeg;base64,{base64_image}",
                "detail":"low"
            }
        },
        {
            "type": "text",
            "text": "text-prompt here"
        }
    ]
}
2.3 多图片形式,其中每个图片可以是上述两种形式之一
请注意,DeepseekVL2系列模型适用于处理短上下文,建议最多传入2张图片。若传入超过2张图片,模型将自动调整图片尺寸为384*384,且指定的detail参数将无效。
{
    "role": "user",
    "content":[
        {
            "type": "image_url",
            "image_url": {
                "url": "https://sf-maas-uat-prod.oss-cn-shanghai.aliyuncs.com/outputs/658c7434-ec12-49cc-90e6-fe22ccccaf62_00001_.png",
            }
        },
        {
            "type": "image_url",
            "image_url": {
                "url": f"data:image/jpeg;base64,{base64_image}"
            }
        },
        {
            "type": "text",
            "text": "text-prompt here"
        }
    ]
}

视觉输入内容计费方式#

对于图片等视觉输入内容,模型会将其转化为 tokens,与文本信息一并作为模型输出的上下文信息,因此也会一并进行计费。不同模型的视觉内容转化方式不同。
图像输入以代币计量和收费,就像文本输入一样。给定图像的代币成本由两个因素决定:其大小和detail每个 image_url 块上的选项。所有图像detail: low每张成本为 85 个代币。detail: high首先将图像缩放以适合 2048 x 2048 正方形,并保持其纵横比。然后,对它们进行缩放,使图像的最短边长为 768px。最后,我们计算图像由多少个 512px 正方形组成。每个正方形的成本为170 个代币。另外85 个代币始终添加到最终总数中。
以下是一些证明上述内容的例子。
模式下的 1024 x 1024 方形图像detail: high花费 765 个代币
1024 小于 2048,因此没有初始调整大小。
最短边是 1024,因此我们将图像缩小到 768 x 768。
需要 4 个 512px 方形图块来表示图像,因此最终的 token 成本为170 * 4 + 85 = 765。
模式下 2048 x 4096 的图像detail: high花费 1105 个代币
我们将图像缩小到 1024 x 2048 以适合 2048 正方形。
最短边是 1024,因此我们进一步缩小到 768 x 1536。
需要 6 个 512px 的图块,因此最终的代币成本为170 * 6 + 85 = 1105。
4096 x 8192 的图像detail: low最多需要 85 个代币
无论输入大小,低细节图像都是固定成本。

限制#

虽然具有视觉功能的 GPT-4 功能强大,可用于多种情况,但了解该模型的局限性非常重要。以下是我们已知的一些局限性:
医学图像:该模型不适合解释 CT 扫描等专门的医学图像,不应用于医疗建议。
非英语:处理包含非拉丁字母(例如日语或韩语)文本的图像时,模型可能无法达到最佳效果。
小文本:放大图像中的文本以提高可读性,但避免裁剪重要细节。
旋转:模型可能会误解旋转/颠倒的文本或图像。
视觉元素:模型可能难以理解颜色或样式(如实线、虚线或点线)各异的图形或文本。
空间推理:该模型难以完成需要精确空间定位的任务,例如识别棋盘位置。
准确性:模型在某些情况下可能会生成不正确的描述或标题。
图像形状:该模型难以处理全景图像和鱼眼图像。
元数据和调整大小:该模型不处理原始文件名或元数据,并且图像在分析之前会调整大小,从而影响其原始尺寸。
计数:可以给出图像中物体的近似数量。
验证码:出于安全原因,我们实施了一个系统来阻止验证码的提交。

常问问题#

我可以用来gpt-4生成图像吗?
不,你可以用它dall-e-3来生成图像和gpt-4o,gpt-4o-mini或者gpt-4-turbo来理解图像。
我可以上传什么类型的文件?
我们目前支持 PNG (.png)、JPEG (.jpeg 和 .jpg)、WEBP (.webp) 和非动画 GIF (.gif)。
我可以上传的图像大小有限制吗?
是的,我们将每张图片的上传大小限制为 20MB。
我可以删除我上传的图片吗?
不会,图像经过模型处理后,我们会自动为您删除该图像。
在哪里可以了解有关 GPT-4 与 Vision 的更多信息?
您可以在GPT-4 和 Vision 系统卡中找到有关我们的评估、准备和缓解工作的详细信息。
我们进一步实施了阻止提交 CAPTCHA 的系统。
GPT-4 与 Vision 的速率限制如何运作?
我们在令牌级别处理图像,因此我们处理的每个图像都会计入您的每分钟令牌 (TPM) 限制。有关用于确定每张图片令牌数的公式的详细信息,请参阅计算成本部分。
带有 Vision 的 GPT-4 能理解图像元数据吗?
不,模型不接收图像元数据。
如果我的图像不清楚怎么办?
如果图像模糊不清,模型会尽力解读它。但结果可能不太准确。一个好的经验法则是,如果普通人无法在低/高分辨率模式下看到图像中的信息,那么模型也同样无法看到。
上一页
聊天完成块对象
下一页
Messages(官方Anthropic格式)
Built with