视觉语言模型介绍
使用场景
结合视觉内容及上下文,开展多轮会话;
部分替代 OCR 等传统机器视觉模型;
随着模型能力的持续提升,未来还可以用于视觉智能体、机器人等领域。
使用方式
2.1 关于图片细节控制参数说明
SiliconCloud 提供 low,high,auto 三个 detail 参数选项。 对于目前支持的模型,detail 不指定或指定为 high 时会采用 high(“高分辨率”)模式,而指定为 low 或者 auto 时会采用 low(“低分辨率”)模式。
2.2 包含图像的 message 消息格式示例
使用图片 url 形式
{
"role": "user",
"content":[
{
"type": "image_url",
"image_url": {
"url": "https://sf-maas-uat-prod.oss-cn-shanghai.aliyuncs.com/outputs/658c7434-ec12-49cc-90e6-fe22ccccaf62_00001_.png",
"detail":"high"
}
},
{
"type": "text",
"text": "text-prompt here"
}
]
}
{
"role": "user",
"content":[
{
"type": "image_url",
"image_url": {
"url": f"data:image/jpeg;base64,{base64_image}",
"detail":"low"
}
},
{
"type": "text",
"text": "text-prompt here"
}
]
}
请注意,DeepseekVL2系列模型适用于处理短上下文,建议最多传入2张图片。若传入超过2张图片,模型将自动调整图片尺寸为384*384,且指定的detail参数将无效。
{
"role": "user",
"content":[
{
"type": "image_url",
"image_url": {
"url": "https://sf-maas-uat-prod.oss-cn-shanghai.aliyuncs.com/outputs/658c7434-ec12-49cc-90e6-fe22ccccaf62_00001_.png",
}
},
{
"type": "image_url",
"image_url": {
"url": f"data:image/jpeg;base64,{base64_image}"
}
},
{
"type": "text",
"text": "text-prompt here"
}
]
}
视觉输入内容计费方式
1024 小于 2048,因此没有初始调整大小。
最短边是 1024,因此我们将图像缩小到 768 x 768。
需要 4 个 512px 方形图块来表示图像,因此最终的 token 成本为170 * 4 + 85 = 765。
我们将图像缩小到 1024 x 2048 以适合 2048 正方形。
最短边是 1024,因此我们进一步缩小到 768 x 1536。
需要 6 个 512px 的图块,因此最终的代币成本为170 * 6 + 85 = 1105。
无论输入大小,低细节图像都是固定成本。
限制
常问问题
不,你可以用它dall-e-3来生成图像和gpt-4o,gpt-4o-mini或者gpt-4-turbo来理解图像。
我们目前支持 PNG (.png)、JPEG (.jpeg 和 .jpg)、WEBP (.webp) 和非动画 GIF (.gif)。
是的,我们将每张图片的上传大小限制为 20MB。
不会,图像经过模型处理后,我们会自动为您删除该图像。
您可以在GPT-4 和 Vision 系统卡中找到有关我们的评估、准备和缓解工作的详细信息。
我们进一步实施了阻止提交 CAPTCHA 的系统。
我们在令牌级别处理图像,因此我们处理的每个图像都会计入您的每分钟令牌 (TPM) 限制。有关用于确定每张图片令牌数的公式的详细信息,请参阅计算成本部分。
不,模型不接收图像元数据。
如果图像模糊不清,模型会尽力解读它。但结果可能不太准确。一个好的经验法则是,如果普通人无法在低/高分辨率模式下看到图像中的信息,那么模型也同样无法看到。
修改于 2025-01-14 07:28:15