图像
图像生成模型
模型能力
图像生成模型可以根据文本描述自动生成图像。包括以下两类:
- 文本生成图像:根据输入的 prompt 直接生成符合描述的图像。
- 图像生成图像:在传入的图像的基础上,根据输入的 prompt 进一步生成符合描述的图像。
模型选型
您可以在图像视频生成 API 服务页面查看平台支持的图像视频模型,也可以调用查找模型 API 查找平台支持的模型。
派欧算力云提供了丰富的模型库,支持各类 Checkpoint 和 LoRA 模型,可以满足您对图像的风格化和个性化需求。更多信息,请参见查找 Stable Diffusion 模型。
不同的模型有不同的特点和偏好。在大模型 Playground 页面,您可以体验各个模型的效果。
接口调用
参考以下API文档可以查看详细参数和代码示例,单击「Try it」进行在线调用。
代码示例
- 文生图
Curl
- 图生图
Curl
重点参数
提示词
图像生成模型基于输入的文字描述(正向提示词prompt
)来生成图像,提示词描述的越准确、完整和丰富,生成的图像就越贴近期望生成的效果。因此,在使用图像生成模型时,要特别注意提示词的设计。
一般来说,提示词可以按照以下几方面去描述:
- 主体:图像的主要对象,例如人物、植物、物品等,描述时除了主体本身,也包括特征、动作等。
- 场景:主体所处的环境,例如室内户外、季节天气或者虚构场景等,可以通过短句加形容词,结合方位和构图等描述来体现场景。
- 风格:图像的艺术风格,例如写实、抽象、卡通、水墨等,有助于模型生成具有特定艺术表现的图像。
以下是一些设计提示词的建议:
- 尽量详细具体:尽可能详细、具体地描述清楚想要生成的图像内容,避免使用模糊、抽象的词汇。
- 正例:一片宽阔的草坪上有着星星点点的野花,一个十岁的中国小女孩正在草坪上奔跑,她穿着黄色连衣裙,梳着双马尾,侧对着镜头。
- 反例:草坪上有一个漂亮的小女孩。
- 细化画面需求:除了主体、场景和风格等描述外,可以增加有关氛围、镜头、光线等描述来进一步细化您的需求。
- 氛围示例:一家三口围坐在饭桌前,欢声笑语,其乐融融。
- 镜头示例:远景镜头,海滩上两个人影背对镜头,相依而坐看落日。
- 光线示例:茂密的树林里,清晨的阳光透过叶子洒在地上,形成斑驳的光影。
- 分步多次输入:对于复杂场景,可以尝试分多次去生成。先通过初步的提示词生成基础图像,再逐步细化描述去调整图像细节。
- 尝试不同描述:不同的描述方式,相近的词汇都可能产生不同的效果。您可以尝试使用不同的描述,选择最符合您期望的。
- 使用反向提示词:对于不希望出现在图像中的内容或元素,可以通过反向提示词
negative_prompt
来避免。
控制生成
width
和height
:图像的宽度和高度,用于设置图像的分辨率。较高的分辨率可以使图像清晰,细节丰富,但会减慢生成速度,并可能引入偏差。较低的分辨率会导致图像模糊,细节减少。image_num
:一次生成图像的数量。steps
:迭代步数,即模型在生成图像过程中进行的迭代次数。迭代步数越高,生成的图像质量越好,但同时也会减慢生成速度,增加资源消耗。guidance_scale
:提示词引导系数,用于平衡提示词对生成结果的影响。较高的引导系数可以使图像更符合提示词的要求,但可能会引入不自然的细节;较低的引导系数可以使图像生成更自由,但可能不完全符合提示词的要求。seed
:随机数种子,用于控制生成图像的随机性。如果希望生成的图像相对稳定,请使用固定的 seed 值。