模型能力

图像生成模型可以根据文本描述自动生成图像。包括以下两类:

  • 文本生成图像:根据输入的 prompt 直接生成符合描述的图像。
  • 图像生成图像:在传入的图像的基础上,根据输入的 prompt 进一步生成符合描述的图像。

模型选型

您可以在图像视频生成 API 服务页面查看平台支持的图像视频模型,也可以调用查找模型 API 查找平台支持的模型。

派欧算力云提供了丰富的模型库,支持各类 Checkpoint 和 LoRA 模型,可以满足您对图像的风格化和个性化需求。更多信息,请参见查找 Stable Diffusion 模型

不同的模型有不同的特点和偏好。在大模型 Playground 页面,您可以体验各个模型的效果。

接口调用

参考以下API文档可以查看详细参数和代码示例,单击「Try it」进行在线调用。

代码示例

  • 文生图
Curl
curl \
-X POST https://api.ppinfra.com/v3/async/txt2img \
-H "Authorization: Bearer $your_api_key" \
-H "Content-Type: application/json" \
-d '{
  "request": {
    "model_name":"counterfeitxl__98184.safetensors",
    "prompt":"close up, masterpiece, best quality, bokeh, cute, 1girl, solo, hair clip, round eyewear, brown jacket, turtleneck sweater, upper body, looking at viewer, yellow eyes, closed mouth, leaf, white background, plant",
    "negative_prompt":"embedding:negativeXL_D.safetensors, military headwear",
    "width":512,
    "height":512,
    "sampler_name":"DPM++ 2S a",
    "guidance_scale":10,
    "steps":28,
    "image_num":4,
    "clip_skip":1,
    "seed":846392716733523
  }
}'

curl \
-X GET https://api.ppinfra.com/v3/async/task-result?task_id=$task_id \
-H "Authorization: Bearer $your_api_key"
  • 图生图
Curl
curl \
 -X POST https://api.ppinfra.com/v3/async/img2img \
 -H "Authorization: Bearer $your_api_key" \
 -H "Content-Type: application/json" \
 -d '{
  "request": {
    "model_name":"majicmixRealistic_v6_65516.safetensors",
    "image_base64":"<input image to base64>",
    "prompt":"Future world, future, science fiction film, science fiction, astronauts walking in a spaceship, astronauts, close-up of upper body, open hands, equipment glowing on the wall, technologically advanced spaceships",
    "negative_prompt":"glasses hat freckles mask necklace shine earrings weapon",
    "width":1024,
    "height":576,
    "sampler_name":"DPM++ 2S a Karras",
    "guidance_scale":7.5,
    "steps":20,
    "image_num":4,
    "clip_skip":1,
    "seed":-1,
    "strength":0.65,
  }
 }'
 
 curl \
 -X GET https://api.ppinfra.com/v3/async/task-result?task_id=$task_id \
 -H "Authorization: Bearer $your_api_key"

重点参数

提示词

图像生成模型基于输入的文字描述(正向提示词prompt)来生成图像,提示词描述的越准确、完整和丰富,生成的图像就越贴近期望生成的效果。因此,在使用图像生成模型时,要特别注意提示词的设计。

一般来说,提示词可以按照以下几方面去描述:

  • 主体:图像的主要对象,例如人物、植物、物品等,描述时除了主体本身,也包括特征、动作等。
  • 场景:主体所处的环境,例如室内户外、季节天气或者虚构场景等,可以通过短句加形容词,结合方位和构图等描述来体现场景。
  • 风格:图像的艺术风格,例如写实、抽象、卡通、水墨等,有助于模型生成具有特定艺术表现的图像。

以下是一些设计提示词的建议:

  • 尽量详细具体:尽可能详细、具体地描述清楚想要生成的图像内容,避免使用模糊、抽象的词汇。
    • 正例:一片宽阔的草坪上有着星星点点的野花,一个十岁的中国小女孩正在草坪上奔跑,她穿着黄色连衣裙,梳着双马尾,侧对着镜头。
    • 反例:草坪上有一个漂亮的小女孩。
  • 细化画面需求:除了主体、场景和风格等描述外,可以增加有关氛围、镜头、光线等描述来进一步细化您的需求。
    • 氛围示例:一家三口围坐在饭桌前,欢声笑语,其乐融融。
    • 镜头示例:远景镜头,海滩上两个人影背对镜头,相依而坐看落日。
    • 光线示例:茂密的树林里,清晨的阳光透过叶子洒在地上,形成斑驳的光影。
  • 分步多次输入:对于复杂场景,可以尝试分多次去生成。先通过初步的提示词生成基础图像,再逐步细化描述去调整图像细节。
  • 尝试不同描述:不同的描述方式,相近的词汇都可能产生不同的效果。您可以尝试使用不同的描述,选择最符合您期望的。
  • 使用反向提示词:对于不希望出现在图像中的内容或元素,可以通过反向提示词negative_prompt来避免。

控制生成

  • widthheight:图像的宽度和高度,用于设置图像的分辨率。较高的分辨率可以使图像清晰,细节丰富,但会减慢生成速度,并可能引入偏差。较低的分辨率会导致图像模糊,细节减少。
  • image_num:一次生成图像的数量。
  • steps:迭代步数,即模型在生成图像过程中进行的迭代次数。迭代步数越高,生成的图像质量越好,但同时也会减慢生成速度,增加资源消耗。
  • guidance_scale:提示词引导系数,用于平衡提示词对生成结果的影响。较高的引导系数可以使图像更符合提示词的要求,但可能会引入不自然的细节;较低的引导系数可以使图像生成更自由,但可能不完全符合提示词的要求。
  • seed:随机数种子,用于控制生成图像的随机性。如果希望生成的图像相对稳定,请使用固定的 seed 值。