引言

AI工具的使用方法,看似高深莫测,实则简单易行。你是否曾在学习完一套流程后,发现按照流程制作的成品确实有用,但一旦替换掉流程中的需求,结果却变得似是而非?这其中的道理很简单——方法用错了。

AI,这个时代的产物,在很长一段时间内,都将作为工具被我们使用。我们不能将其视为万能的神器,期待它随心所欲地完成我们的每一个愿望。这样的期待是不切实际的。想象一下,你希望制作一份报表,将相关数据丢给AI,它确实能生成一份报表,但这份报表却总是不尽如人意。又或者,你希望编写一段代码,将需求告诉AI,生成的代码虽然有用,却难以融入你的项目。这背后的原因在于,AI缺乏个人情感和想法,它无法洞悉你内心真正的渴望。因此,我们需要为AI制定规则,在规则的框架内,AI才能发挥其最大的潜力,为我们提供最优质的服务。

网络上充斥着大量的课程和文章,它们宣称只要告诉AI你的需求,它就能满足你的愿望。然而,现实却并非如此。你只能向AI阐述你的目标,以及在何种条件下实现这些目标,AI才会朝着你指引的方向前进。这就像你的领导给你布置任务一样,他们知道项目的需求,也知道完成项目的方法,但他们从不考虑这些方法如何具体实施才能确保结果的正确性。因为方法是抽象的,就像小说的大纲,而实际操作则是具体的,需要细致的执行。而这些具体的操作,正是领导无需考虑,而员工需要深思熟虑的部分。

因此,当你使用AI时,你就是领导,而AI则是你的员工。你需要为这个员工提供一套理论,它才会进行实际操作。在你设定的理论和框架内,AI会竭尽全力,运用其强大的算力,为你呈现最佳的结果。

让我们通过一个例子来更直观地理解这一点。在举例之前,你需要明白的是,越是精确的需求,你需要提供的底层逻辑和规则就越详细。因此,我们选择以AI绘画工具Midjourney为例,以便更清晰地阐述。

明确AI的角色和任务——它是干什么的

首先,你需要告诉AI,Midjourney是什么。在你的理解中,Midjourney扮演着怎样的角色?这就像你的老板给你布置项目时,会首先告诉你这个项目的目标和意义。

Midjourney 是另一种基于 AI 的工具,能够根据用户提示生成图像。Midjourney 擅长将实际艺术风格应用于用户想要的任何组合,从而生成图像。它在创建环境方面表现出色,尤其是奇幻和科幻场景,具有戏剧性的光影效果,看起来像是电子游戏中的渲染概念艺术。Midjourney 是如何工作的?Midjourney 是一种 AI 图像生成工具,通过文本提示和参数输入,并利用基于大量图像数据训练的机器学习(ML)算法来生成独特的图像。它由**潜在扩散模型(Latent Diffusion Model, LDM)**驱动,这是一种尖端的文本到图像合成技术。在理解 LDM 的工作原理之前,我们先来看看什么是扩散模型(Diffusion Models, DM),以及为什么需要 LDM。

扩散模型(DM)是基于 Transformer 的生成模型,它接收一段数据(例如一张图像),并随着时间的推移逐渐添加噪声,直到图像变得无法辨认。然后,模型尝试将图像重建为其原始形式,在此过程中学习如何生成图片或其他数据。

DM 的问题是,强大的模型通常会消耗数百个 GPU 天(GPU days),并且由于顺序评估,推理成本非常高。为了在有限的计算资源上训练 DM 而不影响其质量和灵活性,DM 被应用于强大的预训练自动编码器的潜在空间中。在这种表示上训练扩散模型,可以在降低复杂性和保留细节之间找到最佳平衡点,从而显著提高视觉保真度。通过在模型架构中引入交叉注意力层(cross-attention layer),扩散模型变成了一个强大而灵活的生成器,能够处理一般条件下的输入(如文本和边界框),从而实现基于卷积的高分辨率合成。
Midjourney 的版本更新
Midjourney 会定期发布新的模型版本,以提高效率、一致性和质量。最新模型是默认使用的,但用户也可以通过 --version 或 --v 参数,或使用 /settings 命令选择其他模型版本。不同的模型擅长生成不同类型的图像。

最新模型
Midjourney V5 模型是最新且最先进的模型,于 2023 年 3 月 15 日发布。要使用此模型,请在提示词末尾添加 --v 5 参数,或使用 /settings 命令并选择 MJ Version 5。
该模型具有非常高的一致性,擅长解释自然语言提示,分辨率更高,并支持高级功能,例如使用 --tile 参数生成重复图案。要启用 V5 模型,请在提示词后输入 --v 5,或在 /settings 中选择 V5。

V5 基础模型的新特性
更广泛的风格范围,对提示词的反应更加灵敏。

更高的图像质量(分辨率提高 2 倍),动态范围更广。

更详细的图像,细节更准确,减少不必要的文字。

图像提示功能性能提升。

支持 --tile 参数,用于生成无缝平铺图案(实验性功能)。

支持 --ar 宽高比大于 2:1(实验性功能)。

支持 --iw 参数,用于权衡图像提示与文本提示的权重。

V5 的风格和提示词使用
当前的测试基本上是模型的“专业”模式。

与 V3 和 V4 相比,V5 更加“中立”,旨在提供多样化的输出,并对用户的输入非常敏感。

这种设计的代价是,V5 可能更难使用。简短的提示词可能效果不佳,建议尝试编写更长、更明确的描述(例如:“具有戏剧性光影的电影风格照片”)。

请在社区中与其他用户交流,探讨如何使用 V5。

在将 V5 设为默认模型之前,我们希望为其提供一个“友好”的默认风格。即使如此,您仍然可以关闭此模式,回到当前的“原始”模式。

注意事项
这是一个 alpha 测试版本,未来会有变化。请勿依赖此模型在未来保持不变,它将在 V5 正式发布时进行重大修改。

目前 V5 没有独立的放大模型,其默认分辨率与放大后的 V4 相同。如果您点击放大,它将直接生成一张图像。

社区标准
该模型可以生成比以往任何版本都更加逼真的图像。

我们增加了审核员的数量,改进了审核工具,并将更加严格地执行社区标准。请不要制造麻烦或创建引发争议的图像。

关于 V5 的更多信息
V5 是我们在 AI 超级集群上训练的第二个模型,历时 5 个月完成。它采用了显著不同的神经架构和新的美学技术。V5 并不是最终版本,但我们希望您能感受到人类集体想象力的深度和不可估量的力量。


设定AI操作的规则和边界——在怎样的规则下去执行任务

当你已经向AI阐述了Midjourney的定义后,接下来你需要告诉AI如何正确使用Midjourney,以得到满意的结果。这就像你的领导开始详细说明项目的具体要求和客户期望。

基础参数
宽高比
--aspect 或 --ar:更改生成图像的宽高比。

混沌度
--chaos <0–100 之间的数字>:改变生成结果的多样性。较高的值会产生更不寻常和意想不到的结果。

负面提示
--no:负面提示,例如 --no plants 会尝试从图像中移除植物。

质量
--quality <.25, .5, 1, 或 2> 或 --q <.25, .5, 1, 或 2>:设置渲染质量的时间消耗。默认值为 1。较高的值成本更高,较低的值成本更低。

种子
--seed <0–4294967295 之间的整数>:Midjourney 机器人使用种子数创建视觉噪声场(类似于电视静态),作为生成初始图像网格的起点。种子数通常随机生成,但可以通过 --seed 或 --sameseed 参数指定。使用相同的种子数和提示词会生成相似的最终图像。

停止
--stop <10–100 之间的整数>:使用 --stop 参数在生成过程中提前结束任务。在较早的百分比停止任务可能会产生更模糊、细节较少的结果。

风格
--style <4a, 4b 或 4c>:在 Midjourney 模型版本 4 的不同版本之间切换。

风格化
--stylize <数字> 或 --s <数字>:该参数影响 Midjourney 默认美学风格在任务中的强度。

轻量放大
--uplight:在选择 U 按钮时使用替代的“轻量”放大工具。结果更接近原始网格图像,放大后的图像细节较少且更平滑。

Beta 放大
--upbeta:在选择 U 按钮时使用替代的 Beta 放大工具。结果更接近原始网格图像,放大后的图像添加的细节显著减少。

默认值(模型版本 5)
宽高比:任意比例

混沌度:0–100

质量:0.25、0.5、2

种子:0–4294967295 之间的整数

停止:10–100

风格化:0–1000

注意:大于 2:1 的宽高比是实验性的,可能会产生不可预测的结果。

指导AI如何正确地完成任务——要怎么做才能产出正确的东西

当AI已经掌握了使用方法,但它仍然不清楚你具体想要什么样的成果。这时,你需要向AI展示一些类似的成果,数量越多,AI就越能理解你的需求。这就像领导在告诉你项目的大致方向后,还会分享一些公司过去的成功案例,以便你更好地把握项目的精髓。

好的,现在我会给你一些在 Midjourney V5 中使用的提示词示例,可以吗?

提示词 1:超广角镜头,拍摄于夏威夷的 1970 年代美丽女性的现代照片。这张照片由 Mary Shelley 使用尼康 D5100 相机拍摄,光圈 f/2.8,ISO 800,快门速度 1/100 秒。UHD DTM HDR 8K --ar 2:3 --v 5

提示词 2:一辆蒸汽朋克风格、未来感十足的战斗型水上摩托艇在水面上飞驰,气势汹汹。其船体装饰着复杂的齿轮和黄铜配件,展现了先进技术与维多利亚时代美学的完美结合。这件逼真的杰作在阳光下闪闪发光,随时准备行动。--ar 16:10 --s 50 --v 5 --q 2

提示词 3:一张照片级真实的图像,描绘了一只穿着红蓝相间橄榄球制服的老鹰,正凶猛飞翔并抓着一个橄榄球。这张照片级真实的图像体现了橄榄球队吉祥物不屈不挠的精神和顽强意志。设计的核心是一只凶猛的老鹰,象征着球队坚定不移的决心和力量。这只强大的鸟披着红蓝相间的羽毛,融入了球队的颜色,创造出鲜明而生动的形象。老鹰锐利的眼睛和锋利的喙增添了其凶猛、令人生畏的气势。老鹰用爪子紧紧抓住橄榄球,展示了它对比赛的掌控,并象征着球队对胜利的不懈追求。老鹰强壮的腿部肌肉展示了其敏捷和速度,它在冲向试图阻止其前进的对方防守队员时显得格外突出。老鹰与防守队员之间的对比进一步凸显了吉祥物不屈不挠的精神和实力。背景以红蓝渐变为特色,增强了视觉冲击力并强化了球队的标识。在画面顶部,球队名称以现代风格化的字体醒目地展示,与图像完美融合。这个引人入胜的设计融入了 SEO 优化的关键词,不仅给球迷和对手留下了深刻印象,还有效地代表了橄榄球队在赛场上的坚韧和不屈不挠的斗志。--upbeta --s 750 --v 5

提示词 4:史诗级背景艺术,简约的黑客主题,神圣的配色方案,神秘的代码,字母数字序列,魔法,高质量 4K,使用 Octane 渲染 --v 5 --ar 9:16

提示词 5:高度清晰的微距摄影,描绘了一只戴着反光太阳镜的逼真猫咪在热带岛屿上放松,戏剧性的光影 --ar 2:3 --s 750 --v 5

现在,AI已经对你的需求有了初步的了解,但它仍然无法保证生成的成果完全符合你的期望。因此,你需要进一步细化你的需求,明确告诉AI你想要的成果是什么。这就像领导在分享成功案例后,还会给出一个标准答案,让你明确项目的成功标准。

概念:维京战士在荒野中磨刀
提示词:一张令人惊叹的超现实主义照片,描绘了一位凶猛的维京战士在斯堪的纳维亚荒野中精心打磨他那令人敬畏的刀刃。这张照片使用尼康 D850 相机拍摄,搭配 70-200mm f/2.8 镜头,突出了维京人饱经风霜的面庞、战损的盔甲以及武器的精湛工艺。相机设置为光圈 f/4、ISO 400 和快门速度 1/200 秒,平衡了自然光和阴影,强调了维京人眼中的坚毅与决心。构图将战士的原始力量与周围环境的宁静之美并置,捕捉到了维京精神的精髓,呈现出一张令人叹为观止的高分辨率图像,将观众带回到传奇战斗和未解故事的年代。--ar 16:9 --q 1.5 --v 5

概念:70 年代的纽约街头咖啡馆
提示词:一张令人惊叹且充满氛围的 1970 年代纽约街头咖啡馆照片,以怀旧和电影风格拍摄,让人想起胶片摄影的黄金时代。这个复古场景展示了繁华的都市生活,顾客们在户外桌旁享用咖啡,周围是经典的汽车和复古建筑。照片巧妙地使用徕卡 M3 旁轴相机搭配 Summicron 35mm f/2 镜头拍摄,以其锐利的成像和美丽的色彩渲染而闻名。图像使用柯达 Portra 400 胶片拍摄,赋予温暖且永恒的色彩,增强了整体氛围。摄影师巧妙地使用 f/2.8 的光圈营造浅景深,将咖啡馆和顾客从繁忙的城市背景中分离出来。ISO 设置为 400,快门速度为 1/125 秒,捕捉到了光线与运动的完美平衡。构图进一步通过柔和、漫射的阳光穿过标志性的纽约天际线而增强,为场景投射出温暖的金色调,突出了砖砌建筑和鹅卵石街道的丰富质感。--ar 3:2 --q 2

概念:一只德国牧羊犬正在过河
提示词:一张令人惊叹的动态肖像,描绘了一只雄伟的德国牧羊犬在清澈的浅河中奔跑的瞬间。这只强壮的犬类在中途被精准捕捉,展示了其肌肉发达的体格、决心和优雅。场景使用尼康 D850 单反相机搭配 Nikkor 70-200mm f/2.8 VR II 镜头精心构图,以其卓越的锐度和生动的色彩渲染而闻名。相机设置经过精心选择以冻结动作,光圈为 f/4,ISO 800,快门速度为 1/1000 秒。背景是一片郁郁葱葱的森林,通过浅景深柔和模糊,突出了这只引人注目的德国牧羊犬。自然阳光透过树木洒下斑驳的光影,映照在涟漪的水面上,突出了狗强健步伐溅起的水花。这张令人惊叹的高分辨率肖像捕捉到了德国牧羊犬的精神与美丽,将这一刻永远定格在一幅迷人的摄影艺术作品中。--ar 4:5 --q 2 --v 5

概念:一名滑雪者正在日本滑雪场的山坡上滑雪
提示词:一个令人惊叹的冬日,日本滑雪场的原始粉雪覆盖了雄伟的山坡,天空湛蓝。这张迷人的照片捕捉到了滑雪者和单板滑雪者优雅地从山上滑下的激动人心的氛围,周围是白雪覆盖的常青树和传统日本建筑的宁静美景。这张照片巧妙地使用尼康 D850 单反相机搭配多功能的 Nikkor 24-70mm f/2.8 镜头拍摄,以其锐度和出色的色彩还原而闻名。摄影师使用 24mm 的广角视角来展示景观的广阔,同时保持滑雪场的活力。选择 f/8 的光圈以确保深景深,清晰地捕捉整个场景的细节。ISO 设置为 200,快门速度为 1/500 秒,巧妙地冻结了滑雪者和单板滑雪者在山地地形中穿梭的动作。照片得益于明亮的自然阳光反射在雪地上,用清晰、冷冽的光线照亮整个场景,并突出了定义景观轮廓的对比阴影。--ar 16:9 --v 5

概念:一个未来机器人正在帮助一位老妇人穿过繁忙的城市街道
提示词:一张超现实、高度细致的描绘,展示了一个未来机器人充满同情心地帮助一位老妇人穿过繁忙的城市街道。这个先进的人形机器人配备了逼真的合成皮肤和尖端传感器,轻轻握住老妇人的手臂,为她提供急需的支持和稳定。机器人的复杂设计展示了其精密的工程,光滑的金属组件和尖端技术无缝集成到其形态中。老妇人感激的表情被捕捉得极为真实,反映了人类与先进机器人之间在这感人场景中的和谐关系。这张照片使用佳能 EOS R5 无反相机拍摄,搭配 RF 24-105mm f/4L IS USM 镜头,提供了出色的图像质量和锐度。相机设置经过优化以捕捉场景的丰富细节和动态范围:光圈 f/5.6,ISO 200,快门速度 1/250 秒。构图通过柔和的自然光线进一步增强,投射出柔和的阴影并突出了城市景观的鲜艳色彩和质感。--ar 16:9 --q 2 --v 5

概念:一位凶猛的角斗士在古罗马森林中狩猎以维持体力
提示词:一张极其逼真且生动的描绘,展示了一位来自古罗马的凶猛角斗士在茂密的森林中狩猎以维持体力。这张超现实主义的图像展示了这位强大的战士,身穿标志性的盔甲和皮革凉鞋,手持精心制作的长矛,悄悄地追踪猎物。照片使用佳能 EOS R5 无反相机拍摄,搭配多功能且锐利的 RF 24-105mm f/4L IS USM 镜头,提供了卓越的图像质量和细节。相机设置包括光圈 f/5.6 以保持平衡的景深,清晰地捕捉角斗士和茂密的森林环境。ISO 设置为 800,快门速度为 1/500 秒,冻结了动作并保留了这一刻的紧张感。场景通过柔和、斑驳的阳光透过茂密的树冠照亮,投射出戏剧性的光影,突出了角斗士棱角分明的特征和坚定的决心。周围树叶的鲜艳色彩与角斗士服装的土色调形成对比,为构图增添了深度和真实感。--ar 3:2 --q 2 --v 5

最后,当一切准备就绪,你可以开始向AI提供你的具体需求。只要在之前设定的框架内告诉AI你的目标,它就能为你生成满意的成果。这就像领导在明确了需求和标准后,开始为你设定具体的目标和任务。

好的,还有一条规则是:提示词必须始终以“/imagine prompt:”开头。
在语法使用上保持一致,避免使用陈词滥调或不必要的词语。确保不要重复使用相同的描述性形容词和副词。适度使用负面描述,尽量描述你想要的而不是你不想要的。适度使用比喻语言,并确保其在提示词的上下文中是恰当且有效的。在描述中结合使用各种罕见和常见的词汇。

请等待我提供一个**{概念}**,然后再生成提示词。


结尾

至此,AI已经能够生成你所需要的东西,并且这些成果完全符合你的期望和标准。因为你已经与AI进行了详尽的沟通,将你的想法和需求清晰地传达给了它。AI会在你设定的范围内,竭尽全力为你呈现出它所能做到的最佳成果。

简而言之,使用AI的过程,其实就是为AI设定一套逻辑框架:

  1. 明确AI的角色和任务——它是干什么的;

  2. 设定AI操作的规则和边界——在怎样的规则下去执行任务;

  3. 指导AI如何正确地完成任务——要怎么做才能产出正确的东西。

只要你遵循这三个步骤,清晰地告诉AI这些关键信息,最终的结果必定不会让你失望。在这个过程中,你需要将自己视为一位明智的老板,不断地提出需求,同时细化这些需求。只有这样,你才能成为一个成功的“老板”,引领AI为你创造出令人满意的成果。