当Flux几天前突然出现时,它很快就赢得了开源图像生成器皇冠上的明珠的声誉。它与Midjourney的美学能力相匹配,同时在快速理解和文本生成方面绝对压倒了它。捕获?你需要一个拥有超过24GB VRAM(甚至更多)的强大GPU才能让它运行。这比大多数游戏设备都要强大,更不用说你的普通工作笔记本电脑了。
但是,人工智能社区从不放弃挑战,他们卷起集体袖子开始工作。通过量化的魔力——一个压缩模型数据的花哨术语——他们设法将Flux缩小到更易于管理的大小,而不会牺牲太多的艺术魔力。
让我们把它分解一下:最初的Flux型号使用了全32位精度(FP32),这就像驾驶一级方程式赛车去杂货店——对大多数人来说都是多余的。第一轮优化为我们带来了FP16和FP8版本,每个版本都以一点点的准确性换取了效率的大幅提高。FP8版本已经改变了游戏规则,让拥有6GB GPU(想想RTX 2060)的人加入了这场盛宴。
为此,您需要禁用系统内存回调以实现稳定扩散,这样您的GPU就可以将其部分工作从内部VRAM卸载到系统RAM。这避免了臭名昭著的OOM(内存不足)错误,尽管其运行速度要慢得多。要禁用此选项,请按照Nvidia的教程进行操作。
但要戴上帽子,因为它会变得更好。
人工智能世界的真实MVP进一步突破了界限,发布了4位量化模型。这些坏男孩使用一种叫做“正常点”(NP)量化的东西,它提供了一个质量和速度的最佳点,让你的土豆电脑感觉像是得到了涡轮增压。NP量化不会像FP量化那样降低质量,因此一般来说,运行此模型可以在高速下获得很好的结果,只需要很少的资源。
这几乎好得令人难以置信,但这是真的。
在fp8和np4中使用Flux Dec获得的结果。同样的提示,不同的种子。如何在低端GPU上运行Flux
那么,你实际上是如何运行这个简化版本的Flux的呢?首先,你需要一个像SwarmUI、ComfyUI或Forge这样的界面。我们喜欢ComfyUI的多功能性,但在我们的测试中,Forge的速度比其他界面提高了约10-20%,所以这就是我们在这里使用的。
前往Forge GitHub仓库(https://github.com/lllyasviel/stable-diffusion-webui-forge)并下载一键安装包。它是开源的,经过社区审查,所以这里没有粗略的业务。
对于NP4 Flux型号本身,Civit AI是您的一站式服务。你有两种口味可供选择:Schnell(速度)和Dex(质量)。两者都可以从这个页面下载。
一旦你下载了所有内容,就到了安装时间:
解压缩Forge文件并打开Forge文件夹。运行update.bat以获取所有依赖项。启动run.bat以完成设置。现在,将这些闪亮的新Flux模型放入Forge安装中的webuimodelsStable扩散文件夹中。刷新Forge web界面(如果你感觉老派,可以重新启动),然后砰的一声——你在做生意。
专业提示:要真正从复活的装备中挤出每一滴性能,请降低分辨率。与其选择全SDXL(1024x1024)分辨率,不如尝试更适中的SD1.5尺寸(768x768、512x768等)。你总是可以稍后升级,并使用Adetailer来处理那些脆脆的细节。
让我们谈谈数字:在配备6GB VRAM的RTX 2060上,Flux Schnell在NP4模式下可以在大约30秒内生成512x768的图像,而FP8版本需要107秒。想做大吗?用高分辨率修复将那个坏男孩升级到1536x1024大约需要五分钟。
想在不破坏GPU的情况下做大吗?更好的选择是从SD1.5分辨率的Flux Schnell开始,然后通过img2img发送该创建。使用低降噪强度的标准稳定扩散模型(SD1.5或SDXL)进行升级。整个过程大约需要50秒,与MidJourney在缓慢的一天中的输出相当。您将在不熔化图形卡的情况下获得令人印象深刻的大规模结果。
真正的踢球者?据报道,一些疯狂的家伙让Flux Schnell NP4在GTX 1060上运行,VRAM为3GB,Flux Dev每次迭代需要7.90秒。我们谈论的是一个几乎依赖生命支持的GPU,它正在这里产生尖端的人工智能艺术。对于几乎符合养老金条件的硬件来说,这并不算太破旧。