35 亿 +66 亿参数双模型,消费级显卡上也能跑!Stability AI 重大升级

sw

作者|李冬梅、核子可乐

日前,StabilityAI发布了,这是其StableDiffusion文本到图像模型的最新版本,代表StabilityAI文本到图像模型套件迎来了新的发展里程碑。

继今年4月成功发布StableDiffusionXLbeta之后,在图像和构图细节方面继续做出大幅突破。是一款强大的工具,可用于在各种创意产业中创建高度逼真的图像。与之前的版本相比,此更新的模型对生成图像的质量和细节带来了重大改进。

有哪些重大升级?

现在用户已可通过ClipDrop访问该模型,API也将在不久后推出。研究人员正在努力完善1.0版本,相关成果包括权重设置预计将在七月中旬与大家见面。

示例:

在SDXLbeta(左)和0.9版本上以相同提示词进行测试,即可体现该模型在短短两个月内取得的重大进展。


提示词:美学、外星人拉在拉斯维加斯的人群中,粗砺的胶片摄影

(左图-SDXLBeta,右图-)


提示词:优胜美地国家公园的狼,冷冽的自然纪实胶片摄影

负提示:3d渲染、平滑、塑料、模糊、颗粒感、低分辨率、动漫、过饱和、奶油感

(左图-SDXLBeta,右图-)

SDXL系列还提供一系列超出基础文本提示的功能。其中包括图像到图像提示(输入一张图像,以获取该图像的更多变体)、填充(重建图像内的缺失部分)和外延(根据现有图像无缝向外扩展)。简单来说,它可以让用户更有创意,以更高级有趣的方式对图像进行更改。

背后的力量

那么,的底层技术到底是怎样的?

据StabilityAI介绍,之所以取得重大进展,核心驱动因素在于参数数量(模型训练时神经网络中所有权重和偏差的总和)较Beta版本有了显著增加。

是目前所有开源图像模型中参数量最大的模型之一,基础模型拥有35亿参数,模型集成管线拥有66亿参数(最终输出由两套模型的运行聚合结果创建而成)。管线的第二阶段模型,专门用于向第一阶段模型生成的输出添加更多精巧细节。

相比之下,之前的beta版权拥有31亿参数并使用单一模型。

运行在两个CLIP模型之上,其中包括迄今为止训练的最大OpenCLIP模型之一OpenCLIPViT-G/14。它增强了的处理能力,使其能够创建出更具深度和1024x1024更高分辨率的逼真图像。

SDXL团队将很快发布一篇研究博客,详细介绍该模型的规格和测试情况。

尽管具有强大的输出和更先进的模型架构,但仍能够在现代消费级GPU上运行。具体配置要求为:

Windows10或11/Linux操作系统;

16GB内存、英伟达GeForceRTX20系列显卡(或更高版本)且至少配备8GB显存;

Linux用户也可以使用配备16GB显存的AMD兼容显卡。

测试版发布期间获得积极反响

StabilityAI因于2022年8月推出开源图像生成器StableDiffusion而闻名,进一步加剧了其与OpenAI的Dall-E和MidJourney的竞争。

自4月13日SDXLbeta版发布以来,StabilityAI在Discord社区上收到近7000名用户的热烈响应。用户们生成了超过70万张图像,平均每天超过2万张。超过5.4万张图像进入Discord社区的“Showdowns”评选,最终有3521张SDXL图像被评为优秀作品。

可用性和未来计划

现已在ClipdropbyStabilityAI平台上发布。StabilityAIAPI及DreamStudio客户端将于6月26日星期一开放该模型,同时提供NightCafe等其他领先的图像生成工具。

如果研究人员希望访问这些模型,请通过以下链接申请:模型()、()。

StabilityAI一再强调,目前仅用于研究学习目的。

计划在今年七月中旬(时间选定)全面发布。遵循非商用、仅供研究的许可证发布,并受相关使用条款的约束。

文章版权声明:除非注明,否则均为暖居智控原创文章,转载或复制请以超链接形式并注明出处。

上一个 暖气片十大品牌出炉!性价比之王竟是它?

下一个 春寒料峭,做这类菜品够暖够烫,家人最爱