im电竞官网平台不会PS没关系AI拼图技术已能以假乱真

浏览次数： 42 发布日期： 2024-04-11 03:35:16 来源：im电竞官网作者：lm体育APP官方版下载

返回列表

　　背后操作者并不是什么PS大佬，而是一只AI，名字很直白：拼图扩散（Collage Diffusion）。

　　随便找几张小图拿给它，AI就能自己看懂图片内容，再把各元素非常自然地拼成一张大图——完全不存在一眼假。

　　至于为啥还有多种版本？问就是因为用户还能自定义，在总体不变得太离谱的前提下，他们可以微调各种细节。

　　话说这两年，“文字生成图像的扩散模型”着实大火了一把，DALL·E 2和Imagen都是基于此开发出来的应用。这种扩散模型的优点，是生成图片多样化、质量较高。

　　不过，文字终究对于目标图像，最多只能起到模糊的规范作用，所以用户通常要花大量时间调整提示（prompt），还得搭配上额外的控制组件，才可以取得不错的效果。

　　如果用户只输入“一个装有米饭、毛豆、生姜和寿司的便当盒”，那就既没描述哪种食物放到哪一格，也没有说明每种食物的外观。但如果非要讲清楚的话，用户恐怕得写一篇小作文了……

　　首先是分层：使用基于图层的图像编辑UI，将源图像分解成一个个RGBA图层（R、G、B分别代表红、绿、蓝，A代表透明度），然后将这些图层排列在画布上，并把每个图层和文字提示配对。

　　到目前为止，分层已经是计算机图形领域中一项成熟的技术，不过此前分层信息一般是作为单张图片输出结果使用的。

　　总而言之，该算法不仅限制了对象的某些属性（如视觉特征）的变化，同时允许属性（方向、光照、透视、遮挡）发生改变。

　　他们不仅可以自定义场景中的空间排列顺序（就是把从别处扣出来的图放到适当的位置）；还能调整生成图像的各个组件。用同样的源图，可以得出不同的效果。

　　而在非交互式模式下（即用户不拼图，直接把一堆小图丢给AI），AI也能根据拿到的小图，自动拼出一张效果自然的大图。

　　在校求学期间，他曾到英伟达实习4个月，与英伟达深度学习研究小组合作，参与训练了增加100M+参数的视觉转换器模型。

本文标签：