计算机视觉研究人员开发双边参考框架 可用于高分辨率二分图像分割

2024-08-26 玩车行家 万阅读 投稿:admin

据外媒报道,由南开大学(Nankai University)和上海人工智能实验室(Shanghai AI Laboratory)等单位组成的研究团队开发出可以在同一框架内实现二分图像分割、高分辨率显著物体检测和隐蔽物体检测的计算机视觉技术。这种新型的双边参考框架(BiRefNet)能够捕捉微小像素特征,并具有广泛的实际计算机视觉应用潜力。该研究成果已发表在期刊《CAAI人工智能研究》(CAAI Artificial Intelligence Research)上。

图片来源:《CAAI Artificial Intelligence Research》

在计算机视觉研究中,图像分割技术包括将数字图像分割成有意义的部分。通过这个过程,图像更易于分析。随着高分辨率图像采集技术的发展,科学家们现在能够实现高度精确的目标分割。

这项新技术被称为高分辨率二分图像分割(DIS),三星(Samsung)、Adobe和迪士尼(Disney)等公司现在都在使用这种技术。然而,目前用于DIS的策略不足以捕捉最精细的特征。为了应对高分辨率DIS目前面临的挑战,该研究团队开发出双边参考模块。

该研究团队通过BiRefNet实现了高精度的高分辨率DIS。南开大学范登平教授表示:“凭借新开发的双边参考模块,BiRefNet在高分辨率图像上显示出更高的精度,尤其是那些细节精细的图像。到目前为止,BiRefNet是用于前景目标提取的最佳开源和商用模型。”

该研究团队的新型渐进式双边参考网络BiRefNet通过单独的定位模块和重建模块处理高分辨率DIS任务。对于定位模块,研究人员从视觉变换器主干中提取了分层特征,然后将其组合和压缩。对于重建模块,研究人员进一步将内在和外在参考设计为双边参考,其中源图像和梯度图在不同阶段被输入到解码器中。

与通过降低原始图像分辨率以确保各阶段解码特征一致的方法不同,研究人员保留了原始分辨率以在内在参考中保留完整的细节特征,并自适应地将其裁剪成与解码特征兼容的补丁。

BiRefNet提供了一个简单而强大的基线,可以执行高质量的DIS。其源图像引导的内在参考可填充精细部分的缺失信息,而梯度监督的外在参考使其能够更多地关注细节更丰富的区域。

由于BiRefNet的分割结果极其精确,因此应用领域广泛。它可以用于普通分割模型无法处理的场景。例如,它可以准确地发现墙壁上的裂缝,帮助维护墙壁,并确定何时对其进行修补。它还可以高精度地提取具有细网格和密集孔的目标。

BiRefNet已经在计算机视觉领域得到了广泛应用。它已作为目前最好的图像抠图节点集成到网页应用ComfyUI系统中,以改进基于稳定扩散的图像合成。BiRefNet还广泛用于图像和视频中的人体或肖像分割。

展望未来,该研究团队计划将BiRefNet扩展到更多相关任务,包括DIS、高分辨率显著物体检测、隐蔽物体检测、肖像分割和基于提示的目标提取。该研究团队已经为上述大多数任务提供了训练良好的模型。

研究人员还致力于使BiRefNet适应更轻量级的架构,以便对高分辨率图像进行更快的推理,并更容易地部署在边缘设备上。范教授表示:“我们已经提供了不同参数量级的BiRefNet,其中一些在1024 x 1024分辨率的图像上实现了每秒30帧的速度。”

范教授继续说道:“我们的最终目标是让BiRefNet成为一系列相关任务的最佳开源模型,如前景对象提取、图像消隐和肖像分割,使其强大、免费且永久开源,供所有人使用。”

声明:易百科所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系。