基于自监督视觉Transformer的图像美学质量评价方法

Image aesthetic quality evaluation method based on self-supervised vision Transformer

在线阅读下载PDF

导出

摘要现有的图像美学质量评价方法普遍使用卷积神经网络(CNN)提取图像特征,但受局部感受野机制的限制,CNN较难提取图像的全局特征,导致全局构图关系、全局色彩搭配等美学属性缺失。为解决该问题,提出基于自监督视觉Transformer(SSViT)模型的图像美学质量评价方法。利用自注意力机制建立图像局部块之间的长距离依赖关系,自适应地学习图像不同局部块之间的相关性,提取图像的全局特征,从而刻画图像的美学属性;同时,设计图像降质分类、图像美学质量排序和图像语义重构这3项美学质量感知任务,利用无标注的图像数据对视觉Transformer(ViT)进行自监督预训练,增强全局特征的表达能力。在AVA(Aesthetic Visual Assessment)数据集上的实验结果显示,SSViT模型在美学质量分类准确率、皮尔森线性相关系数(PLCC)和斯皮尔曼等级相关系数(SRCC)指标上分别达到83.28%、0.7634和0.7462。以上实验结果表明,SSViT模型具有较高的图像美学质量评价准确性。 The existing image aesthetic quality evaluation methods widely use Convolution Neural Network(CNN)to extract image features.Limited by the local receptive field mechanism,it is difficult for CNN to extract global features from a given image,thereby resulting in the absence of aesthetic attributes like global composition relations,global color matching and so on.In order to solve this problem,an image aesthetic quality evaluation method based on SSViT(Self-Supervised Vision Transformer)model was proposed.Self-attention mechanism was utilized to establish long-distance dependencies among local patches of the image and to adaptively learn their correlations,and extracted the global features so as to characterize the aesthetic attributes.Meanwhile,three tasks of perceiving the aesthetic quality,namely classifying image degradation,ranking image aesthetic quality,and reconstructing image semantics,were designed to pre-train the vision Transformer in a self-supervised manner using unlabeled image data,so as to enhance the representation of global features.The experimental results on AVA(Aesthetic Visual Assessment)dataset show that the SSViT model achieves 83.28%,0.7634,0.7462 on the metrics including evaluation accuracy,Pearson Linear Correlation Coefficient(PLCC)and SRCC(Spearman Rank-order Correlation Coefficient),respectively.These experimental results demonstrate that the SSViT model achieves higher accuracy in image aesthetic quality evaluation.

作者黄荣宋俊杰周树波刘浩 HUANG Rong;SONG Junjie;ZHOU Shubo;LIU Hao(College of Information Science and Technology,Donghua University,Shanghai 201620,China;Engineering Research Center of Digitalized Textile&Fashion Technology,Ministry of Education(Donghua University),Shanghai 201620,China)

机构地区东华大学信息科学与技术学院数字化纺织服装技术教育部工程研究中心(东华大学)

出处《计算机应用》 CSCD 北大核心 2024年第4期1269-1276,共8页 journal of Computer Applications

基金国家自然科学基金资助项目(62001099,61803372) 中央高校基本科研业务费专项资金资助项目(2232023D⁃30)。

关键词图像美学质量评价视觉Transformer 自监督学习全局特征自注意力机制 image aesthetic quality evaluation Vision Transformer(ViT) self-supervised learning global feature self-attention mechanism

分类号 TP751 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献7

1青晨,禹晶,肖创柏,段娟.深度卷积神经网络图像语义分割研究进展[J].中国图象图形学报,2020,25(6):1069-1090. 被引量：36
2蒋弘毅,王永娟,康锦煜.目标检测模型及其优化方法综述[J].自动化学报,2021,47(6):1232-1255. 被引量：34
3季长清,高志勇,秦静,汪祖民.基于卷积神经网络的图像分类算法综述[J].计算机应用,2022,42(4):1044-1049. 被引量：74
4顾婷婷,郭延文,殷昆燕.结合浅景深与构图的图像质量评价[J].中国图象图形学报,2013,18(5):574-582. 被引量：3
5杨文雅,宋广乐,崔超然,尹义龙.基于语义感知的图像美学质量评估方法[J].计算机应用,2018,38(11):3216-3220. 被引量：4
6温坤哲,韦玉科,董晓华.深度卷积神经网络在图像美学评价的应用综述[J].计算机工程与应用,2019,55(15):13-23. 被引量：7
7田永林,王雨桐,王建功,王晓,王飞跃.视觉Transformer研究的关键问题:现状及展望[J].自动化学报,2022,48(4):957-979. 被引量：69

二级参考文献40

1Luo Y W, Tang X O. Photo and video quality evaluation: focusing on the subject [C]// Proceedings of the 10th European Conference on Computer Vision. Berlin, Germany: Springer-Verlag, 2008: 386-399. [DOI:10.1007/978-3-540-88690-7_29].
2Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612. [DOI: 10.1109/TIP.2003.819861].
3Eskicioglu A M, Fisher P S. Image quality measures and their performance [J]. IEEE Transactions on Communications, 1995, 43(12):2959-2965. [DOI: 10.1109/26.477498].
4Sheikh H R, Sabir M F, Bovik A C. A statistical evaluation of recent full reference image quality assessment algorithms [J]. IEEE Transactions on Image Processing, 2006, 15(11): 3440-3451. [DOI: 10.1109/TIP.2006.881959].
5Suresh S, Babu R V, Kim H J. No-reference image quality assessment using modified extreme learning machine classifier [J]. Applied Soft Computing, 2009, 9(2): 541-552. [DOI: 10.1016/ j.asoc.2008.07.005].
6Ciancio A, Da Costa ALNT, Da Silva EAB, et al. No-reference blur assessment of digital pictures based on multifeature classifiers[J]. IEEE Transactions on Image Processing, 2011, 20(1): 64-75. [DOI: 10.1109/TIP.2010.2053549].
7Datta R, Joshi D, Li J, et al. Studying aesthetics in photogra- phic images using a computational approach[C]// Proceedings of the 9th European Conference on Computer Vision. Berlin, Germany: Springer-Verlag, 2006: 288-301. [DOI: 10.1007/ 11744078_23].
8Ke Y, Tang X, Jing F. The design of high-level features for photo quality assessment [C]// Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE Computer Society, 2006(1): 419-426. [DOI: 10.1109/CVP R.2006.303].
9Sun X, Yao H, Ji R, et al. Photo assessment based on computational visual attention model [C]// Proceedings of the ACM International Confer-ence on Multimedia. New York, USA: ACM Press, 2009:541-544. [DOI:10.1145/1631272.16 31351].
10Dhar S, Ordonez V, Berg T L. High level descri-beable attri- butes for predicting aesthetics and interestingness[C]//Procee- dings of the 2011 IEEE Computer Society Conference on Compu- ter Vision and Pattern Recognition. New York, USA: IEEE Computer Society, 2011: 1657-1664. [DOI: 10. 1109/CVPR.2011.5995467].

共引文献220

1池亚平,岳梓岩,赵伦.密码算法识别技术研究进展与展望[J].北京电子科技学院学报,2022,30(4):1-14.
2陈凡,宋文革,范誉瀚,陈塞.基于CNN-Transformer融合模型的选煤厂振动筛上杂物语义分割研究[J].煤炭工程,2023,55(S01):193-199. 被引量：1
3邵攀,石卫超,秦道龙,张晓东,董婷,管宗胜.集成CNN和Transformer的通道交互多层级融合变化检测[J].测绘科学,2024,49(5):110-121. 被引量：1
4杨文雅,宋广乐,崔超然,尹义龙.基于语义感知的图像美学质量评估方法[J].计算机应用,2018,38(11):3216-3220. 被引量：4
5张倩,郝红光,王长亮,吕晨,韩星周.同源激光雕刻塑胶印章印文的计算机辅助检验方法[J].信息技术与信息化,2019(5):123-126. 被引量：2
6温坤哲,韦玉科,董晓华.深度卷积神经网络在图像美学评价的应用综述[J].计算机工程与应用,2019,55(15):13-23. 被引量：7
7吴菲,朱欣娟,吴晓军,MATTHIAS R?tsch.基于卷积神经网络的人脸图像美感分类[J].西安工程大学学报,2019,33(6):673-678. 被引量：5
8程玉柱.基于OpenCV-Python的木材缺陷图像分割教学软件[J].林业机械与木工设备,2021,49(1):36-39. 被引量：7
9邵杭,王永雄,秦宇龙.基于深度学习与显著性的数字图像构图优化[J].电子科技,2021,34(3):36-42. 被引量：12
10杜静,蔡国榕.多特征融合与残差优化的点云语义分割方法[J].中国图象图形学报,2021,26(5):1105-1116. 被引量：9

1吴明阳,奚峥皓,陈军然,徐国忠.基于空洞卷积自注意力机制的煤岩显微组分组识别模型[J].北京化工大学学报（自然科学版）,2024,51(2):120-129.
2程欣,韩荣.扬州与苏州传统建筑雕饰图式构成分析[J].包装工程,2023,44(4):219-232. 被引量：2
3蒋昕昊,蔡伟,张志利,姜波,杨志勇,王鑫.基于COSNet的伪装目标分割[J].兵工学报,2023,44(5):1456-1468. 被引量：1
4贺雪梅,田安洁,曾佳屿,欧阳嘉豪.文化符号在灯具设计中的语义重构研究[J].艺术科技,2024,37(4):56-59.
5陈熙来,丛佩超,万东宝,李文彬.基于SSVEP信号的下肢外骨骼机器人控制系统研究[J].机电信息,2024(7):42-45.
6杨娜,殷雁君.融合多尺度特征的小样本字体生成[J].内蒙古师范大学学报（自然科学版）,2024,53(2):207-214. 被引量：1
7赵文清,许丽娇,陈昊阳,李梦伟.多层特征融合与语义增强的盲图像质量评价[J].智能系统学报,2024,19(1):132-141.
8唐九久.宋诗山水描写与山水画的全景和截景空间构图关系对照研究[J].艺术教育,2023(8):52-60.
9李淑珂,周蔚.A型肉毒素不同分区多点注射对下睑纹改善中的美学效果及安全性分析[J].四川生理科学杂志,2024,46(4):879-881.
10渠嵩烽.论东林学派对“吾与点也”与“鸢飞鱼跃”的美学接受与创作实践[J].社会科学,2024(2):82-92.

计算机应用

2024年第4期

浏览历史

内容加载中请稍等...

基于自监督视觉Transformer的图像美学质量评价方法

参考文献7

二级参考文献40

共引文献220

相关作者

相关机构

相关主题

浏览历史