在零样本图像分类中,语义嵌入技术(即用语义属性描述类标签)通过传递已知对象的知识,为生成未知对象的视觉特征提供了条件。当前研究往往使用语义属性作为描述视觉特征的辅助信息。然而,语义属性通常由人工标注等外部范式获得,这使得其...在零样本图像分类中,语义嵌入技术(即用语义属性描述类标签)通过传递已知对象的知识,为生成未知对象的视觉特征提供了条件。当前研究往往使用语义属性作为描述视觉特征的辅助信息。然而,语义属性通常由人工标注等外部范式获得,这使得其与视觉特征间的一致性较弱,且视觉特征的多样性通常无法通过单一的语义属性进行描述。为提升语义属性的多样性,增强语义属性对视觉特征的描述能力,本文提出一种基于语义拓展和嵌入的零样本学习(Seman-tic extension and embedding for Zero-Shot Learning,SeeZSL)。SeeZSL通过构造每个类潜在的语义空间对语义属性进行拓展,再基于语义空间生成未知类的视觉特征。此外,为缓解原始特征空间与语义属性一致性弱、缺乏判别能力的问题,本文将基于语义拓展的生成模型与对比嵌入式模型相结合。在4个benchmark数据集上实验验证了所提SeeZSL方法的有效性。展开更多
零样本图像分类解决了训练和测试数据类别不相交的问题,人类标注属性是一种常用的实现零样本图像分类的辅助知识.为协助专家设计类属性矩阵,提出了一种交互式构建方法,简化了烦琐且缺乏指导的流程.首先,通过一种基于概念的深度学习可解...零样本图像分类解决了训练和测试数据类别不相交的问题,人类标注属性是一种常用的实现零样本图像分类的辅助知识.为协助专家设计类属性矩阵,提出了一种交互式构建方法,简化了烦琐且缺乏指导的流程.首先,通过一种基于概念的深度学习可解释性方法,在训练集图像数据中提取出可理解的属性信息;然后,采用多视图协作的交互方式,探索和分析已提取属性的重要性.系统提供了全局和局部2种方式,辅助用户设计测试集数据类别的属性值;最后,通过在数据集Animals with Attributes2上进行的案例分析,以及采用李克特量表的用户评估实验,验证了设计方法的有效性和实用性,可以帮助专家用户高效且便捷地完成类属性构建工作.展开更多
针对红外与可见光图像融合中的颜色失真和热目标细节丢失问题,提出基于融合曲线的零样本红外与可见光图像融合方法(Zero-Shot Infrared and Visible Image Fusion Based on Fusion Curve,ZSFuCu).首先,将融合任务转化为基于深度网络的...针对红外与可见光图像融合中的颜色失真和热目标细节丢失问题,提出基于融合曲线的零样本红外与可见光图像融合方法(Zero-Shot Infrared and Visible Image Fusion Based on Fusion Curve,ZSFuCu).首先,将融合任务转化为基于深度网络的图像特定曲线估计过程,通过像素级非线性映射实现热目标纹理的增强与色彩特征的保留.然后,设计多维度视觉感知损失函数,从对比度增强、颜色保持及空间连续性三个维度构建约束机制,协同优化融合图像的高频信息与色彩分布,保留结构特征和关键信息.最后,采用零样本训练策略,仅需单个红外与可见光图像对即可完成参数的自适应优化,具备在不同照明条件下融合的强鲁棒性.实验表明,ZSFuCu在目标突出性、细节丰富度及颜色自然度方面具有显著优势,兼具有效性与实用性.展开更多
叶片表型检测是感知杨树生长状态的重要手段之一,叶片颜色、姿态、纹理等形态结构表型信息可揭示植株所受胁迫的程度。其中,单个叶片分割是计算、统计其表型参数的基础。当前流行的AI算法已可满足叶片分割任务的性能需求,然而常规深度...叶片表型检测是感知杨树生长状态的重要手段之一,叶片颜色、姿态、纹理等形态结构表型信息可揭示植株所受胁迫的程度。其中,单个叶片分割是计算、统计其表型参数的基础。当前流行的AI算法已可满足叶片分割任务的性能需求,然而常规深度学习模型训练需要大量人工标签,制约了其发展和应用。本研究提出一种融合零样本学习和迁移学习的杨树叶片实例分割方法:运用视觉大模型GroundingDINO检索杨树苗图像中的叶片,获取对应的边界框;使用Segment Anything 2模型(segment anything model v2,SAM2)分割图像中全部对象,得到对应的掩膜(mask);将GroundingDINO模型生成的边界框作为提示,辅助SAM2过滤出叶片类别的掩膜;利用迁移学习策略,将AI生成的叶片掩膜作为标签信息,训练轻量化的YOLOv8-Segment模型。此外,构建独立测试集用于评估模型分割精度,选择交并比阈值为50%的平均精度(average precision using 50%intersection over union threshold,AP_(50))和平均交并比(mean intersection over union,mIoU)作为性能指标。结果表明,基于“Leaf”这一检索词,GroundingDINO与SAM2的组合(权重约810 MB)可实现高性能的杨树叶片分割,AP_(50)为0.936,mIoU为0.778。通过过滤异常尺寸的提示边界框,AP_(50)提升至0.942。迁移学习得到的YOLOv8-Segment模型权重仅6.5 MB,AP_(50)为0.888,大幅精简模型的同时保障了精度。本研究涉及的叶片分割模型构建过程均无须人工标注,实现了高效率、低成本的杨树叶片实例分割,可为杨树叶片计数和叶面积计算等后续表型分析应用提供技术支持。展开更多
舌诊通过观察舌体特征评估健康状态,而舌体分割作为智能舌诊的关键步骤,需要准确分离舌体与背景,为后续特征提取和健康分析奠定基础。然而,舌体分割目前面临着两大挑战:一是数据的稀缺性,二是现有的分割大模型(如SAM模型)对人工提示的...舌诊通过观察舌体特征评估健康状态,而舌体分割作为智能舌诊的关键步骤,需要准确分离舌体与背景,为后续特征提取和健康分析奠定基础。然而,舌体分割目前面临着两大挑战:一是数据的稀缺性,二是现有的分割大模型(如SAM模型)对人工提示的依赖性。为了解决以上问题,本文提出了一种零样本多模态的分割方法。该方法结合SAM模型和多模态提示技术,通过两阶段框架实现:1) 初步分割和相似度聚类,利用SAM模型生成初步分割结果,并通过相似度聚类解码器筛选潜在有效分割;2) 精细化分割,利用多模态大语言模型分析舌体特征,生成精确点提示,再次输入到SAM模型中以实现高精度分割。该方法在无需特定任务训练或标注数据的情况下,实现了SAM模型在舌诊领域的智能分割应用。实验结果显示,相比于原始的SAM模型,该方法在三个舌诊数据集上的mIoU指标分别提升了27.3%,18.2%,29.7%。Tongue diagnosis assesses health status by observing tongue characteristics, and tongue segmentation, as a key step in intelligent tongue diagnosis, requires accurately separating the tongue body from the background to lay a foundation for subsequent feature extraction and health analysis. However, tongue segmentation currently faces two main challenges: data scarcity and the dependency of existing large segmentation models (such as the segment anything model) on manual prompts. To address these issues, this paper proposes a zero-shot multimodal segmentation method. This method combines the SAM model with multimodal prompt techniques and implemented in a two-stage framework: 1) initial segmentation and similarity clustering, where the SAM model generates initial segmentation results, followed by a similarity clustering decoder to filter out potentially effective segmentations;2) refined segmentation, where a multimodal large language model analyzes tongue characteristics to generate precise point prompts, which are re-entered into the SAM model to achieve high-precision segmentation. This method enables intelligent segmentation with the SAM model in tongue diagnosis without the need for task-specific training or annotated data. Experimental results show that, compared to the original SAM model, this method improves the mIoU metric on three tongue diagnosis datasets by 27.3%, 18.2%, and 29.7%, respectively.展开更多
文摘在零样本图像分类中,语义嵌入技术(即用语义属性描述类标签)通过传递已知对象的知识,为生成未知对象的视觉特征提供了条件。当前研究往往使用语义属性作为描述视觉特征的辅助信息。然而,语义属性通常由人工标注等外部范式获得,这使得其与视觉特征间的一致性较弱,且视觉特征的多样性通常无法通过单一的语义属性进行描述。为提升语义属性的多样性,增强语义属性对视觉特征的描述能力,本文提出一种基于语义拓展和嵌入的零样本学习(Seman-tic extension and embedding for Zero-Shot Learning,SeeZSL)。SeeZSL通过构造每个类潜在的语义空间对语义属性进行拓展,再基于语义空间生成未知类的视觉特征。此外,为缓解原始特征空间与语义属性一致性弱、缺乏判别能力的问题,本文将基于语义拓展的生成模型与对比嵌入式模型相结合。在4个benchmark数据集上实验验证了所提SeeZSL方法的有效性。
文摘零样本图像分类解决了训练和测试数据类别不相交的问题,人类标注属性是一种常用的实现零样本图像分类的辅助知识.为协助专家设计类属性矩阵,提出了一种交互式构建方法,简化了烦琐且缺乏指导的流程.首先,通过一种基于概念的深度学习可解释性方法,在训练集图像数据中提取出可理解的属性信息;然后,采用多视图协作的交互方式,探索和分析已提取属性的重要性.系统提供了全局和局部2种方式,辅助用户设计测试集数据类别的属性值;最后,通过在数据集Animals with Attributes2上进行的案例分析,以及采用李克特量表的用户评估实验,验证了设计方法的有效性和实用性,可以帮助专家用户高效且便捷地完成类属性构建工作.
文摘针对红外与可见光图像融合中的颜色失真和热目标细节丢失问题,提出基于融合曲线的零样本红外与可见光图像融合方法(Zero-Shot Infrared and Visible Image Fusion Based on Fusion Curve,ZSFuCu).首先,将融合任务转化为基于深度网络的图像特定曲线估计过程,通过像素级非线性映射实现热目标纹理的增强与色彩特征的保留.然后,设计多维度视觉感知损失函数,从对比度增强、颜色保持及空间连续性三个维度构建约束机制,协同优化融合图像的高频信息与色彩分布,保留结构特征和关键信息.最后,采用零样本训练策略,仅需单个红外与可见光图像对即可完成参数的自适应优化,具备在不同照明条件下融合的强鲁棒性.实验表明,ZSFuCu在目标突出性、细节丰富度及颜色自然度方面具有显著优势,兼具有效性与实用性.
文摘叶片表型检测是感知杨树生长状态的重要手段之一,叶片颜色、姿态、纹理等形态结构表型信息可揭示植株所受胁迫的程度。其中,单个叶片分割是计算、统计其表型参数的基础。当前流行的AI算法已可满足叶片分割任务的性能需求,然而常规深度学习模型训练需要大量人工标签,制约了其发展和应用。本研究提出一种融合零样本学习和迁移学习的杨树叶片实例分割方法:运用视觉大模型GroundingDINO检索杨树苗图像中的叶片,获取对应的边界框;使用Segment Anything 2模型(segment anything model v2,SAM2)分割图像中全部对象,得到对应的掩膜(mask);将GroundingDINO模型生成的边界框作为提示,辅助SAM2过滤出叶片类别的掩膜;利用迁移学习策略,将AI生成的叶片掩膜作为标签信息,训练轻量化的YOLOv8-Segment模型。此外,构建独立测试集用于评估模型分割精度,选择交并比阈值为50%的平均精度(average precision using 50%intersection over union threshold,AP_(50))和平均交并比(mean intersection over union,mIoU)作为性能指标。结果表明,基于“Leaf”这一检索词,GroundingDINO与SAM2的组合(权重约810 MB)可实现高性能的杨树叶片分割,AP_(50)为0.936,mIoU为0.778。通过过滤异常尺寸的提示边界框,AP_(50)提升至0.942。迁移学习得到的YOLOv8-Segment模型权重仅6.5 MB,AP_(50)为0.888,大幅精简模型的同时保障了精度。本研究涉及的叶片分割模型构建过程均无须人工标注,实现了高效率、低成本的杨树叶片实例分割,可为杨树叶片计数和叶面积计算等后续表型分析应用提供技术支持。
文摘舌诊通过观察舌体特征评估健康状态,而舌体分割作为智能舌诊的关键步骤,需要准确分离舌体与背景,为后续特征提取和健康分析奠定基础。然而,舌体分割目前面临着两大挑战:一是数据的稀缺性,二是现有的分割大模型(如SAM模型)对人工提示的依赖性。为了解决以上问题,本文提出了一种零样本多模态的分割方法。该方法结合SAM模型和多模态提示技术,通过两阶段框架实现:1) 初步分割和相似度聚类,利用SAM模型生成初步分割结果,并通过相似度聚类解码器筛选潜在有效分割;2) 精细化分割,利用多模态大语言模型分析舌体特征,生成精确点提示,再次输入到SAM模型中以实现高精度分割。该方法在无需特定任务训练或标注数据的情况下,实现了SAM模型在舌诊领域的智能分割应用。实验结果显示,相比于原始的SAM模型,该方法在三个舌诊数据集上的mIoU指标分别提升了27.3%,18.2%,29.7%。Tongue diagnosis assesses health status by observing tongue characteristics, and tongue segmentation, as a key step in intelligent tongue diagnosis, requires accurately separating the tongue body from the background to lay a foundation for subsequent feature extraction and health analysis. However, tongue segmentation currently faces two main challenges: data scarcity and the dependency of existing large segmentation models (such as the segment anything model) on manual prompts. To address these issues, this paper proposes a zero-shot multimodal segmentation method. This method combines the SAM model with multimodal prompt techniques and implemented in a two-stage framework: 1) initial segmentation and similarity clustering, where the SAM model generates initial segmentation results, followed by a similarity clustering decoder to filter out potentially effective segmentations;2) refined segmentation, where a multimodal large language model analyzes tongue characteristics to generate precise point prompts, which are re-entered into the SAM model to achieve high-precision segmentation. This method enables intelligent segmentation with the SAM model in tongue diagnosis without the need for task-specific training or annotated data. Experimental results show that, compared to the original SAM model, this method improves the mIoU metric on three tongue diagnosis datasets by 27.3%, 18.2%, and 29.7%, respectively.