【学在西电】西电学子再获全球计算机视觉顶级会议CVPR 2024大赛20项冠亚季军-西安电子科技大学新闻网

西电要闻

【学在西电】西电学子再获全球计算机视觉顶级会议CVPR 2024大赛20项冠亚季军

发布时间：2024-06-21 08:10:06来源：人工智能学院点击：

西电新闻网讯（通讯员 杨育婷）近日，CVPR 2024会议在美国西雅图火热进行中，人工智能学院参赛队在CVPR 2024赛事中再次斩获20项冠亚季军奖（5冠5亚10季），至此在CVPR 2024赛事中已累计斩获28项冠亚季军。团队针对低光照图像恢复、图像-文本识别、异常检测和实例分割等挑战任务提出了一系列创新性的解决方案，在自动驾驶、医学影像分析和农业灾害检测等领域也取得了突破性进展。获奖队伍均受到大会的邀请，在相关的workshop会议上报告并分享获奖方案。本次竞赛受到国家自然科学基金重点项目，教育部创新团队，国家学科创新引智基地等国家项目的支持。

“CVPR 2024 SoccerNet挑战赛：多视角犯规识别”挑战任务的目的是利用多视角视频来辅助自动化足球判罚决策过程。这项任务引入了多标签视频识别，专注于识别足球裁判的判罚。赛题数据集SoccerNet-MVFoul是一个新的多摄像机视角足球犯规视频集，由专业足球裁判提供了详尽的犯规描述。该任务的目标是实现对犯规视频的多视角多任务分类。由2023级硕士研究生张京、刘欣雨和博士研究生张柯欣组成的学生队伍斩获该赛题冠军。

imagepng

张京、刘欣雨、张柯欣

队伍提出了一种多视图视频的多任务分类网络 M2VFCN。该模型在无需大量训练时间的前提下，显著提升了分类效果。首先，队伍对犯规数据集进行了深入分析和统计，发现训练集中不同类别之间存在显著的分布不均问题。针对这一问题，队伍引入了自适应损失函数。为了进一步提升模型的表示能力，队伍提出了利用了 Kinetics 400 数据集进行了大规模预训练，通过引入一般场景下的域知识，网络的表示能力得到了显著增强。为了在保证模型性能的同时平衡训练时间，队伍对多视图的不同特征进行了融合。该方案解决了训练数据分布不均的问题，大幅度提升了多视图视频多任务分类的训练效率。

“CVPR 2024 FGCV11 HyperLeaf”挑战提供2410张小麦旗叶高光谱图像，涵盖多种菌株和肥料水平，在不同曝光和不同阳光条件下拍摄。该挑战赛旨在开发用于细粒度预测麦田特性、植物健康指标和产量的模型，即尽可能准确地预测产量、气孔导度、叶绿素荧光、肥料、Heerup、Kvium、Rembrandt、Sheriff等8个目标的方法。由2023级硕士研究生马芹、柴金铭和博士研究生张君沛组成的学生队斩获该赛题冠军。

imagepng

马芹、柴金铭、张君沛

队伍方案包括数据预处理、模型构建和后处理三部分。数据预处理包括水平翻转、垂直翻转以及180度旋转三种数据增强操作，同时对数据标签进行标准化处理以保证Loss值在合理的范围。在模型构建时，队伍使用了三种回归指标学习架构，包括单主干网络单线性头、单主干网络多线性头（参数共享）以及多主干网络多线性头（参数不共享）。实验结果表明，采用多个相同结构的主干网络和线性头架构时性能最佳。基于最优架构，队伍使用EfficientNet-Lite-B0、EfficientNet-B3和LWNet-3模型对80%的增强数据集进行训练，然后通过对剩余增强数据集进行推理，评估模型的收敛情况并计算其在回归任务和分类任务上的离线评测分数。在后处理时，队伍使用了模型加权融合方法斩获综合的测评结果。该方案突破了高光谱回归和分类的任务界限，在高光谱叶片预测任务上实现了较大的精度提升。

“EPIC-KITCHENS VISOR Semi-supervised VOS”挑战任务为半监督视频目标分割，要求跟踪和分割从第一帧注释中指定的目标对象。赛题任务难点为物体在时间维度上可能发生巨大的变化，包括物体被拆解、颜色发生变化、被遮挡或移出视野等。由2023级硕士研究生王芹亮、缑雪健和博士研究生黄钟健组成的学生队斩获该赛题冠军；由贾森、于欣悦、孙龙组成的学生队和延李波、赵世展、张延昭组成的学生队分别斩获该赛题的亚军和季军。

imagepng

王芹亮、缑雪健、黄钟健

针对目标对象在时间维度上可能发生的巨大变化，队伍采用Cutie模型进行对象级跟踪，该模型基于对象查询的Transformer与自下而上的像素特征进行迭代交互，从而执行自上而下的对象级特征匹配，相较于其它像素级特征匹配的模型，对象查询拥有对目标的语义概括能力，实现精确的跟踪和分割。在训练策略上，队伍采用长视频序列中每3帧作为一个视频序列，且每帧中的多个目标单独训练。通过该策略，模型的训练数据量大幅增加，可以显著提升模型性能。该方案通过对象查询机制成功缓解了目标匹配困难的问题，突破了在目标对象发生显著变化时难以进行跟踪和分割的挑战。

“CVPR 2024 EPIC-SOUNDS：基于音频的交互识别挑战赛”挑战任务为通过为修剪的片段分配音频类标签，指示视频中发生的交互的类别。评估指标包括在目标测试集上音频类别的Top-1/5准确度，以及用于类别平衡指标的mAC，mAP和mAUC。由2023级硕士研究生王泠琪、曹佳敏、缑雪健组成的学生队和由赵世展、张延昭、延李波组成的学生队分别斩获该赛题冠军与季军。

imagepng

赵世展、张延昭、延李波

队伍先选取了监督模型 Slow-Fast 、Audio InceptionNext 和自监督模型 SSAST 作为基线模型，利用EPIC-SOUNDS 数据集通过解冻和冻结主干进行模型微调，有效表示音频特征，提高了基线模型性能。此外，经过对不同的模型结果分析，队伍进行了有效的模型集成与预测得分加权融合操作，大幅度提升了预测准确率。该方案突破了音频交互识别准确率低的问题，在EPIC-Sounds测试集上Top-1准确率为56.57%，较去年冠军方案提高了1.1%，并大幅领先榜上其他队伍。

“CVPR 2024 EPIC-SOUNDS：基于音频的交互检测”挑战任务是给定一个视频，预测所有基于音频的动作实例集合，包括基于音频的动作开始和结束时间以及预测的动作类别。由2023级硕士研究生缑雪健、王芹亮、曹佳敏组成的学生队斩获该赛题季军。

队伍在ActionFormer模型基础上构建了一种基于Transformer的音频交互检测模型。该模型可通过对每个时刻的动作边界进行分类和估计来检测动作实例。具体来说，队伍首先利用ActionFormer提取一系列音频剪辑特征作为嵌入特征，然后使用多尺度Transformer将嵌入的特征进一步编码为特征金字塔。进一步地，通过共享分类和回归头来查询金字塔特征，进而在每个时间步骤生成一个候选操作。该方案为时间动作定位提供了一个单阶段无锚定模型，突破了音频捕获短时间动作困难的问题，在EPIC-SOUNDS上具有出色的动作识别效果。

“CVPR 2024首届复杂视频对象分割”挑战在仅提供视频第一帧分割物体mask的条件下，要求参赛者对整段视频中的一个或多个物体进行分割。比赛数据集为新提出的MOSE数据集。该数据集最显著的特点是包含拥挤和遮挡对象的复杂场景，且存在目标物体遮挡、消失问题。由2023级硕士研究生刘欣雨、张京和博士研究生张柯欣组成的学生队斩获该赛题季军。

队伍利用MOSE数据集对半监督视频实例分割的SOTA模型Cutie进行微调。该方案核心包括目标变换、前景-背景掩码注意力和对象存储器。目标变换通过目标查询与底层像素特征进行交互，以实现精确分割。前景-背景掩码注意力机制的引入使得前景和背景语义得到了清晰的分割。对象存储器则在像素存储之外引入了密集型存储目标，可存储跟踪目标的位置、形状和像素信息。该方案可以获取强健的目标对象特征，有效地建模跟踪对象的多帧关联表示能力。该方案突破了视频序列分割场景复杂的挑战，显著提升了小尺寸目标跟踪性能和被遮挡对象的分割性能。

"CVPR 2024 EPIC-KITCHENS-100多实例检索"挑战要求参赛者完成两种检索任务：基于文本检索视频（V→T）和基于视频检索文本（T→V）。评估标准是两种检索任务的平均准确率（mAP）及其平均值。此外，还采用归一化折损累积增益（nDCG）来衡量两种检索任务的性能，并计算它们的平均值。由2023级硕士研究生曹佳敏、王泠琪、郝佳瑶组成的学生队斩获该赛题季军。

imagepng

曹佳敏、王泠琪、郝佳瑶

队伍对数据进行了预处理，包含16帧/视频采样、尺寸缩放为256x256再进一步中心裁剪至224x224大小、使用标准RandomResizedCrop(0.5, 1.0)进行数据增强。队伍使用由一个视觉编码器和一个文本编码器组成的CLIP模型作为基线模型，然后载入在Ego4D数据集上预训练的权重，然后使用 EPICKitchens-100 (EK-100)数据集对模型进行微调。最后，队伍将不同阶段的多个模型预测结果进行融合，以综合不同结果的模型预测结果。该方案解决了在视频数据集上进行高效多实例检索的问题，通过精细的数据增强、微调和模型融合策略显著提升了检索效果。

“CVPR 2024开放词汇部分分割”挑战任务为给定一幅自然图像和一组由文本标签描述的候选对象部分，分割模型必须准确地为每个像素分配一个标签。在推理过程中，分割模型应该能够在对象级和部分级处理训练词汇表之外的类别。赛道1关注评估模型在可见类和不可见类之间的整体性能。赛道2重点是评估模型在不同部件粒度级别上的性能。由2023级硕士研究生缑雪健、王芹亮和博士研究生张柯欣组成的学生队伍斩获赛道1冠军与赛道2季军。

队伍基于ZSSeg+、Catseg、ClipSeg三个模型的微调和改进进行不同模型和同一模型不同配置下的实验，最终获得不同分割细节的结果。针对分割结果进一步进行可视化和分析，然后对背景类别进行后处理来整合结果，以实现不同对象分割结果的融合，并基于不同分割效果之间的权衡，进一步突出或弱化细节，实现不同模型之间优势互补的目的。该方案突破了不同基础模型分割错误或分割类别缺失的问题，最终获得出色的分割结果。

“CVPR 2024 BugNIST2024”挑战的目的是提高在域偏移情况下对3D CT扫描数据中对象的检测和分类能力，推动3D数据分析技术的发展。训练集由单一虫子的CT图像组成，而测试集则混合了多种虫子和其他物体（如树叶、刨花、棉花和碎纸）的图像。竞赛要求参赛者训练模型，使其能够从测试数据中准确识别虫子并排除其他类别的干扰。由2023级硕士研究生高琼、车晨悦、李国鑫组成的参赛队和由祖岩岩、郝佳瑶、张柯欣组成的参赛队分别斩获该赛题亚军与季军。

imagepng

高琼、车晨悦、李国鑫

在数据预处理阶段，队伍首先使用OUST自适应选取阈值生成伪标签后裁剪成固定大小的patch块，并采用最大装箱算法制作混合数据集。在训练阶段，使用基于3D U-Net的nnUNet算法，自适应处理制作好的混合数据集。该方案根据给定数据集的属性自动调整所有超参数，将混合数据裁剪成固定大小的体积块，同时采用随机翻转和旋转进行数据增强。在后处理阶段，对设定体积区间范围外的目标进行剔除后保留目标的最大连通域。该方案有效地缓解了在域偏移下检测复杂的3D目标的问题，对扩充医疗数据集具有积极的影响。

“CVPR 2024无障碍、视觉和自主性交汇（AVA）挑战赛：实例分割”挑战旨在基于与残疾人交互的自助系统用例，解决当前数据驱动的无障碍系统开发工具不足的问题。竞赛提供了一个无障碍相关的基准数据集，其中包括无残疾、视障、残障、骑行者、四轮车辆、两轮车辆、轮椅和手杖等八个实例类别。参赛者的任务是提供基于视觉的方法，以提升实例分割的性能。由博士研究生路小强、杨育婷、孙龙组成的学生队和由马芹、柴金铭、黄钟键组成的学生队分别斩获该赛题亚军与季军。

imagepng

路小强、杨育婷、孙龙

队伍联合Cascade Mask R-CNN和InternImage，构建了多尺度的Cascade Mask R-CNN框架。其中，InternImage不仅继承了CNN固有的归纳偏置信息，而且可以实现长距离依赖和动态权重，同时在计算和内存上是高效的。相较于Faster R-CNN基础架构，Cascade Mask R-CNN基于渐进的IoU阈值的训练多种策略级联的检测器，可以得到更高质量的检测框和实例掩码，有效提升单模型的性能。在推理阶段，为不同类别引入自适应置信度阈值来提升对尾部类别的召回率，队伍使用Model Soups模型集成方法对来自不同时期的数个训练权重进行参数平均获得融合模型，较单一模型的具有更强的泛化能力与鲁棒性；利用加权实例融合技术进一步融合多尺度预测结果来增强模型的测试性能。该方案突破了传统实例分割方法在处理合成场景和复杂目标的局限性，实现了高性能的目标精准检测与分割。

“CVPR 2024农业视觉挑战赛：航空图像分割”挑战赛提供100GB+未标记和70K+张标记的农业视觉农作物灾害检测数据集，包含光学和红外模态，旨在提升模型在半监督学习范式下对农田的语义分割性能，助力农业实践中的技术突破性应用。由博士研究生路小强，杨育婷，孙龙组成的学生队斩获该赛题季军。

队伍通过模型层、数据层和预测层三种策略解决了准确作物信息获取的低效性、标记数据的局限性和性能改进等问题。在模型层，队伍采用了多种骨干网络（mit-b3、mit-b4和pvtv2-b4），并构建了并行的Transformer编码器来提取代表性图像特征，结合轻量级SegFormer分割头进行语义预测。队伍使用Cross Entropy Loss和Dice Loss混合损失函数来优化分割器。在数据层，队伍应用了在线数据增强技术，包括固定缩放至256x256尺寸、随机水平翻转和随机垂直翻转。为了解决数据不平衡问题，队伍采用了师生教学框架，并利用尾部类别主导的伪标签数据来平衡数据分布。在预测层，队伍使用Model Soups技术融合了来自不同时期的训练权重参数，并采用软投票策略融合了原始图像、水平翻转、垂直翻转、旋转90度、旋转180度和旋转270度的分割预测结果，以提升模型的测试性能。该方案突破了常规分割模型在处理农业图像中前景背景混淆和目标复杂等难点，实现了对农作物受灾区域的精准分割与识别。

“CVPR 2024 7th UG2+：通过大气湍流恢复编码目标”挑战任务是恢复因大气湍流而退化的“编码目标”,这些图像技术已获得美国陆军等机构的专利认证。竞赛测试包含四个不同级别的图像退化：低、中、高和非常高。每个级别包含48个序列，每个序列由100帧图像组成。参与者的任务是提升图像质量，并从中解码出目标图案所包含的信息。评估标准是基于重构结果的平均比特得分。由2023级硕士研究生缑雪健、王芹亮、刘洋组成的学生队和由马芹、柴金铭、张柯欣组成的学生队分别斩获该赛题亚军与季军。

队伍以DATUM算法为基线，构建了一种新颖的图像恢复框架，有效解决了大气湍流引起的编码目标图像退化问题。队伍首先通过图像清晰度指标进行图像预处理与筛选，然后利用Omni-SR算法对退化图像进行细节增强，恢复高频信息，随后采用多模型融合策略，整合不同阶段的修复结果，优化图像的局部特征。最终，队伍联合LaKDNet、HI-Diff和CMFNet三个去模糊模型对融合后的图像进行进一步的清晰度提升。该方案突破了传统图像复原水平低导致的复原结果编码信息损失大的问题，显著提升了编码目标图像在大气湍流影响下的恢复质量。

“CVPR 2024 7th UG2+：大气湍流下的文本识别”挑战数据集是由heat chamber模拟生成的仿真大气湍流数据，包含500个湍流文本序列，每个序列由100个湍流扭曲帧组成。赛题任务是将时序的湍流数据转换为单帧清晰的真实标签图像，然后进行文本识别以评估图像恢复的效果。由2023级硕士研究生马芹、柴金铭和博士研究生张君沛组成的学生队斩获该赛题亚军奖项。

队伍使用DATUM作为基线模型，提出了一种联合时间-空间多尺度融合与多阶段图像恢复机制的处理架构。该方法可以增强细节信息的捕捉，进而显著提升文本识别的精确度。首先，队伍基于TMT Static数据集训练DATUM模型，以提升模型对长序列的恢复效果；然后使用不同尺度大小的图像和不同长度的图像序列作为输入数据，得到不同特征尺度的湍流恢复结果，并使用像素级权重融合模块对不同结果进行融合；最后利用MPRNet进一步去除因时间变化引起的图像模糊。该方案突破了在大气湍流扰动下的模糊图像文本难以还原的技术难点，实现了文本识别精准度的有效提升。

西安电子科技大学人工智能学院焦李成院士团队在遥感领域拥有超过30年的经验积累，并在计算机视觉与遥感领域顶级国际会议上取得了卓越成就。团队带领智能学子在各种专业竞赛中屡获佳绩。针对计算机视觉与模式识别领域的多项挑战，团队提出了一系列创新性的解决方案并取得了突破性进展。同时，通过参与学术竞赛，学生们快速提升了科研能力，加强了学术交流，这也是人工智能学院人才培养的重要措施之一。赛中学不仅帮助学生快速掌握相关领域的知识，提高了他们从事科研工作的动力，培养了学生的组织协作能力和抗压能力。在过去几年的IGARSS、CVPR、ICCV、ECCV等国际赛事中，团队已经累计斩获百余项国际冠亚季军奖项，取得了显著的人才培养成果。

imagepng

责任编辑：冯毓璇