世界第一 | 范特“纵望大模型”斩获国际计算机视觉顶级赛事双冠
- 编辑:admin - 点击数:642世界第一 | 范特“纵望大模型”斩获国际计算机视觉顶级赛事双冠

2023年10月28日,由国际知名计算机视觉应用顶会WACV举办的第二届行人属性识别(PedestrianAttributeRecognition,PAR)挑战赛圆满结束。范特科技算法团队依托“纵望”视觉大模型在大赛中获得优异成绩,遥遥领先于AI独角兽和实验室等来自世界各地的100余支参赛队伍,以巨大优势斩获WACV2024PAR挑战赛的双赛道冠军。
本次大赛旨在提升机器学习算法面对环境发生变化后出现的未知问题的处理判断能力,为今后的深入研究提供方向。微软与斯坦福大学共同成立的合资公司CodaLab对此次赛事给予了大力支持,助力推进计算机领域技术不断进步。
开发赛道冠军
此次大赛共包括开发和测试两个赛道阶段,在开发赛道阶段(9月13日-10月15日),参赛者需要针对真实监控摄像头场景下行人的12种属性40个类别开展多标签分类,比如对行人的年龄、性别、发型、上衣颜色和款式、背包、眼镜等内容进行识别分类。参赛队伍在主办方规定的训练集上进行训练,然后利用模型在标签未知的测试集上进行推理判断,最后根据测试集上的mA和Inst_F1的数值取平均,作为该赛道的最后得分。
范特科技参赛团队于国庆节后参加开发赛道,依托“纵望”视觉大模型在短时间内快速蒸馏出图像分类模型SwinTransformer-Base,这种结构可以更好地捕捉图像的局部和全局信息,从而提高模型特征识别性能。最终范特科技获得0.8945的高分,以领先第二名3个百分点的明显优势斩获该赛道冠军。

Development赛道榜单
测试赛道冠军
在测试赛道阶段(10月16日-28日),赛事将之前假设的训练集和测试集来自同一概率分布(IndepentandIdenticallyDistributed,IID)的情况,拓展为实际场景中不一样的分布(Out-of-Distribution,OOD),识别难度显著提升。测试集中的行人在光线、视角、种族等方面的实际情况,与训练集的内容存在较大差异,这就容易导致基于训练集优化得到的模型,在实际测试集上的性能下降,降低了模型在实际应用中的稳定性及可靠性。
范特科技参赛团队凭借多年来在工业界积累的深厚的模型跨域融合技术,从算法和数据两个层面对模型进行改善优化,成功克服潜在实际性能降低的风险,以0.7183的高分斩获该赛道冠军,超出上一届冠军2个百分点。

Test赛道榜单
范特科技在今年第三季度完成了“纵望”语言大模型、视觉大模型和多模态大模型的1.0训练版本。作为MaaS平台的技术底座,“纵望”能够以场景微调、知识蒸馏等方式,广泛赋能金融、安防、文旅等垂直领域应用场景,提供数据合成、数据采集、算法自训练、应用自定义和部署运维自动化能力,助力客户数智化转型。
此次,范特科技依托“纵望”视觉大模型斩获国际大赛双赛道冠军,进一步印证了“纵望”特征提取能力以及zero-shot学习能力等方面,在科技创新领域已处于世界领先地位。

范特科技高度重视技术研发能力建设,未来将会继续参加计算机视觉(CV)、自然语言处理(NLP)、多模态等技术领域的国际赛事,在学习实践中不断提升和完善范特科技技术产品体系,用技术重塑任务,为构筑中国式现代化强大的技术基础而不懈努力。
WACV简介
WACV是指IEEEWinterConferenceonApplicationsofComputerVision,即IEEE冬季计算机视觉应用会议。该会议自2008年开始举办,是一个专注于计算机视觉应用方面的会议。此外,WACV是CVPR、ICCV以及ECCV之外的一个计算机视觉顶会,被广泛认为是该领域中的重要会议之一。