一、报告期内公司所从事的主要业务、经营模式、行业情况说明
(一)主要业务、主要产品或服务情况
公司专注于计算机视觉领域,为行业提供算法授权及系统解决方案,是全球领先的视觉人工智能企业,始终致力于视觉人工智能技术的研发和应用,坚持以技术创新为核心驱动力,在全球范围内为智能设备提供一站式视觉人工智能解决方案。
公司拥有丰富的针对智能手机、AI眼镜等移动智能终端以及智能汽车的视觉算法产品线,主营业务收入来源于自主研发核心技术的授权许可使用。目前主要客户包括三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商以及国内主要的自主品牌、部分合资及外资品牌汽车主机厂商。
1、...
查看全部▼
一、报告期内公司所从事的主要业务、经营模式、行业情况说明
(一)主要业务、主要产品或服务情况
公司专注于计算机视觉领域,为行业提供算法授权及系统解决方案,是全球领先的视觉人工智能企业,始终致力于视觉人工智能技术的研发和应用,坚持以技术创新为核心驱动力,在全球范围内为智能设备提供一站式视觉人工智能解决方案。
公司拥有丰富的针对智能手机、AI眼镜等移动智能终端以及智能汽车的视觉算法产品线,主营业务收入来源于自主研发核心技术的授权许可使用。目前主要客户包括三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商以及国内主要的自主品牌、部分合资及外资品牌汽车主机厂商。
1、移动智能终端领域
公司TurboFusion围绕高分辨率影像场景持续进行技术优化,通过针对不同硬件架构进行深度适配与整体影像流程优化,实现画质表现与运行效率的平衡,并在色彩表现、复杂光线处理及高动态范围场景中显著提升视觉效果。同时,系统支持Flash、CCD、Touch等多种闪光灯模式,增强终端产品设计的灵活性与稳定性。在AI能力方面,公司推进端侧大模型部署,通过优化模型运行策略,在保障隐私安全的同时提升实时处理效率,并持续优化算法资源管理以降低内存占用、提升系统稳定性。
2025年开始,公司进一步拓展AI眼镜、民用机器人及智能相机等领域,通过强化影像与视觉算法、多模态感知融合以及产业链协同合作,推动技术在终端产品中的规模化应用;同时通过多帧融合、运动补偿与图像重建等核心算法优化,使影像方案能够适配多种硬件平台,在复杂环境下保持稳定、清晰且自然的成像效果,持续提升整体影像体验与技术商业化能力。
2、智能汽车领域
公司在智能汽车领域围绕车辆行驶与停车两大核心应用场景,形成了由舱内安全产品包、停车安全产品包及智能辅助驾驶产品包构成的产品体系。其中,舱内安全产品(ICSPack)主要面向智能座舱安全,通过驾驶员监控系统(DMS)和乘员监测系统(OMS),结合视觉感知与人工智能算法,实现驾驶员疲劳检测、分心检测、健康监测、身份识别,以及安全带检测、儿童安全座椅识别、危险坐姿识别等乘员安全状态监测功能;停车安全产品(PSPack)主要面向停车场景安全与辅助需求,基于360°环视视觉系统提供2D/3DAVM全景影像、透明底盘、车辆哨兵监测等功能,并结合视觉感知、超声波融合感知及路径规划控制算法,为用户提供自动泊车及停车全场景智能辅助能力;智能辅助驾驶产品(ADAS)则围绕车辆行驶过程中的环境感知与安全辅助需求,基于视觉感知技术为整车提供前向环境理解及相关智能辅助驾驶能力。通过上述产品体系,公司持续推动视觉人工智能技术在智能座舱与智能辅助驾驶领域的应用落地。
3、智能商拍领域
在智能商拍领域,公司基于不断优化的ArcMuse计算技术引擎,构建了从静态图片到动态视频多模态生成的商业视觉底座,并持续深化PhotoStudioAI智能商拍云工作室(PSAI)的商业应用。2025年,公司积极推进并全面达成“应用+服务”双轮驱动的商业战略。在产品矩阵端,针对产业带中小商家的规模化、协同化内容生产效率提升的需求,公司推出PSAI企业版,标志着PSAI正式从单点AI生成工具向企业级视觉生产力平台迈进。借助PSAI标准版与企业版的组合,公司将高效触达并深度赋能海量中小及腰部电商商家;同时,针对头部服饰及时尚品牌,公司提供深度定制的一站式AI商拍交付解决方案。由此,公司构建了从模拍图、静物图、种草图到主图视频、创意视频等电商全链路营销内容的生产与服务能力。
在功能迭代与行业覆盖方面,PSAI已实现AIGC商拍全链路覆盖,产品丰富度与技术竞争力持续领跑行业。平台在深耕鞋服品类核心生成能力的基础上,正稳步向眼镜、箱包、帽子等多时尚类目延伸。目前,PSAI已全面支持AI试穿、AI模特、AI场景等核心商拍功能,并于2025年内陆续推出搭配上身、服饰换色、AI种草图等拓展功能,同时对动作模仿、图生视频等多模态前沿技术完成全面升级。通过将图文与视频生成的高可控性与极佳的物理真实感有机结合,并辅以去水印、智能高清、智能抠图、魔法擦除、智能补光等完善的AI后期处理工具包,PSAI为全客群提供了更具针对性的行业级AI解决方案,精准、高效地满足了商家差异化的视觉展示需求。
(二)主要经营模式
1、盈利模式:公司主要盈利模式是将计算机视觉算法技术与客户特定设备深度整合,通过合约的方式授权给客户,允许客户将相关算法软件或软件包装载在约定型号的智能设备上使用,以此收取技术和软件使用授权费用。同时,公司也向客户销售软硬一体视觉解决方案。
2、研发模式:公司主要采取自主研发的模式。研发过程大致分为以下9个步骤:①获取需求信息;②管理层决策研发方向;③搭建研发项目组;④验证研发项目算法,进行项目测试;⑤集体讨论决策项目算法;⑥进行底层算法与实际环境的结合优化;⑦进行实际产品结合测试;⑧产品成熟后路演,选择合适的客户进行测试合作;⑨测试合格后大规模推广。
3、销售模式:公司采用直销的方式,主要面向智能手机、智能可穿戴设备、智能相机等移动智能终端,以及智能汽车、智能家居、智能零售与各类搭载摄像头的AIoT设备制造商,销售计算机视觉算法软件及相关解决方案。
4、收费模式:按照业务合同的不同类型划分,公司的计算机视觉算法软件主要收费模式可划分为固定费用模式和计件模式两种模式。①固定费用模式:按合同约定的软件授权期限,收取固定金额的软件授权费用。特定客户在软件授权期限内,针对某款、某系列的特定设备内,可以合法地把含有虹软科技算法技术的特定软件无限量装载在合约限定的智能设备上。②计件模式:在合同约定的软件授权期内,按照客户生产的装载有虹软科技算法技术智能设备的数量进行收费。
通常情况下,公司会与客户就不同生产数量区间,约定阶梯价格,保障双方利益。针对软硬一体解决方案,公司目前采用计件模式。
5、采购模式:公司的主要采购内容包括研发、测试和运营所需的各类硬件设备、软件、服务,以及产品解决方案所需的物料等。根据需求部门的请购申请,采购部门按照《采购管理制度》的要求,执行供应商选择、采购合同签订、合同执行跟踪、采购付款申请等流程。针对软硬一体解决方案,由公司进行硬件的设计并购买相应部分核心部件后,委托第三方进行组装生产。
(三)所处行业情况
1、行业的发展阶段、基本特点、主要技术门槛
根据《国民经济行业分类》(GB/T4754-2017),公司所属行业为“I65软件和信息技术服务业”中的“I6513应用软件开发”。根据中国上市公司协会发布的《中国上市公司协会上市公司行业统计分类指引》,公司所属行业为“信息传输、软件和信息技术服务业-软件和信息技术服务业”,行业代码为“I65”。
公司从事计算机视觉技术算法的研发和应用,主要产品有移动智能终端视觉解决方案、车载AI视觉解决方案、智能商拍解决方案,根据公司主要产品功能及服务对象的特点,公司所属行业为计算机视觉行业,属于软件和信息技术服务业。
根据国家发改委公布的《战略性新兴产业重点产品和服务指导目录2016版》,公司属于“新一代信息技术产业”。
1.1行业的发展阶段、基本特点
随着人工智能技术日益成熟,其与各行各业的协同发展日趋加速,“人工智能+”已从理念共识转化为产业实践的核心路径。作为底层支撑技术,视觉人工智能广泛应用于各类人工智能细分领域,以下是与本公司相关的主要领域发展状况:
移动智能终端细分领域
伴随着人工智能、大模型及计算机视觉技术的持续发展,消费电子终端设备正加速向智能化、多形态及多场景方向演进。视觉人工智能技术作为人工智能的重要组成部分,在图像处理、视觉识别、人机交互等领域具有广泛应用,并逐渐成为智能终端设备的重要核心技术之一。目前,智能手机仍然是全球规模最大的消费电子终端设备,而以AI眼镜、运动相机等为代表的新型智能终端产品不断涌现,为视觉人工智能技术提供了更加广阔的应用空间。
在移动智能终端领域,2025年在存储芯片短缺的背景下,全球智能手机市场仍实现韧性增长,增长主要由高端机型需求提升、折叠屏表现强劲,以及消费者受涨价预期影响提前换机等因素共同推动。根据第三方研究机构国际数据公司(IDC)于2026年1月发布的《全球季度手机跟踪报告》等信息,2025年全球智能手机出货量达到12.6亿部,同比增长约1.9%。智能手机市场已进入成熟阶段,但在人工智能技术持续发展背景下,AI能力正逐渐成为终端设备的重要差异化竞争要素,例如AI影像处理、语音助手、实时翻译及智能搜索等功能不断提升,推动智能手机向“AI手机”方向发展。同时,高端机型需求增长以及新兴市场需求恢复,也为智能手机市场提供了稳定的发展动力。对于行业普遍关注的存储芯片短缺问题,IDC预计2026年市场出现下滑,且短缺持续时间将直接决定市场收缩的幅度。
与此同时,在人工智能与扩展现实(XR)技术融合发展的背景下,以AI眼镜为代表的新型智能可穿戴终端正逐渐兴起。据IDC官方报告数据显示,2025年全球智能眼镜市场出货量达1,477.3万台,同比增长44.2%。其中,中国智能眼镜市场出货量为246.0万台,同比增长87.10%。IDC预测,2026年全球智能眼镜市场出货量将突破2,368.7万台,中国市场出货量将突破491.5万台,行业正式迈入规模化增长新阶段。在全球化布局与本土供应链优势的双重驱动下,2026年中国智能眼镜厂商出货量有望占据全球市场45%;同期智能眼镜市场端侧AI支持的占比将超30%,搭载大模型的语音助手占比将超75%,为复杂人机交互任务提供强力支撑。随着人工智能助手、多模态交互以及实时视觉识别技术不断成熟,AI眼镜在信息提示、实时翻译、影像记录以及导航等场景中的应用逐渐丰富,具备成为新一代智能终端重要形态的发展潜力。
除智能手机及AI眼镜外,运动相机等影像类智能设备市场也保持稳定发展。运动相机是一类具备小型化、抗震防水及广角拍摄能力的影像设备,广泛应用于户外运动记录、旅行记录、短视频创作以及专业影像拍摄等场景。随着全球短视频平台、户外运动以及内容创作产业的发展,运动相机市场需求持续增长。根据GrandViewResearch发布的行业研究报告,2025年全球运动相机市场规模约为72.72亿美元,并预计到2033年将增长至约180.44亿美元,2026年至2033年期间复合年增长率约为12.1%。同时,随着4K/8K视频拍摄、AI防抖技术以及智能影像处理能力的持续提升,运动相机产品在影像质量与智能化功能方面不断升级,进一步拓展了其在消费级影像及专业影像领域的应用空间。
总体来看,在人工智能技术持续发展以及终端设备形态不断创新的背景下,智能手机仍将保持全球最大规模的消费电子终端市场,而AI眼镜、运动相机等新型智能终端设备正逐渐成为行业新的增长点。随着视觉感知技术、多模态交互技术以及端侧人工智能能力不断提升,视觉人工智能技术在各类智能终端设备中的应用将持续深化,为相关产业发展带来新的市场机遇。
智能汽车细分领域
2025年,全球汽车产业格局持续重塑,中国车企全球化进程加速。以比亚迪、上汽、吉利为代表的中国车企继续向上抬位,中国品牌在全球市场的竞争力持续提升,全球车市头部竞争从“规模竞赛”加速转向“电动化、智能化与全球体系能力”的综合对垒。据中国汽车工业协会数据显示,2025年度,我国汽车产销量分别完成3,453.1万辆和3,440万辆,同比分别增长10.4%和9.4%,连续17年稳居全球第一。对外贸易呈现出较强韧性,全年汽车出口规模再上新台阶至709.8万辆,同比增长21.1%。智能驾驶、智能座舱等核心技术持续迭代,多模态感知、端云协同等应用逐步落地,整车电子电气架构向集中式升级,软件定义汽车成为主流,产业逐步向“硬件+软件+服务”协同模式转型。中国商用车市场回暖向好,据中国工业和信息化部及中国汽车工业协会数据,全年商用车产销量分别达426.1万辆和429.6万辆,同比分别增长12%和10.9%,出口量达106万辆,同比增长17.2%。头部企业凭借技术优势占据市场主导,出海模式升级为“产品+服务”双输出,依托政策红利与基建复苏,实现内需与出口双向发力。
近年来,海外多个主要经济体针对汽车安全推出多项强制性标准,覆盖网络安全、功能安全及特定技术等领域,全球汽车行业合规监管持续收紧。2025年,国内智能汽车领域迎来法规标准密集落地、全面升级,行业加速从“技术驱动”转向“合规优先”。4月,交通运输部公告2025年第21号,对《营运客车安全技术条件》(JT/T1094)等4项营运车辆行业标准部分条款进行修订,优化调整ESC、AEBS等安全装置的配备范围,明确新规适用于新申请进入道路运输市场的达标车型,且该修订条款自发布之日起9个月后正式实施,AEBS辅助驾驶功能自此成为商用车法规强制要求。5月,《轻型汽车自动紧急制动系统技术要求及试验方法》强制性国家标准征求意见稿发布,将自动紧急制动系统(AEBS)从推荐性标准升级为强制性要求,适用范围从M1类乘用车扩展至N1类轻型载货汽车,新增多场景测试验证,该项标准后续于2025年12月正式获批发布(GB39901-2025),明确2028年1月1日起全面实施。6月,全国标准信息公共服务平台公示《智能网联汽车组合驾驶辅助系统安全要求》拟立项强制性国家标准项目意见,后续该项标准于2025年9月正式对外公开征求意见,旨在通过强制性国家标准约束组合驾驶辅助系统功能表现,规范产品研发与量产管控,提升产品安全性能、减少因产品性能缺陷引发的交通安全事故,进一步完善我国道路交通安全管控体系,实现标准对各类组合驾驶辅助系统产品的全面覆盖。9月,工信部等八部门联合印发《汽车行业稳增长工作方案(2025-2026年)》,正式推进智能网联汽车准入和上路通行试点,有条件批准L3级车型生产准入,同步健全配套监管与责任划分规则。2025年全年,国内智能汽车主动安全、功能安全等领域标准体系日趋完善,强制性监管覆盖范围持续扩大,倒逼产业规范化发展,为行业高质量前行奠定坚实合规基础。
商业拍摄细分领域
2025年智能商拍作为AI电商内容生产的核心场景,在技术迭代与降本需求的双重驱动下进入规模化落地期。根据头豹《2025年AI电商行业词条报告》,2020年至2024年,AI电商行业市场规模由239.27亿元增长至504.45亿元,期间年复合增长率20.50%。预计2025年至2029年,AI电商行业市场规模由638.24亿元增长至1382.81亿元,期间年复合增长率21.32%。根据淘宝平台调研,30%的受访卖家已使用过AIGC,其中有50%左右的卖家认为AI技术在开店、发品、内容直播、广告营销、客服服务等环节发挥了作用,可帮助其自动识别商品卖点、形成直播切片等,使其短视频制作成本下降50%。智能商拍作为核心分支,成为渗透率提升最快的AI应用方向之一,行业价值已得到验证。市场格局上,当前已形成“平台自研+第三方服务商协同”的生态,头部平台将商拍能力纳入商家服务体系,服务商则聚焦跨境电商多语言商拍、3D内容生成等垂直场景。1.2主要技术门槛
视觉人工智能属于高知识密集型领域,有较高的技术门槛,公司主要为移动智能终端、智能汽车等智能设备以及商业拍摄领域提供视觉人工智能解决方案,在前述领域的主要技术门槛包括:
(一)端计算和边缘计算技术的积累
边缘计算极大程度上解决了物联网背景下集中式运算架构中的带宽和延迟两大瓶颈问题,主要难点在于低资源的嵌入式平台环境的开发能力,基于移动终端的边缘计算具有巨大的应用价值,但是受限于移动终端有限算力,诸多企业望而却步。
公司自2003年开始便明确了在嵌入式设备研发相关视觉人工智能技术的发展方向,在边缘计算技术领域积累深厚,多年来建立了全面、复杂的多平台适用的底层嵌入式开发库。公司积累的算法具有高度的紧凑性、稳定性以及易调用性,可以在高性能、有效大幅降低资源消耗的情况下实现高精度运行。
公司长期专注于嵌入式设备算法的研究与开发,多年来积累了大量基于端设备的视觉人工智能算法开发经验。目前公司基于端设备的视觉人工智能算法适用性高、运行稳定,可以在边缘侧发起高效的运算,通过诸如智能手机、笔记本电脑、智能可穿戴设备、智能相机等实现高效的图像优化、识别与检测等功能。公司的移动智能终端视觉解决方案、车载AI视觉解决方案等业务均是从边缘侧发起运算,在智能手机、笔记本电脑、智能可穿戴设备、智能相机等移动智能终端,以及智能汽车与各类AIoT设备上实现各类视觉人工智能的功能。
(二)视觉人工智能技术的层次积累
在数码相机以及手机功能机时代,公司就开始专注于视觉人工智能技术的研发与应用,公司主要算法技术都经过了长时间的锤炼,从基本的黑白小分辨率图像的摄取、增强、编辑、检测识别到高清大图像、视频的实时处理均打下了坚实的基础,创造了有利和领先的条件。
公司掌握的视觉人工智能算法技术具有通用性和延展性。多年来,公司积极致力于将视觉人工智能算法与行业应用相结合,凭借先进的科研力量、强大的产品开发能力以及卓越的工程实施能力,公司快速将视觉人工智能算法技术落地为成熟的解决方案,并进一步将应用领域从智能手机扩展到智能汽车、智能可穿戴设备、智能家居、智能零售等多个行业,助推行业升级。此外,公司基于自身深厚的技术积累,能够为上述行业快速提供高性能、高效率、硬件平台适应性强、功耗控制优良的解决方案,大大降低各类客户的产品使用先进技术的门槛,帮客户提升产品竞争力,助力视觉人工智能和人工智能相关应用的普及。
(三)工程落地能力
虹软创立至今,除不断积累和发展自身技术、掌握持续开发、迭代与硬件更加匹配的算法的能力,还一直致力于与核心产业链内主流公司开展长期、广泛的合作。公司与高通、联发科等各主流芯片公司建立了长期稳定的合作关系,在研发中持续合作交流,深入了解平台硬件特性并为其针对性优化,共同开发核心功能,不断提高视觉人工智能技术算法产品与移动芯片的适配性。公司还与索尼传感器、三星半导体、格科微、OmniVision、舜宇光学、思特威、锐视智芯等业内核心器件合作伙伴建立了业务交流或合作关系,在项目早期就针对特定相机或硬件做算法适配和调优。针对智能终端的芯片平台,公司具备针对CPU、GPU、DSP和NPU等各个算力单元的强大优化能力。结合各硬件算力单元的能力和算法模块的算力需求,公司具备的异构计算优化能力能够从系统层面更有效地优化性能、降低功耗。得益于此,除核心技术能力突出外,公司同时具备优势明显的工程落地能力,在客户提出技术需求后,能更好地联合和发挥在相机模组、软硬件平台、产线、算法等多方资源合作优势,进而提供效果好、能耗低、效率高、硬件平台适应性广并能够快速落地的解决方案。
2、公司所处的行业地位分析及其变化情况
当前视觉人工智能市场已初步形成“头部集聚+垂直深耕”的竞争格局,技术迭代加速、行业渗透深化以及政策引导等因素仍在持续推动市场动态变化。核心技术积累、产品化能力、产业生态链合作均构成各垂直行业的核心壁垒。公司是计算机视觉行业领先的算法服务提供商及解决方案供应商,是全球领先的计算机视觉人工智能企业。
公司坚持深耕计算机视觉算法技术,深化各行业布局的发展战略,逐步将计算机视觉算法技术的应用扩展至更多的智能终端设备领域。除本公司外,行业中国内企业主要有商汤科技、旷视科技,国外企业主要有SeeingMachines、Mobileye、Cipia、Smarteye。
2.1移动智能终端领域
在移动智能终端领域,公司持续专注于视觉人工智能领域,为客户提供完整的视觉AI技术与解决方案,是全球智能手机视觉算法领域的重要供应商之一。公司在智能手机影像算法方面积累了深厚的技术优势,多项视觉技术达到行业领先水平,部分创新技术在行业中率先实现应用落地。公司长期服务于三星、小米、OPPO、vivo、荣耀以及Moto等全球主流手机厂商,并与高通、联发科等移动芯片平台企业保持紧密协作,通过针对不同芯片架构持续开展算法适配与性能优化,提升影像算法在各类硬件平台上的运行效率。同时,公司也与多家半导体及图像传感器厂商开展技术交流与合作,逐步形成覆盖底层硬件到终端应用的协同生态体系。
在技术发展方向上,公司围绕空间计算相关能力进行系统布局,从标定技术、环境感知、人机交互以及视觉呈现等多个层面构建完整的技术框架,形成较为成熟的空间计算解决方案体系,为客户提供覆盖产品研发全流程的一体化技术支持。与此同时,公司持续加强与行业头部企业之间的技术交流与合作,不断拓展产业协同范围,进一步完善技术生态。
以AI眼镜为代表的新一代智能终端正在推动人机交互模式的演进。公司积极推进AI眼镜相关影像算法的研发与应用,与多家AI眼镜品牌厂商建立合作,根据不同产品定位和应用场景提供定制化算法方案,支持客户实现产品快速落地。目前,公司已协助多家AI眼镜厂商推出其首代产品。在智能相机领域,公司也持续结合客户需求推进影像算法优化与方案升级,通过不断完善技术能力,为客户提供更加成熟稳定的视觉解决方案。
2.2智能汽车领域
在智能汽车领域,公司的市场地位较2024年进一步提升。随着全球汽车智能化进程加快以及相关安全法规逐步落地,驾驶员监控系统(DMS)和乘员监测系统(OMS)等舱内安全感知技术加速普及,市场需求持续增长。在行业整体渗透率不断提升的背景下,公司依托长期积累的计算机视觉与人工智能技术优势,持续推动相关产品的技术升级与市场拓展。与2024年相比,公司在客户结构、产品法规适配能力及海外市场拓展方面取得积极进展,相关技术方案在多家国内外整车厂及Tier1供应商的项目中进入量产或验证阶段,业务规模及行业影响力稳步提升。同时,公司积极推进产品在欧洲等重点海外市场的法规认证与项目落地,进一步增强了公司在全球车载AI视觉感知领域的市场竞争力。总体来看,公司在智能座舱视觉安全及舱内外视觉感知等细分领域的技术积累与产品化能力持续强化,市场覆盖范围和客户基础较2024年进一步扩大,行业地位得到稳步提升。
2.3智能商拍领域
公司积极拥抱技术变革,引领计算机视觉技术发展,自成立以来,经历了从浅层模式识别到深度学习,再到大模型驱动的智能计算的多阶段演进。当前,人工智能技术正经历以大模型为核心的范式变革,在政策引领、产业升级与技术跃迁的三重驱动下,垂直行业大模型正重构各产业生态。依托深厚的视觉AI技术积累,以自研ArcMuse计算技术引擎为核心,公司不断推动视觉大模型的技术进步与行业落地。
公司于2023年推出PSAI,目前已完成淘宝千牛、1688、抖音抖店、TikTok、Shein、亚马逊等平台入驻,成为国内率先完成主流电商平台全覆盖的服务提供商。通过PSAI“应用+服务”,公司为客户提供全链路AIGC视觉内容生成解决方案,是行业领先的电商AIGC视觉生产力服务商之一。公司PSAI技术在中国大陆服饰电商AIGC视觉赛道稳居第一梯队,主要客户群体覆盖海量产业带中小商家及头部服饰时尚品牌,截至报告期末,已累计服务中小商家30余万家,覆盖品牌客户1000余家。
3、报告期内新技术、新产业、新业态、新模式的发展情况和未来发展趋势
人工智能技术迈入性能迭代与效率升级新阶段,以DeepSeek为代表的国产大模型实现关键技术突破。据官方技术公告披露,2025年初发布的DeepSeek-R1推理模型在数学、代码、自然语言推理等任务上,性能比肩OpenAIo1正式版;年末推出的V3.2标准版在公开推理类Benchmark测试中,已经达到了GPT-5的水平,仅略低于Gemini-3.0-Pro。其“高性能、低成本”的技术路径形成产业标杆。这推动了行业发展重心从算力建设转向算法与工程创新本身。将DeepSeek的工程优化经验与算法创新思路,落地应用于视觉大模型研发领域,已然成为行业全新发展趋势。垂直行业视觉大模型已从试点进入规模化普及期,重构各产业生态。通用大模型技术持续迭代升级,带动模型轻量化、高效化技术不断突破,大幅降低了端侧AI部署门槛与运行成本,进一步打通了技术落地与市场普及的壁垒,拉动AI手机、AIPC、智能眼镜、智能座舱等各类端侧设备放量,推动端侧智能从试点尝鲜走向全民普及。与此同时,端侧设备算力、存储等硬件能力持续升级,也反向支撑大模型本地运行,形成“技术迭代-终端升级-市场放量”的正向产业循环,加速全域端侧AI生态成熟。
二、经营情况讨论与分析
公司专注于计算机视觉领域,为行业提供算法授权及系统解决方案,是全球领先的视觉人工智能企业,始终致力于视觉人工智能技术的研发和应用,坚持以技术创新为核心驱动力,在全球范围内为智能设备提供一站式视觉人工智能解决方案。
2025年度,公司继续以技术创新赋能行业为使命,秉持“夯实核心赛道、突破新兴领域、引领场景革命”的目标,深耕视觉AI核心赛道,围绕智能AI终端、智能汽车以及智能商拍等领域打造面向未来的视觉AI产品,两大核心业务均保持良好发展态势,合力驱动经营业绩实现稳健高质量增长。报告期内,公司实现营业收入92,297.09万元,同比增长13.22%;实现归属于上市公司股东的净利润25,840.70万元,同比增长46.25%;实现归属于上市公司股东的扣除非经常性损益的净利润21,427.99万元,同比增长37.51%。
报告期内,公司保持高水平研发投入,为战略落地提供核心支撑,全年累计研发投入达42,990.52万元,占营业收入的46.58%;期末研发人员共计619人,占员工总数的61.71%,为公司技术创新、产品升级与场景拓展筑牢根基。
公司按照既定目标,重点开展并推进了如下工作:
(一)强化市场领先地位,引领移动影像技术与体验革新
2025年度,公司持续巩固移动影像领域的技术与市场领先优势,并积极拓展业务新品类。报告期内,公司移动智能终端视觉解决方案实现营业收入71,506.98万元,同比增长5.90%,持续刷新该业务收入纪录。
1、智能手机
2025年度,公司智能超域融合(TurboFusion)技术完成旗舰机型向全机型市场的渗透突破,规模化布局初见成效。在具体技术优化上,TurboFusion围绕移动智能终端影像的关键能力持续演进,重点强化了高分辨率处理与色彩表现两大核心方向。针对高分辨率影像场景,TurboFusion通过对整体影像流程与资源调度的系统性优化,并结合多样化硬件架构的深度适配,实现了在不同终端环境下的稳定运行与高效输出。在色彩表现能力上,TurboFusion通过持续打磨整体成像风格与色彩映射机制,显著提升了画面的真实感、层次感与氛围表达能力。
公司TurboFusion视频解决方案实现多项核心优化,其中TurboFusion星空拍摄整体解决方案完成多模块升级,并在头部客户实现了商业应用,巩固了公司在特殊场景影像算法领域的优势。在2025年9月召开的高通骁龙峰会上,公司携手高通率先展示了虹软基于全新骁龙8平台打造的超域融合视频功能。该技术大幅提升视频的动态范围与层次表现,暗部细节清晰可见,高光区域不过曝,即便是逆光日落、夜景聚会等复杂光照环境,也能呈现电影般的光影过渡与色彩张力。
随着端侧智能能力持续升级,TurboFusion也正积极推进端侧大模型方案的落地应用。在手机端侧硬件资源相对有限的条件下,通过对模型部署方式与运行策略的持续优化,实现了更高效且稳定的AI能力支持。相较于传统依赖云端计算的方式,端侧部署能够显著提升数据处理的安全性与隐私保护能力,降低对网络环境的依赖,在实时响应和处理效率方面更具优势。
2、AI眼镜
公司前瞻把握AI眼镜作为新一代AI交互入口的战略机遇,凭借深厚的计算机视觉积淀,快速卡位核心算法生态,2025年在技术、生态与商业化三大维度全面突破,确立行业头部供应商地位。在核心技术能力方面,公司持续优化AI眼镜影像与视觉算法能力,围绕复杂环境下的图像与视频处理能力持续升级。通过优化图像与视频处理算法,提升设备在复杂光照、动态场景及低照度环境下的影像表现,并通过视频防抖算法提升动态拍摄场景中的画面稳定性。在产业生态合作方面,公司持续深化AI眼镜产业链协同,与高通等芯片厂商及产业伙伴保持紧密合作,推进自研影像算法在AI眼镜平台上的适配与性能优化。同时,公司持续完善SDK及开发工具能力,并推进对主流操作系统平台的适配,包括HarmonyOS在内的系统生态,以提升方案兼容性与开发效率,进一步完善AI眼镜技术生态。在商业化落地方面,公司持续推进技术成果向终端产品转化,诸如暗光增强、HDR、畸变校正、智能防抖、抓拍等核心影像算法与技术已在雷鸟、Rokid、夸克等多款AI眼镜产品中应用,并与核心客户签约下一代新品,持续保持头部市场优势。
(二)深化车载AI业务战略布局,实现市场份额提升
2025年度,公司坚定推进车载AI业务“舱内+舱外”与海外市场战略,深化与整车厂、Tier1及生态伙伴合作,加速虹软方案规模化落地。报告期内,公司车载AI视觉解决方案实现营业收入19,198.23万元,同比增长50.94%,总体实现较好增长。
1、驾驶员与乘员视觉安全
2025年度,公司在驾驶员与乘员视觉安全辅助领域持续加大投入,进一步巩固差异化竞争优势。旗下驾驶员安全辅助系统(DMS)、乘员安全辅助系统(OMS)等核心产品完成多轮技术迭代与性能升级,并实现规模化出货,客户覆盖国内外整车厂、Tier1供应商及新能源汽车品牌等多元化合作伙伴。同时,公司面向舱内场景推出的前装车载视觉解决方案Tahoe,于2025年上半年在欧洲知名豪华品牌车型上实现量产交付。此外,公司基于国产芯片的第二代低成本替代方案已完成样件法规测试,在欧洲部署演示车辆,2026年已面向多家国际主流OEM开展市场推广与技术展示。
公司围绕汽车安全法规关键领域,持续推进产品合规与全球市场拓展,重点聚焦DMS、OMS等舱内安全产品的ADDW/DDAW等法规认证及全球推广工作,为产品出海奠定坚实基础。具体来看,公司DMS产品首个内后视镜海外项目通过欧盟ADDW认证并实现量产交付;在岚图、吉利等品牌的部分海外量产车型项目中,DMS产品于E-NCAP(欧洲新车安全评鉴协会)安全警告测试中获得满分;OMS产品在长城、吉利等品牌的部分海外出口车型项目中获得多个项目定点。此外,公司DOMSE-NCAP2026产品方案已完成法规机构摸底测试认证,获得OMS满分通过的测试报告,进一步提升产品合规竞争力。
公司与欧洲全球领先舱内传感器供应商及Tier1持续推进深度战略合作,双方联合完成了集成OMS、HOD(脱手检测系统)、CPD(儿童遗忘检测系统)及SRS(安全气囊系统)的传感器融合产品原型开发,相关方案正在开展推广。
2、智能停车辅助
2025年度,为适应行业舱泊一体、行泊一体化域控的发展需求,公司持续加大智能停车辅助系统相关领域的研发投入与资源配置,重点推进智能停车辅助系统相关产品的研发与市场拓展,进一步完善公司业务布局。技术研发方面,公司舱泊一体解决方案已在客户项目中完成POC技术验证,行泊一体解决方案也在量产进行中;自动泊车产品持续优化算法与系统能力,不断提升复杂场景适应性,已完成包括雷达融合、自选车位泊车、倒车循迹等在内的自动泊车核心功能开发,形成较为完整的泊车能力体系。产品功能层面,围绕用户停车全场景需求,对相关产品进行了系统化的智能功能升级,覆盖起步预警、窄道辅助、智能轮毂视角、智能保险杠视角、开门预警、智慧寻车、智慧哨兵、智慧尾门及暗光增强等多项功能。项目落地上,公司PSPack产品方案相关功能已在多个量产车型项目中实现交付,客户涵盖吉利、奇瑞等国内主流整车厂商,进一步巩固了公司在智能停车视觉感知领域的市场基础。
3、智能辅助驾驶
2025年度,公司聚焦智能驾驶领域核心技术研发与产品落地,紧扣国内ADAS(高级驾驶辅助系统)领域法规升级趋势,围绕即将实施的AEB(自动紧急制动)强制国标(GB39901-2025)及即将发布的组合辅助驾驶强制法规等法规和行业标准,以合规性、安全性为核心主线,持续推进各产品线解决方案的迭代优化与商业化落地,夯实技术储备、完善产品矩阵,助力公司强化智能驾驶领域核心竞争力,具体进展如下:
在低算力平台解决方案(SouthLake)方面,公司深度契合国内汽车行业主动安全法规升级需求,精准对标AEB强制国标(GB39901-2025)及即将发布的组合辅助驾驶强制法规核心要求,重点开展前视视觉感知算法优化、AEB等关键主动安全功能升级工作,进一步完善算法性能稳定性,提升功能适配性与可靠性,确保解决方案全面符合行业监管标准与安全底线,有效助力下游客户满足新车型合规准入要求。报告期内,该解决方案凭借优异的合规性、稳定性及场景适配性,获得多家Tier1(一级汽车零部件供应商)合作伙伴的技术认可,正式开启针对量产项目的技术合作。公司与Tier1深度协同,联合开展软硬件系统化产品集成开发、全场景测试验证等相关工作,持续优化感知算法在不同产品形态下的适配能力,为后续量产导入奠定了坚实的技术与合作基础。
在中高算力平台解决方案(EastLake)方面,公司紧跟组合辅助驾驶强制法规推进节奏,针对法规要求的核心技术指标与安全规范,持续开展解决方案的深度迭代与优化,重点提升系统集成效率、功能稳定性及场景适配能力。结合2026年智能驾驶行业向中央计算架构演进的趋势,同步推进技术储备,报告期内,该产品线解决方案成熟度显著提升,进一步完善了公司在不同算力等级平台的产品矩阵布局,为后续商业化拓展及规模化量产提供了有力技术支撑。
在合规监管层面,公司针对主动安全AEB功能已顺利通过软件功能安全认证,这一成果标志着公司辅助驾驶产品的系统性安全防护与设计工作迈入全新发展阶段。
4、商用车市场
2025年度,公司持续升级在商用车等其他市场的技术及产品解决方案,帮助客户打造优秀的安全驾驶产品和体验。在商用车领域,公司的DMS/AVM/BSD/FaceID等产品在重汽、一汽解放、陕汽、福田、东风柳汽等头部卡车主机厂持续获得更多车型的定点以及量产释放;公司的欧盟GSR(ADDW/DDAW/ISA/BSIS/MOIS)解决方案在厦门金旅、苏州金龙等头部客车主机厂也持续获得更多车型的定点以及量产释放。同时,公司的SouthLakeL2级辅助驾驶解决方案也已经成功获得主机厂定点并即将进入量产阶段。
5、海外市场战略
2025年度,公司持续积极推进“海外”市场战略,围绕VisDrive、Tahoe、ADAS、AiTrak、MonoLake等核心产品,拓展国际化应用场景,推动重点区域市场落地,助力OEM客户实现多款车型顺利量产,提升在国际车载领域的品牌认知度。
产品层面,公司以GSRII和E-NCAP2026法规要求为DMS/OMS产品的核心技术方向,持续优化产品功能规划,提升产品对海外法规的适配能力,强化在智能座舱和驾驶监控相关细分领域的技术积累与交付能力。市场与渠道拓展方面,公司通过现有渠道推进与海外主机厂项目的前期沟通与机会跟进,实现对欧美主要OEM厂家的深度对接,并在部分OEM现场举办技术集中交流(TechDay),展示公司就欧盟法规和E-NCAP2026、E-NCAP2029的最新产品研发进展;同时,积极与多家国际Tier1建立或加深合作联系,推进既有合作项目落地,并探索进一步合作机会。公司持续响应客户对海外法规合规的需求,支持多家海外客户实现数款新车型通过GSRII的认证测试并顺利实现量产。
为强化欧洲本地服务能力,更好地支持欧洲本地客户需求,公司已在德国成立子公司,近距离了解市场诉求、快速响应和支持当地客户,进一步提升品牌在国际市场的知名度与影响力。
(三)积极布局前沿赛道,拓展新兴业务空间
1、智能商拍
2025年度,公司积极推进AIGC智能商拍领域发展,达成了“应用+服务”双轮驱动的战略预期,完成从静态图片到动态视频的多模态生成商业落地。技术层面,公司持续优化底层算法,除服装品类外,还研发并提升鞋子及服饰配件等多时尚品类的AI试穿、AI模特、AI场景、AI视频等核心商拍产品效果;产品功能方面,在稳固既有功能的基础上,于下半年推出搭配上身、服饰换色、AI种草图、图生视频等高阶功能,持续完善功能矩阵、实现全链路覆盖,产品丰富度与行业竞争力保持领先;同时,针对产业带中小商家规模化、协同化内容生产需求,发布PSAI企业版,推动PSAI从单点工具向企业级视觉生产力平台升级。在商业化层面,公司通过PSAI标准版与企业版高效赋能海量中小及腰部电商商家,并为头部服饰时尚品牌提供一站式AI商拍交付解决方案,截至报告期末,已累计服务中小商家30余万家,覆盖品牌客户1000余家,商业生态持续繁荣,双轮驱动格局稳步落地。
2、具身智能机器人
2025年度,公司聚焦视觉算法前沿研发与技术场景化落地,凭借在视觉感知、多模态感知融合等领域的技术优势,成功与知名头部民用机器人企业达成商务合作,实现最核心视觉感知算法、引擎在民用机器人领域的实际落地应用。
技术储备层面,公司坚持前瞻布局,深挖核心技术引擎包,推出适配行业需求的核心视觉感知、视觉融合感知的技术解决方案。方案涵盖视觉能力拓展、环境导航感知、人机自然交互、大脑感知精准操控四大核心引擎包,重点优化视觉感知的精准、即时性,感知与机器人动作的高度协同,强化多场景自适应泛化能力,动态三维语义建图、定位的精确和实时性,精细的目标对象的三维形状建模。基于以上布局,公司构建起技术驱动的差异化竞争壁垒,技术布局契合具身智能行业“感知-决策-行动”的核心技术发展趋势,为后续感知市场爆发及技术泛化奠定坚实基础。
(四)持续创新投入,加大底层技术研究与应用
公司构建并持续完善通用视觉算法底座,依托深厚的视觉AI技术积淀,致力于为更广泛的端侧智能体提供核心AI能力支撑。公司在智能手机领域积累的深厚影像技术,除迁移至智能汽车领域外,也已成功应用至AI眼镜、智能机器人领域,实现技术的跨场景复用与价值最大化。
2025年,公司稳步推进新一代ArcMuse计算技术引擎的研发与迭代,全面达成了年初既定的技术升级目标,将其成功打造为兼顾卓越视觉效果与极致推理性能的综合型视觉AI基础架构。依托“云+端”工程创新能力,ArcMuse引擎已切实成为驱动公司各项业务高质量增长的核心底座。具体进展包括:一是核心引擎与模型架构深度升级,公司成功完成了图像与视频生成大模型的训练与推理性能优化,CPG与KDE模块迭代成效显著,大幅提升了生成内容的精确控制力与物理逻辑自洽性。同时,通过集群算力统筹与深度优化,进一步降低了模型训练与推理的算力消耗,提升了整体运算效能。二是底层新模块研发与端侧部署突破,公司成功研发并落地了大模型端侧引擎,并成功在移动智能终端实现搭载出货。这一突破切实打破了硬件算力壁垒,让高质量的大模型生成与处理能力在受限算力的设备上高效运行成为可能。
(五)精准优化经营管理,全面提高经营质效
1、打造富有战斗力的人才梯队
2025年,公司以优化人才配置、提升组织效能为目标,有序推进人才管理体系建设。围绕战略发展与业务赛道人才需求,实施精准引才策略,统筹校招与社招布局,优化内部推荐机制,通过精准画像、定向触达提升匹配效率。同时,构建分层分类的培训体系与学习平台,开展多维度、场景化主题培训(如知识技能、通用管理、专业素养、管理研修、开发技术、项目管理等),提升管理者与研发人员综合能力并通过“虹鹰训练营”培育新生代骨干。公司持续完善多元化人才评价与职业发展机制,以业务需求为牵引,完善跨部门人才流动机制,优先内部选拔补足关键岗位,盘活人才存量。人力资源各模块高效协同,强化业务支撑与文化引领,营造高绩效、强凝聚的团队氛围。
2、强化应收账款和汇率风险管控
截至报告期末,公司应收账款账面余额为32,185.74万元,较期初增加6,142.92万元。增长主要来自于车载AI业务,该业务受行业特点影响,收款周期相对移动智能终端业务更长。2025年度,公司充实应收账款管理团队力量,精细化掌握账款动态、打通管理堵点,有效提升运营效率;同时深化业财融合,优化客户信用评审,对成熟、次新及新业务分类实施风险管控与账期管理,持续强化应收账款全流程管理,不断提升财务管理精细化水平,保障公司业务稳健发展。
2025年度,公司紧抓全球外汇市场波动机遇,主动优化资金币种结构,合理调整境内外资金配置,提前部署汇率风险管控工作,稳妥规避跨境资金波动风险,牢牢守住资金安全底线。同时公司持续推进全球化资金统筹管理,延续“阶梯式存款+低风险理财”的结构化配置模式,兼顾资金流动性与收益性,始终维持充裕现金储备,为核心技术研发、抵御经营不确定性风险提供了强有力的资金保障,进一步夯实了公司稳健经营的基础。
三、报告期内核心竞争力分析
(一)核心竞争力分析
1、人才优势
在超过30年的发展历程中,公司磨合出一支以博士为带头人、硕士为骨干的核心研发团队,充分掌握核心技术算法,并进一步落地成为成熟的商业产品。通过长期的潜心学习,公司始终立足于领域内的最前沿,建立和长期保持行业内经验积累和能力上的领先优势。
虹软科技及其下属公司经过30多年的摸索,不断改善形成了一套独有的高效管理模式,基本实现自动化、自驱、自愿的高效运行状态,同时采用“导师制”培养模式,有效减少研发的试错次数。高效的研发管理体系提高了公司的自主创新能力和产品研发速度,提升了公司视觉人工智能技术算法水平。目前,公司拥有良好人才储备并在持续完善,为重要项目的推进奠定了基础。
2、技术积累优势
公司技术积累优势主要体现在端计算和边缘计算技术的积累优势、视觉人工智能技术的层次积累优势、工程落地能力。
虹软自成立以来便致力于计算机视觉技术的研发,技术所应用的终端,从个人电脑、数码相机、智能手机,再发展到智能汽车、AI眼镜、XR3D空间计算头显以及其他AIoT领域,一直与影像产业的发展、消费者的需求和影像科技创新紧密相连。经过数十年的技术、专利和人才积累,公司已全面掌握视觉人工智能及人工智能的各项底层算法技术并不断进行技术演进,掌握包括即时定位与建图、图像语义分割、人体识别、物体识别、场景识别、图像增强、三维重建、虚拟人像动画、虚拟数字人等全方位的视觉人工智能技术。公司所掌握的这些底层技术具有通用性和延展性,在此基础之上,公司构建了不同的组件和产品,并衍生出多种产品应用方案满足相应的细分市场需求。
公司坚持以创新驱动企业发展,持续高水平研发投入,不断打磨视觉人工智能技术能力。截至报告期末,公司拥有专利309项(其中发明专利283项)、软件著作权160项。
3、产业链深度合作优势
公司所涉的消费电子产业与汽车产业,高度依赖产业协同。公司拥有紧密、稳定的产业生态关系,与高通、联发科、格科微、索尼传感器、三星半导体、艾迈斯半导体、OmniVision、舜宇光学、英飞凌等平台、传感器、摄像头模组厂等产业链上下游主流公司开展合作。在车载AI业务上,除了既有的合作伙伴之外,公司也持续与更多的芯片、相机模组、Tier1等诸多上下游产业链公司形成了相互信赖的合作伙伴关系。
凭借与产业链内主流公司长期、广泛的合作,公司掌握了持续开发、迭代与硬件更加匹配的算法的能力,通过共同研发、持续合作交流,得以在客户提出技术需求后,在最短时间内及时响应,提供低能耗、高效率、硬件平台适应性广的解决方案,保持技术持续处于行业最前沿。
4、客户及品牌优势
公司是全球领先的视觉人工智能算法供应商,客户群体广泛。在智能手机领域,公司主要客户包括三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商,服务范围涵盖全球90%以上的安卓手机品牌。在智能汽车领域,公司方案不仅可满足GBT、C-NCAP、C-IASI、IVISTA等国内法规及行业标准要求,而且还可满足ADDW、DDAW、ISASTU型式认证、E-NCAP、A-NCAP等各项海外法规及行业标准要求。在这一领域,公司已协助众多OEM客户顺利在相关国家地区实现产品量产落地,大大加快了新车市场化进程。在智能商拍领域,PSAI产品已入驻淘宝千牛、1688、抖音抖店、TikTok、Shein、亚马逊等多家主流电商平台服务市场,累计服务中小商家30余万家,覆盖品牌客户1000余家。在AI眼镜领域,公司已成功助力多家AI眼镜公司首款产品发售。优良的客户质量、良好的市场口碑、国际化的品牌认可度、海量历史销售数据,为公司后续业务发展奠定了良好基础。
(二)报告期内发生的导致公司核心竞争力受到严重影响的事件、影响分析及应对措施
(三)核心技术与研发进展
1、核心技术及其先进性以及报告期内的变化情况
1.1核心技术及其先进性
目前,公司积累了大量视觉人工智能的底层算法,构建了完整的视觉人工智能技术体系。
公司自主研发了人脸分析及识别/人脸美化及修复/人体分析及美化、手势识别/物体识别/场景识别、行为分析、暗光图像增强/超分辨率图像增强/视频画质增强/画质修复、光学变焦、虚化技术、3DAR动画等诸多可应用于智能手机、智能汽车、笔记本电脑、智能可穿戴设备等终端领域的核心技术。
针对单摄/多摄/TOF/结构光等不同种类的摄像头,公司均可提供相应的3D与AR视觉解决方案,帮助厂商在移动设备上便捷高效地实现落地。为满足各智能终端对于VR/MR/AR应用的需求,公司已经研发并可以直接落地使用的解决方案,包括基于双摄/多摄/TOF/结构光的深度获取和优化,以及基于单摄的深度获取引擎,这些深度数据成为一些上层逻辑应用的核心基础;实现了SLAM中环境Map的构建,物体的3DModeling,视线的检测、跟踪,人体和动作静态、动态姿态的检测和跟踪,解决了实时显示中的延迟等多种问题。为满足智能汽车领域人机交互的需求,公司主要研发了基于红外相机、单摄RGB摄像头、双摄、深摄的交互技术,包括手势交互引擎包、头部动作和口部动作交互引擎、经典表情识别等。
公司在人体分析、人脸识别、人体识别、手势识别、人体美化等技术上,在当前状态下的中段平台达到超过95%的正确率、毫秒级实时性,这些引擎也可以有效鲁棒地支持低端硬件平台,人物属性分析、对象属性分析、多帧多通道质量提升等技术点能达到业界先进的低功耗、高性能、相对强鲁棒的水平。
公司大部分智能手机视觉解决方案达到国内外先进水平,多数新创技术在行业内属于技术首发,能够满足目前市面上中高端智能手机大多数与视觉相关的技术与应用的算法需求,且公司的智能手机视觉解决方案在除苹果之外的主流手机品牌的大部分旗舰机型上获得使用。
1.2核心技术报告期内发生的主要变化
(1)人脸分析及识别
人脸检测技术优化了近距离场景下的残缺人脸,背光,复合姿态人脸等场景下的人脸召回率,同时进一步提升了远距离超小人脸的召回率。手机版本在最新内部难例测试集上保持速度不变的情况下,召回率和精度继续提升。人脸关键点定位技术在手机相关方向上,进一步提升了大角度场景和遮挡场景的稳定性和精度,并且修改整体算法框架,在内部复杂自测集上,人脸归一化到100像素尺度下的点位平均误差降低到1.28像素,1像素误差以内的素材召回率提升3%。同时也提升了智能座舱应用中外国人络腮胡、戴口罩以及戴墨镜遮挡场景下人脸关键点的准确性,且关键点稳定性也获得较大提升。在智能座舱场景中,人脸角度和位置估计算法,重点优化了超大角度case以及海外人种的角度精度,在内部客观数据集上显示,pitch角度提升5.6%,yaw角度提升4.5%,使得DMS场景下的人脸分心范围鲁棒性进一步增强。人脸重建技术通过渲染数据的使用,进一步改善在大角度场景下重建精度,尤其是大抬头场景下眼睛、嘴巴贴合精度。
2DFaceID在FAR≤100k条件下,常规及戴口罩场景FRR改善2.8%;3DFaceID在同等场景下,FRR改善1.5%;车载场景的RGB/IR交叉识别持续改善,FRR改善1.7%,且海外人种识别效果显著提升,全人种(黑、白、棕、黄)测试下FRR改善3.6%。开放平台内研版本效果进一步改善,常规及戴口罩场景FRR改善2.5%。静默式活体及炫光活体版本效果持续优化;炫光活体新增三种打光组合,在应用中更新了主动活体及炫光活体功能,以满足市场需求。此外,宠物ID算法逐步成熟,可区分同品种不同个体,对猫狗照片自动聚类准确率已经超过竞品。
(2)人体分析及美化
人体检测技术进一步提升了人体召回率并且降低了误检率,同时提升了目标跟踪稳定性,尤其是智能座舱应用场景中优化跟踪框架,在指标基本不变的情况下,检测跟踪耗时峰值降低40%,平均耗时降低30%。召回率达到97.89%。人体骨骼关键点技术,在座舱内场景中优化座椅扶手颜色和胳膊颜色相似场景下关键点的准确性。人体重建技术通过多相机采集和人工合成的方式扩充对人体细节动作的数据补充;进一步提升四肢尤其是脚的贴合度和稳定性,并拓展至具身机器人应用场景,提升大角度、大畸变、人体不完整case下的重建精度。遗留儿童检测技术进一步优化了五座车场景中侧躺、侧坐以及摄像头角度过大场景下的误检,同时也提升了儿童检测的召回率。与儿童检测配套的安全座椅检测功能通过渲染和大模型生成的方式,获取更丰富的训练数据,极大提升了安全座椅的召回,达到95%,为E-NCAP法规项提供了更加坚实的技术支持。与座舱人体检测相关的安全带检测技术优化工牌手臂、西装领带、厚外套拉链、光影、反光背心等误检以及遮挡安全带、扭转安全带漏检。行为识别技术不断完善,针对E-NCAP2026对相关安全行为的要求,实现在多种车型上对副驾安全行为(身体前倾、脚伸仪表盘)的识别,平均召回率达到94.5%,精度达到95%以上。基于行为识别的环视哨兵功能,提升抬手和踢腿检测的召回率,对车体附近50cm-80cm的抬手或者踢车的危险动作的报警召回率达到90%,同时优化车角及下蹲等姿态下的检测效果;引入视觉语言模型对哨兵模式的报警类型进一步细分,支持喷涂、踢车、划车等13类哨兵危险行为,平均召回率达到95%。新增E-NCAP2026体型分类功能,分类精度达99%,通过了假人和真人现场过标点检,成为国内首家过测的公司。
(3)宠物分析
宠物目标跟踪中新增ID识别功能,在处理遮挡、快速移动等复杂场景时也能够准确区分不同个体,确保了跟踪结果的连续性和一致性。通过对训练数据的系统优化,显著降低了错误标注对模型的干扰,并且在训练过程中动态过滤低质量样本、过度困难样本及分布外样本,全面提升了宠物身体检测、面部/眼部边界框与关键点检测、姿态估计、目标跟踪等技术的整体准确率。
(4)行为分析
继续提升满足DDAW以及E-NCAP法规的驾驶员疲劳/分心检测技术方案,完成满足E-NCAP2026产品原型研发。根据大量路测数据对疲劳/分心的误报进行实车数据分析,通过多数据融合将基于车机信号与车辆控制信号在内的驾驶员行为数据与视觉感知信息进行融合,通过数据统计优化行车中的误检问题。同时,结合大量KSS以及心理行为研究实验结论,研发了更加符合疲劳认知的全新疲劳解决方案。根据大量疲劳研究实验进行了真实疲劳数据采集和真实疲劳检测技术更新,提升基于真实疲劳反应的驾驶员疲劳分级检测,在视觉信息获取上增加多帧、多时间窗口的分析,增大疲劳分析的时间窗口区间。通过对实际数据分析,设计完成了一套适合实车体验的驾驶员疲劳升降级方案,有效降低疲劳与视觉接近的非疲劳行为之间的误报,在满足更高阶法规需要的同时大大提升用户体验,形成了与市场同类产品技术的差异化。目前正在尝试将该新技术融入量产方案中,并且实车测试已达到DDAW认证要求。为满足E-NCAP2026新规,公司已完成DMS与OMS新增测试项的功能研发,包括受损驾驶员行为分析、座舱乘员异常姿态与体态检测等,形成了完备的能满足E-NCAP2026测试范围的产品形态。
视线追踪技术已支持众多智能座舱量产项目,结合座舱标定方案为驾驶员分心技术提供视线落点输出支持,完成了E-NCAP法规中需要支持的视线落点检测研发,对驾驶员视线检测覆盖到舱内23个区域。满足E-NCAP所有视线分心测试场景的检测要求,包括车内常见手机摆放位置下驾驶员看手机行为识别,并将过标方案融入量产方案中,实现了更多满足法规要求的视线功能设计。
根据对ADDW法规的解读与技术实现分析,目前已经完成ADDW实车专项测试,并即将在各量产方案中设计算法方案,满足该法规标准继续进行单摄像头下视线追踪技术的精度提升,自主研发基于3D人脸重建与追踪的底层数据特征表达,实现3D视线追踪技术。视线追踪技术继续对多摄像头方案进行研究,并根据项目需要应用在量产项目中,全面提升驾驶员在车内的视线精度,尤其是在相机畸变与人脸角度范围较大的DOMS一体化内后视镜摄像头方案中,将原有方案精度提升近30%,确保了该产品形态的量产要求。在原有视线真值系统上继续进行方案优化,完成新一代头戴便携式真值系统研发,大大提升当前视线真值精度,并便于在实车行驶过程中采集真值,为量产方案带来更高精度真值的同时,拓展了实车采集的场景,可用于认知分心等多种进阶驾驶员行为侦测实验。
自主研发了基于用户行为的无感自标定视线精度提升方案,对于视线基础引擎的精度做了较大的提升。当前该方案已经取得重大进展,通过多组实验获得新型自研模型,在无需用户配合的条件下完成用户个性化特征提取,与原有方案对比平均视线精度获得了7.2%的提升,当前方案还在持续迭代。此外,视线研发团队还对眼睛瞳孔虹膜特征在成像上的差异进行深入研究,获得了一整套适用于视线的摄像头设计准则,指导量产项目中的视线摄像头设计。新版本在原有座舱行为数据自动化合成平台研发基础之上,又拓展了关注座舱安全的哨兵难例数据合成,扩展了座舱数据合成范畴,在极大降低数据成本的同时,为解决长尾问题和提升总体精度起到了关键作用。该平台已经用于相关量产项目交付以及预研项目中。
为更好地解决量产项目中的不同车型以及各种容易引起摄像头位姿变化的外界影响,研发了一整套完善的视线无感自标定解决方案,为主机厂降低相机标定成本,目前该方案已经大规模用于量产项目中,适配各种车型的活动摄像头安装需求。当前已完成一体化的适配多摄像头安装位置的舱内DOMS自标定解决方案,以内后视镜为摄像头安装参考位置,挖掘不同车型座舱的共性特征,大规模降低自标定技术依赖的数据存储空间与车型适配成本。将DMS与OMS在自标定方案上进行整合,并于2025年上半年应用于多种DOMS产品形态研发,取得了优异的适配效果。该新自标定技术方案架构后续将在量产方案中大规模应用,为视线一体化方案提升整体鲁棒性。该技术方案目前可以兼容支持由于内饰颜色、纹理、光照带来的差异,并可以较高精度兼容有差异的车型之间的自标定方案共用,大大提升了产品的容错率与大平台化的可能性。
酒驾驾驶员行为分析为2025年新增技术引擎,目的是通过饮酒后驾驶员的行为实验分析驾驶员是否处于酒驾状态,达成适用于量产的基于视觉的酒驾检测解决方案,满足E-NCAP2026中关于受损驾驶员的行为分析。在常见行车场景下可以做到较高精度的区分,通过封闭道路的实车测试已经满足了E-NCAP2026合规与量产要求。
睡眠检测技术根据座舱内乘员的面部状态与体态分析是否处于睡眠状态,在实车场景中需要与低头玩手机、看书等准静态行为进行区分,经过持续研发迭代,各场景实车召回率已经达到90%以上且误报低于1%,支持在各种颠簸路段场景下的高召回,当前已完成众多量产项目。
基于XR头显的眼动追踪完成双眼双目多光源方案的研发与调优,同步适配头显应用需求,完成配套外围视觉算法开发及设备端全流程部署,追踪精度已经达到业内领先水准;持续开展多场景适配眼动算法研究,提升底层引擎的检测精度,并通过设计融合方案实现眼动追踪精度最优化。
车载表情识别与唇语关键词识别技术,围绕用户感知习惯打磨产品方案,通过大量实车数据分析,构建基于用户无感表情标定的表情识别技术,可满足个性化用户表情识别的需求,精准捕捉个性化的面部行为特征,有效提升座舱交互体验。唇语关键词识别技术已完成多模态技术研发,融合语音与图像信息,有效解决单一视觉方案难以识别歧义唇语关键词的技术痛点。
车载危险行为检测,全面落地基于人体行为与手持物分析的多通道信息融合抽烟打电话检测方案,提升了困难场景下的用户体验。算法模型层面,在强化模型特征提取能力与场景通用性的基础上,还借助视觉语言模型(VLM)开展车载场景的定向微调,提升模型泛化性。乘用车业务线,基于DMS/OMS一体化解决方案的方向盘脱手检测算法,对方案做全面升级。商用车业务线,对包含抽烟打电话、喝水/吃东西、自顶向下视角的玩手机检测、方向盘脱手检测等在内的多个危险行为识别算法,通过标准化模型和接口进行整合,可适配不同硬件平台,加速产品迭代,持续优化边缘场景下的检测效果。
(5)手势识别
手势识别相关底层算法持续迭代升级。手部检测/跟踪算法,面向丰富的使用场景,借助人体关键点信息,提升对hardcase(困难场景)的支持能力,如强背光、室外夜景、超近距离、多人、远距离、手物交互等困难场景下的手部检测跟踪能力有所提升。手部姿态估计算法,对底层模型进行技术架构升级,有效降低后量化过程中的精度损失。面向车载场景,适配更多车规平台,在低画质、弱光照、高噪声等复杂场景下提升了关键点检测精度。静态手势识别,融合手部关键点的拓扑结构信息以强化分类特征的表征能力,并且结合注意力机制增强了模型对手部重点区域的关注,引导模型聚焦于语义关键区域,进一步提升分类模型的识别效果;针对动态手势识别技术,开展新型传感器应用探索性研究,采用120fps高帧率相机开展动态手势识别研发,旨在满足未来复杂场景下提升手势识别效果、实现精细动作识别的客户新需求,为后续技术迭代夯实技术储备。
移动端和PC端手势产品线,报告期内承接并实施多个面向移动终端设备的手势识别项目,支持包括静态手势和动态手势的多种交互方式。围绕移动端AON设备,持续推进手势算法的产品化与平台适配工作。针对客户自研AON平台,在客户既定的模型框架和部署约束下完成了手势识别算法的实现,满足端侧实时运行的需求。同时,在高通和联发科等多个芯片平台上完成了AON静态、动态手势的适配与落地,实现算法与模型的一体化封装,在保证算法效果的同时,也加强了算法与模型的隐私保护能力。
车载智能座舱手势产品线,针对静动态手势交互技术,已完成适配主流车载算力平台,在提升识别效果的同时,有效降低技术资源消耗、优化算法性能。在算法效果方面,通过改进技术方案、扩展训练素材等方式优化了相似手势误检问题,使静动态手势获得更好的用户体验。手势算法和人体姿态算法相结合,拓展了舱内手势感知能力,为客户提供了更多手势识别应用场景。为适应客户需求,新增了对多个动态手势的支持,包括“抓握拖拽”“拇指左右移动”等动态手势。手指指向技术丰富了车载手势产品矩阵,基于2D图像的三维空间食指指向识别技术,还原手部在三维空间中的真实姿态,可以实现多个方向的准确识别。鼠标手势交互技术,在大角度姿态、手部自遮挡等较难场景下也可精细识别手指动作。对鼠标手势中的分类策略进行了优化设计,采用“先粗筛、后细分”的分级识别策略,并结合大小分类器协同工作的方案,以提升对同一手势在不同角度、不同姿态下的识别能力,从而增强整体识别的准确性与稳定性。娱乐手势产品,手势游戏也在行业头部客户上车量产,反响良好。
新增具身智能机器人产品线,依托公司手势识别技术多年研发积累,快速将静动态手势识别技术移植并适配至机器人平台。针对机器人应用中常见的复杂环境,对模型和算法进行针对性的优化,目前可稳定支持较远距离手势识别。
(6)图像质量分析
人像质量分析算法显著提升特殊场景(如暗光环境下深肤色人像)的评估准确率,同步优化宠物模糊判断效果。HDR场景识别技术在AI眼镜方向持续扩展,完成多家客户算法交付并新增多芯片平台适配能力。
YUVHDR支持旗舰处理器AEB模式下的HDR融合。在防鬼影方面,加入了基于AI的增强技术,实现了提亮和去噪,减少了运动区域的噪音,提高了运动场景的画质。针对高饱和度区域的还原,转换到HSV空间进行颜色、饱和度、亮度的动态融合,获取更鲜艳真实的颜色。针对中低端平台无法提供ISP提亮帧的情况,通过调整原有框架,改进HDR融合算法和鬼影处理策略,改善融合结果。开发暗光环境人像HDR功能,并支持闪光灯和屏幕补光模式,在暗光人像模式能更好地还原场景动态,同时保持人像的亮度和人脸的细节。根据对不同风格的要求,定制HDR融合策略。基于机器学习算法结合预览图片的统计特征改进动态EV算法,为系统推荐适配的低曝光图片的EV值,提升融合结果的动态还原效果。
基于RAW域的HDR在AI去噪、高动态图像获取方面都取得了巨大进步,针对HDR摄影的复杂环境,从白天到夜晚都准备了鬼影处理策略,在影调方面以保持真实场景亮度分布为出发点,自适应调整影调,在保持原本动态范围扩展能力的基础上使最终结果更贴近客户美学需求。基于场景识别与语义分割,实现对不同被摄环境、不同语义区域的自适应影调调节,确保成片自然度。结合传感器以及环境信息,智能提升最终成片的通透度。自研自适应感知颜色增强方案,提升成像色彩的人眼感知真实度。针对预览场景,设计了自然影调方案,实现实拍效果和预览画面的风格统一。针对运动场景,不仅实现了智能优化,还继续提升运动区域的画质,提高了抓拍成片率。针对不同曝光序列,优化了运动鬼影,改善最终成片效果。弱光环境结合图像分割方面,根据图像区域分割的结果动态调整局部的融合策略,最终的融合结果更加自然。针对暗光环境闪光灯模式,根据不同闪光灯强度与环境光的组合,设计了不同的闪光灯影调策略,实现更为自然的补光效果。针对人像场景进行了真实感模拟,提升了人像成片质感。基于不同环境进行光色联动调整,提升成片氛围感。进一步拓展了HDR的特性和应用范围:适配Quadbayer数据,为使用最新Sensor获取更好的纹理细节提供了保障;灵活支持可变倍率,为全倍率RAW域HDR的实现打下基础。针对前置人像开发新的AI模型,能够实现对图像中不同区域不同频率的纹理信息的增强程度自适应调节的功能,提升前置人像的真实感。设计了新的流水线框架来适配2亿像素Sensor,实现高分辨率输入下的多帧AI去噪和HDR功能,显著降低了内存占用;在亮光环境下,利用不同通道的混合输入数据,在继承HDR影调的同时实现了图像纹理细节的大幅提升。将混合类型输入数据的处理范围扩展至高ISO场景、运动场景,进一步完善框架全场景适配能力。针对硬件能力不足的中低端平台,设计了全流程轻量化处理框架,提升了处理效率,降低了资源开销。通过算法框架继续优化和精简,适配了更加低端的硬件平台,进一步拓展了技术的落地范围。
(8)暗光图像增强
暗光图像增强技术,公司为客户的摄像头传感器做了针对性支持,确保每个摄像头的去噪以及保留细节达到最佳效果。改进对齐算法,提升运动区域和人像的配准精度,保留更多算法结果细节。改进多帧融合算法,结合AI增强提升细节。改进针对运动区域的去噪和融合算法,消除运动噪音和运动模糊。改进高动态场景下的模型训练,使得高动态场景的暗处细节更清晰。改进训练策略,使得落地后的性能优化版本效果更好。研发基于增强型的暗光图像增强算法,实现最终出图效果清晰度明显提升,进一步拓展增强型暗光增强算法的适用范围,使得更暗的场景实现清晰度的提升。研发极暗场景下的图像增强算法,通过调整训练策略,实现极暗场景下的弱纹理细节提升。针对图像的亮部和暗部,做针对性的处理,拓展了图像亮部区域的清晰度画质提升;针对中低端设备噪点严重的特点,开发新的单帧处理算法优化图像。针对人脸部分,开发专门的算法对人脸进行去噪和增强,有效改善人脸的视觉效果。对不同的平台计算资源,比如NPU、GPU、DSP等做性能的最佳适配。同时,针对更低平台做了算法的针对性改进,维持效果和性能的最佳平衡,使得算法可以平铺到更多的客户设备。针对中低端平台将轻量化单帧图像增强AI模块和多帧模块配合,在很小的系统消耗的情况下,实现细节提升。进一步优化低端平台的性能功耗,使得在纯GPU的平台,也能用上性能快、功耗更低、效果更好的图像增强算法。针对车载平台和AI眼镜平台开发自适应的多帧和单帧算法模块并配合开发轻量化单帧图像增强AI模块,同时优化训练方法,提升不同设备使用的网络的更新迭代效率,最终实现画质提升。
(9)超分辨率图像增强
超分辨率图像增强技术,拓展更深层的超分维度,YUV域、RAW域、Quadbayer域等,实现超分辨率的质的提升。改进运动区域检测策略和配准精度,改进融合算法,优化AI模型训练流程,提升AI增强的效果。研发基于参考图片指导的YUV域AI超分算法,实现动态照片,更换封面帧后结果的画质。研发基于增强型的AI超分辨率算法,不同的倍率下清晰度和解析力都得到明显提升。攻克了Quadbayer更高ISO和逆光场景的输入网格和噪音偏大难题,拓展更多的亮度范围场景下,实现光学的超分辨率。研发了基于Hex域的AI超分算法,充分挖掘原始数据中的信息,实现光学图像的4倍超分辨率提升。研发了更高倍率的数字变焦AI增强算法,消除放大过程中引入的模糊问题,提升更高倍率的超分画质。改进针对不同摄像头传感器的去噪效果,提升结果细节。拓展更高放大倍率的细节提升方案,针对不同的放大倍率的特点,训练针对性的AI细节提升模型,使得在各个放大倍率都有更优的画质表现。优化代码框架,提升性能。实现在不同的放大倍率上,都展现出更好的去噪效果以及细节水平。结合ZSL和PSL的RAW数据,开发25MP产品,提升结果细节的同时,保留场景的动态,在多轮算法迭代和框架优化后,实现性能和功耗的大幅优化。整合25MP的整体框架,充分利用平台的各种资源,提升产品的用户体验。
(10)画质修复
屏下摄像头画质修复技术,可在抑制图像原有噪声的同时提升清晰度、对比度与色彩饱和度,使成像效果更接近普通摄像头效果。文档图像去阴影技术,重点针对一些中低端平台做适配与优化,构建轻量级高性能的去阴影解决方案。算法在保持实时性的同时维持原先的画质表现,边界保留自然清晰,有效提升整体视觉体验。当前算法已支持多平台商用部署,可以应用于相机拍照与相册应用,满足用户对拍照完美质量的追求。
美食阴影去除方案,针对手机输入图像的高分辨率需求,对超高分辨率图像处理的去阴影整体算法流程进行优化升级,有效解决了高分辨率图像去阴影后目标区域清晰度降低的问题。在优化算法性能方面,进一步减少了整体框架的处理耗时,提升方案的使用效率。针对部分场景偏色问题进行了针对性优化调整,改善了去阴影后的输出效果。
图像去反光技术,改善反光去除能力,整体效果更加稳定。重点优化模型结构和前后处理流程,降低算法内存和耗时,同时保持效果基本不变,满足算法在低端设备平台上的部署需求。
图像去炫光技术,更新数据集,覆盖更多的炫光成像场景,且视觉效果更加真实,大幅提升了室内顶灯、室外路灯等场景下的炫光去除效果。针对部分人脸图像处理结果失真的问题,对人脸区域增加处理策略,使结果更加自然。此外,优化了炫光检测模型的准确率,利用检测模型的轻量性特点提升整体流程的性能。
图像去雾和视频去雾技术,针对客户在雾天场景中的图像质量提升需求,深入研究并设计了一套新的去雾算法方案,解决手机拍摄图片发蒙的问题。该方案通过建模图像复原过程,并融合视觉感知优化策略,通过多项关键AI感知技术的协同提升,使得处理后的图像更加贴近真实无雾环境,具备更高的视觉自然度与观感舒适性。与原有方案相比,新方案在雾气去除的彻底性、图像细节的保真性以及整体算法性能方面均实现了显著突破,该算法已经在指定设备平台上实现量产出货,保证了在实际应用中的可靠性与有效性。
AIImageDebanding,手机拍摄过程中因光源频闪与相机传感器采样机制有时会引发周期性的暗纹现象,新研发的AIImageDebanding算法,可通过深度学习模型精准识别与修复Banding暗影,有效改善室内环境下的图像观感。算法持续优化稳步迭代,具备较强的泛化能力与良好还原度,对图像输入格式的支持也从YUV扩展到RAW域。
AI祛红眼,手机夜景人像场景下,人物眼底血管反射闪光灯光线会造成拍摄照片中存在人物红眼现象,原有基于CV的祛红眼方案在一些场景下效果受限,因此新增基于AI的祛红眼算法研发。算法在有效消除红眼的同时,使人物眼神更加自然灵动,显著提升夜景闪光灯场景下的人像整体观感。当前已面向客户出货,为公司夜景人像算法产品增添重要一员。
(11)视频画质增强
视频超夜技术,该套技术方案已圆满完成对多家主流汽车厂商的深度适配,支撑了多款车型的量产项目。
针对极暗视频,在YUV域进行处理难度较高,因此公司将处理环节前移至RAW域。RAW域处理可保留未经后续算法干扰的原始噪声特征,更利于去噪网络实现高效降噪;但该方式会带来数据处理量显著提升的问题,对此公司重点开展模型优化工作。通过优化可以在当前的旗舰机下实现4K视频的实时处理,同时噪声去除能力也明显优于传统的去噪算法。手机端视频超夜技术,拓展手机端至暗光0.1lux,极大改善AI降噪模型的降噪能力的同时保持细节。在实时性和功耗上,做到极致优化,满足客户使用场景需求。针对性训练不同摄像头传感器的视频去噪效果,针对客户的不同硬件平台,设计模型和量化策略,达到画质和性能功耗的较好平衡。RAW域去噪算法进一步优化了性能和功耗以及高亮区域的彩噪问题,同时支持了高动态范围视频的去噪。
全新研发的高动态视频超夜技术,在降低噪音保留细节的基础上,极大地扩展了视频的动态范围,嵌入了公司视频影调技术,使得视频超夜多维度画质提升,更贴合美学需求。经过极致优化,高动态视频超夜技术的实时性和功耗等客观指标均满足客户需求,达到业界领先水平。视频超分技术,持续改善文字场景和密集纹理场景的效果,进一步提升了小字号字体的清晰度,增强可阅读性,改善了混合语言文字处理偏差问题。在密集纹理场景中,减少出现假纹理现象的概率。同时,优化了模型结构,减少了性能开销和功耗,并保持处理效果跟优化前持平。
视频插帧技术,在模拟长曝光场景的应用中,主要针对流水等非规则物体的运动做了进一步优化,使用AI算法提升了此类场景下插帧结果的一致性,使得最终的插帧效果更加平滑和自然。在多摄相机切换镜头的应用中,主要改善了重复纹理场景下的效果,并针对大视差场景做了重点优化。为实现效果与性能的双重提升,在网络结构方面,对模型进行了精细化的重构,以适应对性能的更高要求。相对此前版本,在保持相同插帧效果的情况下,算法耗时减少了20%。
(12)畸变消除
进一步优化光学畸变消除性能和功耗表现,提升了视频流的处理性能;优化拍摄性能,针对不同客户、不同算力平台,提供了对应定制算法,满足了客户需求。提供覆盖iOS、安卓等平台的适配算法,成功在AI眼镜领域抢占市场先机。增加了针对车载鱼眼相机处理方案,进一步扩展了算法使用范围。
(13)光学变焦
结合AIfusion、AI主体感知、AI稠密对齐共同赋能光学变焦,业界首例,在某国际高端机型上落地,也吸引国内手机厂商来寻求合作。
(14)多摄标定
扩大AVM标定和BSD标定的适配范围,优化ADAS车载标定解决方案,推进多车型实车部署。进一步适配不同乘用车、商用车标定场地。结合商用车特性差异,提供不同的简易标定方案,在降低成本的同时,提升后装标定的效率和准确性。同时提供基于模型方案的标志物检测和处理逻辑,针对商用车应用场景中场地、环境及光照条件复杂的问题,有效提升检测鲁棒性,在标定成功率、精度及效率三个维度均实现进一步的优化。针对新兴机器人的标定需求,搭建了一套覆盖相机、IMU(惯性测量单元)、LiDAR等模组的统一标定方案,可以实现上述模组的一次性标定,为下游算法提供了准确可用的标定结果。
(15)全景拼接
全景拼接技术,围绕复杂场景适应能力与全景呈现效果提升,持续推进全景拼接技术的优化与应用创新。在算法层面,针对仰拍、俯拍及大角度旋转等复杂拍摄场景,对图像融合策略进行了优化,有效缓解错位融合问题,提升整体拼接质量;针对超广角镜头成像中直线易扭曲的情况,引入新的匹配算法,提高特征匹配成功率。同时,通过优化运动物体检测算法,增强系统对微小目标的识别与处理能力。针对星空拍摄场景,分别设计适用于多星与少星环境的配准算法,并结合星点特征构建新的特征描述符,进一步提升星点匹配的稳定性与准确性。在实现方式方面,适配配备三维云台的便携式拍摄设备,形成“硬件约束+算法处理”的协同方案,从源头降低拼接复杂度并提升结果稳定性。在呈现形态上,对投影空间进行了优化,有效减少传统方案在画面边缘区域的拉伸变形,使成像效果更加符合移动端的观看与分享需求。
(16)人脸美化及修复
公司在图像修复与编辑方向上长期致力于LivePhoto、视线校正、人头姿态校正等人脸修复与编辑技术。LivePhoto技术通过调整深度神经网络结构,针对性改进口腔区域模糊、不真实的问题;研发了针对特定人物的微调技术,使得算法能够生成更加逼真的结果;对网络进行性能优化。新版本采用更高效的隐式参数驱动方法,大幅提升运动传递的准确性,使处理后的人物动作更加自然流畅。同时,增加边缘保护机制,处理结果可完美贴合原始图片和视频,极大提升了技术的实用性,为用户提供了更多创意和应用的可能性。视频口播数字人技术,深入挖掘实时语音对话应用潜力,使用统一的多模态模型取代独立的ASR(自动语音识别)、LLM(大语言模型)和TTS(文本语音转换),使得数字人具备更加智能和全面的感知力,在优化推理性能的同时提升对话智能,增加用户的沉浸感。在个性化视频生成方面,结合AIGC与视频生成领域的最新成果,实现了半身与全身数字人视频的生成,将运动区域拓展至整个身躯,并取得长视频生成方面的重要突破,进一步扩展了视频创作的可能性和应用场景。
视线校正技术研发了全新的3D视线校正算法,创新地结合了三维人脸重建和二维图像编辑方法,相较于前代算法产品,突破了正脸姿态的限制,并且大幅度拓展了算法能支持的视线角度,在人脸角度和视线偏移角度均较大的情况下算法依然可以得到正确的矫正结果。用户主观测试报告表明,新算法在真实感、矫正范围、算法稳定性、准确性等方面均明显优于竞品。在效果上,相较于前代版本,解决了可能会出现的额头部分变长、脖子区域融合拼缝、面部抖动、面部刘海导致眼镜断裂等问题,在视频上能做到连续、稳定、自然的结果。在性能上算法完成了模型的蒸馏和量化训练,以及计算过程全部部署在GPU上,实现了算法在设备端的实时运行。
在人脸美化技术上实现了人脸自适应肤色调节技术,可针对不同肤色的人脸进行自动肤色调节,有效提升不同肤色情况下的效果一致性;调整了磨皮方案,进一步提升了细节表现力,肤质纹理更加自然,增强了对不同画质人脸去噪的自适应性,改善人脸明暗不均现象的同时立体感也得到提升;实现预览磨皮算法,在去脏能力、通透度、立体感、肤质细腻度方面都有所提升;实现了Vulkan方案的磨皮、美白、美唇、亮眼、白牙、去唇纹、去油光等美颜技术和腮红、眼影、SkinGloss、美瞳等美妆技术,在基本保持性能和视觉效果优势的情况下,解决了客户不同设备平台间驱动更新时产生的兼容性问题,降低了产品的维护成本;实现了Vulkan方案的眼妆、唇妆、眉毛等妆容的妆容增强技术;实现了4D眼睫毛、眼影、唇彩、腮红、SkinGloss等4D美妆技术,较大程度上提升了美妆的真实性、立体感和光泽度,进一步优化了大角度、姿态下的美妆效果;实现了AI唇部、眼部遮挡物体分割算法,提升了美妆技术的实用性;实现了AI预览祛斑算法,较大提升了预览美颜的祛斑、去脏能力,对肤质纹理也有很好的保留;优化了拍照AI祛斑算法,对大侧脸提升祛斑效果的稳定性;图像祛斑方面也增加了去抬头纹、去颈纹等新功能。算法框架方面,实现了支持UBWC(通用带宽压缩)输入输出的框架流程,通过优化整合数据链路以降低功耗、提升性能。性能功耗方面,进行了GPU优化、模型优化和NPU硬件优化。对美颜预览、拍照算法进行了性能、内存、功耗的全面优化。预览头发柔顺技术可以去除视频中的杂乱发丝、捋顺发束,达到美发风格化的效果。针对海外市场需求,定制实现了Bindi检测技术,可保护印度女性眉心Bindi,提升美颜效果;针对客户对高清人像的需求,开发了结合AI的人像算法,在调整光影瑕疵、修饰皮肤质感和恢复五官结构上做到了光影更好看、肤质更细腻、五官更清晰,打造了人像审美的高级感。
低光照和极暗光线下的人脸美颜解决方案,继续扩展了超清人像美颜风格的应用平台,人像视觉效果更加自然、整洁,同时保持清晰度和立体感。视频任务上,针对移动设备端改善了模型以及任务框架,增强人像效果以及自然程度,同时提升了性能并优化了功耗。而PC端主要增强人像修复强度,提升人像解析力,同时针对不同平台做了专门性能优化。实现针对车载、平板、PC、手机等设备的视频人像修复的轻量级模型部署。
人脸修复技术,针对不同画质的人像照片进行了更细致的算法区分处理,能够让正常拍摄的人像脸部肤质更显性、更自然,将长焦或极差环境下拍摄的人脸恢复清晰,目前算法都已实现在手机端的部署,作为整体画质增强模块的一部分,人脸修复技术已应用到多个产品之中。针对高倍率的拍照场景,研发基于大模型的超分修复方案,部署和落地到设备端,让高倍率下的场景变得更加清晰,视觉效果得到较大的提升。
人脸换头技术用于提升用户拍照时(尤其是人像合照场景)的成片率。在合照拍摄场景中,往往在抓取精彩时刻的一瞬间,会存在部分人物头部、表情姿态等不协调,如果重新拍摄将费时费力,且错过了那一精彩时刻,也难保重拍过程中仍存在另外人物新的姿态不佳。人像换头技术基于动态照片拍照场景(用户在拍照时,会有一张最终成像的静态图像和同步保留拍照前后3s左右的动态视频),算法通过抓取动态视频内人物好的头部表情姿态,来替换融合最终成像中人物不好的头部表情姿态,从而保证最终合照成像下所有人物都有最佳的表情和姿态。另一方面,受限于动态视频帧画质与成像画质的差异,公司研发肤色/画质的对齐模块,以及对应画质微调的人脸修复算法来进一步的对齐画质,从而保证最终头部姿态替换融合校正后整体画质的一致性。为适配客户的需求,针对宠物场景,新增开发了宠物换头技术。初步实现了宠物头部姿态校正与眼睛开合校正算法,解决了用户在拍摄人宠合照时,宠物容易出现的头部姿态不协调、表情不自然等痛点问题。
持续打磨视频虚化(电影模式)、单摄虚化、双摄虚化的产品细节,并将虚化产品线拓展至AI眼镜和云端等新平台、新场景,始终保持行业领先地位。
报告期内,继续以最新改进的AI-Depth及AI-DepthUltra技术为基础,持续优化虚化引擎,在准确性、自然性、艺术性等维度上深入探索技术,改善耗时与功耗,持续优化算法和产品,继续保持行业的领先地位。通过进一步整合最新的语义分割,提升发丝精度,并将高精度发丝版本下沉到中端机型。视频虚化和单摄虚化下沉到了中端机型,使得虚化结果具有更好的色彩表现;同时也支持了更多富有艺术感的光斑效果,并成功出货。视频虚化还新增了对4K60fps的高分辨率、高帧率的支持。
视频虚化和单摄虚化,除了持续在智能手机产品线上迭代改善,也拓展到了AI眼镜和云端等新平台、新场景。其中对于AI眼镜的适配,公司重构了一套更轻量级的虚化算法,使其在超低算力设备落地成为可能;而云端版本则使用了更复杂的渲染算法,能够相比手机的端侧算法提供更好的准确性、自然性和真实感,同时仍然保持了低延迟的特性。
双摄虚化基于更加精确的双摄AI深度,进一步优化算法,使得效果更加精确和自然,接近单反相机拍照的效果。同时虚化算法、HDR和超级夜景等画质类算法结合,显著提高了虚化光斑的层次感和真实感。进一步基于特定的单反相机或镜头专门优化光斑效果,使得更加接近光学镜头拍摄的效果,如哈苏风格化等。结合第三代AIMatting技术,发丝的数量和精准度对比前一代有了进一步的提升,同时头发附近的发饰等细小物体的分割效果也一并得到了改善,同时结合深度信息,可以让发丝产生层次感的虚化渐变,更加接近光学相机拍摄的效果。为了模拟更多不同镜头的拍摄效果,虚拟光圈技术从原来的只支持35mm焦段,进一步扩展到85mm和135mm的经典长焦焦段,可以产生长焦镜头上更具震撼力的光斑,更强烈的虚化效果和更浅的景深。同时在长焦焦段,AIBokeh从16-bit线性RGB域扩展到支持20-bit的线性RGB域,使得更多原始的亮度信息得到保留,生成的虚化效果更加真实。对于不具备在线性RGB域处理的情况,开发了基于8-bitYUV和线性亮度图的融合的AIBokeh技术,虚化效果也和虚拟光圈技术类似,更加接近单反镜头的拍摄效果。
双摄虚化与TurboFusion技术有机结合为TurboFusionBokeh,利用TurboFusion获得真实场景亮度信息,使得虚化更加接近单反相机在实际场景中的拍照效果,光斑更具能量感和层次感,形状更加接近单反相机的效果,颜色也更加真实。TurboFusionBokeh的光斑效果升级成2.0版本,光斑的颜色、亮度、形态和层次进一步逼近真实相机拍摄的效果。
全新的AIBokeh技术,可以修复深度图上的瑕疵,是业界首次可以逼真地模拟出接近单反相机真实自然的前景虚化效果,同时还可以支持多种单反相机的光斑形态。AIBokeh从8-bitYUV域扩展到16-bit线性RGB域,完全嵌入到了TurboFusion的流程之中,从虚化生成原理上更加接近实际光圈相机的生成过程,结合最新的高精度深度模型和第三代AIMatting技术,基于更加精细的深度层次信息和更加精准的头发Matting,开发出了虚拟光圈技术,可以更加逼真地模拟特定单反镜头不同光圈下的拍摄效果。AIBokeh从16-bit线性RGB域扩展到支持20-bit的线性RGB域,使得更多原始的亮度信息得到保留,生成的虚化效果更加真实。虚拟光圈技术从原来的只支持35mm焦段,扩展到85mm的黄金人像焦段,可以产生长焦镜头上更大的光斑,更强烈的虚化效果和更浅的景深。
(18)深度恢复
持续优化AI-Depth及AI-DepthUltra技术,推动其规模化商业落地。相关算法在提升高精度预测能力的同时,针对各平台部署持续优化,实现了效果、性能与功耗的最优平衡,并支持电影模式下4K60fps的高清输出。除持续在智能手机设备上实现规模化落地外,技术进一步拓展支持范围,新增对AI眼镜(低算力平台)和云端(高算力平台)的适配,推动单摄深度恢复技术在多场景广泛落地,持续引领单摄深度预测算法的技术标准,助力客户提升终端产品的影像核心竞争力。
与此同时,单摄深度恢复技术在原有算法基础上实现创新突破,拓展至单张图像的3D高斯重建参数预测能力,可通过单张图像精准恢复其3D空间信息,为新相机视角渲染、3DPhoto功能的实现提供了技术支撑,进一步丰富了技术的应用场景与价值。
此外,通过调整单摄模型架构、优化训练数据,构建了可度量深度估计算法模型,能够提供人物与背景关系更精准的深度信息,为人物重打光等下游算法的优化提供有力支撑。同时,通过优化模型结构,在保障算法效果的前提下,进一步提升了模型的性能及可部署性,目前该模型已成功部署于高通、LSI等主流平台,为后续规模化应用奠定了坚实基础。
为进一步满足客户下一代平台的虚化要求,持续对视频双摄深度恢复算法进行开发和优化,针对不同的双摄模组排布实现了统一的模型结构,确保效果的同时降低了模型尺寸和性能消耗。同时针对一些特殊情况,比如细小物体、透明物体、反光物体、低光夜景场景等,融合了单摄模型,训练了全新的双摄深度模型,使得深度效果更加稳定。针对愈发热门的机器人场景,为不同算力平台提供了不同的双摄模型,输出稳定一致的绝对深度,为机器人后续算法提供了有效助力。
双摄深度拍照模型顺利在高通和联发科不同算力的NPU上完成适配和部署,对比GPU部署,性能和功耗都有着极大的提升,并且针对更多细分平台优化了不同复杂度的版本,以适配不同的效果和性能需求。同时双摄深度也在进一步提升了在细小物体,无纹理场景等困难场景效果的同时,优化了性能和内存占用,以适应客户越来越严苛的快稳省要求。双摄深度开发了从粗到细的两阶段方案,使得人像模式在保证可以快速出缩略图的前提下,在后处理可以得到更加精细的效果。对于以往极近距离双摄矫正困难导致深度计算容易失败的问题,研发了直接基于双摄光流的深度估计算法,使得双摄深度的适用范围进一步加大。
针对多摄深度进行细节级优化,改善中远景的小尺寸人像缺失及交叠人像判断错误等问题。提升中近场景的镂空、手持物/头饰等细节区域的精度。修改了不同场景深度分布波动大问题,使得深度数值与真实距离线性相关。提升了前后帧画面的稳定性,此外深度图与RGB边缘更加贴合,改善了边缘漏虚误虚问题。以上优化为打造更加自然、稳定的虚化效果提供了基础。
基于单摄的多视图深度恢复技术研发取得了长足进步,相比基于单一视图的深度估计方法,借助多视图像可以更好地恢复场景几何信息,并应对场景遮挡问题,同时拥有更高的深度估计精度和一致性,是三维场景重建的基础。为了提升网络的精度和泛化性,引入虚拟合成数据精调模型,进一步提升网络输出精度,使其可以重建弱纹理、更复杂的室内场景。另外,实现了模型在端侧设备上的部署,在保证较好实时性的前提下,取得明显优越的深度估计和重建效果。这一突破为移动端实时SLAM、VR/AR导航等应用铺平道路,进一步拓展多种应用场景的落地可能。
(19)图像语义分割
以第三代AIMatting技术架构为基础,在准确性、鲁棒性上继续完善该项技术。针对典型的佩戴头饰、耳饰、以及手持物体等场景,通过数据迭代,提升了结果的语义完整性和合理性。同时,通过增强注意力机制,进一步提升了在多人并排、前后重叠等复杂场景下,模型对于主体之间语义干扰的抑制能力,使得Matting模型具备了实例级别的区分能力。同时,最新的Matting技术针对高通,联发科,华为等众多端侧设备进行了适配部署,在采用低比特模型量化的情况下,也能够保证较高的Matting精度,为移动端的应用铺平了道路。
(20)物体识别
车牌脱敏技术解决方案,在维护已上线版本稳定优化的同时,针对客户的新需求积极开发,优化港澳车牌的检测率达到92%以上,新增如特定车型车牌定制化需求检测率达到96%以上,并且总体检测率仍然达到98%以上的标准。应用领域从乘用车拓展到了商用车,并针对商用车低算力平台(NPU、CPU)设计了特定的解决方案,保持客户要求的实时性情况下,仍然保持98%以上的检测率,超出图像脱敏技术标准要求。
哨兵车辆报警功能,在支持开发现有车型的迭代基础上,持续为多款不同客户的新车型项目提供稳定的项目支持。为进一步扩大哨兵功能的落地范围,结合不同算力等级及算子限制,深度定制设计了低、中、高三种算力范围的感知模型,在稳定提升常规算力车型指标的同时,推动低算力哨兵项目顺利落地,逐渐形成了完善的产品矩阵。利用日益更新的大语言模型,在原有哨兵监控的基础上,拓展开发了灾害监测等特定场景的预警功能。依托多个项目的优化经验积累,持续提高的数据复用效率,大幅降低了产品的开发成本,缩短了迭代周期。
AVM近场视觉感知功能,在车载乘用车AVM应用中,针对车辆低速行驶场景,新增起步预警、近距离障碍物开门防碰撞预警等感知功能的开发与落地。在起步预警功能中,重点实现了车辆盲区目标障碍物的识别,尤其支持不同姿态(行走、蹲姿和躺姿)的行人、儿童及猫狗等动物的检测。在开门碰撞预警模块中,新增极近距离路沿、石墩、栏杆等典型静态障碍物的检测和精准测距,有效地提升了车辆开门过程的安全能力。面对特定客户车型,基于视觉感知优化了AVM效果,完成拼缝增强、动态3D视觉适配等定制化功能,提升了全景画面的一致性和视觉体验。
(21)场景识别
场景识别引擎GPU版本继续更新迭代算法模型,支持高通、联发科等NPU平台的运行,进一步提升了全体场景检测准确率,改善支持任意角度和有限度遮挡的目标场景检测。
(22)三维重建
三维重建技术更新了基于3D高斯的重建算法方案。与原先的NeRF方案相比,重建速度和效果都有比较明显的提升。实现了一套在线内参标定算法,可以支持任意手机拍摄的视频作为算法输入而无需事先标定,方便服务器端重建应用场景使用。实现了一种全局一致的前景分割算法,能从视频中自动分割出前景物体完成重建,剥离不相关的背景。支持手机端实时渲染,能较好地复现各向异性的光照效果。基于单张图像预测出来的3D高斯参数,实现了全新的3DPhoto功能,可以从新的视角对任意单张图像进行重新渲染,该方案效果自然、真实,为用户浏览图片提供更真实、身临其境的视觉体验。
针对XR眼镜应用场景,迭代和部署实时三维重建技术。迭代实时语义场景重建,并构建出室内场景的布局信息,目前已经支持室内场景墙、门、窗、天花板、地面、桌子、椅子等元素的布局信息,形成一个更简洁,信息更丰富的室内场景信息,为XR上层应用提供更加完善的语义信息,方便XR创作者创造出更加丰富的应用。
立体视频生成算法,可自动对普通视频进行局部重建并在新的双目视点下渲染生成立体视频,从而使得普通手机拍摄的视频也可以在XR眼镜上获得具有立体感的沉浸体验。该算法支持在手机端部署运行,其效果与目前PC端商业软件相当。开发了一种可交互的6DoF视频原型,其效果是在视频播放时可以实现拖拽屏幕改变观看视点的功能。
静态场景隐式建模技术,支持生成高真实感的新视点图像。该技术方案根据视频与实时获取的相机位姿,用神经网络隐式建模三维场景,通过可微的体渲染技术,实现端到端训练。该技术方案可重新规划相机路径后渲染得到新的视频,用于视频编辑和立体视频生成等。结合神经辐射场和隐式符号距离函数几何表达,还可用于重建静态场景的三维网格模型。在静态场景建模技术基础上,增加室外街道场景的动态物体建模,从而支持对开放式动态场景进行建模,并同时对静态场景和动态物体进行渲染。增加了基于3D高斯的动态街道场景建模,提升了渲染的图像质量与速度。
AddMe自助合照技术,支持用户在无人协助的情况下实现合照。该技术可引导多个合照人在相同位置交替拍摄两张照片,然后利用图像融合算法,将两次拍摄结果合成为包含所有人的合照。此技术能够自动检测和分割图像中的合照对象,精确匹配两张图的内容,准确拼接所有合照人像。
同时,还能妥善处理人物前后的遮挡关系、人像的阴影等,保证合成图像的人像具有正确的空间关系、自然的光照效果,减少人工痕迹,使合成照片具有较强的真实感。
(23)光照重建
光照重建技术在上一报告期内已取得显著进展,不仅完善了人像重打光技术,实现了环境光照的精准建模与智能调整,还通过引入实拍数据集和扩展至RAW域处理,显著提升了算法的准确性和图像质量,同时成功将技术部署到移动设备,为用户提供了便捷的光照增强体验。报告期内,进一步深化和扩展了光照重建技术的应用边界与创新能力。
从“物理真实”到“审美增强”:当前研发正从追求“物理真实”向“审美增强”方向持续提升。在保持光照物理准确性的基础上,优化肤色与高光表现,在补光的同时,赋予皮肤清透、通透的质感及自然的高光细节,规避传统算法易出现的过度磨皮与“塑料感”等问题,实现科技感与艺术美感的统一呈现。
VR手柄算法完成了从仿真到实际设备开发的转变。支持多种第三方设备,并支持双手柄实时交互,实现了安全区设定、空间划线等功能。对VR手柄跟踪算法的性能、鲁棒性、精度等进行了全面的优化,在高通XR2设备平台上,算法单帧耗时在22ms以内,支持视野可见范围内2m/s的剧烈运动,平均定位精度小于6.5mm。除了基于光斑的传统VR手柄,还开发了使用手机作为VR手柄的功能,可以使用普通的安卓手机实现实时六自由度跟踪定位,实现菜单点选、简单的游戏交互等。对手机手柄跟踪算法的性能、鲁棒性、精度等进行了全面的优化。从逻辑上优化了用户体验,使得输出轨迹更加光滑、流畅。
SLAM技术在XR眼镜的头部位姿估计上取得显著进步。头部位姿估计是XR眼镜的一个核心技术和基础功能,要求低功耗、高精度和低时延。通过优化SLAM算法和把视觉模块从CPU移到DSP,SLAM算法计算效率提升30%,有效地降低了功耗和运动时延。针对XR常见的室内小面积使用场景,对建图模块进行大量优化,极大提高后端建图和实时定位精度。同时,改进姿态预测模块,实时定位准确度提升30%,接近业内毫米级的定位精度要求。已有版本在多款XR原型眼镜上集成,能为快速、准确的头部位姿估计提供良好的用户体验。
同时,SLAM技术扩展到高阶辅助驾驶领域,包括城市NOA产品的记忆行车自建图算法和基于SDMapPro地图的BEV道路融合定位。在轻图辅助下,实现了硬件选型,BEV+GPS+里程计的多传感器融合定位算法,支持城区内各种复杂路段。此外SLAM技术在自动泊车辅助(APA)和记忆泊车辅助(HPA)中也发挥重要作用,报告期内支持以矢量化元素轻量高效进行泊车地图的建图与定位,在建图方面,能够以极低内存代价保存大规模矢量化车位与元素地图;在定位方面,能够以极低算力极低延迟在车端实现实时定位,并且保证定位精度,实现泊车过程中对目标车位的精准定位。
公司研发了激光+GPS+里程计的多传感器融合定位算法,该算法可以支持智能辅助驾驶中4D标注所需的高精度、低时延的6DoF定位和道路场景的点云稠密重建。同时,报告期内支持智能辅助驾驶中4D标注LargeScale场景重建需求和基于场景重识别的标注真值复用功能,极大地提高4D标注静态要素的自动化标注质量。
(25)3DAR动画
公司打通了3D数字人创建、编辑、实时驱动全流程。支持基于单张图或扫描模型完成数字人重建。与之前的重建算法相比,改善了头顶区域、眼睛的相似度,提升了纹理重建效果。编辑模块支持对重建模型的脸型、头型、五官、脖子等进行直观地修改。实现了基于单个RGB摄像头的实时全身驱动,包括表情跟踪与手势跟踪,实时动画效果基本达到业界领先水平。3D数字人重建增加了人头重建模块,提高重建人头几何的相似度;支持双眼皮的拟合,眼睛的相似度;增加了编辑模块,支持重建模型的再编辑及调整,同时也支持从中性模型开始编辑。基于球形实验室多视角数据的超写实数字人重建方案,其重建质量远好于传统方案,3D渲染结果能达到以假乱真的地步。支持左右90度的视角渲染,渲染结果包含部分躯干。支持表情实时编辑,也可进行单目表情实时驱动。为了改善3D数字人重建的真实性及超写实数字人重建的便捷性,研发了基于3D高斯表达的数字人方案,此方案更加便捷,用户仅需输入两分钟左右的自拍视频,即可重建出包含部分驱动的写实数字人,算法可在手机端运行,不仅支持表情、视线、头部位姿的实时编辑及驱动,也能较好地复现出各向异性的光照效果。
(26)健康监测
在保持健康监测技术稳步量产的前提下,提升技术先进性,保持业界前沿地位。心率检测方面,使用更丰富的建模方式,提取更多维度特征,多通道信号信息融合,同时优化算法库架构降低CPU占用,提升产品精度和不同算力设备的适配程度;同时为了拓展产品应用场景,使用创新的行车期间动态建模方案,提升行车期间的心率测量功能的实时精度并优化用户体验,适配不同算力设备;IR心率对动态场景效果大幅改善,整体通过率提升6.9%;血压监测升级深度学习方案,收缩压和舒张压的MAE均降到10以内。呼吸检测方面,新增暗光、偏色等异常场景检测与过滤机制,同时针对画质不佳场景引入全新信号提取与噪声处理方法,提升算法在苛刻条件下的鲁棒性,为适配不同性能的平台,推出了多种低CPU占用版本,兼顾性能与资源效率。扩展对镜头安装位置等多样化部署场景的适配能力,针对行车过程中颠簸、转弯等复杂动态环境,对信号质量与异常过滤机制进行了优化,有效降低环境干扰对结果的影响,提升呼吸监测的稳定性与准确性。
ADAS产品矩阵持续推进技术迭代与产品化落地,通过算法优化、系统架构完善以及客户导入,进一步强化了公司在乘用车与商用车智能辅助驾驶领域的技术竞争力。公司坚持以量产落地与功能体验提升为核心目标,在南湖横纵向控制及主动安全领域持续进行技术升级,并推动多项自研功能实现客户量产导入。东湖通过规划算法体系建设、系统架构优化以及场景策略升级,进一步推动NOA(NavigateonAutopilot)功能向量产化与规模化应用迈进。在保持覆盖低、中、高算力平台产品体系完整性的基础上,重点加强中高算力平台在复杂交通场景下的规划决策能力,并围绕高速NOA功能需求构建更加稳定可靠的量产算法体系,同时积极探索基于强化学习与端到端的新一代智能驾驶技术范式。
西湖、南湖产品(低算力L2级智能辅助驾驶解决方案/一体机)以及商用车智能驾驶方案,ADAS产品矩阵持续深化技术布局与场景拓展,通过多维度创新实现产品力跃升。报告期内,以量产为目标,持续进行技术迭代,完善产品功能,实施了数百次专项实测与场景化策略迭代,对多个业内高难度及复杂场景进行了针对性改进。
其中在底层技术方面,完成以下进展:持续优化端侧模型,提升网络共享程度,在加入多项子任务的情况下,整体参数减小75%,计算量降低50%;运用AIGC技术辅助训练样本构建,降低模型素材制作成本约90%;障碍物识别技术持续优化视觉时序算法,提升复杂环境下感知精度,雨天测速环比提升15%,夜间测速环比提升17%;路面分析技术升级时序特征建图算法,有效解决了动态遮挡导致的车道线感知漂移难题,确保了感知连贯性;车道线识别技术摒弃传统的多段式后处理逻辑,融合车辆运动学原理,实现了创新式的带规划属性的一段式联合优化架构,同时引入模型辅助测距技术,显著增强了道路几何形态的一致性,使车辆在坡道及大曲率弯道下的姿态更加平稳顺滑;横向规控技术,针对感知延迟与道路横向倾斜问题,引入基于底盘信号的车辆延迟补偿与路面倾斜度估计策略,优化方向盘自适应修正与车道线航向角估计,提升弯道通过能力与车道居中稳定性。
在产品功能方面,与多家主机厂深入合作,进入实车匹配联调阶段,进一步提升产品质量:自适应巡航(ACC)功能针对业界同类产品表现较差的复杂场景,专题攻坚优化顿挫现象,从顿挫次数评价,大小车交叠场景降低90%,隧道场景降低70%,异形车场景降低80%;安全性方面针对典型cut-in场景优化响应策略,引入多目标协同控制与基于CIPV行为的动态速度规划,提升目标切换平顺性与跟车自然度;车道居中控制(LCC)功能针对多个边界场景进行泛化改进,车道变化场景提升通过率约10%,急弯、S弯、大曲率、前车遮挡场景通过率提升20%,在多个车型保持一致的性能表现;自动紧急制动(AEB)构建乘用车与商用车AEBS双技术路线,完善ABP/AWB/EBA功能模块,并完成目标筛选、风险评估、自车路径预测及AEBS状态机等核心模块开发,建立整车测试评价体系与通信接口规范,持续执行大里程测试,重点覆盖乡村、山区、雨雪雾区域、繁忙市区等;相关辅助功能交通标识(TSR)、售后标定(SPC)、失效识别(Failsafe)等达到项目KPI要求;此外,还开发完成独立的脱敏功能,对资源占用不到1%,在不占用额外算力的条件下,实现车牌及人脸脱敏,测试有效率达97%以上。ADAS低算力产品从软硬件层面全面向量产标准看齐,执行高强度测试,逐细节打磨,质量稳步提升。
东湖产品(中高算力环周一体NOA解决方案),面向高阶智能辅助驾驶的中高算力环周一体产品方面,成功构建了基于端到端架构NOA的新产品形态,实现行为可解释、意图有根据的智能辅助驾驶解决方案。通过感知与规划的解耦设计,在保持端到端技术优势的同时,确保了系统决策的可追溯性与可解释性,为高阶智能辅助驾驶的量产化设计奠定坚实基础。
在具体技术架构方面,实现了多项关键算法模块的突破性进展:基于BEV模型架构,优化了分汇流、路口等复杂道路环境下车道线及车道中心线的高精度检测;构建了业界具有竞争优势的无图超视距感知解决方案;为应对开放环境下的复杂避障需求,成功部署了OCC(3D通用障碍物占据栅格)算法,通过多轮深度迭代优化,显著降低了杂点干扰和障碍物误报率,提升了系统在动态环境中的感知稳定性和决策可靠性;面向NOA功能需求,开发了端到端预测算法,提前预测他车轨迹,决策规划和安全避障提供关键依据。尝试了将原有的3D通用障碍物占据栅格(OCC)算法进化为高保真场景重建技术。该技术能提供厘米级的精细几何信息,为规控系统构建了更高密度的“安全兜底”,提升了对异形障碍物的避障果断性。通过感知与规控的深度耦合,减少了信息传递损耗,使系统在无图工况下的应对更加丝滑。基于海量优质驾驶行为数据,系统可实时输出具有“老司机”思维的参考轨迹。在确保安全边界的同时,大幅优化了变道时机与转向力度,提升了用户的驾驶舒适感与信任感。
在规控算法方面,系统面向导航变道、分汇流及匝道通行等典型高速场景构建差异化规控策略,通过场景识别与行为决策协同机制,实现基于道路结构与周围交通参与者行为的动态驾驶策略调整;针对高速大曲率弯道场景,引入结合道路曲率信息与车辆动力学约束的轨迹与速度联合优化策略,使系统能够提前完成减速与轨迹调整,显著提升弯道场景通过率与行驶稳定性。已启动基于强化学习与端到端架构的NOA算法研究,为下一代智能化决策规划能力奠定技术基础。
(28)图像特效
基于丁达尔效应产生的物理原理,选择合适的场景对仿真实现进行合理的简化和模拟,最终实现一套结合AI和CG的方法,为特定的场景图像添加上合适的丁达尔特效效果,提升图像艺术感。人像线条画效果和宠物线条画效果,这两种效果都结合了AI技术和审美的艺术,通过AI算法提取出具有表现力的线条,然后根据审美的评判制定一些准则将原始图像转换为一幅线条艺术画。目前二者都已实现手机端部署,并有参数控制线条粗细、颜色、数量等,从而满足不同用户的自适应调整需求。
光照耀斑项目基于对物理世界相机镜头与光照规律的精确建模,通过模拟实际镜头的参数,设计任意预想的耀斑效果。在用户拍照时添加耀斑效果,能显著提升图像的层次感和真实感。同时,精心设计的耀斑样式还能提升图像的艺术美感。该算法结合了光照方向检测,能够根据当前光照环境自动调整耀斑样式,以确保耀斑效果与当前场景自然贴合。目前,该项目已在手机端部署,并包含耀斑颜色与样式设计模块,可以满足用户获取不同耀斑风格的需求。
FlairClip人像风格化效果通过无监督、少样本地学习特定风格的图像,将图像风格迁移到目标人像中,同时保留人物的可识别特征,实现了数据需求量低、效果稳定、帧间连续性好的人像风格迁移算法,并在服务器端进行了部署,同时向客户递交了一些测试通过的风格化模型进行商用。
PersonalColorTone技术旨在通过个性化定制打破当前设备端内置滤镜的局面,允许用户创建新的基于学习方案的滤镜风格,包含局部调整(比如肤色)。首先,用户根据个人喜好在App或者Google相册里编辑素材,并加入过滤逻辑,得到自己想要的风格图,然后直接在设备端进行在线训练,快则几分钟,慢则30分钟就能得到目标风格模型,视素材量而定。用户在后续拍照时,只需要选择训练好的风格模型,就能得到目标风格图像。小巧轻便的模型设计是关键,大大减少用户等待的时间,提升用户体验。
针对AI智能试穿功能,持续优化智能试衣、鞋子上脚算法,进一步改善生成的画质,同时也更好地支持复杂款式、复杂姿势及各年龄段人体特征等困难场景,整体一致性、自然度、真实性、美观性均有大幅改善,成片率也随之持续提升。对于智能试衣和鞋子上脚功能,除原有的标准模式外,还新增了高品质模式,该模式可进一步提升材质、印花、缝线等细节,实现更高质量的出图效果,以满足不同用户在不同场景下的多样化需求,特别是作为高质量主图的需求。在前述原有算法基础上,进一步拓展支持了帽子、箱包等多种商品的自由上身和试穿功能,支持更多品类商品能够快速、高效、准确地出片。
除此之外,在上述AI智能试穿(即需要用户提供商品图和参考模特图)的基础上,进一步拓展了多种更具灵活性的使用场景,如用户可以仅提供商品图而无须提供参考模特图。更进一步地,针对特定品牌客户,通过梳理其品牌背景、历史模特展示图等信息,实现AI制片功能,能够对生成的图片进行系统级策划,并批量生成稳定、统
一、符合其“品牌调性”的商品展示图。
进一步地,为保持服装套图间颜色、版型、穿着方式等的高度一致性,围绕智能试穿的核心场景,对算法效果持续迭代优化,改善室外强光环境下的光影效果,提供保留目标图背景与鞋子等能力,套装换装模型支持多品类服饰迁移换装。强化外景训练数据,改善运动模糊与画面反向等问题,提升换装真实度与细节表现,并精细化处理手持物、箱包、鞋子、背景的保留能力。
对于其中的AI模特图功能,用户上传一张真人图后,PSAI将智能保持用户提供图片中的服装信息,在生成阶段,PSAI为用户提供丰富多样的预设模特和场景资源选择。对于其中的换模特功能,提供的预设模特包括不同年龄、性别、人种和风格的模特,例如儿童、中年和老年,网红风、韩风、美式复古风等。报告期内,PSAI在风格模特的基础上推出了独特的换头功能。该算法在保持服装和背景高度一致性的条件下,对上传图进行模特替换,极大提高了模特定制速度和生成效率。同时该算法支持生成各个角度包括背身的高度一致性图像,为多角度一致性模特生成提供了稳定且高效的算法流程。该技术会修改图像的面部区域,并迁移脸型、发型等头部特征,从而实现更高的相似度。经过多次技术迭代,解决了发型差异大、大角度侧脸、仰头、低头等极端姿态下的人脸相似度问题。新研发的姿势裂变技术通过给定一张模特图和一张参考姿势图,该技术可将模特图修改为参考图中的人体姿态,生成自然、真实的图像。
(29)生成式AI(AIGC)
对于AI换背景功能,PSAI面向模特图和商品图提供了上百种不同的预设场景风格选择,涵盖影棚等多种室内场景,以及森林、雪山、草原、沙漠等丰富的室外场景。通过持续的迭代优化,系统不断提升场景细节表现与整体构图的合理性,并引入光影融合技术,使模特或商品与背景之间更加自然协调,从而显著提高出图率。丰富多样的场景资源以及更高的出图成功率,能够帮助用户在提升创作效率、拓展创意表达和降低制作成本等方面取得更大的提升。与此同时,PSAI还支持用户通过提示词自主描述目标场景,或上传场景参考图,以进一步扩展场景来源和选择范围。新方案能够精准识别参考图中的元素、风格、光照与氛围等特征,并将这些信息有效融入最终生成结果,使生成内容更加符合用户预期。此外,通过生成真实且风格多样的模特形象,PSAI能够更好地吸引目标消费者的注意力,进一步强化商家的品牌形象。在用户文本交互方面,PSAI还推出了自研的大语言模型,用于将任意语言、格式或内容形式的用户输入自动转换为适合生成模型使用的高质量提示词,从而降低用户在语言表达和专业知识方面的使用门槛。通过迭代优化,不断提升场景的细节和真实性,提高出图率,这些多样化的资源和提高的出图率将帮助用户在提升效率、创意和降低成本方面取得更大的进步。
对于AI模特视频生成功能,用户仅需要上传一张全身模特照片,即可生成各种复杂动作,高保真地展现和还原模特穿上服装后的动态效果,以及衣服的物理效果。它基于ArcMuse计算技术引擎大模型的生成能力,能够保持模特自然的写实效果,无论是正面、侧面、大角度都可以高保真生成和还原,同时可以完美地还原服装物理效果,如裙摆的飘动,完美地表现模特穿上服装之后优雅的风采和神态。该技术使用便捷,生成的视频能够很好地保持输入图像的人物脸型、发型、服装、配饰等外观,也能较好地保持图像背景不变。同时,能够很好地表现大角度的人脸以及生成转身的效果。升级动作模仿视频生成技术,新方案在画面清晰度、连续性及服装一致性等方面提升明显,画面闪烁等问题得到有效缓解;通过压缩历史帧及自回归预测等方案,解决了长时间视频生成问题,可在长达一分钟内保持主体一致性。目前该技术已在PSAI网站上线,基于用户上传的图像生成模特走秀视频。此外,实现了视频换衣功能,通过输入一段人物视频和一张衣服图,可将视频中人物的衣服替换为提供的衣服,同时保持人物动作、背景、运镜效果等不变。报告期内,进一步拓展了视频替换功能,支持对整个人物前景、人物头部、人物服装等多个可选区域进行替换,通过数据工程提升了模型在室内、室外等多种场景下的效果鲁棒性。
(30)泊车辅助系统(AVM/APA/HPA)
AVM技术专注优化产品痛点,开发差异化卖点。在透明底盘视觉效果上,针对车身阴影导致的画面分层问题,迭代优化透明底盘画面生成策略,提升了底盘画面的整体观感。在拼接画面的亮度、色彩一致性方面,优化了高动态范围、复杂光照等极端环境下的亮度不均、过曝过暗及画面闪烁问题,增强了画面的稳定性和色彩还原度。针对夜间场景、运动场景下的画质问题。增加了AI降噪和HDR算法模块,让夜间路况能看得见、看得清。在3D视图中,融合了深度感知和目标检测,使物体显示大小更符合人眼视觉经验,减轻失真程度,优化了主观感受。
在L2级行泊一体解决方案中,自动泊车辅助(APA)和记忆泊车辅助(HPA)是其重要组成部分。报告期内,公司在自动泊车领域持续创新,基于前期AVM/APA/HPA技术积累,在视觉感知技术提升和升级,多信息感知融合、场景适应性、规控智能化等多个方面取得技术突破。
APA视觉感知技术在低算力平台上继续打磨提升,特别是车位检测和避障检测两大模块。低算力平台版本,车位检出和车位角点精度KPI指标进一步提升;报告期内车位感知成功率从95%提升至99%,在部分车位线严重破损以及不明显情况依然能够提供高精度的车位角点感知结果。避障检测方面,模型能力进一步细化。对行人、骑行人的检测指标提升达10%以上。同时模型端支持了失效场景检测能力,车辆朝向检测能力,并新增电缆、草坪等类型的识别能力,为下游提供更多的语义支持。同时在低算力平台版本,算法性能得到优化,帧率在原来的基础上提升1倍。APA视觉感知技术在中算力平台上继续进行技术架构的升级迭代。基于特殊鱼眼BEV算法构建的端到端感知架构实现重要升级。感知纵深范围提升50%,支持更多种类悬空障碍物感知,显著增强对复杂立体停车环境的适应能力。
APA场景适应性更好,复杂环境的适应性得到进一步增强:基于低算力平台的APA产品成功支持更多复杂和边际泊车环境,如长草遮挡的不清晰车位、低矮台阶上车位等复杂环境下的泊车需求;通过优化空间车位检测逻辑,显著扩展可泊车场景范围。边际场景识别能力增强:自动泊车辅助在视觉感知方面,成功支持肉眼几乎不可辨的泊车空间识别,通过深度学习算法优化,为用户提供合理的推荐车位结果。障碍物感知模型进一步细化:对多类泊车逻辑高度相关的场景、障碍物和交通参与者进行专项感知能力优化,包括制定和清洗训练数据详细标准、使用全新基础模型、专项设计不同类别前后处理和模型损失。同时,模型端支持失效场景检测能力、车辆朝向检测能力,新增电缆、草坪等类型的识别能力,为下游提供更多语义支持。
APA规控智能化方面实现重要进展。决策模块构建基于障碍物行为趋势的动态风险评估机制,通过持续观测目标可信度与运动趋势实现风险分级响应,并设计动态障碍物启停策略与泊车过程在线风险监测机制,在检测到潜在风险时触发路径在线修正,从而提升复杂停车环境中的安全性与泊车成功率。
(31)三维渲染引擎
三维渲染引擎提供了渲染、动画、UI等完整的图形引擎解决方案,支持基于物理的渲染,并且支持glTF文件格式,可以模拟真实场景下的多种材质渲染效果(如金属、玻璃、塑料与皮革等)。该引擎提供了多种反走样方案与渲染管线,拥有丰富的模块化接口,为不同渲染需求提供了跨平台的一站式解决方案。内置智能多级场景资源管理与指令调度系统,支持GPU压缩纹理格式与材质球合并渲染,支持自动视域剔除并且新增视点追踪与视域矫正,极大地减少了引擎初始化以及渲染交互时间,尤其在低算力车载平台上表现突出。
动画与特效系统聚焦于对呈现丰富度与渲染效果的更新。在持续优化原有基于物理的骨骼动画系统的基础上,探索了粒子化特效与视点动画实现可行性。目前已经支持仿真水面动态倒影动画、自适应视点动画、序列帧特效、物体淡入淡出以及仿真立体光源特效。
UI系统全面升级为三维模式。支持MSDF字体三维渲染,支持三维画线,对比二维UI系统拥有边缘清晰,与三维渲染场景融合度高以及渲染表现力强的优点。
针对项目定制化需求持续更新,支持着色器离线编译及自动更新,解决了GPU升级带来的兼容问题。优化渲染资源编辑器,引入资源模块化定制系统,在车载平台上支持多组件自由拼接拓展,快速响应不同项目需求。
(32)图像修补技术
图像修补技术,针对任务难度及性能要求的不同,在手机端落地了两套不同的算法方案。精简版方案在确保基础修补效果的同时,重点优化模型参数量与计算量,满足手机用户对通用场景实现快速修补的需求。算法通过设计前景物体感知掩码,修补背景时避免融入前景信息。该技术支持任意大小的图像和任意形状的修补区域,生成内容清晰、自然、合理,具有较强的维持原有结构的能力,可以满足大部分用户需求。完整版方案利用稳定扩散模型的可控生成与图像编辑能力,进一步提升修补质量,优化细节还原与纹理生成,使生成结果更加无缝自然,减弱视觉突兀感,确保修补区域与原始图像高度融合。针对手机相册场景中的用户交互需求,研发一套面向全场景的图像分割算法。该算法能够精准识别并分割超过一百种常见物体类别。
视频修补技术,视频目标分割模块根据目标特征,在整段视频中跟踪用户选取的目标物体,输出像素级分割结果。通过优化特征匹配算法和记忆模块,提升了算法在多目标、小物体和遮挡等情况下的分割掩码的准确性和稳定性。通过模型压缩合并、蒸馏等技术手段,大幅提升了算法在设备端的性能,单帧处理速度满足实时要求。同时,针对AI编辑中常用的路人消除功能,开发了智能路人检测分割算法,能够在复杂场景下对背后路人进行精准的自动识别和分割,可大幅提升功能的易用性和用户体验。光流估计和补全模块是视频修补技术中的重要环节,结合光流估计与区域填充技术,通过引入端到端的二合一网络,避免了多步误差累计,提升了复杂动态场景下的光流补全质量和泛化能力。同时针对手机端做高效性能优化,降低计算开销,将单帧处理时间从1000+ms压缩至10ms,使算法速度和精度上均达到项目要求。视频修补模块基于视频序列与目标分割结果,利用光流建模时序运动信息,估计待修补区域的位移数值,创新性地提出累积误差截断、关键像素缓存等算法策略,改善了复杂场景下的模糊问题与光影问题。此外,基于并行计算、模型蒸馏量化等一系列方法,将整套视频修补方案成功部署到手机端。
生成式超分技术(AIGCSR)利用AIGC大模型预训练学到的自然图像分布,作为图像超分任务中的先验信息,解决手机长焦拍照场景画质退化的问题。该技术能够有效应对长焦拍摄时因光学限制、拍摄距离、拍摄环境和手法等导致的画质退化问题,包括远距离拍摄造成的内容和细节丢失,手持拍摄时因光照不足、失焦或抖动引入的噪声、运动模糊和失焦模糊。通过大模型强大的生成能力,AIGCSR能够在保持图像真实性的前提下,智能地补充缺失的高频细节和内容,恢复清晰的自然纹理,同时抑制各类退化伪影,最终实现“所见即所得”的高质量长焦成像效果,为用户带来接近光学硬件限制的极致变焦拍摄体验。
2、报告期内获得的研发成果
公司持续保持高强度研发投入,围绕视觉人工智能技术及各核心应用领域,深入开展知识产权布局。截至2025年12月31日,公司拥有专利309项(其中发明专利283项)、软件著作权160项。相较于2024年末,报告期内净增发明专利19项、软件著作权6项。
3、研发投入情况表
4、在研项目情况
情况说明
1、公司在研项目预计总投资规模根据项目整体规划等因素定期进行调整。
2、“智能汽车等AIoT领域技术”改为“车载AI等AIoT领域技术”,“智能汽车等AIoT领域”改为“车载AI等AIoT领域”,本次仅涉及名称变更,不影响相关数据的列示。
四、风险因素
(一)尚未盈利的风险
(二)业绩大幅下滑或亏损的风险
(三)核心竞争力风险
1、技术升级迭代风险
公司所处的视觉人工智能行业技术升级迅速,是典型的科技驱动型行业,产品更新换代频繁,市场对技术与产品的需求不断提高,更多的视觉人工智能技术正被运用到各类智能终端。作为一家以研发和技术为核心驱动力的企业,如果公司不能正确判断和及时把握行业的发展趋势和技术的演进路线,并投入充足的研发力量布局下一代的视觉人工智能技术研发,可能导致公司无法保持当前的技术领先性,从而对公司未来的经营产生不利影响。
在移动智能终端领域,智能手机市场的需求变化较快,相关技术的迭代周期较短,迭代周期约为1-2年。如果公司未能及时更新升级相关技术或根据市场需求成功开发出新产品,则公司可能出现技术落后、技术迭代不及时等情况,从而导致市场占有率大幅下降。在AI眼镜、XR3D空间计算头显等方向,公司进行了一系列前瞻性的技术和业务布局,但若无法抓住未来市场涌现的机遇尽快获取客户,则可能导致错失发展机遇的风险。在智能汽车领域,当前产业竞争加剧,如公司无法快速与OEM合作伙伴推出有竞争力的量产产品,则公司可能面临错失发展机遇的风险。
2、市场竞争风险
公司所处行业发展前景广阔,近年来参与者不断增多,并不断加大技术研发及市场开拓的投入,行业竞争加剧。众多企业凭借其在特定细分领域的优势参与各垂直应用领域的竞争。若公司不能持续有效地制定并实施业务发展规划,保持技术和产品的领先性,则将受到行业内其他竞争者的挑战,从而面临市场竞争加剧而导致的毛利率下滑和市场占有率下降的风险,进而影响公司的经营业绩和发展潜力。
3、核心技术泄密的风险
公司销售的各类产品均基于公司独立研发积累的大量计算机视觉核心技术。为保护公司的核心技术,公司制定了严格的保密体系,但上述措施仍无法完全避免公司核心技术泄密的风险。未来如果公司相关核心技术内控制度不能得到有效执行,或者出现重大疏忽、恶意串通、舞弊等行为而导致公司核心技术泄露,将对公司的核心竞争力产生风险。
(四)经营风险
1、新业务开发和拓展风险
公司经过数十年的发展,积累了大量视觉人工智能的底层算法,这些底层算法具有通用性、延展性,除了可以广泛运用于智能手机外,还可应用于AI眼镜、XR3D空间计算头显等其他消费电子产品以及智能汽车、智能商拍、智能保险、智能零售、智能家居、医疗健康等多个领域。
新业务的成功与否既受到行业发展状况、市场需求变动以及市场竞争状况等因素影响,又受到公司对新领域的理解、认知、推广力度及与伙伴的合作等诸多因素影响。因此,公司对新业务开发和拓展可能不及预期。如果公司在新领域产品开发或市场推广效果不佳,或者出现其他不利因素,将可能导致公司新业务开发失败,从而对公司未来的经营业绩产生不利影响。
2、主要客户采购量减少的风险
报告期内,公司前五名客户销售额为54,173.74万元,占销售总额的58.69%。如果智能手机出货量下滑、主要客户业务发展战略发生调整、主要客户因供应链短缺等原因延迟推出新机型或者其他不可预知的原因导致对公司产品的采购需求下降,则会对公司整体经营业绩产生不利影响。
3、核心人才流失、未能招募足额的优秀人才及人力成本上升风险
公司所处的视觉人工智能行业近年来发展蓬勃,对人才的需求量较大。公司的业务发展,需要一批稳定的研发技术人员、产品化人才及管理人才,这些核心人才对于公司业务的发展壮大起到至关重要的作用。
公司的成功取决于不断吸收和留住高水平的研发、产品、销售和管理人才。尽管公司通过内部培养及外部引进逐步形成了较为稳定的核心人才团队,并通过树立企业文化、优化薪酬体系、改善工作环境、完善绩效考核机制等方式完善了人才培养体系,但是,仍然可能出现核心人才流失的情况,从而给公司业务带来不利影响。
公司所处行业内企业对于优秀人才的竞争越来越激烈。如果公司未能招募到满足公司业务发展需求的优秀人才,则会对公司的业务发展产生不利影响;如果公司在人力成本上的投入增长速度持续高于收入的增长速度,则会对公司的短期经营业绩产生不利影响。
4、管理能力不能满足业务发展需求的风险
目前,公司已积累了适应业务快速发展的经营管理经验,完善了相关内部控制制度,逐步实现了公司内控制度的完整性、合理性和有效性。随着新业务的深入推进,公司资产规模和经营规模扩张,在研究开发、市场开拓、资本运作、内部控制、运营管理、财务管理等方面对公司的管理层提出更高的要求。若公司的组织模式、管理制度和管理人员未能适应公司内外环境的变化,将给公司持续发展带来不利影响。若公司管理水平不能快速适应不断扩大的经营规模,解决上市公司经营管理面临的新课题,也将对公司发展带来不利影响。
(五)财务风险
1、税收优惠的不确定性风险
报告期内,公司及子公司享受了一系列增值税税收优惠、所得税税收优惠,尽管税收减免对公司业绩的影响有限,但如果未来公司所享受的税收优惠政策出现不可预测的不利变化,或者在税收减免期内公司不完全符合税收减免申报的条件,则公司将在相应年度无法享受税收优惠或存在所享受的税收优惠减少的可能性。公司税收优惠政策可能的变化会使公司未来经营业绩、现金流水平受到不利影响。
2、汇率波动风险
虹软科技是一家全球化公司,在海外多地拥有经营主体,且客户分布韩国、日本、台湾地区、美国及欧洲等各地,报告期内公司来源于境外的收入占比为34.69%,上述境外业务使用外币进行结算,受到人民币汇率水平变化的影响。随着公司业务的发展,公司外汇结算量将可能进一步增加,同时人民币汇率受国内外政治、经济环境等综合因素的影响,存在波动风险,进而对公司的经营业绩产生不利影响。
3、应收账款收回风险
截至报告期末,公司应收账款账面余额为32,185.74万元,较期初增加6,142.92万元。增长主要来自于车载AI业务,该业务受行业特点影响,收款周期相对移动智能终端业务更长。如果未来宏观经济形势发生不利变化,客户经营状况发生重大困难,公司可能面临应收账款无法收回而增加坏账损失的风险。
(六)行业风险
目前,公司提供的视觉人工智能解决方案主要应用于智能手机、智能汽车行业,主要客户包括了三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商以及国内主要的自主品牌、部分合资品牌、外资品牌汽车主机厂商。报告期内,公司移动智能终端视觉解决方案业务收入为71,506.98万元,占公司营业收入比例为77.47%,公司下游主要客户集中于智能手机市场。
公司智能手机视觉解决方案收入与智能手机和摄像头的出货量虽无明显线性相关关系,但如果智能手机出货量下滑、摄像头出货量出现下降,主要智能手机业务客户发展战略发生调整或者其他不可预知的原因导致对公司的智能手机计算机视觉解决方案的采购需求下降,则会对公司经营业绩产生不利影响。车载AI业务方面,若行业竞争加剧,公司技术及产品竞争力不足,客户业务发展战略发生调整、客户自身业务发展状况发生改变或供应链紧缺等,可能导致公司车载AI业务进展不及预期,以上因素可能会对公司经营业绩产生不利影响。
(七)宏观环境风险
1、宏观经济风险
公司主要从事视觉人工智能技术的研发和应用,主要产品有移动智能终端视觉解决方案、车载AI视觉解决方案,主要终端应用领域包括智能手机、笔记本电脑、智能可穿戴设备等消费电子产品以及智能汽车等,应用领域对国内外宏观经济、经济运行周期变动较为敏感。如果国内外宏观经济发生重大变化、经济增长速度放缓或出现周期性波动,公司主要客户因终端需求下滑、调整自身市场计划,或因供应链短缺等原因延迟推出新产品而对公司采购需求下降,且公司未能及时对行业需求进行合理预期并调整公司的经营策略,可能对公司未来的发展以及经营业绩产生负面影响。
2、贸易摩擦风险
随着公司经营规模的不断扩大,公司人员增加、结构优化导致各项费用增加,同时在国际贸易摩擦的背景下,国外客户受美国制约可能向公司减少采购,国内外客户受制于贸易摩擦或其他因素导致的自身销量下降进而可能对公司采购下降,以上因素可能会对公司的短期业绩形成不利影响。
(八)存托凭证相关风险
(九)其他重大风险
1、诉讼风险
在业务发展过程中,公司可能面临各种诉讼、仲裁。公司不排除在经营过程中,因公司业务、人力、投资等事项而引发诉讼、仲裁事项,从而耗费公司的人力、物力,以及分散管理的精力。公司实际控制人HuiDeng(邓晖)于2019年9月出具承诺,针对“MarcChan、LeiLi及其家庭基金诉讼事宜”,如发生任何纠纷(包括但不限于诉讼、仲裁、索赔等)给公司造成任何经济损失(包括但不限于支付赔偿款、律师费、诉讼费等)均由公司实际控制人HuiDeng(邓晖)独立承担。截至目前,双方均已提起上诉,上诉结果存在不确定性。
2、母子公司多层架构的风险
公司下设多家境内外子公司,层级较多,公司面临各国法律及税收的监管要求。如果未来境外子公司所在国家或地区法律及税收的监管要求发生不利变化,同时公司实际控制人、管理层缺少相应的管理经验和能力,将增加公司管理协调的难度,带来经营管理风险,从而对公司业绩造成不利影响。如果未来境外子公司所在国家或地区对于现金分红、资金结转等事项进行严格监管,可能对公司下级子公司的经营利润逐级分配至母公司构成一定障碍,可能造成母公司没有足额资金进行现金分红的风险。
3、知识产权侵权风险
公司坚持自主创新的研发路线,经过多年的技术开发和业务积累,掌握了多项核心技术,拥有发明专利283项、软件著作权160项。公司的商标、专利、软件著作权等知识产权对于公司的业务经营至关重要,公司建立了完善的知识产权维护机制以保护公司的知识产权免受侵犯。但是,考虑到知识产权的特殊性,第三方侵犯公司知识产权的情况仍然有可能发生,从而导致公司为制止侵权行为产生额外费用,对公司正常业务经营造成不利影响。
同时,虽然公司一直坚持自主创新的研发战略,以开发自有、底层技术为主要研发路线,以避免侵犯第三方知识产权,但仍不排除少数竞争对手采取恶意诉讼的市场策略,利用知识产权相关诉讼等拖延公司市场拓展,以及公司员工对于知识产权的理解出现偏差等因素出现侵犯第三方知识产权的风险。
五、报告期内主要经营情况
报告期内,公司实现营业收入92,297.09万元,较上年同期增长13.22%;实现归属于上市公司股东的净利润25,840.70万元,较上年同期增长46.25%。
六、公司关于公司未来发展的讨论与分析
(一)行业格局和趋势
(二)公司发展战略
公司以“商业本身并不是生活和生命的全部,我们希望通过努力和智慧创造出被客户喜爱、尊重的伟大产品,并成为世界领先的智能视觉技术供应商和服务商”为经营宗旨,以市场为导向,以科技为支撑,以诚实守信为根本准则,不断巩固和进一步提高竞争优势,实施坚持原创,坚持深耕计算机视觉算法技术,深化各行业布局的发展战略,逐步将计算机视觉算法技术的应用扩展至更多的智能终端设备领域,为更多的行业客户提供最优的计算机视觉算法解决方案及服务。
(三)经营计划
2026年,公司将继续以技术赋能行业为使命,围绕“强化核心能力、加速规模复制、培育业务新增长点”的目标,在巩固既有市场、技术与客户优势的基础上,纵深推进各项业务高质量发展,持续优化组织经营效率与资源配置,实现稳健经营增长与长期价值创造的双重突破。
一、深耕主业提质增效,培育前沿赛道新增长动能
1、巩固市场领跑优势,深化AI赋能移动影像技术革新
(1)智能手机
公司将围绕“技术领先与规模增长协同推进”的经营导向,进一步提升TurboFusion在主流终端厂商中的覆盖深度与应用广度。在产品层面,聚焦高像素成像、长焦拍摄、人像拍摄、视频录制等核心功能模块,精耕细作、提质增效,完善全场景AI影像能力;在技术层面,聚焦影像质量核心指标,通过算法体系优化与数据驱动调优机制,提升全场景输出的稳定性与可控性,构建持续演进的技术能力框架。
(2)AI眼镜
公司将围绕影像质量、交互体验及产业深化合作等方向,持续提升AI眼镜的影像拍摄能力与AI交互能力,加快客户拓展与项目落地节奏。在影像能力方面,加强AI眼镜在RAW域影像处理能力,提升AI眼镜在复杂光照环境下的动态范围与细节保留水平;持续优化视频防抖效果,提升运动状态下画面稳定性与连续性,满足日常记录与内容分享场景对画质与流畅性的实际需求。在交互能力方面,重点提升基于视觉的端侧AI交互表现,增强场景识别的准确性与响应速度,提高信息提示与辅助能力的实用性。在生态协同合作方面,进一步深化与芯片厂商及终端厂商的技术协同,提升算法在不同硬件平台上的适配效率与运行表现;同时完善接口能力与开发支持,提升整体解决方案的部署效率。在市场拓展方面,重点推进现有客户的项目复制与深化合作,并拓展新的目标客户与应用场景,加快量产项目导入节奏。
(3)智能相机
随着内容生产与影像表达需求的持续增长,运动相机、便携式相机及数码相机等智能相机正向更高画质与更强环境适应能力演进。公司将持续以计算摄影为核心抓手,推进智能相机影像技术在多类终端中的应用深化与规模拓展。在技术研发方面,公司将围绕计算摄影核心链路,持续强化多帧融合、运动估计、图像重建及智能降噪等关键算法能力,提升复杂运动场景与复杂光照环境下的成像质量与系统稳定性。在产品与项目推进方面,公司将围绕重点客户及核心产品形态,加快成熟算法能力在各类智能相机中的量产导入。通过标准化方案与流程优化,推动既有项目经验在多客户、多机型中的可复制性,持续扩大技术应用规模与客户覆盖范围。
2、深化车载AI全栈布局,实现规模落地与海外市场拓展
(1)驾驶员与乘员安全辅助
公司将围绕智能座舱领域核心舱内安全产品,持续巩固技术领先优势与产品竞争力。在产品层面,进一步完善以DMS与OMS为核心的舱内安全产品体系,提升在疲劳检测、分心识别、异常行为感知及多乘员状态识别等复杂场景下的准确性与稳定性。在技术层面,持续提升算法的环境适应能力,不断提升算法在不同光照、姿态及复杂舱内环境下的感知精度与鲁棒性,强化算法在各类场景中的稳定表现。
(2)智能停车辅助
在智能停车辅助方面,公司前期推进了基于智能SoC的舱泊一体解决方案,并已完成相关技术验证。公司将加快该方案在低算力座舱平台上的产品化研发与落地,推动方案向中高算力平台延伸,以拓展更多量产车型的适配机会。在产品能力建设上,公司将围绕泊车全流程与多场景需求持续迭代,包括复杂环境识别、路径规划及执行稳定性等关键能力,不断完善舱泊一体解决方案的功能体系与系统协同能力,提升整体方案的成熟度与竞争力。
(3)智能辅助驾驶
公司将持续深耕辅助驾驶产品量产化推进工作,着力提升产品成熟度与市场竞争力。低算力平台解决方案(SouthLake)方面,在现有多个定点项目的基础上,扩大规模化交付范围,依托量产交付实践积累丰富经验,持续优化交付规模与交付质量,确保产品稳定落地。中高算力平台解决方案(EastLake)方面,技术演进将紧密紧跟行业前沿方向,重点拓展辅助驾驶在城区及高速场景的产品技术能力;同时,依托POC项目现有推进成果,加快与市场端的对接节奏,深化量产项目合作,力争在2026年度完成产品市场验证落地化工作。
(4)商用车与工程机械市场
公司将围绕商用车与工程机械领域的安全与效率核心需求,持续推进公司车载产品在商用车与工程机械车辆前装量产的覆盖。依托成熟的视觉感知算法与产品方案,公司将强化与主机厂及Tier1厂商的合作深度,提升产品在量产车型中的导入比例,重点推动疲劳驾驶监测、盲区检测、环视感知、作业环境识别及L2级辅助驾驶等核心功能的规模化应用,提升产品在复杂工况下的稳定性与可靠性,满足卡车、货车、客车以及机械工程车使用场景的长期高强度运行要求。
(5)海外市场
公司将进一步加大海外市场拓展力度,围绕重点区域与核心客户持续深化合作关系。在客户层面,将聚焦欧洲及其他重点市场的头部OEM与Tier1伙伴,强化前期联合定义与协同开发能力,深入参与客户产品规划与技术选型过程,提升项目获取能力与合作深度。在产品层面,继续推进满足海外法规及E-NCAP需求的同时,将结合不同区域市场的法规要求、使用习惯及技术标准,持续优化产品适配能力,增强产品的国际竞争力。同时,公司还将加强本地化能力建设,以新成立的欧洲子公司为基地,逐步完善海外技术支持与服务体系,提升对重点客户的响应速度与服务深度,增强长期合作黏性。
3、培育孵化前沿赛道,拓宽增量业务发展空间
面向人工智能技术加速演进与应用场景持续拓展的发展趋势,公司将围绕视觉AI核心能力与自身优势,积极推进AI前沿技术在AI智能商拍、具身智能机器人等新兴领域的落地应用,加快从技术能力向规模化商业价值的转化,培育面向未来的增长新动能。
在AI智能商拍领域,公司已完成从能力构建到体系化发展的关键跨越,初步形成以“应用能力+服务能力”为核心的协同驱动模式,具备面向规模化应用释放商业价值的基础能力。面向未来,公司将围绕“技术深耕、场景拓展、效能提升”三大方向推进业务发展,加快推动AI智能商拍由“效率工具”向“生产基础设施”演进,通过标准化流程与专业服务能力的结合,提升解决方案的可复制性与规模化交付能力,满足客户在大规模视觉内容生产中的效率与品质需求,助力客户实现降本增效与业务增长。
在智能机器人领域,公司将围绕生态合作与技术能力两个维度持续推进。在生态层面,将加强与传感器厂商、芯片厂商及机器人本体厂商的协同合作,提升算法、硬件与应用场景之间的适配效率,构建稳定的产业协作体系,为产品落地与规模化应用提供支撑。在技术层面,将完善覆盖数据采集与标注、感知与决策算法优化以及运动控制适配的全链路技术体系,重点提升视觉算法与运控系统的协同能力,增强系统在复杂环境中的稳定性与响应效率。在具体应用推进方面,公司将以人形机器人与四足机器人为主要载体,加快相关技术在典型应用场景中的落地节奏,提升算法在复杂动态环境中的鲁棒性与泛化能力,推动核心视觉技术在多类型机器人平台中的复制应用。
二、加码技术投入,驱动核心业务持续进化
2026年,公司将持续加大在底层技术领域的投入力度,以ArcMuse计算技术引擎为核心抓手,围绕多模态融合与端云协同两大方向,系统性提升AI能力底座,为各核心业务线的持续进化提供坚实支撑与长期动能。
在模型能力层面,公司将基于现有大模型架构,持续突破关键算法瓶颈,重点强化复杂光影表达、物理规律建模及高保真细节生成能力,进一步提升整体视觉效果与生成结果的精准可控性。同时,持续推进多模态能力的深度融合与扩展,加速DiT架构演进,在巩固2D图像与视频生成优势的基础上,结合公司在三维视觉领域的技术积累,重点布局3D内容生成与视效重建等前沿方向,为智能商拍等核心场景提供更具表现力与落地能力的技术支撑。
在端侧AI方向,公司将面向移动智能终端、智能汽车、AI眼镜等边缘设备,持续深化大模型部署与优化能力,通过模型量化和优化,实现更大规模模型在低功耗环境下的高效推理与稳定运行,进一步巩固公司在端侧AI视觉领域的领先优势。
三、深化精细化财务管理,持续提升经营质效
2026年度,公司将持续夯实精细化财务管理体系,统筹推进资金运营、风险防控与业务协同工作,全面提升经营管控质效。
在应收账款管理方面,持续深化应收账款全流程管控,进一步优化团队管控效能,完善客户信用分级与账期管理机制,紧盯账款回款全流程;同步完善供应商管理评估体系,并推进票据贴现工作,合理运用票据支付供应商款项,优化公司资金周转节奏,盘活存量资产,实现业务运营与资金流转的高效适配。
在全球化资金与汇率风险管理方面,搭建多币种资金管理体系,结合海外业务拓展布局与实际开展情况,稳步适配拓展新币种资金管理,持续强化跨境汇率波动预判与前置管控能力,动态优化境内外资金及币种配置,平衡资金安全性、流动性与收益性,全力防范跨境汇率波动风险,为公司各项业务平稳推进、全球化布局提供坚实的财务保障与资金支撑。
收起▲
一、报告期内公司所属行业及主营业务
(一)所属行业发展情况
1、所属行业
根据《国民经济行业分类》(GB/T4754-2017),公司所属行业为“I65软件和信息技术服务业”中的“I6513应用软件开发”。根据中国上市公司协会发布的《中国上市公司协会上市公司行业统计分类指引》,公司所属行业为“信息传输、软件和信息技术服务业-软件和信息技术服务业”,行业代码为“I65”。
公司从事计算机视觉技术算法的研发和应用,主要产品有移动智能终端视觉解决方案、智能汽车及其他AIoT智能设备视觉解决方案、智能商拍解决方案,根据公司主要产品功能及服务对象的特点,公司所属行业为计算机视觉行业,...
查看全部▼
一、报告期内公司所属行业及主营业务
(一)所属行业发展情况
1、所属行业
根据《国民经济行业分类》(GB/T4754-2017),公司所属行业为“I65软件和信息技术服务业”中的“I6513应用软件开发”。根据中国上市公司协会发布的《中国上市公司协会上市公司行业统计分类指引》,公司所属行业为“信息传输、软件和信息技术服务业-软件和信息技术服务业”,行业代码为“I65”。
公司从事计算机视觉技术算法的研发和应用,主要产品有移动智能终端视觉解决方案、智能汽车及其他AIoT智能设备视觉解决方案、智能商拍解决方案,根据公司主要产品功能及服务对象的特点,公司所属行业为计算机视觉行业,属于软件和信息技术服务业。
根据国家发改委公布的《战略性新兴产业重点产品和服务指导目录2016版》,公司属于“新一代信息技术产业”。
2、所属行业的发展情况、基本特点
随着人工智能技术日益成熟,其与各行各业的协同发展日趋加速,“人工智能+”已从理念共识转化为产业实践的核心路径。作为底层支撑技术,视觉人工智能广泛应用于各类人工智能细分领域,以下是与本公司相关的主要领域发展状况:移动智能终端细分领域2025年上半年,全球智能手机市场在宏观经济不确定性及关税政策影响下,仍实现连续两个季度正增长,高端市场需求稳定及AI功能渗透成为主要驱动因素。根据市场研究机构Counterpoint统计数据,2025年第一季度,全球智能手机市场出货额和出货量均同比增长3%,平均售价(ASP)同比增长1%至364美元,创下第一季度历史新高;第二季度,全球智能手机出货量同比增长3%,出货额同比增长10%,ASP同比增长7%至347美元,出货额首次在第二季度突破1,000亿美元。
在AI与XR技术融合的前沿领域,AI眼镜等智能终端发展迅猛,开启人机交互新模式。AI智能助理系统整合多模态数据,构建“全息感知-实时解析-智能响应”技术闭环,重塑用户体验。国际数据公司(IDC)于2025年6月发布的《全球智能眼镜市场季度跟踪报告》显示,2025年第一季度全球智能眼镜市场出货量达到148.7万台,同比增长82.3%。细分来看,全球音频和音频拍摄眼镜市场出货量达到83.1万台,同比增幅高达219.5%;AR/VR市场出货量为65.6万台,同比增长18.1%。在该报告中,IDC预计2025年全球智能眼镜市场出货量将达到1,451.8万台,同比增长42.5%。具体到细分领域,音频和音频拍摄眼镜出货量预计为882.8万台,同比增长225.6%;而AR/VR设备出货量预计为569.0万台,同比下降23.9%。
智能汽车细分领域2025年上半年,在以旧换新政策的持续显效带动下,内需市场明显改善,对汽车整体增长起到重要支撑作用。中汽协数据显示,2025年上半年,我国汽车产销分别完成1,562.1万辆和1,565.3万辆,均同比实现两位数增长。其中乘用车产销分别完成1,352.2万辆和1,353.1万辆,同比分别增长13.8%和13%;商用车产销分别完成209.9万辆和212.2万辆,同比分别增长4.7%和2.6%。上半年,中国汽车出口总量308.3万辆,同比增长10.4%;国内销量1,257万辆,同比增长11.7%,成为拉动市场整体增长的核心动力。
近年来,海外多个主要经济体针对汽车安全推出多项强制性标准,覆盖网络安全、功能安全及特定技术等领域。2025年上半年,国内智能汽车领域也迎来法规密集调整期,推动行业从“技术驱动”向“合规优先”转型。4月,交通运输部公告2025年第21号对《营运客车安全技术条件》(JT/T1094)等4项营运车辆行业标准部分条款进行修订,其中优化调整了ESC、AEBS等安全装置的配备范围,明确针对新申请进入道路运输市场的达标车型。此次修订将使AEBS辅助驾驶功能成为商用车法规强制要求。5月,《轻型汽车自动紧急制动系统技术要求及试验方法》强制性国家标准征求意见稿发布,将自动紧急制动系统(AEBS)从推荐性标准升级为强制性要求,适用范围从M1类乘用车扩展至N1类轻型载货汽车,新增多场景测试验证。6月,全国标准信息公共服务平台公示了关于征求《智能网联汽车组合驾驶辅助系统安全要求》拟立项强制性国家标准项目意见的通知,通过制定强制性国家标准,约束组合驾驶辅助系统功能表现,促进提升产品安全性能,减少由于产品性能缺陷导致的安全事故,将有助于提升我国道路交通整体安全水平,实现标准内容对于组合驾驶辅助系统产品形态的全面覆盖。
3、主要技术门槛
(1)端计算和边缘计算技术的积累
边缘计算极大程度上解决了物联网背景下集中式运算架构中的带宽和延迟两大瓶颈问题,主要难点在于低资源的嵌入式平台环境的开发能力,基于移动终端的边缘计算具有巨大的应用价值,但是受限于移动终端有限算力,诸多企业望而却步。
公司自2003年开始便明确了在嵌入式设备研发相关视觉人工智能技术的发展方向,在边缘计算技术领域积累深厚,多年来建立了全面、复杂的多平台适用的底层嵌入式开发库。公司积累的算法具有高度的紧凑性、稳定性以及易调用性,可以在高性能、有效大幅降低资源消耗的情况下实现高精度运行。
公司长期专注于嵌入式设备算法的研究与开发,多年来积累了大量基于端设备的视觉人工智能算法开发经验。目前公司基于端设备的视觉人工智能算法适用性高、运行稳定,可以在边缘侧发起高效的运算,通过诸如智能手机、笔记本电脑、智能可穿戴等设备实现高效的图像优化、识别与检测等功能。公司的移动智能终端视觉解决方案、智能汽车及其他AIoT智能设备视觉解决方案等业务均是从边缘侧发起运算,在智能手机、笔记本电脑、智能可穿戴设备、汽车和各类AIoT设备上实现各类视觉人工智能的功能。
(2)视觉人工智能技术的层次积累
在数码相机以及手机功能机时代,公司就开始专注于视觉人工智能技术的研发与应用,公司主要算法技术都经过了长时间的锤炼,从基本的黑白小分辨率图像的摄取、增强、编辑、检测识别到高清大图像、视频的实时处理均打下了坚实的基础,创造了有利和领先的条件。
公司掌握的视觉人工智能算法技术具有通用性和延展性。多年来,公司积极致力于将视觉人工智能算法与行业应用相结合,凭借先进的科研力量、强大的产品开发能力以及卓越的工程实施能力,公司快速将视觉人工智能算法技术落地为成熟的解决方案,并进一步将应用领域从智能手机扩展到智能汽车、智能可穿戴、智能家居、智能零售等多个行业,助推行业升级。此外,公司基于自身深厚的技术积累,能够为上述行业快速提供高性能、高效率、硬件平台适应性强、功耗控制优良的解决方案,大大降低各类客户的产品使用先进技术的门槛,帮客户提升产品竞争力,助力视觉人工智能和人工智能相关应用的普及。
(3)工程落地能力
虹软创立至今,除不断积累和发展自身技术、掌握持续开发、迭代与硬件更加匹配的算法的能力,还一直致力于与核心产业链内主流公司开展长期、广泛的合作。公司与高通、联发科等各主流芯片公司建立了长期稳定的合作关系,在研发中持续合作交流,深入了解平台硬件特性并为其针对性优化,共同开发核心功能,不断提高视觉人工智能技术算法产品与移动芯片的适配性。公司还与索尼传感器、三星半导体、格科微、OmniVision、舜宇光学、思特威、锐视智芯等业内核心器件合作伙伴建立了业务交流或合作关系,在项目早期就针对特定相机或硬件做算法适配和调优。针对智能终端的芯片平台,公司具备针对CPU、GPU、DSP和NPU等各个算力单元的强大优化能力。结合各硬件算力单元的能力和算法模块的算力需求,公司具备的异构计算优化能力能够从系统层面更有效地优化性能、降低功耗。得益于此,除核心技术能力突出外,公司同时具备优势明显的工程落地能力,在客户提出技术需求后,能更好地联合和发挥在相机模组、软硬件平台、产线、算法等多方资源合作优势,进而提供效果好、能耗低、效率高、硬件平台适应性广并能够快速落地的解决方案。
(二)主要业务、主要产品及其用途
公司专注于计算机视觉领域,为行业提供算法授权及系统解决方案,是全球领先的视觉人工智能企业,始终致力于视觉人工智能技术的研发和应用,坚持以技术创新为核心驱动力,在全球范围内为智能设备提供一站式视觉人工智能解决方案。
公司拥有丰富的针对智能手机等移动智能终端以及智能汽车的视觉算法产品线,主营业务收入来源于自主研发核心技术的授权许可使用。目前主要客户包括三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商以及国内主要的自主品牌、部分合资及外资品牌汽车主机厂商。
在智能手机领域,依托多年研发积累,公司可以提供目前市面上大部分主流智能手机视觉人工智能算法产品,包括单/双/多摄摄像头在各种场景下的拍摄和高质量成像、深度摄像头在各种场景下的拍摄和高质量成像、潜望式长焦摄像头无级变焦、3D建模、全景、SLAM、AR/VR、人脸解锁、超像素无损变焦、人体驱动等重要核心功能。在笔记本电脑领域,公司从画质、隐私、美颜等方面来提升用户视频会议体验。通过视频去噪、提升动态范围来改善会议时的画质;通过背景虚化、换背景实现对用户隐私进行保护;通过人像美颜、人体自动居中、人脸细节恢复和增强、眼镜去反光等技术提升视频会议效果。
在AI-XR领域,公司大力拓展AI眼镜算法研究与应用,可以提供目前市面上绝大部分主流AI眼镜视觉人工智能算法产品,包括在各种场景下的检测、拍摄和高质量成像、智能人脸识别、智能手势识别、眼动追踪等解决方案。同时,还可以辅助AI大模型,提供基于视觉感知的解决方案。另外还提供VR/MR/AR一站式多传感器标定解决方案,头显6DoF跟踪、平面检测、稠密重建、语义分析、深度估计、实时人体/手部分割、实时3D Mesh重建等空间感知解决方案,手柄6DoF跟踪、裸手3D手势交互、视线跟踪和虚拟数字人表情驱动、人体驱动等交互解决方案,以及异步时间扭曲、异步空间扭曲、视频透视(VST)等视觉呈现解决方案。
在智能汽车领域,智能行车辅助方面,公司已储备基于前视、周视、环视、后视、夜视摄像头系统的视觉感知算法,可支持ACC、LCC、AEB、ILC等驾驶辅助功能;智能停车辅助方面,公司已构建360°环视视觉子系统,支持2D/3D AVM全景影像,并具备透明底盘、哨兵监测等功能,同时针对自动泊车(APA),已储备视觉感知、超声波-视觉融合及规控算法;舱内驾驶员/乘员视觉安全辅助方面,公司主要在驾驶员安全辅助、乘员安全辅助系统两类产品上针对驾乘安全积累了一系列视觉感知算法,可以提供例如疲劳检测、分心检测、健康监测、身份识别(FaceID)、安全带、安全座椅、危险坐姿、体态类别识别等主/被动安全功能。
在智能商拍领域,公司基于ArcMuse计算技术引擎构建商拍图像和视频生成能力,推出PhotoStudioAI智能商拍云工作室(PSAI)。该平台细分服饰版和商品版,为不同客户群体提供精准化智能商拍服务。PSAI支持AI模特图、AI场景图、AI商品图、AI试衣、AI鞋子上脚、AI商品复色等图片生成,以及AI模特视频生成功能。通过图片和视频内容生成的可控性与表现力有机结合,为商家提供完美的服装等商品展示。同时,PSAI还提供高清尺寸放大、智能抠图、对象擦除、智能补光等AI工具包,为图片和视频生成内容提供智能后期处理工具,满足用户差异化需求。
(三)主要经营模式
1、盈利模式:公司主要盈利模式是将计算机视觉算法技术与客户特定设备深度整合,通过合约的方式授权给客户,允许客户将相关算法软件或软件包装载在约定型号的智能设备上使用,以此收取技术和软件使用授权费用。同时,公司也向客户销售软硬一体视觉解决方案。
2、研发模式:公司主要采取自主研发的模式。
①获取需求信息;
②管理层决策研发方向;
③搭建研发项目组;
④验证研发项目算法,进行项目测试;
⑤集体讨论决策项目算法;
⑥进行底层算法与实际环境的结合优化;
⑦进行实际产品结合测试;
⑧产品成熟后路演,选择合适的客户进行测试合作;
⑨测试合格后大规模推广。
3、销售模式:公司采用直销的方式,主要向智能手机、智能汽车、笔记本电脑、智能家居、智能零售以及各类带摄像头的AIoT设备制造商销售计算机视觉算法软件及相关解决方案。
4、收费模式:按照业务合同的不同类型划分,公司的计算机视觉算法软件主要收费模式可划分为固定费用模式和计件模式两种模式。
①固定费用模式:按合同约定的软件授权期限,收取固定金额的软件授权费用。特定客户在软件授权期限内,针对某款、某系列的特定设备内,可以合法地把含有虹软科技算法技术的特定软件无限量装载在合约限定的智能设备上。
②计件模式:在合同约定的软件授权期内,按照客户生产的装载有虹软科技算法技术智能设备的数量进行收费。通常情况下,公司会与客户就不同生产数量区间,约定阶梯价格,保障双方利益。针对软硬一体解决方案,公司目前采用计件模式。
5、采购模式:公司的主要采购内容包括研发、测试和运营所需的各类硬件设备、软件、服务,以及产品解决方案所需的物料等。根据需求部门的请购申请,采购部门按照《采购管理制度》的要求,执行供应商选择、采购合同签订、合同执行跟踪、采购付款申请等流程。针对软硬一体解决方案,由公司进行硬件的设计并购买相应部分核心部件后,委托第三方进行组装生产。
(四)市场地位
目前视觉人工智能市场已初步形成“头部集聚+垂直深耕”的竞争格局,技术迭代加速、行业渗透深化以及政策引导等因素仍在持续推动市场动态变化。核心技术积累、产品化能力、产业生态链合作均构成各垂直行业的核心壁垒。公司是计算机视觉行业领先的算法服务提供商及解决方案供应商,是全球领先的计算机视觉人工智能企业。
公司坚持深耕计算机视觉算法技术,深化各行业布局的发展战略,逐步将计算机视觉算法技术的应用扩展至更多的智能终端设备领域。除本公司外,行业中国内企业主要有商汤科技、旷视科技,国外企业主要有Seeing Machines、Mobileye、Cipia、Smarteye。
在智能手机领域,公司为客户提供全栈视觉人工智能解决方案,是全球最大的智能手机视觉人工智能算法供应商之一,大部分智能手机视觉解决方案达到国内外先进水平,多数新创技术在行业内属于技术首发。公司主要客户包括三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商,据IDC所统计的2019年度至2024年度全球出货量前五的手机品牌中,除苹果公司完全采用自研视觉人工智能算法外,其余安卓系统手机的主流机型均有搭载公司视觉人工智能解决方案。同时,公司与高通、联发科等移动芯片厂商深度合作,针对不同硬件平台优化算法,提升与移动芯片的适配性,并且与豪威、索尼、三星半导体等传感器厂商建立技术交流,形成从底层硬件到终端应用的完整生态链。
在AR/VR/XR领域,公司进行前瞻性布局,从标定、感知、交互和视觉呈现四个维度构建了一套完整的虹软空间计算技术体系,为客户打造了一站式、全方位的产品解决方案。公司在大力更新技术的同时,也与多家业界头部厂商保持密切沟通和交流,持续扩大技术合作生态圈。在AI-XR技术的深度融合进程中,以AI眼镜为代表的智能终端设备正开启人机交互的新范式。公司快速响应AI眼镜市场需求,积极布局AI眼镜影像算法,与多家知名AI眼镜品牌商建立了深度合作关系,根据品牌商的产品定位与市场需求,为其定制化开发影像算法解决方案。目前,公司已成功助力多家AI眼镜公司首款产品发售。
在智能汽车领域,公司为客户提供面向舱内外的VisDrive一站式车载视觉软件解决方案,是国内基于高通智能座舱平台的主流视觉算法供应商。公司客户覆盖了国内主要的自主品牌、部分合资品牌以及外资品牌汽车主机厂商,已经赋能众多客户顺利在相关国家和地区实现产品量产落地,大大加快了新车市场化进程。
公司积极拥抱技术变革,引领计算机视觉技术发展,自成立以来,经历了从浅层模式识别到深度学习,再到大模型驱动的智能计算的多阶段演进。当前,人工智能技术正经历以大模型为核心的范式变革,在政策引领、产业升级与技术跃迁的三重驱动下,垂直行业大模型正重构各产业生态。依托深厚的视觉AI技术积累,以自研ArcMuse计算技术引擎为核心,公司不断推动视觉大模型的技术进步与行业落地。公司于2023年推出PSAI,目前已完成淘宝千牛、1688、抖音抖店、TikTok、京东京麦、拼多多、Shein、亚马逊等平台入驻,成为国内率先完成主流电商平台全覆盖的服务提供商,累计服务数十万商家客户。
二、经营情况的讨论与分析
公司专注于计算机视觉领域,为行业提供算法授权及系统解决方案,是全球领先的视觉人工智能企业,始终致力于视觉人工智能技术的研发和应用,坚持以技术创新为核心驱动力,在全球范围内为智能设备提供一站式视觉人工智能解决方案。
2025年上半年,公司凭借稳扎稳打的举措深耕赛道,在不断筑牢AI核心技术底座的基础上,继续拓展技术与产品的应用场景,实现整体收入与利润的持续双增长,彰显出强劲的发展韧性与持久增长动能。报告期内,公司实现营业收入41,034.85万元,同比增长7.73%;实现归属于上市公司股东的净利润8,853.61万元,同比增长44.06%。其中,公司移动智能终端视觉解决方案实现营业收入33,932.23万元,同比增长2.23%;智能汽车及其他AIoT智能设备视觉解决方案实现营业收入6,465.16万元,同比增长49.09%。
公司保持高水平研发投入,为技术创新的持续推进、产品创造的不断突破及行业核心应用的拓展提供坚实保障。2025年上半年,公司研发费用共计19,858.59万元,占营业收入的48.39%。截至2025年6月30日,公司研发人员596人,占公司总人数的比例为62.15%,研发人员中硕士及以上学历占比62.58%。
(一)移动智能终端业务
1、智能手机业务
作为移动智能终端视觉解决方案主打产品,Turbo Fusion技术和产品持续迭代,并加速在全机型市场上的渗透。公司针对不同算力芯片平台持续下沉Turbo Fusion技术和扩大产品支持范围。通过重构算法架构、精简计算模块、优化数据处理流程等方式,公司进一步提升了影像处理效率并降低系统负载与功耗,确保不同平台机型高频使用影像功能时的稳定续航,特别是在夜景、逆光、长焦等场景上显著改善了画质。
公司Turbo Fusion视频解决方案实现多项核心优化。针对极端光照场景,公司聚焦用户体验与环境适应性实现多项创新,为极端光照环境下的清晰成像提供保障。针对长时录制场景,公司通过挖掘底层硬件特性、优化数据处理流和计算路径,进一步提升了处理效率、降低高分辨率下的运算功耗。在影调维度,公司结合人眼视觉特性优化色调映射及局部对比度增强算法,使画面在保留细节与动态范围的同时,呈现更自然平滑的影调过渡,增强了电影感与沉浸感。公司Turbo Fusion星空拍摄整体解决方案完成多模块升级,并在头部客户实现了商业应用,巩固了公司在特殊场景影像算法领域的优势。
在手机影像技术革新中,公司聚焦高倍率变焦场景,基于生成式超分技术的深度优化,实现了画质与处理效能的双重突破。通过端侧大模型对图像结构的智能理解,重建长焦丢失细节,使极限变焦场景下的画面清晰度跨越式提升;重构硬件协作架构,处理效率显著跃升,确保了高倍率拍照的真实性。
2、AI眼镜业务
基于AI眼镜这一创新产品形态,公司正以“技术深耕+生态共建”的双轮驱动战略,系统性拓展多元应用场景,深入挖掘产品潜能,持续增强核心竞争力,稳步拓宽行业边界,释放长期发展价值。
在算法优化方面,公司聚焦复杂环境下的图像处理技术瓶颈,依托先进的图像处理算法与自主研发的深度学习视觉框架,全面提升AI眼镜在视觉感知、影像捕捉与智能识别等维度的处理能力。通过算法与硬件的深度融合,显著强化设备在复杂场景中的视觉交互体验,为拍摄质量优化与AI功能拓展提供坚实技术支撑。在生态协作方面,公司已与高通等头部芯片厂商建立紧密合作,推进自研影像算法与AI眼镜专用芯片的底层适配与性能协同。同时,公司持续优化SDK对系统环境的兼容性,有效降低客户集成门槛,加快产品落地节奏。在商业化进程方面,公司已经与多家头部厂商签约,占据绝对的头部厂商市占率优势,相关产品方案已在多个标杆项目中完成量产落地,并为后续的产品、技术扩展打下良好的基础。
展望下半年,公司将重点围绕产品能力提升、生态资源拓展以及客户导入三大方向深入布局,着力打造场景化解决方案套件,构建横向经验复用机制,在消费级领域持续探索更多应用可能,推动AI眼镜加速从创新概念向规模化商用核心智能终端的转变,为行业发展注入新的增长动能。
(二)智能汽车业务
1、舱内业务(驾驶员/乘员视觉安全辅助)
报告期内,公司在驾驶员/乘员视觉安全辅助领域持续发力,巩固差异化竞争优势,旗下驾驶员安全辅助系统、乘员安全辅助系统等核心产品完成多轮技术迭代与性能提升,并批量出货至海内外客户群体,覆盖国内外整车厂、Tier1及新能源汽车品牌等多元化合作对象。
在全球市场布局上,公司聚焦法规强制要求的主流及关键领域,重点针对以DMS、OMS等核心功能为主体、符合全球汽车安全法规的核心产品,推动其ADDW/DDAW合规认证并开展全球化推广工作。2025年上半年,公司DMS首个内后视镜海外项目正式通过欧盟ADDW认证,满足了欧标区域的量产条件;同时,公司DMS产品在岚图、吉利等品牌的部分海外量产车型项目中,针对ENCAP(欧洲新车安全评鉴协会)安全警告测试取得满分成绩,为后续顺利导入量产项目筑牢了法规合规基础。此外,公司DOMS ENCAP2026产品方案目前也正在同步研发,后续将重点推进法规机构的摸底测试认证。
面向舱内的前装软硬一体车载视觉解决方案Tahoe产品已于2025年上半年在欧洲知名豪华品牌车型上完成量产交付,为后续进一步拓展打下坚实基础。第二代基于国产芯片的低成本替代方案也在研发中,已完成初始版本。
在产业协作上,公司与欧洲某舱内传感器全球供应商及Tier1的深度战略合作持续推进,双方联合完成了集成OMS、HOD(脱手检测系统)、CPD(儿童遗忘检测系统)及SRS(安全气囊系统)的传感器融合产品原型开发工作,后续将率先在欧洲市场进行推广。
2、舱外业务(智能停车辅助、智能驾驶辅助)
报告期内,公司加大“舱外”相关领域的投入与资源配置,主推智能停车辅助系统和智能辅助驾驶系统。在技术研发层面,公司舱泊一体解决方案在客户项目上完成POC技术验证,APA产品则通过持续打磨提升场景适应性,已完成雷达融合、自选车位、倒车循迹等泊车全功能开发。
报告期内,公司以“安全合规、平台迭代、量产落地”为主线,稳步推进驾驶辅助系统三大产品线的落地工作。在低算力平台解决方案(SouthLake/WestLake)方面,公司聚焦欧洲强制法规及国内即将推出的AEB强制法规,已完成AEB等关键安全功能的深度测试验证与算法优化。目前,基于低算力平台的演示样车已获得客户高度认可及定点,标志着公司L2级智能辅助驾驶解决方案正式进入商业化落地阶段。在中高算力平台解决方案(EastLake)上,EastLake解决方案成熟度进一步提升,针对舱驾一体新形态完成系统架构升级,并与客户启动了POC项目开发,落地化进程有序进行。在监管合规层面,针对上半年行业高度关注的L2级组合驾驶辅助安全风险,公司第一时间跟踪国家强制标准制定动态,对舱外驾驶辅助产品从传感器配置、功能策略到失效保护机制进行系统性设计调整,同步完成新版软件迭代,确保解决方案的行业竞争力。
3、商用车市场
针对商用车车型及市场特点,公司对软件算法解决方案进一步适配优化:如DMS功能,结合商用车座舱空间大、商用车驾驶员特殊属性及硬件平台低成本等特点,联合Tier1与主机厂深化适配;AVM功能则针对车型多、标定工位不规范、摄像头成本低等问题优化适配。同时,公司将前装优化的软件方案快速移植至后装硬件平台,以满足后装市场安全监管及安装使用便利需求。
4、海外市场战略
报告期内,公司持续推进“海外”市场战略。产品层面,公司聚焦VisDrive、Tahoe、ADAS、TD320、MonoLake等核心产品,积极拓展国际化应用场景,加速其在重点区域市场的落地进程。公司以GSR法规和ENCAP2026标准要求为核心技术导向,继续优化DMS/OMS产品功能规划,增强对海外市场的适配能力,同时强化在智能座舱与安全驾驶相关细分领域的技术沉淀与量产交付能力。市场拓展与渠道建设方面,公司从合作深化、技术推广、本地化布局三个维度协同发力。渠道端,扩大与多家伙伴的合作范围与边界,拓宽市场渗透路径。技术推广层面,持续推进与多家海外知名主机厂商的对接,并通过开展Tech Day和Workshop等活动,向客户直观传递技术价值。此外,公司的欧洲业务团队加速了本地化市场推广、技术支持和客户服务体系进程,为拓展欧洲及周边市场、增强本地化运营奠基。
(三)虹软AI视觉,赋能多元场景应用
在AIGC商拍领域,公司PSAI新增支持了AI试鞋、商品换色、高清改尺寸等全新功能,以服饰行业需求为核心,为客户提供更多样、更垂直、更优秀的产品与服务。公司在PSAI市场战略上坚持“应用+服务”双轮驱动,通过SaaS产品服务广大中小电商商家;同时,围绕服饰行业,提供大客户个性化定制服务,通过ArcMuse平台的AI大模型生成工具包为品牌客户提供一站式商拍内容解决方案。PSAI产品已入驻淘宝、1688、抖店、京东、拼多多、Shein、亚马逊等多家主流电商平台服务市场。目前,公司已累计服务中小商家数十万,合作头部服饰品牌客户300余家。
公司积极布局具身智能机器人领域相关技术,进行了核心智能视觉感知、视觉融合IPs(技术引擎)的研发。目前,公司已与全球知名的民用机器人公司建立技术合作。
公司升级了新一代视觉大模型ArcMuse2025V1.1。依托新一代ArcMuse计算技术引擎,深度融合公司在“云+端”层面的工程创新能力,借助集群优化、端侧优化以及数据与知识蒸馏等方式,ArcMuse计算技术正逐步实现对公司PSAI、智能汽车、智能手机、AI眼镜等业务领域的赋能。
(四)质量、合规与信息安全体系建设
在智能汽车业务领域,公司持续构建并完善产品安全合规能力和质量管理体系,围绕“敏捷、融合”的年度主题,进一步提升体系效能与落地能力,夯实在智能汽车核心领域的竞争优势。在信息安全方面,公司不断强化体系构建,并于2025年上半年顺利完成ISO/IEC27001。
2025年上半年,公司在智能汽车产品的功能安全能力建设方面取得关键突破。继2022年功能安全流程取得了ISO26262:2018ASILD级别认证之后,公司AEB Flag软件产品于今年上半年取得由国际知名认证机构SGS授予的ISO26262:2018ASIL B级产品级功能安全认证。此外,公司同步推进ISO21448预期功能安全体系的初步构建,针对ADAS产品在非故障状态下因功能局限、环境误判或用户误操作引发的安全隐患,启动相关工作并取得良好进展,进一步补强了公司在智能汽车安全合规领域的技术能力储备。
(五)经营质效继续提升
2025年上半年,公司继续深化业财融合,重点提升财务管理的精细化水平,强化风险管控,优化资源配置,为业务发展和股东回报提供坚实财务保障。公司密切跟踪市场动态,强化动态分级分类的账期管理策略,坚持对客户进行分级分类管理,动态监控客户履约、贡献及现金流状况,并根据业务的市场宏观环境,细化调整账期,平衡风险与收益。公司同步加强票据管理与风险防范,建立并实施应收票据的分类管理机制,通过风险评估与分类,对识别出存在潜在兑付风险的票据,适时采取提前贴现等措施加速资金回笼,有效防范潜在损失。
公司持续优化业财协同与系统支撑,在现有基础上,进一步完善业财数据互通,着重提升供应链信息的可获取性与流转效率,推进销售合同流程的标准化与规范化管理,深化库存供应链系统与财务模块的协同应用,为经营管理提供更及时的数据支持,构建更稳健、高效的经营体系。
公司始终将充裕的现金储备视为技术研发持续投入和抵御经营不确定性的基石,并通过“阶梯式存款+低风险理财”的结构化配置模式提升资金管理综合收益。为应对汇率波动风险,公司适时调整结汇策略,对持有的外币存量进行审慎评估与动态管理,在确保整体资金安全的前提下,更加注重境内外资金在结构化产品及币种组合上的优化配置,以平衡潜在的汇兑损益并追求更优的综合收益率。
三、报告期内核心竞争力分析
(一)核心竞争力分析
1、人才优势
在超过30年的发展历程中,公司磨合出一支以博士为带头人、硕士为骨干的核心研发团队,充分掌握核心技术算法,并进一步落地成为成熟的商业产品。通过长期的潜心学习,公司始终立足于领域内的最前沿,建立和长期保持行业内经验积累和能力上的领先优势。
虹软科技及其下属公司经过30多年的摸索,不断改善形成了一套独有的高效管理模式,基本实现自动化、自驱、自愿的高效运行状态,同时采用“导师制”培养模式,有效减少研发的试错次数。高效的研发管理体系提高了公司的自主创新能力和产品研发速度,提升了公司视觉人工智能技术算法水平。目前,公司拥有良好人才储备并在持续完善,为重要项目的推进奠定了基础。
2、技术积累优势
公司技术积累优势主要体现在端计算和边缘计算技术的积累优势、视觉人工智能技术的层次积累优势、工程落地能力。
虹软自成立以来便致力于计算机视觉技术的研发,技术所应用的终端,从个人电脑、数码相机、智能手机,再发展到智能汽车、AI眼镜、XR3D空间计算头显以及其他AIoT领域,一直与影像产业的发展、消费者的需求和影像科技创新紧密相连。经过数十年的技术、专利和人才积累,公司已全面掌握视觉人工智能及人工智能的各项底层算法技术并不断进行技术演进,掌握包括即时定位与建图、图像语义分割、人体识别、物体识别、场景识别、图像增强、三维重建、虚拟人像动画、虚拟数字人等全方位的视觉人工智能技术。公司所掌握的这些底层技术具有通用性和延展性,在此基础之上,公司构建了不同的组件和产品,并衍生出多种产品应用方案满足相应的细分市场需求。
公司坚持以创新驱动企业发展,持续高水平研发投入,不断打磨视觉人工智能技术能力。截至报告期末,公司拥有专利296项(其中发明专利270项)、软件著作权159项。
3、产业链深度合作优势
公司所涉的消费电子产业与汽车产业,高度依赖产业协同。公司拥有紧密、稳定的产业生态关系,与高通、联发科、格科微、索尼传感器、三星半导体、艾迈斯半导体、OmniVision、舜宇光学、英飞凌等平台、传感器、摄像头模组厂等产业链上下游主流公司开展合作。在智能汽车业务上,除了既有的合作伙伴之外,公司也持续与更多的芯片、相机模组、Tier1等诸多上下游产业链公司形成了相互信赖的合作伙伴关系。
凭借与产业链内主流公司长期、广泛的合作,公司掌握了持续开发、迭代与硬件更加匹配的算法的能力,通过共同研发、持续合作交流,得以在客户提出技术需求后,在最短时间内及时响应,提供低能耗、高效率、硬件平台适应性广的解决方案,保持技术持续处于行业最前沿。
4、客户及品牌优势
公司是全球领先的视觉人工智能算法供应商,客户群体广泛。在智能手机领域,公司主要客户包括三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商,服务范围涵盖全球90%以上的安卓手机品牌。在智能汽车领域,公司方案不仅可满足GBT、C-NCAP、C-IASI、IVISTA等国内法规及行业标准要求,而且还可满足DDAW、ADDW、ISA STU型式认证、E-NCAP、A-NCAP等各项海外法规及行业标准要求。在这一领域,公司已协助众多OEM客户顺利在相关国家地区实现产品量产落地,大大加快了新车市场化进程。在智能商拍领域,PSAI产品已入驻淘宝、1688、抖店、京东、拼多多、Shein、亚马逊等多家主流电商平台服务市场,累计服务数十万大小商家。在AI眼镜领域,公司已成功助力多家AI眼镜公司首款产品发售。优良的客户质量、良好的市场口碑、国际化的品牌认可度、海量历史销售数据,为公司后续业务发展奠定了良好基础。
(二)报告期内发生的导致公司核心竞争力受到严重影响的事件、影响分析及应对措施
(三)核心技术与研发进展
1、核心技术及其先进性以及报告期内的变化情况
一、核心技术及其先进性
目前,公司积累了大量视觉人工智能的底层算法,构建了完整的视觉人工智能技术体系。
公司自主研发了人脸分析及识别/人脸美化及修复/人体分析及美化、手势识别/物体识别/场景识别、行为分析、暗光图像增强/超分辨率图像增强/视频画质增强/画质修复、光学变焦、虚化技术、3D AR动画等诸多可应用于智能手机、智能座舱、智能辅助驾驶、笔记本电脑、智能可穿戴设备等终端领域的核心技术。
针对单摄/多摄/TOF/结构光等不同种类的摄像头,公司均可提供相应的3D与AR视觉解决方案,帮助厂商在移动设备上便捷高效地实现落地。为满足各智能终端对于VR/MR/AR应用的需求,公司已经研发并可以直接落地使用的解决方案,包括基于双摄/多摄/TOF/结构光的深度获取和优化,以及基于单摄的深度获取引擎,这些深度数据成为一些上层逻辑应用的核心基础;实现了SLAM中环境Map的构建,物体的3D Modeling,视线的检测、跟踪,人体和动作静态、动态姿态的检测和跟踪,解决了实时显示中的延迟等多种问题。为满足智能汽车领域人机交互的需求,公司主要研发了基于红外相机、单摄RGB摄像头、双摄、深摄的交互技术,包括手势交互引擎包、头部动作和口部动作交互引擎、经典表情识别等。
公司在人体分析、人脸识别、人体识别、手势识别、人体美化等技术上,在当前状态下的中段平台达到超过95%的正确率、毫秒级实时性,这些引擎也可以有效鲁棒地支持低端硬件平台,人物属性分析、对象属性分析、多帧多通道质量提升等技术点能达到业界先进的低功耗、高性能、相对强鲁棒的水平。
公司大部分智能手机视觉解决方案达到国内外先进水平,多数新创技术在行业内属于技术首发,能够满足目前市面上中高端智能手机大多数与视觉相关的技术与应用的算法需求,且公司的智能手机视觉解决方案在除苹果之外的主流手机品牌的大部分旗舰机型上获得使用。
二、核心技术报告期内发生的主要变化
(1)人脸分析及识别
人脸检测技术提升了近距离场景下的复杂光照、大姿态、遮挡人脸召回率以及屏幕摩尔纹等场景下的人脸召回率,同时进一步降低了后脑勺、人手、躯干等目标的误检率。手机版本在难例测试集上保持速度不变的情况下,召回率和精度继续提升。人脸关键点定位技术在手机相关方向上,进一步提升了大角度场景和边界场景的稳定性和精度,并且修改整体算法框架,在内部复杂自测集上,人脸归一化到100像素尺度下的点位平均误差到1.3像素。智能座舱应用中大遮挡人脸和穿戴面纱人脸关键点的准确性,DMS场景下的人脸关键点的精度提升10.1%,且关键点稳定性也获得较大提升。人脸重建技术通过渲染数据的使用,更进一步提升了人脸重建的贴合度,特别是近距离自拍场景的精度,在自测集上贴合精度提升2%。
2D Face ID在FAR≤100k条件下,常规及戴口罩场景FRR改善1.4%~2.1%;3D Face ID在同等场景下,FRR改善0.5%~0.8%;车载场景的RGB/IR交叉识别持续改善,FRR改善1.0%~1.9%,且海外人种识别效果显著提升,全人种(黑、白、棕、黄)测试下FRR改善1.2%~4.7%。静默式活体RGB及炫光活体版本效果持续优化,炫光新增三种打光组合,在应用中更新了主动活体及炫光活体功能,以满足市场需求。性别识别RGB与IR版本准确率分别提升1.7%和1.9%;年龄识别效果进一步提升,RGB与IR版本MAE相对减少6.2%和4.9%。此外,宠物ID算法逐步成熟,可区分同品种不同个体,对猫狗照片自动聚类准确率已经超过竞品。
(2)人体分析及美化
人体检测技术进一步提升了人体召回率并且降低了误检率,同时提升了目标跟踪稳定性,在智能座舱应用场景尤为明显。在内部难例测试集上,精度不变前提下的召回率提升1.04%至96.34%。人体骨骼关键点技术针对座舱内多人肢体遮挡及大角度倾斜场景,重点优化了手臂点与躯干点的定位准确性。人体重建技术通过多相机采集与人工合成方式补充人体细节动作数据,整体贴合准确度提升约0.5%至96.5%。遗留儿童检测技术优化了五座车场景下,侧躺、侧坐、下瘫等姿势的误检,单帧图片儿童召回提升5.3%。安全带检测技术增加错误佩戴识别功能,在难例自测集上,精度达到95.79%。行为识别技术不断完善,针对ENCAP2026对相关安全行为的要求,实现了在多种车型上对副驾安全行为的识别,平均召回率达85%、精度超95%。同时拓展儿童站立的危险行为类别,落地于多个OEM项目,召回率超90%。基于行为识别的环视哨兵功能;人体下蹲和靠车静止场景的报警召回率均提升至92%,整体召回率达到98.5%。
人脸美型方案在效果、性能、稳定性上全面升级。效果方面,在原有形变效果上精细参数调节并实现非局部形变,模拟出更加自然的形变效果,通过客户验收并获得认可。性能方面,美型框架升级使耗时降低近50%,在开启多个形变功能时,优化变形逻辑,提升预览性能,用户体验更好。稳定性方面,重构强边缘及大角度保护机制,增强预览稳定性,降低美型失效概率。传统美型通过模板整理,重构接口,减少库大小及使用内存。AI人脸美型参考真实整容技术,注重保留用户原生脸部特征,实现个性化自然美化效果。人脸美化方向由视觉艺术团队主导提升美学效果。基于AI美型方案,已按预期实现个性化人脸强边缘平滑功能并计划添加更多美型效果。
人体美型方案根据客户需求,新增人像自然瘦腹功能,提升人像气质。升级人体感知模块,应用人体语义分割、三维人体重建等技术提升参数准确性与变形控制精度。
(3)宠物分析
宠物目标跟踪中新增ID识别功能,在处理遮挡、快速移动等复杂场景时也能够准确区分不同个体,确保了跟踪结果的连续性和一致性。通过对训练数据的系统优化,显著降低了错误标注对模型的干扰,并且在训练过程中动态过滤低质量样本、过度困难样本及分布外样本,全面提升了宠物身体检测、面部/眼部边界框与关键点检测、姿态估计、目标跟踪等技术的整体准确率。
(4)行为分析
继续提升满足DDAW以及Euro NCAP法规的驾驶员疲劳/分心检测技术方案,完成满足ENCAP2026产品原型研发。通过大量路测数据对疲劳/分心的误报进行实车数据分析,通过多数据融合将基于车机信号与车辆控制信号在内的驾驶员行为数据与视觉感知信息进行融合,通过数据统计优化行车中的误检问题。同时,结合大量KSS以及心理行为研究实验结论,研发了更加符合疲劳认知的全新疲劳解决方案。根据大量疲劳研究实验进行了真实疲劳数据采集和真实疲劳检测技术更新,提升了基于真实疲劳反应的驾驶员疲劳分级检测,在视觉信息获取上增加多帧、多时间窗口的分析,增大疲劳分析的时间窗口区间,将大量与疲劳行为相近但表现形式有差异的混淆行为进行鉴别,对诸如低头向下看、从左右两侧注视手机屏幕或者其他交互区域等行为与闭眼或疲劳进行区分,形成了与市场同类产品技术的差异化,目前正在尝试将该新技术融入量产方案中,并且实车测试已达到DDAW认证要求。为满足ENCAP2026新规,公司已完成DMS与OMS新增测试项的功能研发,包括受损驾驶员行为分析、座舱乘员异常姿态与体态检测等,形成了完备的能满足ENCAP2026测试范围的产品形态。
视线追踪技术已支持众多智能座舱量产项目,结合座舱标定方案为驾驶员分心技术提供视线落点输出支持,完成了Euro NCAP法规中需要支持的视线落点检测研发,对驾驶员视线检测覆盖到舱内23个区域。满足Euro NCAP所有视线分心测试场景的检测要求。
根据对ADDW法规的解读与技术实现分析,目前已经完成ADDW实车专项测试,并即将在各量产方案中设计算法方案,满足该法规标准继续进行单摄像头下视线追踪技术的精度提升,自主研发基于3D人脸重建与追踪的底层数据特征表达,实现3D视线追踪技术。视线追踪技术继续对多摄像头方案进行研究,并根据项目需要应用在量产项目中,全面提升驾驶员在车内的视线精度,尤其是在人脸大角度下的视线精度,全面覆盖各种摄像头下的人脸全角度。在原有视线真值系统上继续进行方案优化,针对大视差与眼镜条件下的难例进行集中优化,扩大了眼动测试的覆盖范围,相对误差进一步降低10%左右。与此同时,自主研发了基于用户行为的无感自标定视线精度提升方案,对于视线基础引擎的精度做了较大的提升。当前该方案已经取得了重大进展,通过多组实验获得了新型自研模型,在无需用户配合的条件下完成用户个性化特征提取,与原有方案对比平均视线精度获得了7.2%的提升,当前方案的迭代还在持续进行中。同时,视线研发团队还对眼睛瞳孔虹膜特征在成像上的差异进行深入研究,获得了一整套适用于视线的摄像头设计准则,指导量产项目中的视线摄像头设计。新版本在原有座舱行为数据自动化合成平台研发基础之上又拓展了关注座舱安全的哨兵难例数据合成,拓展了座舱数据合成范畴,大大降低了数据成本的同时为解决长尾问题和提升总体精度起到了关键作用。该平台已经用于相关量产项目交付以及预研项目中。
为了更好地解决量产项目中的不同车型以及各种容易引起摄像头位姿变化的外界影响,研发了一整套完善的视线无感自标定解决方案,为主机厂降低相机标定成本,目前该方案已经大规模用于量产项目中,适配各种车型的活动摄像头安装需求。新版本继续探索一体化的适配多摄像头安装位置的舱内DOMS自标定解决方案,以内后视镜为摄像头安装参考位置,挖掘不同车型座舱的共性特征,大规模降低自标定技术依赖的数据存储空间与车型适配成本。将DMS与OMS在自标定方案上进行整合,并于上半年应用于多种DOMS产品形态研发,取得了优异的适配效果。该新自标定技术方案架构将在今后的量产方案中大规模应用,为视线一体化方案带来更高的鲁棒性。该技术方案目前可以兼容支持由于内饰颜色、纹理、光照带来的差异,并可以较高精度兼容有差异的车型之间的自标定方案共用,大大提升了产品的容错率与大平台化的可能性。
酒驾驾驶员行为分析作为2025年新增技术引擎,目的是通过饮酒后驾驶员的行为实验分析驾驶员是否处于酒驾状态,达成适用于量产的基于视觉的酒驾检测解决方案,满足ENCAP2026中关于受损驾驶员的行为分析。
睡眠检测技术根据座舱内乘员的面部状态与体态分析是否处于睡眠状态,在实车场景中需要与低头玩手机、看书等准静态行为进行区分,经过持续研发迭代,各场景实车召回率已经达到90%以上且误报低于1%,支持在各种颠簸路段场景下的高召回,完成众多量产项目。
基于XR头显的眼动追踪完成了双眼双目多光源方案的研发与调优,并配合头显的需要完成了与眼动相关的外围视觉算法研发,完成了设备端部署,精度效果已经达到业内领先水准。同时对适用于多种条件下的眼动算法进行研究,提升底层引擎的检测精度,并设计融合方案实现眼动追踪精度最优化。
车载表情识别与唇语关键词识别技术也有了重大突破。为了设计出符合用户感知习惯的技术方案,满足更好的用户体验,通过大量实车数据分析,构建了一套全新基于用户无感表情标定的表情识别技术,可以满足个性化用户表情识别的需求,精准捕捉到一些具有个性化的面部行为,大大提升了用户体验。唇语关键词识别技术完成了多模态技术的研发,将语音与图像信息融合,解决了一些有歧义的唇语关键词无法用单一视觉技术方案覆盖的问题。
车载危险行为检测,全面推广基于手持物分析和人体行为分析的多通道信息融合的抽烟打电话检测方案,加速产品迭代,持续提升边缘case下的产品体验。算法模型设计方面,进一步提升模型的特征提取能力和通用性,并借助视觉语言模型(VLM)强大的推理能力提升数据处理效率和利用率。基于DMS/OMS一体化解决方案的方向盘脱手检测算法,对算法方案进行升级,结合手部跟踪、人体行为分析,细化手和方向盘的交互类型,提升算法的稳定性和产品的整体体验。对自顶向下视角的玩手机和方向盘脱手检测算法方案进行快速升级迭代,优化手部的检测和跟踪逻辑,对手和方向盘的相对位置关系进行更加精确的分析,显著提升了算法效果。
(5)手势识别
手势识别相关底层算法持续迭代升级。手部检测/跟踪算法,面向丰富的使用场景,提升对hard case的支持能力,如强背光、室外夜景、超近距离、多人远距离、手物交互等困难场景下的手部检测跟踪能力有所提升。手部姿态估计算法,主要面向车载场景持续迭代升级,基于RGB/IR多模态输入,针对低画质、弱光照、高噪声等复杂环境,实现系统级优化,显著提升算法的鲁棒性与稳定性。当前算法适配主流车规平台,支持多种车载手势交互与行为分析场景,持续提升智能座舱的人机交互体验。静态手势识别,报告期内进一步提升分类模型的识别效果,为增强分类模型对手部结构特征的理解,融合手部关键点的拓扑结构信息以强化分类特征的表征能力。此外,结合注意力机制增强了模型对手部重点区域的关注,引导模型聚焦于语义关键区域。上述改进在保持模型推理效率的基础上,使静态手势识别在复杂环境下的稳定性与准确率均有明显提升。
移动端和PC端手势产品线,报告期内承接并实施多个面向移动终端设备的手势识别项目,支持包括静态手势和动态手势的多种交互方式。针对不同目标设备的硬件资源差异,采用不同结构的模型及优化方式,确保模型在端侧具备良好的性能和功耗表现。目前,多个项目已通过阶段性验收测试,满足客户对手势交互体验和性能指标的综合要求。
车载智能座舱手势产品线,基于OMS的RGB/IR镜头的静动态手势交互技术,已更新适配最新的车载算力平台,在提升效果的同时,降低了算法的资源消耗和性能,提升了解决方案的市场竞争力。在效果方面,着重优化了相似手势误检问题,使静动态手势获得更好的用户体验。新增支持“抓握拖拽”、“拇指左右移动”等多个动态手势,通过多轮实车体验迭代,持续调优算法,满足客户对动态手势在功能性和稳定性等多方面的验收标准。优化基于RGB/IR相机模组的三维空间食指指向识别技术,结合2D手部关键点和3D手部模型,还原手部在三维空间中的真实姿态,实现多方向准确识别,并拓展支持TOF摄像头,通过结合深度图像对食指精细建模,进一步提高识别准确率。鼠标手势交互技术,面向客户新研发了基于RGB-D相机模组的鼠标手势交互方案,包含食指鼠标、抓握投屏、捏合调节音量/进度、挥手关屏等功能;其中食指鼠标利用对指尖点准确3D定位、手部精细建模,实现食指指尖精细控制鼠标移动、拇指叩击中指实现鼠标点击。在大角度姿态、手部自遮挡等较难场景下仍保持高精度识别。此外,基于手势的石头剪刀布游戏也在行业头部客户上车量产,反响良好。
(6)图像质量分析
人像质量分析算法显著提升特殊场景(如暗光环境下深肤色人像)的评估准确率,同步优化宠物模糊判断效果。HDR场景识别技术在AI眼镜方向持续扩展,完成多家客户算法交付并新增多芯片平台适配能力。
(7)高动态范围(HDR)
YUV HDR支持旗舰处理器AEB模式下的HDR融合。该模式配合改进的HDR融合算法,实现了零延时的高动态范围合成,平衡高光还原和亮度过渡,同步实现防鬼影和防噪音平衡,实现了对霓虹灯、日落、天空、室内flicker等不同场景的智能优化,提高了整体的合成率和还原度。该模式支持对动态曝光输入的自适应调整,保持输出曝光的稳定性。在防鬼影方面,加入了基于AI的增强技术,实现了提亮和去噪,减少了运动区域的噪音,提高了运动场景的画质。针对高饱和度区域的还原,转换到HSV空间进行颜色、饱和度、亮度的动态融合,获取更鲜艳真实的颜色。针对中低端平台无法提供ISP提亮帧的情况,通过调整原有框架,改进HDR融合算法和鬼影处理策略,改善融合结果。开发暗光环境人像HDR功能,并支持闪光灯和屏幕补光模式,在暗光人像模式能更好地还原场景动态,同时保持人像的亮度和人脸的细节。根据对不同风格的要求,定制HDR融合策略。基于机器学习算法结合预览图片的统计特征改进动态EV算法,为系统推荐适配的低曝光图片的EV值,提升融合结果的动态还原效果。在报告期内将应用场景拓宽到AI眼镜上,适配了安卓、IOS等多个平台。
基于RAW域的HDR在AI去噪、高动态图像获取方面都取得了巨大进步,针对HDR摄影的复杂环境,从白天到夜晚都准备了鬼影处理策略,在影调方面以保持真实场景亮度分布为出发点,自适应调整影调,在保持原本动态范围扩展能力的基础上使最终结果更贴近客户美学需求。基于场景识别与语义分割,实现对不同被摄环境、不同语义区域的自适应影调调节,确保成片自然度。根据senser、环境信息,智能提升了最终成片的通透程度。针对运动场景实现了智能优化,提升了运动区域的画质,提高了抓拍成片率。针对不同曝光序列优化了运动鬼影,改善最终成片效果。弱光环境结合图像分割方面,根据图像区域分割的结果动态调整局部的融合策略,最终的融合结果更加自然。开发暗光环境闪光灯模式和屏幕补光模式人像HDR功能,暗光人像模式能更好地还原场景动态,同时保持人像亮度和人脸细节。通过对前后景亮度颜色的自适应优化,提升了闪光灯拍摄的氛围感。针对人像场景进行了真实感模拟,提升了人像成片质感。基于不同环境进行光色联动调整,提升成片氛围感。进一步拓展了HDR的特性和应用范围:适配了Quadbayer数据,为使用最新sensor获取更好的纹理细节提供了保障;灵活支持可变倍率,为全倍率RAW域HDR的实现打下了基础。在亮光环境下,利用不同通道的混合输入数据,在继承了HDR影调的同时实现了图像纹理细节的大幅提升。针对硬件能力不足的中低端平台,设计了全流程轻量化处理框架,提升了处理效率,降低了资源开销。通过算法框架继续优化和精简,适配了更加低端的硬件平台,进一步拓展了技术的落地范围。
(8)暗光图像增强
暗光图像增强技术,公司为客户的摄像头传感器做了针对性支持,确保每个摄像头的去噪以及保留细节达到最佳效果。改进对齐算法,提升运动区域和人像的配准精度,保留更多算法结果细节。改进多帧融合算法,结合AI增强提升细节。改进针对运动区域的去噪和融合算法,消除运动噪音和运动模糊。改进高动态场景下的模型训练,使得高动态场景的暗处细节更清晰。改进训练策略,使得落地后的性能优化版本效果更好。研发基于增强型的暗光图像增强算法,实现最终出图效果清晰度明显提升,进一步拓展增强型暗光增强算法的适用范围,使得更暗的场景实现清晰度的提升。针对图像的亮部和暗部,做针对性的处理,拓展了图像亮部区域的清晰度画质提升;针对中低端设备噪点严重的特点,开发新的单帧处理算法优化图像。针对人脸部分,开发专门的算法对人脸进行去噪和增强,有效改善人脸的视觉效果。对不同的平台计算资源,比如NPU、GPU、DSP等做性能的最佳适配。同时,针对更低平台做了算法的针对性改进,维持效果和性能的最佳平衡,使得算法可以平铺到更多的客户设备。针对中低端平台将轻量化单帧图像增强AI模块和多帧模块配合,在很小的系统消耗的情况下,实现细节提升。进一步优化低端平台的性能功耗,使得在纯GPU的平台,也能用上性能快,功耗更低,效果更好的图像增强算法。针对车载平台和AI眼镜平台开发自适应的多帧和单帧算法模块并配合开发轻量化单帧图像增强AI模块,同时优化训练方法,提升不同设备使用的网络的更新迭代效率,最终实现画质提升。
(9)超分辨率图像增强
超分辨率图像增强技术,通过不同方案的尝试和实践,最终方案在清晰度上有突出优势,在效果和性能上达到了一个新的高度,满足市场客户的需求。拓展更深层的超分维度,YUV域、RAW域、Quadbayer域等,实现超分辨率的质的提升。改进运动区域检测策略和配准精度,改进融合算法,优化AI模型训练流程,提升AI增强的效果。研发基于参考图片指导的YUV域AI超分算法,实现动态照片,更换封面帧后结果的画质。研发基于增强型的AI超分辨率算法,不同的倍率下清晰度和解析力都得到明显提升。攻克了Quadbayer更高iso和逆光场景的输入网格和噪音偏大难题,拓展更多的亮度范围场景下,实现光学的超分辨率。改进针对不同摄像头传感器的去噪效果,提升结果细节。拓展更高放大倍率的细节提升方案,针对不同的放大倍率的特点,训练针对性的AI细节提升模型,使得在各个放大倍率都有更优的画质表现。优化代码框架,提升性能。实现在不同的放大倍率上,都展现出更好的去噪效果以及细节水平。结合ZSL和PSL的RAW数据,开发25M产品,提升结果细节的同时,保留场景的动态,在多轮算法迭代和框架优化后,实现性能和功耗的大幅优化,同时在最新的旗舰平台开发了基于AI的不同解析力图片融合算法,进一步提升图像中不同区域的细节的表现力和一致性。整合25M的整体框架,充分利用平台的各种资源,达到NPU、GPU、DSP等做性能的最佳适配,提升产品的用户体验。
(10)画质修复
屏下摄像头画质修复技术实现了预期的功能,在抑制图像原有噪声的同时提升清晰度、对比度与色彩饱和度,使成像效果更接近普通摄像头效果。
文档图像去阴影技术,面向多个客户出货项目,重点针对一些中低端平台做适配与优化,构建轻量级高性能的去阴影解决方案。算法在保持实时性的同时维持原先的画质表现,边界保留自然清晰,有效提升整体视觉体验。当前算法已支持多平台商用部署,可以应用于相机拍照与相册应用,满足用户对拍照完美质量的追求。
美食阴影去除方案,针对客户平台算力低,性能要求严格的情况,通过设计单阶段方案,开发了更优更快的去除模型,有效降低了设备推理的耗时开销;针对室内复杂多变的光源情况,通过适配真实餐厅阴影的场景,提高了方案的有效去除范围,进一步改善了部分食材颜色恢复偏色的问题。
图像去反光技术,重点优化模型结构和前后处理流程,降低算法内存和耗时,同时保持效果基本不变,满足算法在低端设备平台上的部署需求。
图像去炫光技术,调整模型结构,新增专项数据,有效抑制了特定场景下出现的误处理和异常条纹等问题。针对手机拍照应用对算法的内存和耗时要求,优化模型算子和前后处理流程,并完成模型的量化部署,在保持处理效果没有明显损失的前提下大幅降低内存和性能开销。针对部分人脸图像处理结果失真的问题,对人脸区域增加额外的处理策略,使结果更加自然。
图像去雾和视频去雾技术,针对客户在雾天场景中的图像质量提升需求,深入研究并设计了一套新的去雾算法方案,解决手机拍摄图片发蒙的问题。该方案通过建模图像复原过程,并融合视觉感知优化策略,通过多项关键AI感知技术的协同提升,使得处理后的图像更加贴近真实无雾环境,具备更高的视觉自然度与观感舒适性。与原有方案相比,新方案在雾气去除的彻底性、图像细节的保真性以及整体算法性能方面均实现了显著突破,该算法已经在指定设备平台上实现量产出货,保证了在实际应用中的可靠性与有效性。
AI Image Debanding,针对手机拍摄过程中因光源频闪与相机传感器采样机制引发的周期性暗纹问题,在CV的算法基础上,开展了基于AI驱动的Debanding算法研发。可通过深度学习模型精准识别与修复banding伪影,算法具备较强的泛化能力与良好还原度,有效改善低光与室内环境下的图像观感。当前已完成主流平台的适配验证,正在稳步推进迭代,为公司手机端图像质量恢复系列产品提供又一新成员。
(11)视频画质增强
视频超夜技术,主要改进了去噪算法并从YUV域去噪扩展到RAW域去噪。YUV域去噪算法分别针对PC上的应用和车载上的应用做了研究和改进。PC上的应用和车载上的应用的主要区别在于去噪算法运行的主要处理器不一样,前者的去噪算法主要是运行在GPU上,后者的去噪算法主要是运行在NPU上,因此针对其特点分别给出了不同的去噪方案。PC上的去噪算法在传统CV方案上结合了AI方案,CV算法主要是提升了鬼影检测技术,从而进一步改善了运动物体的去噪效果,AI算法根据不同摄像头的噪声特性,设计了不同的训练方案和量化策略,使得每款摄像头都能在降噪质量和性能上达到较好平衡。基于车载平台开发了全新的AI实时去噪方案,并针对鱼眼镜头专门优化了训练数据的采集方案,降低了数据采集的难度,提高了采集效率,从而大大加快了模型迭代速度,同时在模型优化上面采用了数据蒸馏,模型减枝等优化手段,使得模型能够在车载设备上对1080P的视频进行实时处理。YUV域去噪算法改进了帧间稳定性,降低了帧间噪声闪烁的问题。同时加入了视频提亮功能,并改善了去噪算法,使其在提亮后噪声仍然能够保持比较低的水平。对于极暗的视频,在YUV域处理比较困难,因此我们将处理域前移到RAW域。RAW域处理的好处是噪声形态没有被其他处理过程破坏,保持了原始的噪声形态,这对于去噪网络来说是比较友好的。但是它的难点在于需要处理的数据量增加了,因此对于极暗视频,我们的重点放在了模型优化上面。经过优化我们可以在当前的旗舰机下实现4K视频的实时处理,同时噪声去除能力也明显优于传统的去噪算法。手机端视频超夜技术,拓展手机端至暗光0.1lux,极大改善AI降噪模型的降噪能力的同时保持细节。在实时性和功耗上,做到极致优化,满足客户使用场景需求。针对性训练不同摄像头传感器的视频去噪效果,针对客户的不同硬件平台,设计模型和量化策略,达到画质和性能功耗的较好平衡。RAW域去噪算法进一步优化了性能和功耗以及高亮区域的彩噪问题,同时支持了高动态范围视频的去噪。
全新研发的高动态视频超夜技术,在降低噪音保留细节的基础上,极大地扩展了视频的动态,嵌入了公司视频影调技术,使得视频超夜多维度画质提升,更贴合美学需求。经过极致优化,高动态视频超夜技术的实时性和功耗等客观指标均满足客户需求,达到业界领先水平。
视频超分技术,持续改善文字场景和密集纹理场景的效果,进一步提升了小字号字体的清晰度,增强可阅读性,改善了混合语言文字处理偏差问题。在密集纹理场景中,减少出现假纹理现象的概率。同时,优化了模型结构,减少了性能开销和功耗,并保持处理效果跟优化前持平。
视频插帧技术,扩展了应用场景,包括模拟长曝光场景、视频编码插帧场景以及多摄像机切换镜头中的应用。在模拟长曝光场景的应用中,主要针对非规则性的运动做了进一步优化,插帧效果更加平滑和自然。在多摄像机切换镜头的应用中,改善了重复纹理的场景的效果,并针对大视差场景做了优化,同时优化了性能,比之前版本耗时减少了20%。
(12)畸变消除
进一步优化了光学畸变消除性能和功耗表现,提升了视频流的处理性能;进一步提升了身体部分的修正效果并优化了任意输入区域透视畸变弱化的效果;设计实现了人脸和身体透视畸变检测及自适应矫正的方案,扩展了人像矫正的适用范围。增加了人像俯仰拍摄畸变修正方案,针对不同角度拍摄人像进行拍摄角度修正,合理利用畸变,提升了人体拍摄美观度。
(13)光学变焦
升级fusion算法为AI fusion,极大地提升了传统fusion算法的效果,对于一些极端情况提供了自动判别算法,该算法业内首发落地某畅销机型。深度参与高通Pipline设计,推出人像场景的Portrait SAT,成功发布于某国际高端机型。
针对暗光场景、弱纹理场景、大视差场景进行优化,提升了对齐的准确性和鲁棒性,优化自适应镜头静态公差矫正,便于适配不同的镜头配置,同时算法进行模块化设计,提升了SAT算法在不同新平台下的兼容性和拓展性。
(14)多摄标定
进一步扩大AVM标定和BSD标定的适配范围,舱外ADAS车载标定解决方案基本完善。本阶段重点推进多车型实车部署。针对多种乘用车和商用车部署了AVM标定方案,适配了数十种标定场地和环境,针对多款商用车部署了售后标定方案,在标定成功率、精度及效率三个维度实现同步优化。
(15)全景拼接
全景拼接技术,优化了仰拍和俯拍场景,重点处理一些极端情况(如大角度旋转),通过改进融合策略改善错位融合的视觉效果;针对超广角镜头中出现的直线扭曲问题,新增匹配算法使其匹配成功率进一步提升;改进了运动物体检测算法;新增了对星空场景的支持,针对多星/少星场景设计差异化配准算法与星星特征描述符,提升星点的匹配成功率。
(16)人脸美化及修复
公司在图像修复与编辑方向上长期致力于Live Photo、视线校正、人头姿态校正等人脸修复与编辑技术。
Live Photo技术通过调整深度神经网络结构,针对性改进口腔区域模糊、不真实的问题;研发了针对特定人物的微调技术,使得算法能够生成更加逼真的结果;对网络进行性能优化,使得效果可以在PC设备上做到实时。改进的新版本可以不依赖于初始的对齐步骤,利用隐式参数传递即可完成人物驱动,提升了技术的易用性。新版本采用更高效的隐式参数驱动方法,大幅提升运动传递的准确性,使处理后的人物动作更加自然流畅。同时,增加边缘保护机制,处理结果可完美贴合原始图片和视频,极大提升了技术的实用性,为用户提供了更多创意和应用的可能性。视频口播数字人技术,基于用户提供的几分钟视频素材可以训练得到对应的数字分身,在输入不同的文字内容时可以进行相应的生动播报,支持中文、英文等多语种。新改进的版本提供了可跳过预训练的通用口型生成方式,使得用户可以便捷地对视频中人物口型进行替换,降低创作门槛,同时新版本还增加了语音克隆和视频延长的功能,进一步提升了生成视频的真实性。结合最新的DiT技术,进一步提升口型与音频的匹配度,使数字人播报更加自然流畅。此外,除了数字身份应用外,积极拓展技术边界,结合多模态大模型和视频生成技术,实现了实时语音对话和AIGC个性化视频生成应用,为用户带来更丰富、更智能的交互体验。视线校正技术研发了全新的3D视线校正算法,创新地结合了三维人脸重建和二维图像编辑方法,相较于前代算法产品,突破了正脸姿态的限制,并且大幅度拓展了算法能支持的视线角度,在人脸角度和视线偏移角度均较大的情况下算法依然可以得到正确的矫正结果。用户主观测试报告表明,新算法在真实感、矫正范围、算法稳定性、准确性等方面均明显优于竞品。在效果上,相较于前代版本,解决了可能会出现的额头部分变长、脖子区域融合拼缝、面部抖动、面部刘海导致眼镜断裂等问题,在视频上能做到连续、稳定、自然的结果。在性能上算法完成了模型的蒸馏和量化训练,以及计算过程全部部署在GPU上,实现了算法在设备端的实时运行。
在人脸美化技术上实现了人脸自适应肤色调节技术,可针对不同肤色的人脸进行自动肤色调节,有效提升不同肤色情况下的效果一致性;调整了磨皮方案,进一步提升了细节表现力,肤质纹理更加自然,增强了对不同画质人脸去噪的自适应性,改善人脸明暗不均现象的同时立体感也得到提升;实现预览磨皮算法,在去脏能力、通透度、立体感、肤质细腻度方面都有所提升;实现了Vulkan方案的磨皮、美白、美唇、亮眼、白牙、去唇纹等美颜技术和腮红、眼影、SkinGloss、美瞳等美妆技术,在基本保持性能和视觉效果优势的情况下,解决了客户不同设备平台间驱动更新时产生的兼容性问题,降低了产品的维护成本;实现了Vulkan方案的眼妆、唇妆、眉毛等妆容的妆容增强技术;实现了4D眼睫毛、眼影、唇彩、腮红、SkinGloss等4D美妆技术,较大程度上提升了美妆的真实性、立体感和光泽度,进一步优化了大角度、姿态下的美妆效果;实现了AI唇部、眼部遮挡物体分割算法,提升了美妆技术的实用性;实现了AI预览祛斑算法,较大提升了预览美颜的祛斑、去脏能力,对肤质纹理也有很好的保留;优化了拍照AI祛斑算法,对大侧脸提升祛斑效果的稳定性;图像祛斑方面也增加了去抬头纹、去颈纹等新功能。性能功耗方面,进行了GPU优化、模型优化和NPU硬件优化。对美颜预览、拍照算法进行了性能、内存、功耗的全面优化,其中美颜预览性能优化8%、内存优化16%、功耗优化10.7%;拍照算法性能优化9.2%、内存优化6%、功耗优化5.7%。预览头发柔顺技术可以去除视频中的杂乱发丝、捋顺发束,达到美发风格化的效果。针对海外市场需求,定制实现了Bindi检测技术,可保护印度女性眉心Bindi,提升美颜效果;针对客户对高清人像的需求,开发了结合AI的人像算法,在调整光影瑕疵、修饰皮肤质感和恢复五官结构上做到了光影更好看、肤质更细腻、五官更清晰,打造了人像审美的高级感。
低光照和极暗光线下的人脸美颜解决方案继续扩展了超清人像美颜风格的应用平台,人像视觉效果更加自然、整洁,同时保持清晰度和立体感。视频任务上,针对移动设备端改善了模型以及任务框架,增强人像效果以及自然程度,同时提升了性能并优化了功耗。而PC端主要增强人像修复强度,提升人像解析力,同时针对不同平台做了专门性能优化。实现针对车载、平板、PC、手机等设备的视频人像修复的轻量级模型部署。
人脸修复技术针对不同画质的人像照片,进行了更细致的算法区分处理,能够让正常拍摄的人像脸部肤质更显性、更自然,将长焦或极差环境下拍摄的人脸恢复清晰,目前算法都已实现在手机端的部署,作为整体画质增强模块的一部分,人脸修复技术已应用到多个产品之中。针对高倍率的拍照场景,研发基于大模型的超分修复方案,部署和落地到设备端,让高倍率下的场景变得更加清晰,视觉效果得到较大的提升。
人脸换头技术,用来提升用户拍照时(尤其是人像合照场景)的成片率。在合照拍摄场景中,往往在抓取精彩时刻的一瞬间,会存在部分人物头部、表情姿态等不协调,如果重新拍摄将费时费力,且错过了那一精彩时刻,也难保重拍过程中仍存在另外人物新的姿态不佳。人像换头技术基于动态照片拍照场景(用户在拍照时,会有一张最终成像的静态图像和同步保留拍照前后3s左右的动态视频),算法通过抓取动态视频内人物好的头部表情姿态,来替换融合最终成像中人物不好的头部表情姿态,从而保证最终合照成像下所有人物都有最佳的表情和姿态。整个算法处理过程中,基于公司已有成熟算法积累(微笑检测、模糊判断、睁闭眼开合度检测、遮挡判断等),自动化抽取推荐出姿态佳、表情姿态好推荐帧,用于人物头部姿态替换。为了提升算法应用的鲁棒性,扩展应用边界,针对一些遮挡场景下,整体头部姿态校正的不适应性,公司开发支持了换脸策略,只对成像中人物面部五官表情进行替换。另一方面,受限于动态视频帧画质与成像画质的差异,公司研发肤色/画质的对齐模块,以及对应画质微调的人脸修复算法来进一步的对齐画质,从而保证最终头部姿态替换融合校正后整体画质的一致性。为适配客户的需求,针对宠物场景,新增开发了宠物换头技术。初步实现了宠物头部姿态校正与眼睛开合校正算法,解决了用户在拍摄人宠合照时,宠物容易出现的头部姿态不协调、表情不自然等痛点问题。
(17)虚化技术(Bokeh)
持续优化视频虚化(电影模式)、单摄虚化、双摄虚化的产品细节,始终保持行业领先地位。
本报告期内,继续以最新改进的AI-Depth Ultra技术为基础,完善新一代智能虚化引擎AI-Bokeh Ultra,在准确性、自然性、艺术性等维度上深入探索技术,改善算法和产品,持续保持行业的领先地位。通过进一步整合最新的语义分割、Matting及虚化算法,持续提升发丝精度,特别是复杂背景、复杂纹理下的发丝准确性和自然性,大幅改善了玻璃场景的精度,进一步提升了手持物的准确性,提升了整体成片率。继续丰富了虚化层级、层次,使得虚化结果具有更自然的渐变层次感。优化了小光斑的呈现,使其更圆润、明亮、自然。单摄虚化在更多机型上支持了艺术光斑效果,进一步优化了旋焦算法,支持了哈苏风格镜头效果。单摄虚化还支持了P010图像格式,使得虚化结果具有更好的色彩表现。
升级了新一代渲染算法,该算法在效果上更加逼近大光圈的单反镜头,光斑更具真实性、自然性和艺术性;改善了渐变的层次感,使其更加立体、自然;改善了边界的准确性,使其更加锐利;进一步改善了虚化效果的准确性及渐变虚化的层次感,提升了成片率;支持了圆形及椭圆形电影镜头级光斑效果。
双摄虚化基于更加精确的双摄AI深度,进一步优化算法,使得效果更加精确和自然,接近单反相机拍照的效果。同时虚化算法、HDR和超级夜景等画质类算法结合,显著提高了虚化光斑的层次感和真实感。进一步基于特定的单反相机或镜头专门优化光斑效果,使得更加接近光学镜头拍摄的效果,如哈苏风格化等。结合第三代AI Matting技术,发丝的数量和精准度对比前一代有了进一步的提升,同时头发附近的发饰等细小物体的分割效果也一并得到了改善,同时结合深度信息,可以让发丝产生层次感的虚化渐变,更加接近光学相机拍摄的效果。
双摄虚化与Turbo Fusion技术有机结合为Turbo Fusion Bokeh,利用Turbo Fusion获得真实场景亮度信息,使得虚化更加接近单反相机在实际场景中的拍照效果,光斑更具能量感和层次感,形状更加接近单反相机的效果,颜色也更加真实。Turbo Fusion Bokeh的光斑效果升级成2.0版本,光斑的颜色、亮度、形态和层次进一步逼近真实相机拍摄的效果。
全新的AI Bokeh技术,可以修复深度图上的瑕疵,是业界首次可以逼真地模拟出接近单反相机真实自然的前景虚化效果,同时还可以支持多种单反相机的光斑形态。AI bokeh从8bit YUV域扩展到16bit线性RGB域,完全嵌入到了Turbo Fusion的流程之中,从虚化生成原理上更加接近实际光圈相机的生成过程,结合最新的高精度深度模型和第三代AI Matting技术,基于更加精细的深度层次信息和更加精准的头发Matting,开发出了虚拟光圈技术,可以更加逼真地模拟特定单反镜头不同光圈下的拍摄效果。AI bokeh从16bit线性RGB域扩展到支持20bit的线性RGB域,使得更多原始的亮度信息得到保留,生成的虚化效果更加真实。虚拟光圈技术从原来的只支持35mm焦段,扩展到85mm的黄金人像焦段,可以产生长焦镜头上更大的光斑,更强烈的虚化效果和更浅的景深。
(18)深度恢复
本报告期内,继续提升AI-Depth Ultra的准确性、场景泛化性,以及针对客户的各目标平台持续优化性能、功耗,对应用于单摄虚化的单图深度预测、应用于视频虚化(电影模式)和预览虚化的视频深度预测均做了相应更新,持续保持单摄深度预测算法的行业领导力。通过专项攻坚大幅优化了玻璃场景的准确性,深度图更加符合虚化场景的深度要求,即干净、透明玻璃区域的深度应为玻璃外物体的深度,改善了之前算法在类似场景下的漏虚问题。改善了深度预测算法的泛化性,在夜景、大光圈下的原生背景虚化图等输入场景上,预测出更准确的深度。除了精度的改善,我们还同步优化了算法的性能和功耗,其中AI-Depth Ultra单图深度预测性能优化了30%以上。另外,最新的深度预测算法因为高准确性、稳定性及场景适用性,除了应用于虚化产品线以外,还为更多算法和应用提供了底层支持,并成功出货。基于单摄深度估计的大模型,进一步提升了深度恢复的效果,基于大模型新进研发可度量深度估计,几何深度估计模型可以提供准确的三维空间关系。人物,物体和环境的三维结构更准确为背景虚化、三维重建、人像重打光等领域提供更准确的深度信息。
为进一步满足客户下一代平台的虚化要求,持续对双摄深度恢复算法进行开发和优化,使得其性能和效果在客户的下一代平台上得到了最佳的部署,极大地提高了深度的准确性和精细度,并且对于不同的双摄模组排布的支持也更加完善。双摄深度AI模型从原来的只支持水平垂直排布的模组拓展到支持任意角度排布的模组。同时针对一些特殊情况,比如细小物体、透明物体、反光物体、低光夜景场景等,融合了单摄模型,训练了全新的双摄深度模型,使得深度效果更加稳定。双摄深度模型顺利在高通和MTK最新的NPU上完成适配和部署,性能和功耗都有着极大的提升,并且针对不同平台优化了不同复杂度的版本,以适配不同的效果和性能需求。同时双摄深度也进一步提升了在细小物体,无纹理场景的效果。
针对多摄深度进行细节级优化,改善中远景的小尺寸人像缺失及交叠人像判断错误等问题。提升中近场景的镂空、手持物/头饰等细节区域的精度。修改了不同场景深度分布波动大问题,使得深度数值与真实距离线性相关。提升了前后帧画面的稳定性,此外深度图与RGB边缘更加贴合,改善了边缘漏虚误虚问题。以上优化为打造更加自然、稳定的虚化效果提供了基础。
基于单摄的多视图深度恢复技术研发取得了长足进步,相比基于单一视图的深度估计方法,借助多视图像可以更好地恢复场景几何信息,并应对场景遮挡问题,同时拥有更高的深度估计精度和一致性,是三维场景重建的基础。为了提升网络的精度和泛化性,引入虚拟合成数据精调模型,进一步提升网络输出精度,使其可以重建弱纹理、更复杂的室内场景。另外,实现了模型在端侧设备上的部署,在保证较好实时性的前提下,取得明显优越的深度估计和重建效果。这一突破为移动端实时SLAM、VR/AR导航等应用铺平道路,进一步拓展多种应用场景的落地可能。
(19)图像语义分割
人像Matting算法优化。针对经典的单主体场景,通过算法更新和数据质量提升,持续改善纹理、眩光等复杂场景下的精度问题,特别提升了细长发丝的分割精度和融合自然度。同时,针对多主体场景的人像Matting进行了开发和支持。对多人并排、前后重叠等复杂场景进行效果优化,利用注意力机制避免主体之间的语义干扰,减少误分问题。Matting算法还扩展了宠物胡须分割、毛发分割功能,为Pet类相关上层应用提供了支持。
继续优化AI Camera智能场景识别算法,通过数据迭代稳步提升白天夜晚等多场景的语义分割准确性。特别针对植物类别的细节镂空较多的问题进行了专项优化,提高了该类别的分割精度,为图像增强应用提供了更加细腻的控制信息。
升级人像Matting算法,在进一步提升发丝细节准确性的同时,重点考虑了在多纹理、绿植、眩光等复杂场景下的边缘颜色溢出、漏光等问题,同时增加了发饰、耳饰等饰品的支持。在算法端和数据端同步迭代,使得虚化后的发丝效果更加真实自然,饰品得以完整保留。
(20)物体识别
车牌脱敏技术解决方案,在维护已上线版本稳定优化的同时,针对客户的新需求积极开发,优化港澳车牌的检测率达到92%以上,新增如特定车型车牌定制化需求检测率达到96%以上,并且总体检测率仍然达到98%以上的标准。应用领域从乘用车拓展到了商用车,并针对商用车低算力平台(NPU、CPU)设计了特定的解决方案,保持客户要求的实时性情况下,仍然保持98%以上的检测率,超出图像脱敏技术标准要求。
哨兵车辆报警功能,针对客户的新需求开发,新增多种三轮非机动车、老头乐等类别的支持;对新增的几款车型进行定制优化,指标均达标并顺利完成交付;对于个别客户车型定制化开发了基于鸟瞰图输入的哨兵方案,开发了基于运动分割的鸟瞰图哨兵预警系统,支持了常见的几种报警类别;针对非机动车困难场景召回率低,以及行人误触发报警等问题,分别进行持续优化,各个场景下均有明显改善。
(21)场景识别
场景识别引擎GPU版本继续更新迭代算法模型,支持高通、MTK等NPU平台的运行,进一步提升了全体场景检测准确率,改善支持任意角度和有限度遮挡的目标场景检测。
(22)三维重建
三维重建技术更新了基于3D高斯的重建算法方案。与原先的NeRF方案相比,重建速度和效果都有比较明显的提升。实现了一套在线内参标定算法,可以支持任意手机拍摄的视频作为算法输入而无需事先标定,方便服务器端重建应用场景使用。实现了一种全局一致的前景分割算法,能从视频中自动分割出前景物体完成重建,剥离不相关的背景。支持手机端实时渲染,能较好地复现各向异性的光照效果。
针对XR眼镜应用场景,迭代和部署实时三维重建技术。迭代实时语义场景重建,并构建出室内场景的布局信息,目前已经支持室内场景墙、门、窗、天花板、地面、桌子、椅子等元素的布局信息,形成一个更简洁,信息更丰富的室内场景信息,为XR上层应用提供更加完善的语义信息,方便XR创作者创造出更加丰富的应用。
实现了一种立体视频生成算法,可自动对普通视频进行局部重建并在新的双目视点下渲染生成立体视频,从而使得普通手机拍摄的视频也可以在XR眼镜上获得具有立体感的沉浸体验。该算法支持在手机端部署运行,其效果与目前PC端商业软件相当。开发了一种可交互的6DoF视频原型,其效果是在视频播放时可以实现拖拽屏幕改变观看视点的功能。
开发静态场景隐式建模技术,支持生成高真实感的新视点图像。该技术方案根据视频与实时获取的相机位姿,用神经网络隐式建模三维场景,通过可微的体渲染技术,实现端到端训练。该技术方案可重新规划相机路径后渲染得到新的视频,用于视频编辑和立体视频生成等。结合神经辐射场和隐式符号距离函数几何表达,还可用于重建静态场景的三维网格模型。在静态场景建模技术基础上,增加室外街道场景的动态物体建模,从而支持对开放式动态场景进行建模,并同时对静态场景和动态物体进行渲染。增加了基于3D高斯的动态街道场景建模,提升了渲染的图像质量与速度。
Add Me自助合照技术,支持用户在无人协助的情况下实现合照。该技术可引导多个合照人在相同位置交替拍摄两张照片,然后利用图像融合算法,将两次拍摄结果合成为包含所有人的合照。此技术能够自动检测和分割图像中的合照对象,精确匹配两张图的内容,准确拼接所有合照人像。同时,还能妥善处理人物前后的遮挡关系、人像的阴影等,保证合成图像的人像具有正确的空间关系、自然的光照效果,减少人工痕迹,使合成照片具有较强的真实感。
(23)光照重建
对大模型方案下人像重打光技术进行了一系列改进,提升了模型的性能。利用先进的AIGC技术,扩充了训练数据集的规模,生成了更多样化的训练样本,为模型训练提供了更广泛的场景和变化。对于原始训练集中质量欠佳的数据,进行了重绘微调,有效改进了数据的整体质量。模型的泛化能力和鲁棒性得到了进一步提升,重光照的效果和成功率也有了明显的提高。尤其是全身人像的重打光效果更精准和自然。环境光照建模方法也进行了改进,从较为简单的光照建模加强为支持直接输入复杂的环境光照图,从而避免了因低阶近似导致的信息丢失,能够更精确地表示复杂的光照条件,生成更加逼真的效果。另外,还实现了根据背景光照条件自动调整前景人像光照的功能。该功能可用于虚拟场景渲染与合成,能够将真实人像与虚拟场景无缝融合,生成高质量的合成图像。近期实现了针对非理想拍摄条件下的人像光照增强功能。该功能能够自动增强在侧光、顶光、背光等复杂光线环境下拍摄的照片光照,智能地提升图像亮度,减轻阴影,提升照片的整体观感。通过采用模型蒸馏等技术简化模型结构,已成功将该技术部署到了移动设备上,目前正在持续进行性能优化和效果调整,以进一步提升用户体验。
在前期的算法开发中,我们依赖于AIGC生成的大量数据进行模型训练。这些合成数据能够在一定程度上模拟现实世界中的场景,有助于快速构建初始模型。为了进一步提升算法的准确性和鲁棒性,近期引入了大量的实拍数据集,通过迁移学习的方法,在保留原基础模型知识的同时,有效利用新数据的信息,进而提升了模型的鲁棒性和效果的真实感。
此外,实现了一种基于人像图像的环境光照分析算法,可以从单张人像照片中推理出当前人物所处场景的主要光照信息,包括光源的颜色、方向和强度等关键参数。该算法能够高效还原复杂光照环境,为后续的虚拟布光、光照匹配等应用任务提供有力支持。
将光照重建算法从YUV域扩展到了RAW域,以提升图像质量和处理灵活性。RAW格式保留了最原始和丰富的信息,提供了更高的自由度和精确度。RAW数据具有更宽广的动态范围,可以表示更多的亮度层次,从而允许对图像进行更大范围的亮度调整,并在高光和阴影区域获得更加细腻的表现。
为了适应移动端设备的需求,采用了多种模型压缩与加速技术,将原来运行于高性能计算平台的大规模处理模型进行了轻量级优化,并实现了在手机设备上的部署运行。
(24)即时定位与地图构建(SLAM)
VR手柄跟踪是SLAM技术的一个新拓展领域,是VR终端设备的刚需技术。VR手柄算法完成了从仿真到实际设备开发的转变。支持多种第三方设备,并支持双手柄实时交互,实现了安全区设定、空间划线等功能。对VR手柄跟踪算法的性能、鲁棒性、精度等进行了全面的优化,在高通XR2设备平台上,算法单帧耗时在22ms以内,支持视野可见范围内2m/s的剧烈运动,平均定位精度小于6.5mm。除了基于光斑的传统VR手柄,还开发了使用手机作为VR手柄的功能,可以使用普通的Android手机实现实时六自由度跟踪定位,实现菜单点选、简单的游戏交互等。对手机手柄跟踪算法的性能、鲁棒性、精度等进行了全面的优化。从逻辑上优化了用户体验,使得输出轨迹更加光滑、流畅。
SLAM技术在XR眼镜的头部位姿估计上取得显著进步。头部位姿估计是XR眼镜的一个核心技术和基础功能,要求低功耗、高精度和低时延。通过优化SLAM算法和把视觉模块从CPU移到DSP,SLAM算法计算效率提升30%,有效地降低了功耗和运动时延。针对XR常见的室内小面积使用场景,对建图模块进行大量优化,极大提高后端建图和实时定位精度。同时,改进姿态预测模块,实时定位准确度提升30%,接近业内毫米级的定位精度要求。已有版本在多款XR原型眼镜上集成,能为快速、准确的头部位姿估计提供良好的用户体验。
同时,SLAM技术扩展到高阶辅助驾驶领域,包括城市NOA产品的记忆行车自建图算法和基于SDMap Pro地图的BEV道路融合定位。在轻图辅助下,实现了硬件选型,BEV+GPS+里程计的多传感器融合定位算法,支持城区内各种复杂路段。此外SLAM技术在自动泊车辅助(APA)和记忆泊车辅助(HPA)中也发挥重要作用,报告期内支持以矢量化元素轻量高效进行泊车地图的建图与定位,在建图方面,能够以极低内存代价保存大规模矢量化车位与元素地图;在定位方面,能够以极低算力极低延迟在车端实现实时定位,并且保证定位精度,实现泊车过程中对目标车位的精准定位。
公司研发了激光SLAM技术,该技术可以支持智能辅助驾驶中4D标注所需的高精度、低时延的6DoF定位和道路场景的点云稠密重建。同时,报告期内支持智能辅助驾驶中4D标注Large Scale场景重建需求和基于场景重识别的标注真值复用功能,极大地提高4D标注静态要素的自动化标注质量。
(25)3D AR动画
公司打通了3D数字人创建、编辑、实时驱动全流程。支持基于单张图或扫描模型完成数字人重建。与之前的重建算法相比,改善了头顶区域、眼睛的相似度,提升了纹理重建效果。编辑模块支持对重建模型的脸型、头型、五官、脖子等进行直观地修改。实现了基于单个RGB摄像头的实时全身驱动,包括表情跟踪与手势跟踪,实时动画效果基本达到业界领先水平。3D数字人重建增加了人头重建模块,提高重建人头几何的相似度;支持双眼皮的拟合,眼睛的相似度;增加了编辑模块,支持重建模型的再编辑及调整,同时也支持从中性模型开始编辑。基于球形实验室多视角数据的超写实数字人重建方案,其重建质量远好于传统方案,3D渲染结果能达到以假乱真的地步。支持左右90度的视角渲染,渲染结果包含部分躯干。支持表情实时编辑,也可进行单目表情实时驱动。为了改善3D数字人重建的真实性及超写实数字人重建的便捷性,研发了基于3D高斯表达的数字人方案,此方案更加便捷,用户仅需输入两分钟左右的自拍视频,即可重建出包含部分驱动的写实数字人,算法可在手机端运行,不仅支持表情、视线、头部位姿的实时编辑及驱动,也能较好地复现出各向异性的光照效果。
(26)健康监测
在保持健康监测技术稳步量产的前提下,提升技术先进性,保持业界前沿地位。心率检测方面,使用更丰富的建模方式,提取更多维度特征,多通道信号信息融合,同时优化算法库架构降低CPU占用,提升产品精度和不同算力设备的适配程度;IR心率对动态场景效果大幅改善,整体通过率提升4.8%;血压监测升级深度学习方案,收缩压和舒张压的MAE均降到10以内。呼吸检测方面,新增暗光、偏色等异常场景检测与过滤机制,同时针对画质不佳场景引入全新信号提取与噪声处理方法,提升算法在苛刻条件下的鲁棒性,为适配不同性能的平台,推出了多种低CPU占用版本,兼顾性能与资源效率。
(27)高级驾驶辅助系统(ADAS)
ADAS产品矩阵持续深化技术布局与场景拓展,通过前沿技术融合与算法创新推动产品力实现跨越式提升。本报告期,公司持续贯彻市场需求与技术创新双轮驱动战略,在维持覆盖低、中、高算力平台的完整产品体系基础上,重点推动了中高算力平台的技术革新,并通过端到端技术架构实现了NOA产品的重大突破。
西湖、南湖产品(低算力L2级智能驾驶辅助解决方案/一体机),基于纯视觉的西湖、南湖产品实施1200多次产品实测,并对多个业内复杂场景专题改进。通过深度优化小型路口识别算法和道路变化场景的预判机制,LCC系统在困难复杂交通环境下的通过率较上期提升20%,显著增强了用户在城市道路和复杂路况下的驾驶体验。在底层感知技术方面,通过时序算法的优化提升,对障碍物测距测速KPI提升约5%。南湖采用低端算力平台创新性地整合了NPU、GPU及BSP等计算资源,实现了包括ACC自适应巡航、LCC车道居中辅助、LDW车道偏离预警、LKA车道保持辅助、拨杆变道、AEB自动紧急制动以及FCW前向碰撞预警等核心功能的系统化集成。
东湖产品(中高算力环周一体NOA解决方案),面向高阶智能驾驶辅助的中高算力环周一体产品方面,成功构建了基于端到端架构NOA的新产品形态,实现行为可解释、意图有根据的智能辅助驾驶解决方案。通过感知与规划的解耦设计,在保持端到端技术优势的同时,确保了系统决策的可追溯性与可解释性,为高阶智能驾驶辅助的量产化设计奠定坚实基础。在具体技术架构方面,实现了多项关键算法模块的突破性进展:基于BEV模型架构的路线,支持和优化了复杂道路环境下车道线及道路中心线的高精度检测,在全域基线上实现10%以上的显著提升,通过与SD导航数据的深度融合,在模型端构建了业界具有竞争优势的无图超视距感知解决方案;为应对开放环境下的复杂避障需求,成功部署了OCC(3D通用障碍物占据栅格)算法,通过多轮深度迭代优化,显著降低了杂点干扰和障碍物误报率,提升了系统在动态环境中的感知稳定性和决策可靠性;面向NOA功能需求,开发了端到端规划算法,通过学习人类驾驶行为模式,实现更加智能化、拟人化的驾驶体验,在复杂交通场景下展现出卓越的适应性和决策合理性。在系统性优化方面,深度完善多任务学习架构,通过优化任务间的特征共享机制和损失函数设计,充分释放算力潜能,支持多项新功能的并行运行;充分考虑了感知帧率、感知延迟、感知精度实现了算力动态分配,关键场景下计算资源利用率提升30%以上。基于“BEV+端到端”技术的定制和改进,提升了探测距离、感知范围、异形车、分汇流道路线、测速等多项核心指标,L2典型场景通过率环比提升23%,用户交互界面(HMI)主观感受提升26%。除此以外,视觉与毫米波雷达融合功能开发完成,已适配多款雷达,使产品形态进一步拓展。东湖产品目前已进入实测优化阶段,采用先进的BEV技术方案,完整覆盖感知、预测、定位、规划和控制等全链路模块,已完成NOA初版的开发。
(28)图像特效
基于丁达尔效应产生的物理原理,选择合适的场景对仿真实现进行合理的简化和模拟,最终实现一套结合AI和CG的方法,为特定的场景图像添加上合适的丁达尔特效效果,提升图像艺术感。人像线条画效果和宠物线条画效果,这两种效果都结合了AI技术和审美的艺术,通过AI算法提取出具有表现力的线条,然后根据审美的评判制定一些准则将原始图像转换为一幅线条艺术画。目前二者都已实现手机端部署,并有参数控制线条粗细、颜色、数量等,从而满足不同用户的自适应调整需求。
光照耀斑项目基于对物理世界相机镜头与光照规律的精确建模,通过模拟实际镜头的参数,设计任意预想的耀斑效果。在用户拍照时添加耀斑效果,能显著提升图像的层次感和真实感。同时,精心设计的耀斑样式还能提升图像的艺术美感。该算法结合了光照方向检测,能够根据当前光照环境自动调整耀斑样式,以确保耀斑效果与当前场景自然贴合。目前,该项目已在手机端部署,并包含耀斑颜色与样式设计模块,可以满足用户获取不同耀斑风格的需求。
Flair Clip人像风格化效果通过无监督、少样本地学习特定风格的图像,将图像风格迁移到目标人像中,同时保留人物的可识别特征,实现了数据需求量低、效果稳定、帧间连续性好的人像风格迁移算法,并在服务器端进行了部署,同时向客户递交了一些测试通过的风格化模型进行商用。
Personal Color Tone技术旨在通过个性化定制打破当前设备端内置滤镜的局面,允许用户创建新的基于学习方案的滤镜风格,包含局部调整(比如肤色)。首先,用户根据个人喜好在app上编辑素材,得到自己想要的风格图,然后直接在设备端进行在线训练,快则几分钟,慢则30分钟就能得到目标风格模型,视素材量而定。用户在后续拍照时,只需要选择训练好的风格模型,就能得到目标风格图像。小巧轻便的模型设计是关键,大大减少用户等待的时间,提升用户体验。
(29)生成式AI(AIGC)
通过深入的尝试与研究,基于潜心沉淀的视觉大模型、小模型(细分模型与浅层模型)以及各类CV和CG引擎包构建了一套专有的计算技术引擎ArcMuse。该引擎为虹软PSAI赋予了卓越的智能商拍能力,可高质量生成服装模特展示图、服装展示图、商品展示图及模特展示视频,全方位提升商拍图片及视频的美感和质感,助力用户在效率、创意和成本方面取得更大的提升。
对于其中的AI智能试衣功能,用户只需要上传一张服饰图,选择目标模特,即可生成该模特穿着该服饰的效果图。对于服装智能试穿,该效果图能够真实体现服饰穿着在模特身上的悬垂感、褶皱及光影变化等,且与真实服饰保持较好的一致性。其中的服饰图可以支持挂拍服饰图、平铺服饰图及3D服饰图,且支持上装、下装、裙子等多个品类的服饰。目标模特同时支持内置模特和用户自定义模特,其中内置模特覆盖不同年龄、性别、肤色等,用户自定义模特可由用户根据自身需求上传相应图像。该功能基于虹软自研扩散模型基础架构及海量数据训练,能够极大简化传统真人模特拍摄的流程和效率。
AI智能试穿解决方案持续改善算法,拓展新功能,形成了一套更完整的解决方案。首先,服装智能试穿解决方案本身持续进行了多项改进:大幅提升了当目标服饰与参考姿势图服饰有较大差异时的成功率;进一步改善了细节生成,提升了文字、印花、质感等的准确性和一致性;支持了高清试衣解决方案,增加细节并保持与参考衣服图的高度一致性。同时,支持生成一组服装相同、姿势不同的组图,能保持组图间服装颜色、版型、穿着方式等的高度一致性,提升出图成功率。除此之外,AI智能试穿解决方案还在试衣的基础上,扩展了多个新功能,新支持了鞋子上脚功能,给定鞋子商品图及参考模特姿势图,生成鞋子上脚效果图。持续优化版型正确率,特别是目标鞋子与参考姿势图中鞋子有较大版型差异场景下的生成准确率,以及优化了文字、印花、鞋带、材质等细节的准确性和与鞋子商品图的一致性。
得益于模型、数据、算力的大幅增长,AI智能试衣解决方案实现了多项重大更新与重要突破,具体表现为:覆盖服饰品类更多,整体成功率、结果图与衣服一致性、版型正确率、文字与印花准确性均获得显著提升,面料及纹理质感明显改善,生成的手部区域在正确性及自然性上大幅优化,并扩展支持复杂姿势及背景的参考模特图;同时实现了衣服是否塞入裤子、拉链与扣子开合状态等维度的可控生成。通过对用户需求反馈的持续优化迭代,该方案已达成行业领先水平,有效助力公司PSAI项目为服装商家提供兼具优质效果、快速响应与降本增效特性的解决方案。
同时,针对目前项目落地中服饰品牌客户的真实需求,支持了同版型替换功能和局部重绘功能。在输入服饰与模特身着服饰版型相同时,同版型替换功能能够输出相同版型的服装上身图像,服饰上身效果更加稳定,细节纹理更加贴合服饰原图。服饰局部重绘功能针对智能试衣中出现的局部版型和纹理错乱的问题,框选需要修改的区域后进行局部修改,可以明显提升出图效率。
对于其中的AI模特图功能,用户上传一张真人图后,PSAI将智能保持用户提供图片中的服装信息,在生成阶段,PSAI为用户提供丰富多样的预设模特和场景资源选择。对于其中的换模特功能,提供的预设模特包括不同年龄、性别、人种和风格的模特,例如儿童、中年和老年,网红风、韩风、美式复古风等。报告期内,PSAI在风格模特的基础上推出了独特的换头功能。该算法在保持服装和背景高度一致性的条件下,对上传图进行模特替换,极大提高了模特定制速度和生成效率。同时该算法支持生成各个角度包括背身的高度一致性图像,为多角度一致性模特生成提供了稳定且高效的算法流程。该技术会修改图像的面部区域,并迁移脸型、发型等头部特征,从而实现更高的相似度。经过多次技术迭代,解决了发型差异大、大角度侧脸、仰头、低头等极端姿态下的人脸相似度问题。
对于其中的换背景功能,PSAI提供上百种不同预设场景风格的选择,包括影棚等各种室内场景,以及森林、雪山、草原、沙漠等室外场景。通过迭代优化,不断丰富AI模特和场景的细节,提高出图率,这些多样化的资源和提高的出图率将帮助用户在提升效率、创意和降低成本方面取得更大的进步。同时,PSAI支持了用户通过提示词自主描述模特场景,或上传场景参考图,丰富了场景来源和选择性。真实而风格迥异的模特形象,可以吸引更多目标消费者的注意力,增强商家的品牌形象。针对用户文本交互,PSAI推出了自己的大语言模型,用于将任意语言、格式和内容的用户输入转换为适合模型输入的精准提示词,降低了用户的语言和知识门槛。同时,PSAI也接入了DeepSeek作为扩充,增强了复杂用户输入的推理能力。通过迭代优化,不断提升场景的细节和真实性,提高出图率,这些多样化的资源和提高的出图率将帮助用户在提升效率、创意和降低成本方面取得更大的进步。
对于其中的AI商品图功能,用户只需上传一张商品图,即能够智能保持商品主体信息,并基于ArcMuse计算技术引擎大模型和众多引擎组件的生成与控制能力,高效地生成多种场景和风格的精美广告图,大大降低了商品图的制作成本。为了达到商品与场景的完美融合,提供多种预制场景供用户选择。通过在算法层面对生成过程的精细控制,使得生成的场景更加真实、效果更加自然。同时,针对用户的个性化需求,还支持了任意画幅比例生成、预制素材库、上传参考图等功能,允许用户自主控制画面的构图、元素、色彩和风格。报告期内,新增支持了眼镜试戴、商品换色功能。其中,眼镜试戴功能只需要用户上传一张人像图、一张眼镜商品图,即可获得真实自然的眼镜试戴的效果图。支持的眼镜种类包括透明、半透、墨镜、全框、半框等多种款式,效果处于行业领先水平。商品复色功能允许用户上传商品图,并指定换色区域和目标色号,即可获得纹理细节相同,颜色为目标色的同款商品效果图。同时,基于底模型强大的语义理解能力,该算法支持的商品种类广泛,可以为衣服换色、头发染色、商品外包颜色设计等多种应用提供支持。
对于AI模特视频生成功能,用户仅需要上传一张全身模特照片,即可生成各种复杂动作,高保真地展现和还原模特穿上服装后的动态效果,以及衣服的物理效果。它基于ArcMuse计算技术引擎大模型的生成能力,能够保持模特自然的写实效果,无论是正面、侧面、大角度都可以高保真生成和还原,同时可以完美地还原服装物理效果,如裙摆的飘动,完美地表现模特穿上服装之后优雅的风采和神态。该技术使用便捷,生成的视频能够很好地保持输入图像的人物脸型、发型、服装、配饰等外观,也能较好地保持图像背景不变。同时,能够很好地表现大角度的人脸以及生成转身的效果。报告期内升级了动作模仿视频生成技术,新方案效果在画面的清晰度、连续性及服装的一致性等方面提升明显。此外,通过压缩历史帧及自回归预测等方案解决了长时间视频生成的问题,可以在长达一分钟的时间内保持主体的一致性。
除以上四种核心AI技术,PSAI还提供智能补光、智能美化、魔法擦除、高清尺寸放大和智能抠图等AI编辑功能,既可提升商拍成品图的美学特质,也为用户创作提供了更大的发挥空间。
(30)泊车辅助系统(AVM/APA/HPA)
AVM技术在效果呈现上,注重细节提升,精益求精。首先,在透明底盘视觉效果上,针对车身阴影导致的画面分层问题,通过多场景数据采集与分析,迭代优化显示策略,在保障画面清晰度的同时,显著提升了底盘画面的整体观感与一致性。其次,在画面亮度与色彩一致性方面,针对高动态范围、复杂光照等极端环境下的亮度不均、过曝过暗及亮度闪烁问题,系统实施专项优化,有效增强了图像色彩的稳定性和自然度。在平台化、性能和效果等方面延续既有技术优势,为泊车系统提供可靠的环视感知基础。
在L2级行泊一体解决方案中,自动泊车辅助(APA)和记忆泊车辅助(HPA)是其重要组成部分。APA功能能够在无需驾驶员干预的情况下自动完成泊入动作,而HPA则允许用户在完成一次路线行驶后,再次到达相同停车场时基于历史建图自动完成循迹泊车。本报告期内重点围绕APA自动泊车功能的场景扩展、感知精度提升和行为智能化等维度实现了系统性技术升级。
①复杂环境适应性增强:成功支持长草遮挡的不清晰车位、低矮台阶上车位等复杂环境下的泊车需求;
②极限空间泊车能力突破:成功支持自车+0.6米空间的超窄空间车位泊入,通过优化空间车位检测逻辑,显著扩展了可泊车场景范围。
①边际场景识别能力增强:成功支持肉眼几乎不可辨的泊车空间识别,通过深度学习算法优化,为用户提供合理的推荐车位结果;通过融合时序信息,在自车遮挡车位的泊入过程中持续提供角点和边线精度误差<2cm的高精感知检测结果;通过精心调节观测量融合策略,定位精度进一步优化,在<8°的坡道场景中泊入终态达标率提高30%以上。
②在避障检测方面,优化了限位器感知方案,提供更准确的限位器在车位中的精度定位,使泊车的深度终态更合理,避免碰撞挤压限位器导致不良体感;通过迭代老园区和低矮镜头的引擎,提升了复杂环境下的感知稳定性,支持更多车型适配;优化了动态目标的实例化测距测速,为泊车过程中的会车和避让行人提供更流畅体验;进一步优化场景识别模块,采用不同的模型和模式综合提升泊车体验。
本报告期内泊车感知团队面向中低算力平台的技术架构继续深入迭代,基于特殊的鱼眼BEV算法构建的端到端感知架构实现重要升级:感知纵深范围提升50%,并支持更多种类的悬空障碍物感知,通过3D占据栅格表示的进一步优化,3D空间理解能力提升,显著提升了对复杂立体停车环境的适应能力。体素OCC与高度场结合的方案在保持计算效率的同时,实现了厘米级地面精细感知的持续优化,为极限场景下的自动泊车提供更可靠的环境理解能力,有效提升了APA与HPA功能在复杂场景中的鲁棒性。
APA自动泊车规控在泊入行为智能化方面实现重要进展:决策模块支持规划偏移功能,用户可自由选择泊入居中或偏向某一侧便捷下车的个性化偏好,实现千人千面的泊车体验;支持自适应的终态调整,当观测到周围环境发生变化后自动提供更合理的泊车终态;支持划线自选车位的能力,为用户提供更灵活的车位选择方案,优化泊车交互流程。在路径规划方面,通过场景识别功能的完善,支持更多复杂场景下的掉头再泊入功能,并结合弹性优化策略在不同空间条件下提供差异化的路径平滑方案。在泊车效率与体验优化方面:泊车速度提升至最大5kph,常规车位实现一把入库泊车时长缩短至27秒;适配动态路径调整机制并实现止位器泊车路径截断功能,从而优化泊车终态合理性和流畅性;结合减速带感知信息优化通过策略,通过被动式调整控制量优化小坎通过性并有效抑制溜坡现象,显著提升复杂地面环境下的泊车体验。在控制算法精细化优化方面,APA横向控制算法实现重要技术升级,显著提升控制稳定性与响应精度。在泊车全流程中横向控制舒适性得到显著改善,终态误差控制能力大幅提升,验收案例测试中终态误差验收通过率达98.7%以上。同时,自动泊车路径平滑算法完成深度优化:完善双层循环锚点迭代优化流程,增强路径退化处理与自适应优化策略。路径平滑性能显著提升,曲率突变问题大幅减少,整体平滑成功率提升至96.5%,有效保障控车过程的平顺性与可控性。
泊车决策模块进一步完善了遥控泊车(RPA)等远程泊车功能。基于现有感知,在泊入过程中对动态静态障碍物有更好的逻辑交互,能够实现行人避让等功能;在泊入车位时,能够针对车位内部实时感知的障碍物信息(限位器/各类障碍物/车位边界线),决定泊入终态,实现更加拟人化的泊入体验;当泊入过程中遇到路径受限情况,能够主动逼停并进行路径重规划。在用户体验上,新增倒车循迹、泊车偏移、头泊入、自选车位等个性化体验,满足不同场景的泊车需求。
在技术优化方面,公司通过算法升级显著提升了泊车路径搜索速度,减少无效路径规划;针对不同场景下的车位决策和规划进行深度适配,大幅提升了复杂场景下的泊车成功率;通过优化碰撞检测模型,空间利用率提升15%,有效拓展了适用车位范围。该方案在与多家行业竞争对手的技术比拼中脱颖而出,得到了多家主机厂的认可。在路径平滑算法方面,采用多场景路径平滑技术,使规划曲线更加灵活流畅,显著提升了控制模块中横向与纵向跟踪控制精度,特别是在应对减速带、过坎、坡度等特殊场景时表现出色,控制稳定性达到行业领先水平。这些技术突破建立在公司前期APA技术积累基础上,此前已实现垂直车位、平行车位、斜列车位的全场景覆盖,并完成立体车库泊入验证。
在HPA技术方面,公司突破性地构建了大范围语义泊车地图,精准识别车位、立柱、地表标志等关键元素,定位精度提升50%,重定位成功率大于96.8%。规划控制模块实现了高精度的循迹代客泊车功能,无论是直行、转弯还是绕行场景,都能确保车辆严格沿记忆路线行驶。这一系列技术创新不仅巩固了公司在自动泊车领域的技术领先地位,更为后续全场景智能泊车解决方案的开发奠定了坚实基础。
(31)三维渲染引擎
三维渲染引擎提供了渲染、动画、UI等完整的图形引擎解决方案。渲染模块内置基于物理的HDR渲染管线,支持glTF文件格式,符合glTF的材质和渲染标准,可以加载大量高质量3D模型,与通用材质模型兼容,可以渲染多种材质如金属、塑料、玻璃、皮肤、车漆、车灯、皮革等。重构渲染管线,支持前向渲染及延迟渲染,支持多种反走样方案,提升渲染真实度。动画系统实现了播放及编辑模型预置骨骼动画,基于人体捕捉系统,可以实时驱动数字角色。额外支持弹簧振子系统,有助于实现头发、衣服等物体跟随摆动。为满足车载业务,开发节点动画和形变动画具有可编辑功能,从而满足三维雷达墙、相机环视等复杂动效。HMI方面在原有2D UI方案上升级为3D UI,可以在三维场景中实现引导线,轨迹线等车载相关业务需求。引擎系统模块提供丰富接口,让开发者自由组织三维场景内容,支持多种平台,已经为移动端、PC、服务器端提供稳定且高效的渲染效果。为了让用户获得更加优质的SR效果,引擎内置物体运动补偿,抖动、突变异常判断功能。针对车载低算力座舱平台,我们优化了调度指令和资源预编译系统,引擎初始化时间减少70%。优化渲染指令调用,减少50%的CPU耗时。针对车载HMI多物体渲染优化如下功能:添加场景管理,减少视野外物体所带来的额外性能消耗,CPU与GPU交互时间降低30%;支持GPU压缩纹理,进一步减少初始化时间;优化内部数据结构,相同材质球模型绘制合并,减少内存访问次数。为车载HMI提供定制化需求,支持多视角渲染、车道线优化,天气系统。着色器支持离线编译及自动更新,解决客户更新GPU后着色器不兼容的问题。由于急剧增多的车型需求,我们推出了AVM、APA编辑器,提升项目美术资源的制作、验证效率。
(32)图像修补技术
修补(Inpainting)技术是一种恢复图像与视频中缺失区域的技术,目标是让修补后的图像在视觉上自然协调,尽可能接近真实场景。修补的区域可以是被遮挡的内容、损坏的部分,或者是需要去除的对象(如水印、路人、障碍物等)。
图像修补技术,用户上传一张图像,通过交互界面选取希望填补的区域,即可生成自然的修补结果,修补区域内的图像内容与外围区域保持协调,边缘部分过渡平滑。针对任务难度及性能要求的不同,在手机端落地了两套不同的算法方案。精简版方案在确保基础修补效果的同时,重点优化模型参数量与计算量,满足手机用户对通用场景实现快速修补的需求。算法通过设计前景物体感知掩码,修补背景时避免融入前景信息。该技术支持任意大小的图像和任意形状的修补区域,生成内容清晰、自然、合理,具有较强的维持原有结构的能力,可以满足大部分用户需求。完整版方案利用稳定扩散模型的可控生成与图像编辑能力,进一步提升修补质量,优化细节还原与纹理生成,使生成结果更加无缝自然,减弱视觉突兀感,确保修补区域与原始图像高度融合。结合公司自研的高精度路人分割算法,搭建了一套完整的路人擦除方案,并着力优化主体遮挡、极小面积路人、复杂姿态等困难场景的处理结果。
视频修补技术,视频目标分割模块根据目标特征,在整段视频中跟踪用户选取的目标物体,输出像素级分割结果。通过优化特征匹配算法和记忆模块,提升了算法在多目标、小物体和遮挡等情况下的分割掩码的准确性和稳定性。通过模型压缩合并、蒸馏等技术手段,大幅提升了算法在设备端的性能,单帧处理速度满足实时要求。同时,针对AI编辑中常用的路人消除功能,开发了智能路人检测分割算法,能够在复杂场景下对背后路人进行精准的自动识别和分割,可大幅提升功能的易用性和用户体验。光流估计和补全模块是视频修补技术中的重要环节,结合光流估计与区域填充技术,通过引入端到端的二合一网络,避免了多步误差累计,提升了复杂动态场景下的光流补全质量和泛化能力。同时针对手机端做高效性能优化,降低计算开销,将单帧处理时间从1000+ms压缩至10ms,使算法速度和精度上均达到项目要求。视频修补模块基于视频序列与目标分割结果,利用光流建模时序运动信息,估计待修补区域的位移数值,创新性地提出累积误差截断、关键像素缓存等算法策略,改善了复杂场景下的模糊问题与光影问题。此外,基于并行计算、模型蒸馏量化等一系列方法,将整套视频修补方案成功部署到手机端。
2、报告期内获得的研发成果
公司持续保持高强度研发投入,围绕视觉人工智能技术及各核心应用领域,深入开展知识产权布局。截至2025年6月30日,公司拥有专利296项(其中发明专利270项)、软件著作权159项。相较于2024年末,报告期内净增发明专利6项、软件著作权5项。
3、研发投入情况表
4、在研项目情况
5、研发人员情况
6、其他说明:
四、报告期内主要经营情况
报告期内,公司实现营业收入41,034.85万元,较上年同期增长7.73%;实现归属于上市公司股东的净利润8,853.61万元,较上年同期增长44.06%。
五、风险因素
1、技术升级迭代风险
公司所处的视觉人工智能行业技术升级迅速,是典型的科技驱动型行业,产品更新换代频繁,市场对技术与产品的需求不断提高,更多的视觉人工智能技术正被运用到各类智能终端。作为一家以研发和技术为核心驱动力的企业,如果公司不能正确判断和及时把握行业的发展趋势和技术的演进路线,并投入充足的研发力量布局下一代的视觉人工智能技术研发,可能导致公司无法保持当前的技术领先性,从而对公司未来的经营产生不利影响。
在移动智能终端领域,智能手机市场的需求变化较快,相关技术的迭代周期较短,迭代周期约为1-2年。如果公司未能及时更新升级相关技术或根据市场需求成功开发出新产品,则公司可能出现技术落后、技术迭代不及时等情况,从而导致市场占有率大幅下降。在AI眼镜、XR3D空间计算头显等方向,公司进行了一系列前瞻性的技术和业务布局,但若无法抓住未来市场涌现的机遇尽快获取客户,则可能导致错失发展机遇的风险。在智能汽车领域,当前产业竞争加剧,如公司无法快速与OEM合作伙伴推出有竞争力的量产产品,则公司可能面临错失发展机遇的风险。
2、市场竞争风险
公司所处行业发展前景广阔,近年来参与者不断增多,并不断加大技术研发及市场开拓的投入,行业竞争加剧。众多企业凭借其在特定细分领域的优势参与各垂直应用领域的竞争。若公司不能持续有效地制定并实施业务发展规划,保持技术和产品的领先性,则将受到行业内其他竞争者的挑战,从而面临市场竞争加剧而导致的毛利率下滑和市场占有率下降的风险,进而影响公司的经营业绩和发展潜力。
3、核心技术泄密的风险
公司销售的各类产品均基于公司独立研发积累的大量计算机视觉核心技术。为保护公司的核心技术,公司制定了严格的保密体系,但上述措施仍无法完全避免公司核心技术泄密的风险。未来如果公司相关核心技术内控制度不能得到有效执行,或者出现重大疏忽、恶意串通、舞弊等行为而导致公司核心技术泄露,将对公司的核心竞争力产生风险。
4、新业务开发和拓展风险
公司经过数十年的发展,积累了大量视觉人工智能的底层算法,这些底层算法具有通用性、延展性,除了可以广泛运用于智能手机外,还可应用于AI眼镜、XR3D空间计算头显等其他消费电子产品以及智能汽车、智能商拍、智能保险、智能零售、智能家居、医疗健康等多个领域。
新业务的成功与否既受到行业发展状况、市场需求变动以及市场竞争状况等因素影响,又受到公司对新领域的理解、认知、推广力度及与伙伴的合作等诸多因素影响。因此,公司对新业务开发和拓展可能不及预期。如果公司在新领域产品开发或市场推广效果不佳,或者出现其他不利因素,将可能导致公司新业务开发失败,从而对公司未来的经营业绩产生不利影响。
5、主要客户采购量减少的风险
报告期内,公司前五名客户销售额为27,179.01万元,占销售总额的66.23%。如果智能手机出货量下滑、主要客户业务发展战略发生调整、主要客户因供应链短缺等原因延迟推出新机型或者其他不可预知的原因导致对公司产品的采购需求下降,则会对公司整体经营业绩产生不利影响。
6、核心人才流失、未能招募足额的优秀人才及人力成本上升风险公司所处的视觉人工智能行业近年来发展蓬勃,对人才的需求量较大。公司的业务发展,需要一批稳定的研发技术人员、产品化人才及管理人才,这些核心人才对于公司业务的发展壮大起到至关重要的作用。
公司的成功取决于不断吸收和留住高水平的研发、产品、销售和管理人才。尽管公司通过内部培养及外部引进逐步形成了较为稳定的核心人才团队,并通过树立企业文化、优化薪酬体系、改善工作环境、完善绩效考核机制等方式完善了人才培养体系,但是,仍然可能出现核心人才流失的情况,从而给公司业务带来不利影响。
公司所处行业内企业对于优秀人才的竞争越来越激烈。如果公司未能招募到满足公司业务发展需求的优秀人才,则会对公司的业务发展产生不利影响;如果公司在人力成本上的投入增长速度持续高于收入的增长速度,则会对公司的短期经营业绩产生不利影响。
7、管理能力不能满足业务发展需求的风险
目前,公司已积累了适应业务快速发展的经营管理经验,完善了相关内部控制制度,逐步实现了公司内控制度的完整性、合理性和有效性。随着新业务的深入推进,公司资产规模和经营规模扩张,在研究开发、市场开拓、资本运作、内部控制、运营管理、财务管理等方面对公司的管理层提出更高的要求。若公司的组织模式、管理制度和管理人员未能适应公司内外环境的变化,将给公司持续发展带来不利影响。若公司管理水平不能快速适应不断扩大的经营规模,解决上市公司经营管理面临的新课题,也将对公司发展带来不利影响。
8、行业风险
目前,公司提供的视觉人工智能解决方案主要应用于智能手机、智能汽车行业,主要客户包括了三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商以及国内主要的自主品牌、部分合资品牌、外资品牌汽车主机厂商。报告期内,公司移动智能终端视觉解决方案业务收入为33,932.23万元,占公司营业收入比例为82.69%,公司下游主要客户集中于智能手机市场。
公司智能手机视觉解决方案收入与智能手机和摄像头的出货量虽无明显线性相关关系,但如果智能手机出货量下滑、摄像头出货量出现下降,主要智能手机业务客户发展战略发生调整或者其他不可预知的原因导致对公司的智能手机计算机视觉解决方案的采购需求下降,则会对公司经营业绩产生不利影响。智能汽车业务方面,若行业竞争加剧,公司技术及产品竞争力不足,客户业务发展战略发生调整、客户自身业务发展状况发生改变或供应链紧缺等,可能导致公司智能汽车业务进展不及预期,以上因素可能会对公司经营业绩产生不利影响。
9、宏观经济风险
公司主要从事视觉人工智能技术的研发和应用,主要产品有移动智能终端视觉解决方案、智能汽车及其他AIoT智能设备视觉解决方案,主要终端应用领域包括智能手机、笔记本电脑、智能可穿戴设备等消费电子产品以及智能汽车等,应用领域对国内外宏观经济、经济运行周期变动较为敏感。如果国内外宏观经济发生重大变化、经济增长速度放缓或出现周期性波动,公司主要客户因终端需求下滑、调整自身市场计划,或因供应链短缺等原因延迟推出新产品而对公司采购需求下降,且公司未能及时对行业需求进行合理预期并调整公司的经营策略,可能对公司未来的发展以及经营业绩产生负面影响。
10、贸易摩擦风险
随着公司经营规模的不断扩大,公司人员增加、结构优化导致各项费用增加,同时在国际贸易摩擦的背景下,国外客户受美国制约可能向公司减少采购,国内外客户受制于贸易摩擦或其他因素导致的自身销量下降进而可能对公司采购下降,以上因素可能会对公司的短期业绩形成不利影响。
11、税收优惠的不确定性风险
报告期内,公司及子公司享受了一系列增值税税收优惠、所得税税收优惠,尽管税收减免对公司业绩的影响有限,但如果未来公司所享受的税收优惠政策出现不可预测的不利变化,或者在税收减免期内公司不完全符合税收减免申报的条件,则公司将在相应年度无法享受税收优惠或存在所享受的税收优惠减少的可能性。公司税收优惠政策可能的变化会使公司未来经营业绩、现金流水平受到不利影响。
12、汇率波动风险
虹软科技是一家全球化公司,在海外多地拥有经营主体,且客户分布韩国、日本、台湾地区、美国及欧洲等各地,报告期内公司来源于境外的收入占比为37.28%,上述境外业务使用外币进行结算,受到人民币汇率水平变化的影响。随着公司业务的发展,公司外汇结算量将可能进一步增加,同时人民币汇率受国内外政治、经济环境等综合因素的影响,存在波动风险,进而对公司的经营业绩产生不利影响。
13、应收账款收回风险
截至报告期末,公司应收账款账面余额为33,135.53万元,较期初增加7,092.71万元,增加部分主要为应收移动智能终端业务客户,该类客户信用较好。如果未来宏观经济形势发生不利变化,客户经营状况发生重大困难,公司可能面临应收账款无法收回而增加坏账损失的风险。
14、诉讼风险
在业务发展过程中,公司可能面临各种诉讼、仲裁。公司不排除在经营过程中,因公司业务、人力、投资等事项而引发诉讼、仲裁事项,从而耗费公司的人力、物力,以及分散管理的精力。公司实际控制人Hui Deng(邓晖)于2019年9月出具承诺,针对“Marc Chan、Lei Li及其家庭基金诉讼事宜”,如发生任何纠纷(包括但不限于诉讼、仲裁、索赔等)给公司造成任何经济损失(包括但不限于支付赔偿款、律师费、诉讼费等)均由公司实际控制人Hui Deng(邓晖)独立承担。截至目前,双方均已提起上诉,上诉结果存在不确定性。
15、母子公司多层架构的风险
公司下设多家境内外子公司,层级较多,公司面临各国法律及税收的监管要求。如果未来境外子公司所在国家或地区法律及税收的监管要求发生不利变化,同时公司实际控制人、管理层缺少相应的管理经验和能力,将增加公司管理协调的难度,带来经营管理风险,从而对公司业绩造成不利影响。如果未来境外子公司所在国家或地区对于现金分红、资金结转等事项进行严格监管,可能对公司下级子公司的经营利润逐级分配至母公司构成一定障碍,可能造成母公司没有足额资金进行现金分红的风险。
16、知识产权侵权风险
公司坚持自主创新的研发路线,经过多年的技术开发和业务积累,掌握了多项核心技术,拥有发明专利270项、软件著作权159项。公司的商标、专利、软件著作权等知识产权对于公司的业务经营至关重要,公司建立了完善的知识产权维护机制以保护公司的知识产权免受侵犯。但是,考虑到知识产权的特殊性,第三方侵犯公司知识产权的情况仍然有可能发生,从而导致公司为制止侵权行为产生额外费用,对公司正常业务经营造成不利影响。
同时,虽然公司一直坚持自主创新的研发战略,以开发自有、底层技术为主要研发路线,以避免侵犯第三方知识产权,但仍不排除少数竞争对手采取恶意诉讼的市场策略,利用知识产权相关诉讼等拖延公司市场拓展,以及公司员工对于知识产权的理解出现偏差等因素出现侵犯第三方知识产权的风险。
收起▲
一、经营情况讨论与分析 公司专注于计算机视觉领域,为行业提供算法授权及系统解决方案,是全球领先的视觉人工智能企业,始终致力于视觉人工智能技术的研发和应用,坚持以技术创新为核心驱动力,在全球范围内为智能设备提供一站式视觉人工智能解决方案。 作为全球影像视觉技术的赋能者,公司秉承成就客户、创造价值的理念,持续自我突破并挑战新的技术边界,致力于在产业迭代的潮涌中破浪前行,在成就客户的过程中创造企业价值。2024年,公司坚定不移地贯彻创新驱动的企业发展战略。在移动智能终端领域,公司持续发力,进一步巩固并拓展了技术与市场优势。与此同时,公司以开拓新增长曲线的决心,深度布局智能汽车领域,全力开拓新...
查看全部▼
一、经营情况讨论与分析
公司专注于计算机视觉领域,为行业提供算法授权及系统解决方案,是全球领先的视觉人工智能企业,始终致力于视觉人工智能技术的研发和应用,坚持以技术创新为核心驱动力,在全球范围内为智能设备提供一站式视觉人工智能解决方案。
作为全球影像视觉技术的赋能者,公司秉承成就客户、创造价值的理念,持续自我突破并挑战新的技术边界,致力于在产业迭代的潮涌中破浪前行,在成就客户的过程中创造企业价值。2024年,公司坚定不移地贯彻创新驱动的企业发展战略。在移动智能终端领域,公司持续发力,进一步巩固并拓展了技术与市场优势。与此同时,公司以开拓新增长曲线的决心,深度布局智能汽车领域,全力开拓新市场、挖掘新客户、寻求新伙伴合作。着眼产业发展趋势,公司开展前瞻性技术培育,通过创新打造面向未来的领先优势与核心竞争力。通过一系列举措,公司核心竞争力得以深度夯实,新质生产力在各项业务中成功落地实践,为企业实现高质量、可持续发展筑牢根基。
2024年,尽管全球宏观经济挑战仍存,但受益于部分新兴市场复苏、AI技术推动,以及厂商积极的市场策略等,全球智能手机出货量迎来积极变化。据Counterpoint统计,2024年度全球智能手机出货量同比实现4%的正增长。受益于行业整体的温和复苏,以及依托公司在视觉人工智能领域的绝对领先优势,2024年度,公司智能手机业务收入延续良好增长势头,在此带动下,公司移动智能终端视觉解决方案实现营业收入67,526.11万元,同比增长16.17%,创下该业务史上最高收入记录,彰显了行业领先的长期价值创造能力。
2024年,虽然面临着外部环境变化、行业竞争加剧、汽车消费内生动力欠佳等挑战,但由于一系列政策持续发力显效,各地补贴政策有效落地,多措并举共同激发汽车市场终端消费活力。据中汽协统计,2024年度中国汽车产销量完成3,128.2万辆和3,143.6万辆,同比分别增长3.7%和4.5%。其中,全年出口量585.9万辆,同比增长19.3%,再上新台阶。随着公司在智能汽车领域持续开拓定点项目,并稳步推进项目实施,各项目在其生命周期内逐步释放价值,2024年度,公司智能汽车业务收入迎来大幅增长,公司智能驾驶及其他IoT智能设备视觉解决方案实现营业收入12,718.80万元,同比增长71.20%。
2024年,公司保持高水平研发投入,全方位保障技术创新、产品创造和行业应用拓展,牢牢把握发展先机。2024年度,公司研发费用共计39,785.10万元,占营业收入的48.81%。截至2024年末,公司研发人员586人,占员工总人数的62.47%。
报告期内,公司实现营业收入81,517.35万元,同比增长21.62%;实现归属于上市公司股东的净利润17,668.58万元,同比增长99.67%。公司重点开展并推进了如下工作:
(一)强化市场领先地位,引领移动影像技术与体验革新
1、TurboFusion全机型渗透,AI驱动影像视频革新
2024年度,公司智能超域融合(TurboFusion)技术面向全机型的渗透率继续提升,进一步巩固了公司在移动影像领域的领先地位。公司TurboFusion技术已完成从旗舰机型到高端、主流机型的全面渗透,核心影像解决方案在多个客户机型中实现商业化落地。通过优化算法和硬件适配,TurboFusion在中低端机型市场也实现了规模化落地。
在场景化方案上,新增了运动抓拍、AI人像光影重构等细分功能。运动抓拍功能通过优化算法和硬件协同,实现了高速运动场景下的清晰成像。AI人像光影重构则通过深度学习技术,为人像照片提供更自然的光影效果。
在端侧AI计算能力方面,公司继续探索生成式AI与TurboFusion技术的深度融合,优化了图像在夜景、逆光、长焦等场景的基础画质,推动了影像计算智能化升级。
在视频领域,TurboFusion的视频解决方案已实现方案落地,为2025年视频方案的规模化奠定了基础。这一进展标志着TurboFusion技术从静态影像向动态视频的全面扩展。
2、加码AI眼镜业务投入,驱动场景化应用落地
随着AI技术的迅猛发展与XR产业的逐步成熟,AI眼镜市场展现出巨大的潜力。凭借对市场趋势的精准研判,公司于2024年度加大对AI眼镜业务的投入力度,并取得了一系列关键进展。
在产品研发方面,公司致力于提升AI眼镜的影像清晰度与影像质量。结合端侧轻量化模型,公司成功构建并开发多项高度适配AI眼镜的高清影像处理算法,大幅提升成像视觉美感的同时,还可有效降低噪点,实现成像效果在清晰度和细腻度层面的显著提升。针对AI眼镜特有场景需求,公司系统性地优化了覆盖商务、直播、抓拍、交互等核心应用场景的专业算法解决方案,并创新研发适配大模型的算法,帮助精准体现用户交互意图、充分发挥大模型能力。
为确保影像算法在硬件平台上的高效运行,公司针对市面上主流AI眼镜芯片进行了全栈适配分析。在产业生态的构建上,公司与高通建立了深厚的合作关系,双方围绕AR1Gen1芯片平台深入协作,从软硬件层面挖掘潜能,优化性能与功耗表现,为AI眼镜的影像与AI交互体验提供了有力支撑。
公司与多家知名AI眼镜品牌商建立了深度合作关系,并根据其产品定位与市场需求定制化开发影像算法解决方案。截至目前,虹软技术已成功助力雷鸟V3完成国内首款AI眼镜的发售,产品上市后市场反馈良好。
(二)稳步推进智能汽车业务,全方位夯实发展底座
1、VisDrive一站式车载视觉软件解决方案
2024年度,公司持续迭代核心算法引擎,优化全场景产品矩阵布局。舱内业务上,公司继续拓宽了车型覆盖范围,持续提升市场占有率。公司的健康监测算法引擎获得理论上的突破,相关算法产品实现从1到N的复制,成功取得多个量产车型定点。法规类的产品除DDAW以及NCAP要求的DMS规模化量产上线外,还首次通过欧洲最新的ADDW以及国内的IVISTA中国智能汽车指数和C-IASI的测试标准,并完成了量产上线。在合规能力建设上,公司在ENCAP2026发布不久,便迅速启动并顺利完成OMS产品的部分合规验证。交互类产品上,公司针对驾驶员驾驶环境研发了智能调节新产品SmartFit,目前与OEM客户完成了POC技术验证,此外,公司手势识别算法引擎成功获得又一头部新能源客户的多个量产车型定点。
舱外业务上,公司以项目驱动产品落地,以产品驱动市场,积极拓展更多客户。公司周视感知算法已在OEM客户车型上线,具备极暗及恶劣环境夜视能力的ADAS产品完成OEM客户的定向开发,3DAVM、哨兵监测(含基于AVM摄像头的算法产品)等系列算法产品持续出货并新增量产定点。公司于2024年上半年重点推出了基于智能SoC的舱泊一体解决方案,目前处于量产技术验证阶段,经过半年多的系统和软件算法磨合,方案更趋于稳定,有望2025年导入量产。
2、前装软硬一体车载视觉解决方案
舱内业务上,依托在合规能力上的市场竞争优势、技术积累优势,公司着重从优化产品路线、渠道建设等维度,全面推进海外布局。目前,公司面向舱内的前装软硬一体车载视觉解决方案Tahoe已获得多款车型的全球定点项目,2024年度,除继续推进已定点项目的量产开发,并开拓海外新定点项目之外,公司也正推进在客户车型上导入更多功能项目。此外,公司还为海外客户量身定制开发与测试工具,助力其智能化进程加速迈进。2024年度,除自主开发客户之外,公司还与海外知名Tier1建立战略合作关系,双方互惠共享技术和客户资源,深度布局海外市场。
舱外业务上,公司全力推进面向舱外的前装软硬一体车载视觉解决方案WestLake的产品化进程,并有序开展市场推广和项目落地工作。2024年度,在驾驶测试方面,公司加大泛化性测试力度,持续打磨行车类功能,整体性能进一步提升,对比业内同级主流视觉算法方案,各项性能表现均基本达到同档位产品量产水平,个别性能表现优于同档位产品量产水平。在法规合规测试方面,针对最新的NCAP法规中的测试项,公司依托自研的规控算法和测试工具,持续进行验证和打磨,力求实现合规和体验的平衡。在系统研发方面,公司持续优化解决方案,提升产品功能上限,深入开发无高精度地图的高速NOA、记忆行车、记忆泊车等功能。目前,记忆行车、记忆泊车已完成开发部署,无图高速NOA也在进一步拓宽使用场景。在市场推广方面,公司积极扩大合作伙伴和客户群体,凭借公司核心技术能力与丰富的经验积累,与合作伙伴强强联合、协同发力,共同开辟市场。
3、商用车及工程机械车辆相关解决方案
在商用车及工程机械车辆领域,公司提供一站式的软件算法解决方案以及AiTrak软硬件一体解决方案。2024年度,在商用货车领域,公司承接了中国重汽、柳汽、陕汽、一汽解放等OEM客户多款车型项目,商用车全栈视觉算法产品VisDrive实现了AVM、BSD、DMS等算法量产。商用客车领域,公司在潍柴体系、金龙体系实现了符合欧盟GSRII法规要求的软硬一体产品量产。工程机械车辆领域,公司在三一矿卡、合力叉车等多种车型上实现了AiTrak系列产品落地量产。
(三)PSAI完成多平台覆盖,助力数十万中小商家降本提效
公司积极布局智能商拍业务,2024年度,在产品技术沉淀和商业拓展上均取得进展。在产品技术方面,公司在智能商拍方向坚持双轮驱动,同步提升ArcMuse计算技术引擎商拍图像生成和视频生成的基础能力。2024年度,ArcMuse计算技术引擎图像生成垂直大模型体系实现了从十亿级到百亿级参数量的跨越式提升。基于最前沿的DiT架构升级模型体系,并以此为基础进一步提升AI模特图、AI模特场景图、AI商品图、智能试衣等产品效果,扩展了ConsistentID、局部修复、版型替换等产品功能,显著提升了模特、服装、商品图像生成的真实感与表现力。视频生成方面,公司2024年上半年率先在国内智能商拍赛道正式上线了AI模特视频生成功能,仅需一张图片,即可生成优雅、写实的动态展示视频,通过动作表现力全面展示服装上身效果。并且,在AI模特视频生成上线后,不断完善产品功能矩阵,支持了自定义视频动作、360°服装细节还原等功能。
公司不断优化的ArcMuse计算技术引擎为包括PSAI在内的产品显著提质增效,公司也积极推动了PSAI产品相关的多个算法通过境内深度合成服务算法备案。ArcMuse计算技术引擎成功通过了国家互联网信息办公室《生成式人工智能服务管理暂行办法》规定的大模型备案许可,这些合规能力上的提升为公司以大模型为基础的各个应用领域提供了坚实保障。
在智能商拍商业拓展上,公司坚持多管齐下,为不同客群制定差异化的市场战略。对于中小商家,通过PSAISaaS主站精细化运营和电商平台化战略,不断扩大渗透率和用户粘性。截至2024年末,PSAI已完成淘宝千牛、1688、抖音抖店、TikTok、京东京麦、拼多多和Shein等平台入驻,累计服务数十万商家客户。
(四)推动人才队伍高质量发展,促进管理质效提升
2024年度,公司聚焦人才队伍高质量发展,完善内部人才管理机制,使人力资源结构契合业务与组织架构,提升管理质效。在招聘方面,公司根据总体人才战略需求,强化招聘体系资源整合与能力建设,完善内外部人才供应链。基于人才增量调控,精准开展招聘工作,在智能汽车、AIGC等业务领域陆续引进具备引领技术及业务发展能力的核心人才。强化雇主品牌建设,通过校招储备优秀应届毕业生,在各业务领域形成合理的人才结构。
在管理机制方面,公司深度盘点人才体系,通过优化组织架构明晰业务目标,对各类别、各层次的人才分布、配置、发展、评价进行系统评估,确定人才队伍高质量发展要求。其中,公司着重识别并培养具备优秀潜力的新生代员工,激发资深员工和长期服务员工的内在驱动力,以长期绩优员工为能力标杆,优化完善技术、产品等重要类别员工的职业发展路径,全方位构建良性的人才发展生态。
在员工培训方面,公司秉持“专业专注、学习创新”“坚持创新、追求卓越”理念,于2024年开设第二期“管理培训研修班”,通过高管、内外部专家授课,提升一线业务管理者全局思维;开展“项目管理训练营”,以“提质、降本、增效”为主题,培养具备成本管理与跨部门协作能力的骨干;实施“虹鹰训练营”活动,帮助新员工融入企业文化。此外,公司还持续开展了“学习发展嘉年华”“优秀导师发展”等项目,强化了导师队伍建设。通过一系列培训活动,公司搭建了较为全面的员工能力提升平台。
二、报告期内公司所从事的主要业务、经营模式、行业情况及研发情况说明
(一)主要业务、主要产品或服务情况
公司专注于计算机视觉领域,为行业提供算法授权及系统解决方案,是全球领先的视觉人工智能企业,始终致力于视觉人工智能技术的研发和应用,坚持以技术创新为核心驱动力,在全球范围内为智能设备提供一站式视觉人工智能解决方案。
公司拥有丰富的针对智能手机等移动智能终端以及智能汽车的视觉算法产品线,主营业务收入来源于自主研发核心技术的授权许可使用。目前主要客户包括三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商以及国内主要的自主品牌、部分合资及外资品牌汽车主机厂商。
针对智能手机,基于多年的研究开发,公司可以提供目前市面上大部分主流智能手机视觉人工智能算法产品,包括单/双/多摄摄像头在各种场景下的拍摄和高质量成像、深度摄像头在各种场景下的拍摄和高质量成像、潜望式长焦摄像头无级变焦、3D建模、全景、SLAM、AR/VR、人脸解锁、超像素无损变焦、人体驱动等重要核心功能。在笔记本电脑上,公司从画质、隐私、美颜等几个方面来提升用户视频会议体验。通过视频去噪、提升动态范围来改善会议时的画质;通过背景虚化、换背景实现用户隐私进行保护;通过人像美颜、人体自动居中、人脸细节恢复和增强、眼镜去反光等技术提升视频会议效果。
在AI-XR领域,公司快速响应AI眼镜市场需求,积极布局AI眼镜影像算法,在原有VR/MR/AR算法解决方案的基础上,快速拓展AI眼镜影像算法,不仅可以提供VR/MR/AR一站式多传感器标定解决方案,头显6DoF跟踪、平面检测、稠密重建、语义分析、深度估计、实时人体/手部分割、实时3DMesh重建等空间感知解决方案,手柄6DoF跟踪、裸手3D手势交互、视线跟踪和虚拟数字人表情驱动、人体驱动等交互解决方案,以及异步时间扭曲、异步空间扭曲、视频透视(VST)等视觉呈现解决方案,还可以提供AI眼镜单摄像头在各种场景下的拍摄和高质量成像、智能人脸识别、智能手势识别等解决方案。
在智能汽车领域,面向舱外,公司在行车辅助功能上储备了基于前视、周视、环视、后视、夜视摄像头系统的视觉感知算法,可以提供ACC、LCC、AEB、ILC等高级智能驾驶辅助功能;在自动泊车功能(APA)上储备了视觉感知算法、超声波视觉融合算法、规控算法;提供360°环视视觉子系统,支持2D/3DAVM全景影像功能,支持透明底盘、哨兵监测功能。面向舱内,公司主要在DMS、OMS两种产品形态上积累了一系列视觉感知算法,可以提供例如疲劳检测、分心检测、健康监测、身份识别(FaceID)、手势识别、遗留提醒等座舱监控、互动系统功能。
在智能商拍领域,公司基于ArcMuse计算技术引擎发力商拍图像和视频生成,推出了PhotoStudioAI智能商拍云工作室(PSAI),分为服装版和商品版,为不同客户群体提供服务。PSAI支持AI模特图、AI模特场景图、AI商品图、智能试衣图片生成,以及AI模特视频生成功能。通过图片和视频内容生成的可控性与表现力有机结合,为商家提供完美的服装等商品展示。同时,PSAI还提供智能抠图、智能布光等AI工具包,为图片和视频生成内容提供智能后期处理工具,满足用户差异化需求。
(二)主要经营模式
1、盈利模式:公司主要盈利模式是将计算机视觉算法技术与客户特定设备深度整合,通过合约的方式授权给客户,允许客户将相关算法软件或软件包装载在约定型号的智能设备上使用,以此收取技术和软件使用授权费用。同时,公司也向客户销售软硬一体视觉解决方案。
2、研发模式:公司主要采取自主研发的模式。研发过程大致分为以下9个步骤:①获取需求信息;②管理层决策研发方向;③搭建研发项目组;④验证研发项目算法,进行项目测试;⑤集体讨论决策项目算法;⑥进行底层算法与实际环境的结合优化;⑦进行实际产品结合测试;⑧产品成熟后路演,选择合适的客户进行测试合作;⑨测试合格后大规模推广。
3、销售模式:公司采用直销的方式,主要向智能手机、智能汽车、笔记本电脑、智能家居、智能零售以及各类带摄像头的AIoT设备制造商销售计算机视觉算法软件及相关解决方案。
4、收费模式:按照业务合同的不同类型划分,公司的计算机视觉算法软件主要收费模式可划分为固定费用模式和计件模式两种模式。①固定费用模式:按合同约定的软件授权期限,收取固定金额的软件授权费用。特定客户在软件授权期限内,针对某款、某系列的特定设备内,可以合法地把含有虹软科技算法技术的特定软件无限量装载在合约限定的智能设备上。②计件模式:在合同约定的软件授权期内,按照客户生产的装载有虹软科技算法技术智能设备的数量进行收费。通常情况下,公司会与客户就不同生产数量区间,约定阶梯价格,保障双方利益。针对软硬一体解决方案,公司目前采用计件模式。
5、采购模式:公司的主要采购内容包括研发、测试和运营所需的各类硬件设备、软件、服务,以及产品解决方案所需的物料等。根据需求部门的请购申请,采购部门按照《采购管理制度》的要求,执行供应商选择、采购合同签订、合同执行跟踪、采购付款申请等流程。针对软硬一体解决方案,由公司进行硬件的设计并购买相应部分核心部件后,委托第三方进行组装生产。
(三)所处行业情况
1、行业的发展阶段、基本特点、主要技术门槛
根据《国民经济行业分类》(GB/T4754-2017),公司所属行业为“I65软件和信息技术服务业”中的“I6513应用软件开发”。根据中国上市公司协会《中国上市公司协会上市公司行业统计分类指引》,公司所属行业为“信息传输、软件和信息技术服务业-软件和信息技术服务业”,行业代码为“I65”。
公司从事计算机视觉技术算法的研发和应用,核心产品包括移动智能终端视觉解决方案、智能驾驶视觉解决方案、智能商拍解决方案以及其他AIoT智能设备视觉解决方案,根据公司主要产品功能及服务对象的特点,公司所属行业为计算机视觉行业,属于软件和信息技术服务业。
根据国家发改委公布的《战略性新兴产业重点产品和服务指导目录2016版》,公司属于“新一代信息技术产业”。
1.1行业的发展阶段、基本特点
(1)行业的发展阶段、基本特点、产业政策
在新科技革命和产业变革的大背景下,人工智能加快向各产业渗透,日益成为科技创新、产业升级和生产力提升的重要驱动力量。政府积极出台政策促进人工智能技术发展和应用,深化落实与视觉人工智能息息相关的人工智能、智能制造、信息化和工业化的相关政策,为视觉人工智能的发展提供了政策与配套资源支持。2024年以来,新出台的主要人工智能产业政策如下:
2024年1月,国务院常务会议研究部署推动人工智能赋能新型工业化有关工作。会议强调,要统筹高质量发展和高水平安全,以人工智能和制造业深度融合为主线,以智能制造为主攻方向,以场景应用为牵引,加快重点行业智能升级,大力发展智能产品,高水平赋能工业制造体系,加快形成新质生产力,为制造强国、网络强国和数字中国建设提供有力支撑。
2024年3月,在《2024年国务院政府工作报告》中,提出要深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。
2024年4月,国家发展改革委办公厅、国家数据局综合司印发《数字经济2024年工作要点》,提出适度超前布局数字基础设施、深入推进产业数字化转型、加快推动数字技术创新突破、不断提升公共服务水平、推动完善数字经济治理体系、全面筑牢数字安全屏障、主动拓展数字经济国际合作、加强跨部门协同联动等内容。
2024年7月,工业和信息化部等四部门联合印发《国家人工智能产业综合标准化体系建设指南(2024版)》,提出以抢抓人工智能产业发展先机为目标,完善人工智能标准工作顶层设计,强化全产业链标准工作协同,统筹推进标准的研究、制定、实施和国际化,为推动我国人工智能产业高质量发展提供坚实的技术支撑。
2024年12月,工业和信息化部等三部门联合印发《制造业企业数字化转型实施指南》,提出鼓励企业探索智能研发新应用,开发“人工智能+”研发设计软件,构建设计模型、仿真模型等数据集,开展模型训练,发展创成式设计、实时仿真等创新应用,加速新产品研发。
进入2025年,政策持续聚焦人工智能产业。3月,在《2025年政府工作报告》中,提出持续推进“人工智能+”行动,支持大模型广泛应用,大力发展智能网联新能源汽车、人工智能手机和电脑、智能机器人等新一代智能终端以及智能制造装备。
(2)细分领域发展状况
视觉人工智能行业为各类人工智能应用提供基础支持技术,广泛应用于各类人工智能细分领域。2024年以来,包括大模型在内AI新技术的发展,持续赋能智能汽车、人工智能手机和电脑、智能机器人等新一代智能终端。与本公司相关的主要细分领域发展状况如下:
移动智能终端细分领域
2024年,尽管全球宏观经济挑战仍存,但受益于部分新兴市场复苏、AI技术推动,以及厂商积极的市场策略等,全球智能手机出货量迎来积极变化。根据Counterpoint统计,2024年度全球智能手机出货量同比实现4%的正增长。AI技术正成为核心卖点,三星、荣耀、小米、OPPO、vivo、传音等多家安卓手机厂商先后推出了带有AI功能的手机产品。影像一直是智能手机竞争的主要赛道,AI技术的应用也进一步提升了手机的影像能力,以大模型为计算基座的图像算法正驱动影像技术革新。Counterpoint预测,2027年全球AI手机渗透率约40%,出货量有望达5.22亿部。行业认为,交互方式的革新、功能升级以及诸如折叠屏等新形态的出现等因素相辅相成,预计在一定程度上会推动换机需求。
在AI与XR技术融合中,AI眼镜等智能终端正开启人机交互新模式。AI智能助理系统整合视觉识别、语音交互和环境感知等多模态数据,构建“全息感知-实时解析-智能响应”的技术闭环,重塑用户在工作和生活场景中的体验。AI眼镜行业正处于蓬勃发展的关键时期,科技企业纷纷布局,据报道,目前已有超40家国内外厂商入局AI眼镜,其中包括互联网大厂、手机巨头、AR明星企业,涉及产品数量预计超过50款。IDC预计,2025年全球智能眼镜市场预计出货1,205万台,同比增长18.3%,其中不具备显示功能的音频眼镜及音频拍摄眼镜预计出货547万台,同比增长101.9%。
智能汽车细分领域
据GobaData公布数据,2024年全球汽车销量同比增长2.1%,达8,900万辆。从国内市场来看,虽然面临着外部环境变化、行业竞争加剧、汽车消费内生动力欠佳等挑战,但由于一系列政策持续发力显效,各地补贴政策有效落地,多措并举共同激发了汽车市场终端消费活力。据中汽协统计,2024年度中国汽车产销量完成3,128.2万辆和3,143.6万辆,同比分别增长3.7%和4.5%。其中,全年出口量585.9万辆,同比增长19.3%,再上新台阶。
中国智能汽车行业迎来发展的黄金期,高算力平台与智能化配置成为车企差异化竞争的核心要素。国家发展改革委预测,到2025年,我国智能汽车的数量预计将达到2,800万辆,市场渗透率预计为82%;到2030年,智能汽车的数量将增至3,800万辆,渗透率预计将达到95%。在智能驾驶领域,从传统汽车制造商、传统Tier1、新兴车企,到科技企业、互联网公司以及消费电子公司,均积极推进智能驾驶技术商业化进程。城市NOA、去高精地图以及舱驾融合等成为智能驾驶领域的主要发展趋势,这些技术的进步将推动智能驾驶向更高层次的自动化与智能化阶段迈进。
在智能座舱领域,据中汽数据发布信息,智能座舱相关功能在中国乘用车市场渗透率超过70%,中国已成为智能座舱规模最大的市场。随着高性能计算平台、多模态交互和操作系统等关键技术的突破,智能座舱正加快向软硬件一体化发展。预计到2025年,国内智能座舱市场空间将达到千亿元级别。
商业拍摄细分领域
在电商领域,商品展示图片和视频是线上购物决策链路的核心触点,能够激发消费者的购买欲,是构建产品竞争力和品牌信任度的数字化橱窗。传统商拍存在成本高昂、拍摄效率低的问题,随着以视觉大模型为核心的新一代人工智能浪潮快速发展,智能商拍有望对传统商拍形成替代。服饰类店铺对商拍的需求更加强烈,化妆品、日用品等其他品类次之。根据东北证券研究内容,从GMV角度计算,线上零售平台每年用于商拍的成本约为其GMV的1%-2%,据此计算可得电商零售商拍的市场空间约为256-511亿元。从店铺数量角度计算,店铺平均每年用于商拍的支出超过2万元,假设商拍渗透率为50%,计算可得商拍市场空间约为340亿元/年。
伴随着视觉AI大模型技术的日趋成熟,市面上出现了一些AI商拍解决方案,如PhotoStudioAI、Weshop、PhotoMagic等,这些方案借助视觉大模型应用产品,为传统商业拍摄领域带来显著的降本增效变革。作为垂直行业的技术密集型应用,智能商拍技术栈有别于通用视觉大模型应用,需要兼顾大模型的创造性,同时围绕商家商品内容可控生成图像或者视频。场景垂直化、生成可控化和服务精细化的需求,差异化的客户需求和巨大的潜在市场容量,将为有技术积累和创新能力的赛道玩家提供广阔的市场机遇。
1.2主要技术门槛
视觉人工智能属于高知识密集型领域,有较高的技术门槛,公司主要为移动智能终端、智能汽车等智能设备以及商业拍摄领域提供视觉人工智能解决方案,在前述领域的主要技术门槛包括:
(1)端计算和边缘计算技术的积累
边缘计算极大程度上解决了物联网背景下集中式运算架构中的带宽和延迟两大瓶颈问题,主要难点在于低资源的嵌入式平台环境的开发能力,基于移动终端的边缘计算具有巨大的应用价值,但是受限于移动终端有限算力,诸多企业望而却步。
公司自2003年开始便明确了在嵌入式设备研发相关视觉人工智能技术的发展方向,在边缘计算技术领域积累深厚,多年来建立了全面、复杂的多平台适用的底层嵌入式开发库。公司积累的算法具有高度的紧凑性、稳定性以及易调用性,可以在高性能、有效大幅降低资源消耗的情况下实现高精度运行。
公司长期专注于嵌入式设备算法的研究与开发,多年来积累了大量基于端设备的视觉人工智能算法开发经验。目前公司基于端设备的视觉人工智能算法适用性高、运行稳定,可以在边缘侧发起高效的运算,通过诸如智能手机、笔记本电脑、智能可穿戴等设备实现高效的图像优化、识别与检测等功能。公司的移动智能终端视觉解决方案、智能驾驶视觉解决方案和其他AIoT智能设备视觉解决方案等业务均是从边缘侧发起运算,在智能手机、笔记本电脑、智能可穿戴设备、汽车和各类AIoT设备上实现各类视觉人工智能的功能。
(2)视觉人工智能技术的层次积累
在数码相机以及手机功能机时代,公司就开始专注于视觉人工智能技术的研发与应用,公司主要算法技术都经过了长时间的锤炼,从基本的黑白小分辨率图像的摄取、增强、编辑、检测识别到高清大图像、视频的实时处理均打下了坚实的基础,创造了有利和领先的条件。
公司掌握的视觉人工智能算法技术具有通用性和延展性。多年来,公司积极致力于将视觉人工智能算法与行业应用相结合,凭借先进的科研力量、强大的产品开发能力以及卓越的工程实施能力,公司快速将视觉人工智能算法技术落地为成熟的解决方案,并进一步将应用领域从智能手机扩展到智能汽车、智能可穿戴、智能家居、智能零售等多个行业,助推行业升级。此外,公司基于自身深厚的技术积累,能够为上述行业快速提供高性能、高效率、硬件平台适应性强、功耗控制优良的解决方案,大大降低各类客户的产品使用先进技术的门槛,帮客户提升产品竞争力,助力视觉人工智能和人工智能相关应用的普及。
(3)工程落地能力
虹软创立至今,除不断积累和发展自身技术、掌握持续开发、迭代与硬件更加匹配的算法的能力,还一直致力于与核心产业链内主流公司开展长期、广泛的合作。公司与高通、联发科等各主流芯片公司建立了长期稳定的合作关系,研发中持续合作交流,深入了解平台硬件特性并为其针对性优化,共同开发核心功能,不断提高视觉人工智能技术算法产品与移动芯片的适配性。公司还与索尼传感器、三星半导体、格科微、OmniVision、舜宇光学、信利等业内核心器件合作伙伴建立了业务交流或合作关系,在项目早期就针对特定相机或硬件做算法适配和调优。针对智能终端的芯片平台,公司具备针对CPU、GPU、DSP和NPU等各个算力单元的强大优化能力。结合各硬件算力单元的能力和算法模块的算力需求,公司具备的异构计算优化能力能够从系统层面更有效地优化性能、降低功耗。得益于此,除核心技术能力突出外,公司同时具备优势明显的工程落地能力,在客户提出技术需求后,能更好地联合和发挥在相机模组、软硬件平台、产线、算法等多方资源合作优势,进而提供效果好、能耗低、效率高、硬件平台适应性广并能够快速落地的解决方案。
2、公司所处的行业地位分析及其变化情况
当前视觉人工智能市场已初步形成“头部集聚+垂直深耕”的竞争格局,技术迭代加速、行业渗透深化以及政策引导等因素仍在持续推动市场动态变化。核心技术积累、产品化能力、产业生态链合作均构成各垂直行业的核心壁垒。公司是计算机视觉行业领先的算法服务提供商及解决方案供应商,是全球领先的计算机视觉人工智能企业。
公司坚持深耕计算机视觉算法技术,深化各行业布局的发展战略,逐步将计算机视觉算法技术的应用扩展至更多的智能终端设备领域。除本公司外,行业中国内企业主要有商汤科技、旷视科技,国外企业主要有SeeingMachines、Mobieye、Cipia、Smarteye。
在智能手机领域,公司为客户提供全栈视觉人工智能解决方案,是全球最大的智能手机视觉人工智能算法供应商之一,大部分智能手机视觉解决方案达到国内外先进水平,多数新创技术在行业内属于技术首发。公司主要客户包括三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商,据IDC所统计的2019年度至2024年度全球出货量前五的手机品牌中,除苹果公司完全采用自研视觉人工智能算法外,其余安卓系统手机的主流机型均有搭载公司视觉人工智能解决方案。同时,公司与高通、联发科等移动芯片厂商深度合作,针对不同硬件平台优化算法,提升与移动芯片的适配性,并且与豪威、索尼、三星半导体等传感器厂商建立技术交流,形成从底层硬件到终端应用的完整生态链。
在AR/VR/XR领域,公司进行前瞻性布局,从标定、感知、交互和视觉呈现四个维度构建了一套完整的虹软空间计算技术体系,为客户打造了一站式、全方位的产品解决方案。公司在大力更新技术的同时,也与多家业界头部厂商保持密切沟通和交流,持续扩大技术合作生态圈。在AI-XR技术的深度融合进程中,以AI眼镜为代表的智能终端设备正开启人机交互的新范式。公司快速响应AI眼镜市场需求,积极布局AI眼镜影像算法,与多家知名AI眼镜品牌商建立了深度合作关系,根据品牌商的产品定位与市场需求,为其定制化开发影像算法解决方案。目前,已成功助力雷鸟V3成为国内首款发售的AI眼镜。
在智能汽车领域,公司为客户提供面向舱内外的VisDrive一站式车载视觉软件解决方案,是国内基于高通智能座舱平台上的主流视觉算法供应商。公司客户覆盖了国内主要的自主品牌、部分合资品牌以及外资品牌汽车主机厂商,已经赋能众多客户顺利在相关国家和地区实现产品量产落地,大大加快了新车市场化进程。
公司积极拥抱技术变革,引领计算机视觉技术发展,自成立以来,经历了从浅层模式识别到深度学习,再到大模型驱动的智能计算的多阶段演进。当前,人工智能技术正经历以大模型为核心的范式变革,在政策引领、产业升级与技术跃迁的三重驱动下,垂直行业大模型正重构各产业生态。依托深厚的视觉AI技术积累,以自研ArcMuse计算技术引擎为核心,公司不断推动视觉大模型的技术进步与行业落地。公司于2023年推出PSAI,目前已完成淘宝千牛、1688、抖音抖店、TikTok、京东京麦、拼多多和Shein等平台入驻,成为国内率先完成主流电商平台全覆盖的服务提供商,累计服务数十万商家客户。作为公司视觉AI核心基座的新一代ArcMuse计算技术引擎,还将服务于公司旗下智能手机、智能汽车、AI眼镜及XR、机器人等更多元场景。
3、报告期内新技术、新产业、新业态、新模式的发展情况和未来发展趋势
核心技术方面,人工智能技术正经历以大模型为核心的范式变革。以DeepSeekV3和R1为代表的开源大语言模型,掀起了AI平权的浪潮,让大模型赛道从堆算力基建,回归到工程创新和算法创新本身。DeepSeek模式在大语言模型上的成功,极大促进了大模型应用产品在国内的传播度和接受度。同时,在视觉大模型领域复制和迁移DeepSeek工程和算法创新方法,成为行业新趋势。
产业应用方面,垂直行业视觉大模型正重构各产业生态。在消费电子领域,以大模型为计算基座的图像算法正驱动影像技术革新。基于多模态数据融合与动态自适应建模技术,构建算法-硬件-应用协同的跨平台生态,形成高精度语义理解与实时渲染能力,加速底层算力重构与计算摄影标准化进程,满足消费者对专业级影像体验与创作自由融合的核心需求。在智能汽车领域,大模型在实现场景感知与个性化服务、提升环境感知能力、优化决策与规划、提升自动驾驶系统在复杂环境下的适应性和决策能力等方面,将驱动智能汽车产业迈向技术革新与用户体验升级的新阶段。在商业拍摄领域,传统商业拍摄存在周期长、成本高、流程繁以及同质化严重等问题,垂直行业视觉大模型的出现,将专业技术与场景深度结合,有效解决商拍痛点,平衡标准化与个性化需求,将加速商业拍摄行业降本增效的趋势。
(四)核心技术与研发进展
1、核心技术及其先进性以及报告期内的变化情况
一、核心技术及其先进性
目前,公司积累了大量视觉人工智能的底层算法,构建了完整的视觉人工智能技术体系。
公司自主研发了诸如人脸分析及识别/人脸美化及修复/人体分析及美化、手势识别/物体识别/场景识别、行为分析、暗光图像增强/超分辨率图像增强/视频画质增强/画质修复、光学变焦、虚化技术、3DAR动画等诸多可应用于智能手机、智能座舱、智能辅助驾驶、笔记本电脑、智能可穿戴设备等终端领域的核心技术。
针对单摄/多摄/TOF/结构光等不同种类的摄像头,公司均可提供相应的3D与AR视觉解决方案,帮助厂商在移动设备上便捷高效地实现落地。为满足各智能终端对于VR/MR/AR应用的需求,公司已经研发并可以直接落地使用的解决方案,包括基于双摄/多摄/TOF/结构光的深度获取和优化,以及基于单摄的深度获取引擎,这些深度数据成为一些上层逻辑应用的核心基础;实现了SLAM中环境Map的构建,物体的3DModeing,视线的检测、跟踪,人体和动作静态、动态姿态的检测和跟踪,解决了实时显示中的延迟等多种问题。为满足智能驾驶人机交互的需求,公司主要研发了基于红外相机、单摄RGB摄像头、双摄、深摄的交互技术,包括手势交互引擎包、头部动作和口部动作交互引擎、经典表情识别,以及视频、照片拍摄时的娱乐功能。
公司在人体分析、人脸识别、人体识别、手势识别、人体美化等技术上,在当前状态下的中段平台达到超过95%的正确率、毫秒级实时性,这些引擎也可以有效鲁棒地支持低端硬件平台,人物属性分析、对象属性分析、多帧多通道质量提升等技术点能达到业界先进的低功耗、高性能、相对强鲁棒的水平。
公司大部分智能手机视觉解决方案达到国内外先进水平,多数新创技术在行业内属于技术首发,能够满足目前市面上中高端智能手机大多数与视觉相关的技术与应用的算法需求,且公司的智能手机视觉解决方案在除苹果之外的主流手机品牌的大部分旗舰机型上获得使用。
二、核心技术报告期内发生的主要变化
二、核心技术报告期内发生的主要变化
(1)人脸分析及识别
人脸检测技术针对人脸、宠物脸、后脑勺等误检问题进行了进一步的优化,同时提升了远距离小人脸检、残缺人脸和过曝人脸的召回率,手机版本在内部最新自建难例测试集上保持速度不变的情况下,召回率由93.9%提升到97.70%,精度由99.2%提升到99.75%。人脸关键点定位技术在自测数据集上精度提升3%,在手机应用中针对残缺人脸和超大角度的定位精度和跟踪稳定性进一步提升,尤其是超大角度的跟随性和稳定性提升较为明显,为后续人脸特效的真实感提供了更有力的保障。同时也提升了智能座舱应用中镜片反光场景眼睛点的精度和超大角度人脸关键点的准确性。在智能座舱场景中,人脸角度和位置估计新方案平均角度在新的难例自建数据集上精度误差由2.98度降低到1.86度,同时单目眉心距离估计由预先的4.7厘米误差降低到3.26厘米。人脸重建技术不断提升不同表情、不同人脸角度下的稳定性及贴合性,尤其是在自拍场景下的眼睛、嘴巴贴合度更高,在自测集上贴合精度提升4%。
2DFaceID进一步改善效果,在FAR≤100k的情况下,常规场景和戴口罩场景下,FRR改善3.2%~3.4%,优化注册方案,不同场景整体改善2.5%~3.3%;3DFaceID在FAR≤100k的情况下,常规场景和戴口罩场景下,FRR改善1.2%~6.3%;车载场景的RGB/IR交叉识别持续改善,FRR改善2.0%~2.9%,同时进一步改善海外人种识别效果,对深色人种误识率减半;通用版本支持开放平台全面更新,较旧版本有大幅度提升,相对提升幅度达20%;人脸识别大模型更新,在FAR百万分之一的条件下多个场景FRR降至1%以下。静默式活体RGB及IR版本持续改善,尤其对低分辨率人脸的效果大幅改善,同时完成了RGB炫光活体的初始版本,效果更优于常规静默版本。性别识别RGB版本精度提升3.7%,IR版本精度提升4.6%;年龄识别效果大幅提升,RGB版本MAE减少30.8%,IR版本MAE减少33.3%。人脸质量算法增加更多输出信息,例如大胡子、夜拍过曝等,同时增加了对宠物脸模糊判断的支持。
(2)人体分析及美化
人体检测技术进一步提升,针对手机移动端场景,提升了人体召回率并且降低了误检率,同时提升了目标跟踪稳定性,在内部困难自测数据集上,召回率提升到92.7%,精度提升到96.7%,尤其是伸手、踢腿、弯腰等场景的检测效果更加稳定,同时也降低了办公座椅的误检。而车载场景下召回率提升到95.3%,精度提升2.75%达到98.75%。人体骨骼关键点技术,在座舱内场景中的复杂动作、成像存在大畸变场景下点位的准确性和稳定性提升较为明显,整体map提升3.69%,为后续人体分析提供了更加可靠的基础信息。人体重建技术通过多相机大球实验室数据的采集和合成数据补充,同时改进新方案,SMPL模型精度提升3%。遗留儿童检测技术在人脸方案和人体方案两个方面都进行了算法效果提升,尤其是人体方案提升较为明显,人体版本儿童召回提升13.05%,精度提升2.45%,最终融合方案儿童召回单相机单图片测试场景下提升27.34%。行为识别技术不断完善,针对座舱内场景,增加座椅关键点功能,精准定位23个车内关键点,辅助行为分析,进一步提高儿童危险行为召回率达到87.85%。同时针对ENCAP2026对相关安全行为的要求,扩展了坐姿前倾等危险行为类别。基于行为识别的环视哨兵功能,增加人体异常分类模块,报警输出算法召回率提升,提高画面中间位置人体很近时的跟踪率,前后画面距离很近破坏车牌场景,以及左右画面前车窗距离很近场景的召回率有提升,整体报警召回率提升到99.2%。
人脸美型方案,在效果、性能、稳定性方面有了很大的改进。效果方面,在保持原有形变效果的基础上,精细参数调节,实现非局部形变的功能,模拟出更加自然的形变效果,通过客户验收并获得认可。性能方面,升级美型框架,美型耗时降低近50%,在开启多个形变功能时,优化变形逻辑,提升预览性能,用户体验更好。重构强边缘及大角度保护机制,增强预览稳定性,降低美型失效概率。新增AI人脸美型,参考真实整容技术,注重保留用户原本的脸部特征,使用户脸型美化更加自然,并实现个性化脸型美化效果。人脸美化方向由视觉艺术团队主导,使得美型效果更显美观。基于AI美型方案,已经实现个性化人脸强边缘平滑功能,效果达到预期,计划添加更多美型效果。
人体美型方案根据客户需求,新增人像自然瘦腹功能,提升人像气质。升级人体感知模块,应用人体语义分割、三维人体重建等技术点,人体参数感知结果更准确,变形控制更到位。
(3)宠物分析
宠物身体检测技术、宠物面部关键点检测技术针对多宠物场景、遮挡场景提升了检测率,有效提升了复杂场景下检测的鲁棒性,在宠物面部关键点检测的基础上开发了宠物欧拉角估计,并且进一步优化了宠物五官关键点检测,眼睛轮廓检测,眼睛状态分类,在获取更加准确的宠物五官轮廓的同时更有效地获取了面部姿态等脸部状态信息,为后续一系列产品提供了强大支持。
(4)行为分析
继续提升满足DDAW以及EuroNCAP法规的驾驶员疲劳/分心检测技术方案。通过大量路测数据对疲劳/分心的误报进行实车数据分析,通过多数据融合将基于车机信号与车辆控制信号在内的驾驶员行为数据与视觉感知信息进行融合,通过数据统计优化行车中的误检问题。与此同时,根据大量KSS以及心理行为研究实验结论,结合大量实车疲劳路测数据分析,完成了更加符合疲劳认知的全新疲劳解决方案的研发。根据大量疲劳研究实验进行了真实疲劳数据采集和真实疲劳检测技术更新,提升了基于真实疲劳反应的驾驶员疲劳分级检测,在视觉信息获取上增加多帧、多时间窗口的分析,增大疲劳分析的时间窗口区间,将大量与疲劳行为相近但表现形式有差异的混淆行为进行鉴别,对诸如低头向下看、从左右两侧注视手机屏幕或者其他交互区域等行为与闭眼或疲劳进行区分,形成了与市场同类产品技术的差异化,目前正在尝试将该新技术融入量产方案中,并且实车测试已达到DDAW认证要求。
视线追踪技术已经支持了众多智能座舱量产项目,结合座舱标定方案为驾驶员分心技术提供视线落点输出支持,完成了EuroNCAP法规中需要支持的视线落点检测研发,对驾驶员视线检测覆盖到舱内23个区域。满足了车上大多数可能摆放手机位置下的驾驶员看手机分心检测要求,满足EuroNCAP所有视线分心测试场景的检测要求,并将过标方案融入量产方案中,实现了更多满足法规要求的视线功能设计。
根据对ADDW法规解读与技术实现分析,目前已经完成ADDW实车专项测试,并即将在各量产方案中设计算法方案,满足该法规标准继续进行单摄像头下视线追踪技术的精度提升,自主研发基于3D人脸重建与追踪的底层数据特征表达,实现3D视线追踪技术,该技术方案在客观数据指标上实现总体20%的提升,并在大角度场景下实现近30%的精度提升;视线追踪技术继续对多摄像头方案进行研究,并根据项目需要应用在量产项目中,全面提升驾驶员在车内的视线精度,尤其是在人脸大角度下的视线精度,全面覆盖各种摄像头下的人脸全角度。2024下半年,基于多相机方案的视线真值系统进入了第三阶段研发,完成了便携式真值系统方案研发,满足用户的低成本且快速部署的要求;与此同时继续提升大范围场景的实验室方案,实测大范围视线平均误差低于1.1度,且完成了真值评测的系统搭建,已经进入产品原型优化阶段。与此同时,自主研发了基于用户行为的无感自标定视线精度提升方案,对于视线基础引擎的精度做了较大的提升。当前该方案已经取得了重大进展,通过多组实验获得了新型自研模型,在无需用户配合的条件下完成用户个性化特征提取,与原有方案对比平均视线精度获得了20%以上的提升,当前方案的迭代还在持续进行中。该方案有望实现视线技术在量产方案中的精度突破,为智能座舱交互带来更好的用户体验。同时,视线研发团队还对眼睛瞳孔虹膜特征在成像上的差异进行深入研究,获得了一整套适用于视线的摄像头设计准则,指导量产项目中的视线摄像头设计。2024下半年完成了视线以及座舱行为数据的自动化合成数据生成平台的研发,利用自主研发的基于AIGC、三维人脸人体行为建模、图形渲染等技术构建了自动化合成数据平台,用于大规模低成本的高精度真值数据生成,大大降低了数据成本的同时为解决长尾问题和提升总体精度起到了关键作用。该平台已经用于相关各量产项目交付以及预研项目中。
为了更好地解决量产项目中的不同车型以及各种容易引起摄像头位姿变化的外界影响,研发了一整套完善的视线无感自标定解决方案,为主机厂降低了相机标定带来的成本,目前该方案已经大规模用于量产项目中,适配各种车型的活动摄像头安装需求。与此同时自标定方案在2024年继续进行新技术方案探索,挖掘各种不同车型座舱的共性特征,大规模降低自标定技术依赖的数据存储空间与车型适配成本。该新自标定技术方案架构将在今后的量产方案中大规模应用,为视线一体化方案带来更高的鲁棒性。该技术方案目前可以兼容支持由于内饰颜色、纹理、光照带来的差异,并可以较高精度兼容有差异的车型之间的自标定方案共用,大大提升了产品的容错率与大平台化的可能性。同时该技术方案也在公司的一体化DOMS相机产品中发挥了作用,新的自标定方案将为DOMS一体化带来可靠的技术保障,让DOMS一体化产品的落地提供有力的保证。
基于XR头显的眼动追踪完成了双眼双目多光源方案的研发与调优,并配合头显的需要完成了与眼动相关的外围视觉算法研发,完成了设备端部署,精度效果已经达到业内领先水准。同时对适用于多种条件下的眼动算法进行研究,提升底层引擎的检测精度,并设计融合方案实现眼动追踪精度最优化。
车载表情识别与唇语关键词识别技术也有了重大突破。为了设计出符合用户感知习惯的技术方案,满足更好的用户体验,通过大量实车数据分析,构建了一套全新基于用户无感表情标定的表情识别技术,可以满足个性化用户表情识别的需求,精准捕捉到一些具有个性化的面部行为,大大提升了用户体验。唇语关键词识别技术完成了多模态技术的研发,将语音与图像信息融合,解决了一些有歧义的唇语关键词无法用单一视觉技术方案覆盖的问题。
车载危险行为检测,实际落地部署了基于人体行为分析的多通道信息融合的抽烟打电话检测方案,极大改善了目标物遮挡、光照恶劣等边界场景和困难场景下的产品体验。算法模型设计方面增添了更加丰富的语义信息监督,对于之前体验较差的相似目标攻击测试取得较大进展,进一步降低了误检的风险。基于DMS/OMS一体化解决方案的方向盘脱手检测算法进一步推进,结合细粒度的人体行为,对手和方向盘的交互做细致分类,产品体验也取得较大突破。商用车市场方面,对实车场景的数据做深度整合,针对不同平台差异,研发不同算力的标准化模型,模型训练效率明显提升,效果也有较大改善,各种复杂场景下的误检风险进一步降低;积极开发和布局top-down视角下的功能和产品,目前已支持玩手机和方向盘脱手检测,并对产品体验做快速的迭代升级。
(5)手势识别
手势识别相关底层算法持续优化改进。手部检测/跟踪算法针对不同目标硬件平台,提供不同算力的基础检测模型,增加了左右手属性输出和手持物检测模块,细分手部行为,增强了算法适用性。跟踪算法结合人体关键点考察全局信息,优化误识率和跟踪连续性,并可输出手部所属人id,建立人/手绑定关系。引入Transformer架构,尝试基于大模型的视频手部跟踪算法。手部姿态估计算法针对不同业务场景和上游任务,将现有算法梳理整合为不同基础模型。面向大数据、新架构做优化的新算法,基本解决了关键点估计在大角度及自遮挡条件下效果欠佳的业界痛难点问题,并且提升了关键点置信度的可靠性。通过以手部左右手属性为先验输入,可以用之前一半的算力获得更好的性能和精度。持续改善包含手部关键点的上半身人体关键点检测模型,在公司内部客观测试集上,双手交互的场景的手部姿态估计精度相比单独手部的姿态估计算法提升接近10%。静态手势识别,精简了手势定义,提升了模型的标准化程度,增强了其在不同项目中的可复用性。动态手势识别,报告期内成功实现了项目所需的新的手势识别功能,如连续挥手、模拟按钮旋转等。此外,搭建动捕系统采集大量时序数据并自动标注手部关键点,用于探索基于新模型的动态手势识别技术。
移动端和PC端手势产品线,积极推进手势技术落地,持续优化产品性能。针对手机AON设备的近距离凌空手势控制方案,通过优化模型结构降低了设备功耗,并且提升了模型量化精度,优化总体识别率和误识率;提升大角度手势的识别率,放宽了对用户动作的限制,改善多手共存场景下的识别效果;此外,还增加了对用户佩戴透明手套的支持,扩展了手势交互的应用范围。针对手机直播、社交等应用场景,推出了基于单双手静动态手势识别的手势特效解决方案,体现出手势交互的趣味性。针对手机自拍场景,提升了Pam自拍手势的识别效果,覆盖更多应用场景,可支持多人远距离操作,支持手部戴戒指、指环,进一步提升了用户体验和交互灵活性。此外,应用于windows一体机的静动态手势交互方案,通过系统级整合,将手势交互技术无缝应用于任务管理、多媒体控制、视频会议等场景;将手势识别与人脸关键点技术结合,支持更加自然、富含语义的手势动作,进一步提升用户体验。
车载智能座舱手势产品线,基于OMS的RGB/IR镜头的静动态手势交互技术,在报告期内重点优化动态手势,通过在时间域上考察更加完整的手部运动规律来排除相似动作的误识,并通过自适应帧率机制以适应不同设备平台的不同算法调用帧率。实现了舱内手势技术与占位分析、人体分析等技术的整合,可区分手势归属人员,结合语音声源定位,可增加手势应用灵活性,扩展应用场景。此外,OMS手势识别方案融入了三维视觉技术,实现手部3D模型估计,从而具备更精准的手指指向等手势识别能力。鼠标手势交互技术重点提升多人场景下手势检测和跟踪的稳定性,优化用户体验。鼠标手势利用2D/3D手部骨架点,实现了更为精准和精细的动作识别,在大角度姿态、手部自遮挡等较难场景下提升了动作的识别精度。通过和人体技术的融合,鼠标手势交互技术实现了多人同时操作鼠标的功能,扩展了该方案的应用空间。为提升舱内手势产品竞争力,新研发了基于双目输入的舱内3D手势识别方案,该方案利用双目视觉算法、双目手部检测/跟踪算法,双目手部3D姿态估计/3Dmesh建模算法,实现精准的手部3D位置和姿态的估计。此外,为满足部分新增客户需求,研发了多项手势技术新应用,包括多方向手指指向识别,石头剪刀布、切水果等流行手势游戏等。通过技术的迭代完善,多方向手指指向识别、石头剪刀布游戏已经处于落地部署阶段。
VR/AR手势产品线,基于双目输入的3D手势解决方案持续优化。检测/跟踪模块重点优化了一些边界条件下的检测效果,提升手部遮挡和快速运动等困难场景下的召回能力,整体性能也有了大幅度的提升。手部关键点估计算法升级为基于双目图像输入的端到端方案,不论是3D关键点精度还是模型推理速度都有较大改善,对于一些复杂的自遮挡情况算法也有较好的鲁棒性。通过引入时序信息,改善了关键点的帧间稳定性。此外,针对3D关键点训练数据较难获取的问题,探索新的数据合成方法,可控生成不同光线和背景下任意姿态的手势及其真值,有效扩充了算法的训练数据规模。整体方案着重优化了手部常用舒适区域的效果,用户主观体验提升明显。
(6)图像质量分析
人像质量分析重点优化车载客户关注的人脸遮挡,对不同类型的遮挡(口罩、墨镜、手、水杯等)判断正确率提升0.6%~3.1%;以3D建模数据辅助改善角度判断,效果提升2.0%。
HDR场景识别技术持续优化算法方案,显著提升了算法泛化能力与困难样本检测准确率,从而高效支持了多个智能眼镜相关项目的落地;通用场景的图像画质分析技术,综合评分基础上增加对比度、亮度、色彩度、清晰度、噪声等维度的评分,同时优化评分的单调性,并支持加权组合以灵活适配不同应用场景。
YUVHDR支持了旗舰处理器AEB模式下的HDR融合。该模式配合改进的HDR融合算法,实现了零延时的高动态范围合成,实现了高光还原和亮度过渡的平衡,实现了防鬼影和防噪音的平衡,实现了对霓虹灯、日落、天空、室内ficker等不同场景的智能优化,提高了整体的合成率和还原度。该模式支持对动态曝光输入的自适应调整,保持输出曝光的稳定性。在防鬼影方面,加入了基于AI的增强技术,实现了提亮和去噪,减少了运动区域的噪音,提高了运动场景的画质。针对高饱和度区域的还原,转换到HSV空间进行颜色、饱和度、亮度的动态融合,获取更鲜艳真实的颜色。针对中低端平台无法提供ISP提亮帧的情况,通过调整原有框架,改进HDR融合算法和鬼影处理策略,改善融合结果。开发暗光环境人像HDR功能,并支持闪光灯和屏幕补光模式,在暗光人像模式能更好的还原场景动态,同时保持人像的亮度和人脸的细节。根据对不同风格的要求,定制HDR融合策略。基于机器学习算法结合预览图片的统计特征改进动态EV算法,为系统推荐适配的低曝光图片的EV值,提升融合结果的动态还原效果。
基于RAW域的HDR在AI去噪、高动态图像获取方面都取得了巨大进步,针对HDR摄影的复杂环境,从白天到夜晚都准备了鬼影处理策略,在影调方面以保持真实场景亮度分布为出发点,自适应调整影调,在保持原本动态范围扩展能力的基础上使最终结果更贴近客户美学需求。基于场景识别与语义分割,实现对不同被摄环境、不同语义区域的自适应影调调节,并且保持成片的自然度。根据senser、环境信息,智能提升了最终成片的通透程度。针对运动场景实现了智能优化,提升了运动区域的画质,提高了抓拍成片率。针对不同曝光序列优化了运动鬼影,改善最终成片效果。弱光环境结合图象分割方面,根据图象区域分割的结果动态调整局部的融合策略,最终的融合结果更加自然。开发暗光环境闪光灯模式和屏幕补光模式人像HDR功能,在暗光人像模式能更好地还原场景动态,同时保持人像的亮度和人脸的细节。进一步拓展了HDR的特性和应用范围:适配了Quadbayer数据,为使用最新sensor获取更好的纹理细节提供了保障;灵活支持可变倍率,为全倍率RAW域HDR的实现打下了基础。在亮光环境下,利用不同通道的混合输入数据,在继承了HDR影调的同时实现了图像纹理细节的大幅提升。针对硬件能力不足的中低端平台,设计了全流程轻量化处理框架,提升了处理效率,降低了资源开销。
(8)暗光图像增强
暗光图像增强技术,公司为客户的摄像头传感器做了针对性支持,确保每个摄像头的去噪以及保留细节达到最佳效果。改进对齐算法,提升运动区域和人像的配准精度,使得算法结果细节保留更多。改进多帧融合算法,结合AI增强提升细节。改进针对运动区域的去噪和融合算法,消除运动噪音和运动模糊。改进高动态场景下的模型训练,使得高动态场景的暗处细节更清晰。改进训练策略,使得落地后的性能优化版本效果更好。研发基于增强型的暗光图像增强算法,实现最终出图效果清晰度明显提升,进一步拓展增强型暗光增强算法的适用范围,使得更暗的场景实现清晰度的提升。针对中低端设备噪点严重的特点,开发新的单帧处理算法优化图像。针对人脸部分,开发专门的算法对人脸进行去噪和增强,有效改善人脸的视觉效果。对不同的平台计算资源,比如NPU、GPU、DSP等做性能的最佳适配。同时,针对更低平台做了算法的针对性改进,维持效果和性能的最佳平衡,使得算法可以平铺到更多的客户设备。针对中低端平台将轻量化单帧图像增强AI模块和多帧模块配合,在很小的系统消耗的情况下,实现细节提升。针对车载平台开发自适应的多帧和单帧算法模块并配合开发轻量化单帧图像增强AI模块,实现画质提升。
(9)超分辨率图像增强
超分辨率图像增强技术,通过不同方案的尝试和实践,最终方案在清晰度上有突出优势,在效果和性能上达到了一个新的高度,满足市场客户的需求。拓展更深层的超分维度,YUV域,RAW域,Quadbayer域等,实现超分辨率的质的提升。改进运动区域检测策略和配准精度,改进融合算法,优化AI模型训练流程,提升AI增强的效果。研发基于增强型的AI超分辨率算法,实现在不同的倍率,清晰度和解析力都得到了明显提升。攻克了Quadbayer更高iso和逆光场景的输入网格和噪音偏大难题,拓展更多的亮度范围场景下,实现光学的超分辨率。改进针对不同摄像头传感器的去噪效果,提升结果细节。优化代码框架,提升性能。实现在不同的放大倍率上,都展现出更好的去噪效果以及细节水平。结ZSL和PSL的RAW数据,开发25M产品,提升结果细节的同时,保留场景的动态,在多轮算法迭代和框架优化后,实现性能和功耗的大幅优化,同时在最新的旗舰平台开发了基于AI的不同解析力图片融合算法,进一步提升图像中不同区域的细节的表现力和一致性。
(10)画质修复
屏下摄像头画质修复技术实现了预期的功能,在抑制图像原有噪声的同时提升图像清晰度、对比度和色彩饱和度,图像整体视觉效果更接近普通摄像头效果。文档图像去阴影技术更新了基础模型,改善了阴影Mask检测的效果。通过对模型的优化和精简,在降低计算量的同时,也大幅降低了内存占用量,并且效果和之前基本一致,从而使得该技术在更多中低端手机上落地应用。此外,通用场景去阴影技术的研发,也拓展了该技术的应用领域。
美食阴影去除方案,针对去阴影产品aways-on使用模式,新增阴影分类模块,明确算法处理的范围,提高了产品的可控性和稳定性;重点优化了深色食材表面的阴影处理,减少了偏色和误去除问题。对于客户反馈的问题场景,进行了数据补充,有效支持了客户的产品使用体验和升级版本。
通过对摩尔纹产生机理的深入研究,对摩尔纹合成算法进行了改进,可以根据不同场景,生成对应的摩尔纹,提升了数据的真实性和丰富性。算法上尝试了多种新的方案,提升了去摩尔纹的效果以及泛化性能,同时精简了模型,降低了计算量。去反光技术细分各种拍摄场景,设计了有效区分反光层和背景层的代价函数,有效地改善了强反光边缘的场景使用效果并抑制误去除,相比基础版本有明显的改善,未来还需要进一步与竞品效果做比较。
图像去反光技术,使用了更加简洁和高效的网络模型,引入新的数据合成方案,针对性优化了特定场景下的效果。目前算法在去反光效果、颜色保持、抑制伪影等方面相比之前版本有了较为明显的提升,获得了客户的认可。
图像去炫光技术,因为多种原因,光线在镜头组中的反射、折射以及散射,会造成手机拍照成像出现炫光现象,表现为圆弧形的光斑、光晕,条纹和放射性线条,重影和鬼影等等,严重影响成像质量和主观感受。新研发的图像去炫光技术,使用AI技术去除特定场景像上的炫光,提升图像质量。该技术包含炫光检测和炫光去除两大模块,目前覆盖的场景包括阳光或灯光照射下的弧形炫光和夜间灯光周围的散射状炫光等,可有效去除上述炫光而无副作用,处理效果相比竞品具有一定的优势。
视频去雨除雾技术,针对车载场景清晰度改善的需求,设计了视频AI训练方案,引入时序先验,改善雨雾天气下的车载场景显示效果,提升了画面的清晰度和稳定性。通过模型网络结构优化和蒸馏等技术,达到3M车载摄像头的实时视频处理。针对特殊雨雾场景数据难以对齐问题,设计了专门的数据合成方案,充分考虑雨雾大气模型,提升合成数据的真实性。
(11)视频画质增强
视频超夜技术,主要改进了去噪算法并且从YUV域去噪扩展到了RAW域去噪。YUV域去噪算法分别针对PC上的应用和车载上的应用做了研究和改进。PC上的应用和车载上的应用的主要区别在于去噪算法运行的主要处理器不一样,前者的去噪算法主要是运行在GPU上,后者的去噪算法主要是运行在NPU上,因此针对其特点分别给出了不同的去噪方案。PC上的去噪算法在传统CV方案上结合了AI方案,CV算法主要是提升了鬼影检测技术,从而进一步改善了运动物体的去噪效果,AI算法根据不同摄像头的噪声特性,设计了不同的训练方案和量化策略,使得每款摄像头都能在降噪质量和性能上达到较好平衡。基于车载平台开发了全新的AI实时去噪方案,并针对鱼眼镜头专门优化了训练数据的采集方案,降低了数据采集的难度,提高了采集效率,从而大大加快了模型迭代速度,同时在模型优化上面采用了数据蒸馏,模型减枝等优化手段,使得模型能够在车载设备上对1080P的视频进行实时处理。对于极暗的视频,在YUV域处理比较困难,因此我们将处理域前移到RAW域。RAW域处理的好处是噪声形态没有被其它处理过程破坏,保持了原始的噪声形态,这对于去噪网络来说是比较友好的。但是它的难点在于需要处理的数据量增加了,因此对于极暗视频,我们的重点放在了模型优化上面。经过优化我们可以在当前的旗舰机下实现4K视频的实时处理,同时噪声去除能力也明显优于传统的去噪算法。手机端视频超夜技术,拓展手机端至暗光0.1ux,极大改善AI降噪模型的降噪能力的同时保持细节。在实时性和功耗上,做到极致优化,满足客户使用场景需求。针对性训练不同摄像头传感器的视频去噪效果,针对客户的不同硬件平台,设计模型和量化策略,达到画质和性能功耗的较好平衡。视频超分技术,持续改善文字场景和密集纹理场景的效果,进一步提升了小字号字体的清晰度,增强可阅读性,改善了混合语言文字场景中的某种语言文字较好另一种语言文字偏差的问题。在密集纹理场景中,减少出现假纹理现象的概率。同时,优化了模型结构,减少了性能开销和功耗,并保持处理效果跟优化前持平。视频插帧技术,扩展了应用场景,包括在模拟长曝光场景的应用,在视频编码插帧场景的应用以及在多摄相机切换镜头中的应用。在模拟长曝光场景的应用中,主要针对大运动、非刚性运动以及频闪等场景下做了优化,改善了插帧的平滑性和流畅性,减少插帧错误率。在视频编码插帧场景的应用中,提升了其在物体遮挡和复杂背景下的追踪精度,进一步改善了插帧结果的边缘清晰度。在多摄相机切换镜头的应用中,插帧技术用于改善多摄相机在切换镜头时的画面平滑性。在该应用场景中输入的两帧图像来源于不同的镜头,镜头之间的焦距不一样,因此视差范围差异比较大、画质差异也比较大,同时镜头之间还存在视差,这些差异给视频插帧技术带来了不小的挑战。为了解决该问题我们从训练数据和模型优化两个方面着手。在训练数据采集方面,采用了实拍加仿真相结合的方案,实拍数据能保证数据对场景的契合度,仿真数据可以增加数据的多样性。在网络结构方面也做了相应的优化,以适应这种特殊的应用场景。相对于原有的算法,视频插帧技术的引入,使得在切换镜头时画面的平衡性和流畅性有了非常明显的提升。
(12)畸变消除
进一步优化了光学畸变消除性能和功耗表现,提升了视频流的处理性能;进一步提升了身体部分的修正效果并优化了任意输入区域透视畸变弱化的效果;设计实现了人脸和身体透视畸变检测及自适应矫正的方案,扩展了人像矫正的适用范围。增加了人像俯仰拍摄畸变修正方案,针对不同角度拍摄人像进行拍摄角度修正,合理利用畸变,提升了人体拍摄美观度。
(13)光学变焦
平滑切换支持更多的摄像头组合,变焦算法扩展至更多的低平台,更新镜头间公差校正算法,解决低端平台因摄像头公差较大导致的旋转跳变感,更新融合过渡算法(即fusion),功能上将fusion模式拆分,实现模块化和参数化,能够针对客户需求定制fusion效果,提高效率。
本报告期算法持续更新,面向视频模式,进一步提升了变焦的平滑性,使得切变效果在摄像效果下更加自然。另外针对视差较大的情况,新开发了AI融合插帧算法,能够在两个镜头获取的图像间生成具有视差变化的中间图像,使得大视差的切换更为自然,减少了鬼影等不自然的画面。该算法目前已经完成原型开发。
(14)多摄标定
进一步扩大AVM标定和BSD标定的适配范围,以完成更多厂商/车型的不同需求,设计完成全套车载摄像头标定解决方案,包括EOL、在线、售后车载多摄像头标定姿态相对/绝对标定解决方案,设计完成激光雷达标定、ARHUD标定、红外传感器标定方案。开发了全新基于wordmode的标定算法,并以此为核心开发了下一代的车载售后标定和镜头外参autofix算法,极大地降低了算法的硬件资源占用和执行时间,同时保证标定精度与上一代算法比未有降低,完成整套车载标定体系,保证车载标定算法整体从产线、售后、用户日常使用和维护的完备性。
(15)全景拼接
全景拼接技术,主要针对不同焦距的镜头进行了效果和性能上的优化。在匹配算法方面,针对不同的镜头做了自适应的调整,比如长焦镜头的特点是图像帧间距离比较大,匹配算法需要增大搜索范围,而广角/超广角镜头由于畸变比较大图像扭曲比较严重,因此需要进行局部匹配。针对这些特点,我们开发了适应性更强的匹配算法。算法能力提升了,但是耗时也增加了不少,因此我们利用多种优化手段对其进行优化,特别是我们充分利用了系统的GPU,把算法进一步的细致拆分,使其能够充分利用GPU的并行性,优化后的算法比优化前的算法在性能上只增加2%。对于仰拍和俯拍的场景,匹配算法精度大大提高,拼接接受率提高了30%。针对超广角镜头中出现的直线扭曲问题也有很大的改善,接受率提高20%。针对具有运动物体的场景,我们进一步提升了运动物体的检测算法,采用动态拼接缝的方式,避免运动物体处于拼接缝的位置,使得运动物体完整呈现。
(16)人脸美化及修复
公司在图像修复与编辑方向上长期致力于LivePhoto、视线校正、人头姿态校正等人脸修复与编辑技术。
LivePhoto技术调整了深度神经网络结构,针对性地改进了口腔区域模糊、不真实的问题;研发了针对特定人物的微调技术,使得算法能够生成更加逼真的结果;对网络进行性能优化,使得效果可以在PC设备上做到实时。改进的新版本可以不依赖于初始的对齐步骤,利用隐式参数传递即可完成人物驱动,提升了技术的易用性。2024下半年采用更高效的隐式参数驱动方法,大幅提升运动传递的准确性,使处理后的人物动作更加自然流畅。同时,增加边缘保护机制,处理结果可完美贴合原始图片和视频,极大提升了技术的实用性,为用户提供了更多创意和应用的可能性。新研发了视频口播数字人技术,基于用户提供的几分钟视频素材可以训练得到对应的数字分身,在输入不同的文字内容时可以进行相应的生动播报,支持中文、英文等多语种。新改进的版本提供了可跳过预训练的通用口型生成方式,使得用户可以便捷地对视频中人物口型进行替换,降低创作门槛,同时新版本还增加了语音克隆和视频延长的功能,进一步提升了生成视频的真实性。结合最新的DiT技术,进一步提升口型与音频的匹配度,使数字人播报更加自然流畅。此外,除了数字身份应用外,积极拓展技术边界,结合多模态大模型和视频生成技术,实现了实时语音对话和AIGC个性化视频生成应用,为用户带来更丰富、更智能的交互体验。视线校正技术研发了全新的3D视线校正算法,创新地结合了三维人脸重建和二维图像编辑方法,相较于前代算法产品,突破了正脸姿态的限制,并且大幅度拓展了算法能支持的视线角度,在人脸角度和视线偏移角度均较大的情况下算法依然可以得到正确的矫正结果。在用户主观测试报告中,新的算法在真实感、矫正范围、算法稳定性、准确性等方面均明显优于竞品。人头姿态矫正技术结合了三维人脸重建与生成网络技术,设计了新的实现方案,相较于2023年的版本,对效果的自然性、头部角度支持的角度大小、算法性能消耗等方案均进行了较大幅度的改进。在效果上,相较于前代版本,解决了可能会出现的额头部分变长、脖子区域融合拼缝、面部抖动、面部刘海导致眼镜断裂等问题,在视频上能做到连续、稳定、自然的结果。在性能上算法完成了模型的蒸馏和量化训练,以及计算过程全部部署在GPU上,实现了算法在设备端的实时运行。
在人脸美化技术上实现了人脸自适应肤色调节技术,可针对不同肤色的人脸进行自动肤色调节,有效提升不同肤色情况下的效果一致性;调整了磨皮方案,进一步提升了细节表现力,肤质纹理更加自然,增强了对不同画质人脸去噪的自适应性,改善人脸明暗不均现象的同时立体感也得到提升;实现预览磨皮算法,在去脏能力、通透度、立体感、肤质细腻度方面都有所提升;实现了Vukan方案的磨皮、美白、美唇、亮眼、白牙等美颜技术和腮红、眼影、SkinGoss、美瞳等美妆技术,在基本保持性能和视觉效果优势的情况下,解决了客户不同设备平台间驱动更新时产生的兼容性问题,降低了产品的维护成本;实现了4D眼睫毛、眼影、唇彩、腮红、SkinGoss等4D美妆技术,较大程度上提升了美妆的真实性、立体感和光泽度,进一步优化了大角度、姿态下的美妆效果;实现了AI唇部、眼部遮挡物体分割算法,提升了美妆技术的实用性;实现了AI预览祛斑算法,较大提升了预览美颜的祛斑、去脏能力,对肤质纹理也有很好的保留;优化了拍照AI祛斑算法,对大侧脸提升祛斑效果的稳定性;图像祛斑方面也增加了去抬头纹、去颈纹等新功能。性能功耗方面,进行了GPU优化、模型优化和NPU硬件优化。优化了拍照AI祛斑算法,对大侧脸提升祛斑效果的稳定性。预览头发柔顺技术可以去除视频中的杂乱发丝、捋顺发束,达到美发风格化的效果。针对海外市场需求,定制实现了Bindi检测技术,可保护印度女性眉心Bindi,提升美颜效果;针对客户对高清人像的需求,开发了结合AI的人像算法,在调整光影瑕疵、修饰皮肤质感和恢复五官结构上做到了光影更好看、肤质更细腻、五官更清晰,打造了人像审美的高级感。
低光照和极暗光线下的人脸美颜解决方案继续扩展了超清人像美颜风格的应用平台,人像视觉效果更加自然、整洁,同时保持清晰度和立体感。视频任务上,针对移动设备端改善了模型以及任务框架,增强人像效果以及自然程度,同时提升了性能并优化了功耗。而PC端主要增强人像修复强度,提升人像解析力,同时针对不同平台做了专门性能优化。实现针对车载、平板、PC、手机等设备的视频人像修复的轻量级模型部署。
人脸修复技术针对不同画质的人像照片,进行了更细致的算法区分处理,能够让正常拍摄的人像脸部肤质更显性、更自然,将长焦或极差环境下拍摄的人脸恢复清晰,目前算法都已实现在手机端的部署,作为整体画质增强模块的一部分,人脸修复技术已应用到多个产品之中。
人脸换头技术,用来提升用户拍照时(尤其是人像合照场景)的成片率。在合照拍摄场景中,往往在抓取精彩时刻的一瞬间,会存在部分人物头部、表情姿态等不协调,如果重新拍摄将费时费力,且错过了那一精彩时刻,也难保重拍过程中仍存在另外人物新的姿态不佳。人像换头技术基于动态照片拍照场景(用户在拍照时,会有一张最终成像的静态图像和同步保留拍照前后3s左右的动态视频),算法通过抓取动态视频内人物好的头部表情姿态,来替换融合最终成像中人物不好的头部表情姿态,从而保证最终合照成像下所有人物都有最佳的表情和姿态。整个算法处理过程中,基于公司已有成熟算法积累(微笑检测、模糊判断、睁闭眼开合度检测、遮挡判断等),自动化抽取推荐出姿态佳、表情姿态好推荐帧,用于人物头部姿态替换。为了提升算法应用的鲁棒性,扩展应用边界,针对一些遮挡场景下,整体头部姿态校正的不适应性,我们新增开发支持了换脸策略,只对成像中人物面部五官表情进行替换。另一方面,受限于动态视频帧画质与成像画质的差异,我们新增了肤色/画质的对齐模块,以及对应画质微调的人脸修复算法来进一步的对齐画质,从而保证最终头部姿态替换融合校正后整体画质的一致性。
持续优化视频虚化(电影模式)、单摄虚化、双摄虚化的产品细节,始终保持行业领先地位。
本报告期内,公司基于自主研发的AI-DepthUtra技术,构建了新一代智能虚化引擎AI-BokehUtra,完成了从深度感知到光学成像的全链路技术升级。该方案以高精度深度预测算法为核心,通过融合物理光学仿真与场景语义理解技术,在移动设备上首次实现覆盖全场景的单反级光学虚化自适应能力。基于AI-DepthUtra的真实距离预测能力,系统可智能适配不同光圈参数下的虚化强度梯度,有效改善传统方案中部分场景虚化强度过强或过弱的问题;结合主体语义分割与matting技术,实现主体像素级边缘检测与精细发丝还原,达成单反标志性的“刀锐奶化”成像特质;凭借高精度深度解析能力,能够精确处理细密物体与镂空结构(如首饰、花枝、细网格等)的虚实过渡,呈现符合物理光学规律的自然渐变效果。该单摄虚化方案不仅在成像质量方面进入虚化领域第一梯队,同时在计算延迟等关键性能指标上达到业界领先水准,目前已完成技术验证并进入量产转化阶段。
视频虚化支持了P010格式,色彩更加丰富,光斑的层次感、立体感及艺术感更强;支持了任意形状的光斑,效果更具有艺术性和创造性;优化了自动及手动对焦算法,对焦主体检测及跟踪更加准确、稳定。单摄虚化支持了极浅景深效果,能够模拟超大光圈拍摄人物特写时的虚化效果。视频虚化和人像虚化均继续改善了边界的准确性,效果更加真实、自然。在保持准确性提升的同时,性能和功耗也都有10%以上的优化。作为底层核心技术,视频虚化和单摄虚化均持续保持行业领先,并在更多客户及平台成功出货。
视频虚化继续精细打磨产品细节,持续保持行业领先水平。重构并升级了底层渲染引擎,对各硬件平台均具有更好的适配性和通用性,提升了算法部署效率。进一步优化了性能及功耗。优化了视频光斑触发算法,使得光斑更具层次感和立体感。单摄电影模式继续在更多手机客户及平台大规模成功出货,双摄电影模式也开发完成并成功出货。
升级了新一代渲染算法,该算法在效果上更加逼近大光圈的单反镜头,光斑更具真实性、自然性和艺术性;改善了渐变的层次感,使其更加立体、自然;改善了边界的准确性,使其更加锐利;进一步改善了虚化效果的准确性及渐变虚化的层次感,提升了成片率;支持了圆形及椭圆形电影镜头级光斑效果。支持了高通SM8550等旗舰手机平台4K分辨率30FPS实时渲染,同时支持下沉到高通SM7325等中端手机平台并成功出货。实现了已拍摄视频在相册中重新编辑虚化强度、对焦点等功能的算法原型;作为底层核心技术,多维度达到了业内领先水平,为电影模式在多家手机客户成功出货提供了重要技术支撑。
升级了视频换背技术,能够根据背景图像自适应地调整前景的色调和亮度,使融合结果更加自然、真实。优化了手机前置摄像头自拍场景下的人像虚化效果,发丝更加准确、真实、自然。双摄虚化基于更加精确的双摄AI深度,进一步优化算法,使得效果更加精确和自然,接近单反相机拍照的效果。同时虚化算法、HDR和超级夜景等画质类算法结合,显著提高了虚化光斑的层次感和真实感。进一步基于特定的单反相机或镜头专门优化光斑效果,使得更加接近光学镜头拍摄的效果,如哈苏风格化等。结合第三代AIMatting技术,发丝的数量和精准度对比前一代有了进一步的提升,同时头发附近的发饰等细小物体的分割效果也一并得到了改善,同时结合深度信息,可以让发丝产生层次感的虚化渐变,更加接近光学相机拍摄的效果。
双摄虚化与TurboFusion技术有机结合为TurboFusionBokeh,利用TurboFusion获得真实场景亮度信息,使得虚化更加接近单反相机在实际场景中的拍照效果,光斑更具能量感和层次感,形状更加接近单反相机的效果,颜色也更加真实。TurboFusionBokeh的光斑效果升级成2.0版本,光斑的颜色、亮度、形态和层次进一步逼近真实相机拍摄的效果。
全新的AIBokeh技术,可以修复深度图上的瑕疵,是业界首次可以逼真地模拟出接近单反相机真实自然的前景虚化效果,同时还可以支持多种单反相机的光斑形态。AIbokeh从8bitYUV域扩展到16bit线性RGB域,完全嵌入到了TurboFusion的流程之中,从虚化生成原理上更加接近实际光圈相机的生成过程,结合最新的高精度深度模型和第三代AIMatting技术,基于更加精细的深度层次信息和更加精准的头发Matting,开发出了虚拟光圈技术,可以更加逼真地模拟特定单反镜头不同光圈下的拍摄效果。
(18)深度恢复
在本报告期内,公司自主研发的AI-DepthUtra技术取得突破性进展:通过算法架构和训练数据的双重革新,实现了深度感知精度的大幅提升,可精准识别耳环、花束、吸管等手持物细节,以及铁丝网、细栏杆等复杂空间结构;通过突破传统单摄像头系统只能预测相对距离的技术局限,创新性地实现了真实三维空间中的真实距离预测能力。该技术在单图深度预测领域已形成完整产品化解决方案,不仅首次在移动端实现全场景单反级光学虚化自适应能力,而且支撑空间成像、多主体动态融合等新型影像场景落地。经系统级优化,单图深度预测在计算延迟等关键指标均达到行业领先水平,不仅推动单摄虚化技术进入虚化领域第一梯队,也为未来3D视觉、AR交互等战略方向奠定核心技术基础。视频深度预测方案也已完成算法原型开发,正在加速推进项目落地。
持续迭代优化不同场景、算力、精度条件下的各类单摄深度恢复模型,超高精度深度恢复模型的准确性进一步提升,能够更加准确表达多景物、同层次、不同纵深等场景的深度描述,并且进一步优化了边界准确性,为更多高精度深度需求的应用提供底层支撑;高精度深度恢复模型应用于单摄虚化等拍照应用,重点改善了同层次一致性等维度的精度,大幅提升了成片率,支持了单摄虚化的极浅景深模式;应用于人像视频虚化(电影模式)的视频深度恢复,显著提升了整体准确性和成片率,提升了中远距离人像场景的精度,同时优化了性能与功耗,持续在多维度保持了行业领先水平,满足了多家客户对于精度、功耗、性能等指标的高标准要求。
为进一步满足客户下一代平台的虚化要求,持续对双摄深度恢复算法进行开发和优化,使得其性能和效果在客户的下一代平台上得到了最佳的部署,极大地提高了深度的准确性和精细度,并且对于不同的双摄模组排布的支持也更加完善。双摄深度AI模型从原来的只支持水平垂直排布的模组拓展到支持任意角度排布的模组。同时针对一些特殊情况,比如细小物体、透明物体、反光物体、低光夜景场景等,融合了单摄模型,训练了全新的双摄深度模型,使得深度效果更加稳定。
针对单摄深度恢复算法,则引入更大的模型蒸馏和metric机制,使得对于近景人像的细节和深度值的准确性进一步提高。
基于单摄的多视图深度恢复技术研发取得了长足进步,相比基于单一视图的深度估计方法,借助多视图像可以更好地恢复场景几何信息,并应对场景遮挡问题,同时拥有更高的深度估计精度和一致性,是三维场景重建的基础。为了提升网络的精度和泛化性,引入虚拟合成数据精调模型,进一步提升网络输出精度,使其可以重建弱纹理、更复杂的室内场景。另外,实现了模型在端侧设备上的部署,在保证较好实时性的前提下,取得明显优越的深度估计和重建效果。这一突破为移动端实时SLAM、VR/AR导航等应用铺平道路,进一步拓展多种应用场景的落地可能。
(19)图像语义分割
优化人像Matting算法,针对接入人像虚化后,发丝区域在复杂背景和光照下的误虚、漏虚和断续等问题,在算法端和数据端同时发力,对Matting效果进行了迭代升级,使得发丝效果更加连续顺滑,细节得以准确保留,整体效果更加真实自然。
继续优化AICamera智能场景识别算法,在稳步提升白天场景多语义分割准确性的同时,还特别针对夜晚场景进行了效果优化,提升了夜间人像、天空等类别的精度,为夜景增强应用提供了支持。
针对日益增加的视频处理需求,开发了视频物体分割算法,并实现了该算法的设备端部署。该算法对于物体的遮挡、消失、形变等问题也有较好的鲁棒性。该算法能够为多种视频编辑应用提供支持。
对AIGC线上人体区域解析大模型进行了优化,在分割效果维持不变的情况下,推理性能优化了30%。通过进一步的数据迭代,充分发挥了大模型的学习能力和特征提取能力,提升了人体区域和服饰区域的分割精度。
升级人像Matting算法,在进一步提升发丝细节准确性的同时,重点考虑了在多纹理、绿植、眩光等复杂场景下的边缘颜色溢出、漏光等问题,同时增加了发饰、耳饰等饰品的支持。在算法端和数据端同步迭代,使得虚化后的发丝效果更加真实自然,饰品得以完整保留。
持续优化AICamera智能场景识别算法,根据应用需求增加了人体肤色区域的实例信息,增加细粒度区分普通植被和花卉植物功能。通过数据迭代进一步扩充算法的适用范围,提高算法在不同场景、不同时间段的准确性和鲁棒性。
持续迭代AIGC线上人体区域解析大模型,为了实现AIGC技术对身体各区域更加精细的控制,将人体区域划分提升到23种类别,通过区域交叉感知技术,缓解了相似特征带来的歧义性问题,保证分割掩模的准确性。通过融合Matting技术,将基础模型的全局感受能力与精细特征提取能力相融合,大幅提升了人体各区域的分割精度,为生成效果提供了保障。
(20)物体识别
车牌脱敏技术解决方案针对行车记录仪、AVM镜头等场景进行了进一步的优化。针对不同镜头采用小的专家模型方式,在低算力的条件下对不同目标设备进行了最大程度的优化。同时增加自适应卡尔曼滤波跟踪技术进一步缓解视频连续帧中的误检漏检,车牌的检测结果在视频序列中更加稳定。在通用场景上达到了98%以上的检测率和2%以下的误检率,远远满足了《汽车传输视频及图像脱敏技术要求与方法》的相关要求,同时雨雪天气、夜间暗光上也有了较大的提升。在车牌支持类型上,从大陆常见车牌拓展到了警车白牌、大使馆黑牌、新能源公交车黄绿牌和港澳双车牌等。
哨兵模式在维护已有客户线上版本稳定迭代的同时,针对新客户的需求进行定制化开发,大幅优化了多种驻车场景下车辆/开门杀的误报问题,将误报率控制在1/100h以下;对低仰角镜头下检出率下降明显的问题进行优化,对齐了不同镜头的召回指标;对于不同芯片算力差异大的现象,设计了不同程度的轻量模型,实现了QNN/SNPE/GPU等多种平台的部署,顺利交付多个车型项目。此外,探索了多种哨兵模式的新功能,设计并部署了基于运动检测的高灵敏度哨兵方案,增加了多种非常规类别的运动报警支持。
AON码识别技术,本报告期内实现了AON码识别技术。针对手机场景,使用手机后视相机实时无感判别二维码、条形码的场景,并询问用户是否需要码识别,从而减少扫码操作步骤,提供更便捷的扫码服务;该技术目前具有低功耗、低延迟、多种类、多尺度、大角度等特点,准确检出率≥95%,误检率≤1%。针对车载场景,车载二维码识别技术,低速场景下采用车身周围相机,实时检测周边出现的二维码,并投影到车机显示屏,用户可在车内完成扫码完成泊车支付等功能。
(21)场景识别
场景识别引擎GPU版本继续更新迭代算法模型,支持高通、MTK等NPU平台的运行,进一步提升了全体场景检测准确率,改善支持任意角度和有限度遮挡的目标场景检测。
(22)三维重建
三维重建技术更新了基于3D高斯的重建算法方案。与原先的NeRF方案相比,重建速度和效果都有比较明显的提升。实现了一套在线内参标定算法,可以支持任意手机拍摄的视频作为算法输入而无需事先标定,方便服务器端重建应用场景使用。实现了一种全局一致的前景分割算法,能从视频中自动分割出前景物体完成重建,剥离不相关的背景。支持手机端实时渲染,能较好地复现各向异性的光照效果。
针对XR眼镜应用场景,迭代和部署实时三维重建技术。迭代实时语义场景重建,并构建出室内场景的布局信息,目前已经支持室内场景墙、门、窗、天花板、地面、桌子、椅子等元素的布局信息,形成一个更简洁,信息更丰富的室内场景信息,为XR上层应用提供更加完善的语义信息,方便XR创作者创造出更加丰富的应用。
实现了一种立体视频生成算法,可自动对普通视频进行局部重建并在新的双目视点下渲染生成立体视频,从而使得普通手机拍摄的视频也可以在XR眼镜上获得具有立体感的沉浸体验。该算法支持在手机端部署运行,其效果与目前PC端商业软件相当。
开发静态场景隐式建模技术,支持生成高真实感的新视点图像。该技术方案根据视频与实时获取的相机位姿,用神经网络隐式建模三维场景,通过可微的体渲染技术,实现端到端训练。该技术方案可重新规划相机路径后渲染得到新的视频,用于视频编辑和立体视频生成等。结合神经辐射场和隐式符号距离函数几何表达,还可用于重建静态场景的三维网格模型。在静态场景建模技术基础上,增加室外街道场景的动态物体建模,从而支持对开放式动态场景进行建模,并同时对静态场景和动态物体进行渲染。增加了基于3D高斯的动态街道场景建模,提升了渲染的图像质量与速度。
AddMe自助合照技术,支持用户在无人协助的情况下实现合照。该技术可引导多个合照人在相同位置交替拍摄两张照片,然后利用图像融合算法,将两次拍摄结果合成为包含所有人的合照。此技术能够自动检测和分割图像中的合照对象,精确匹配两张图的内容,准确拼接所有合照人像。同时,还能妥善处理人物前后的遮挡关系、人像的阴影等,保证合成图像的人像具有正确的空间关系、自然的光照效果,减少人工痕迹,使合成照片具有较强的真实感。
(23)光照重建
对大模型方案下人像重打光技术进行了一系列改进,提升了模型的性能。利用先进的AIGC技术,扩充了训练数据集的规模,生成了更多样化的训练样本,为模型训练提供了更广泛的场景和变化。对于原始训练集中质量欠佳的数据,进行了重绘微调,有效改进了数据的整体质量。模型的泛化能力和鲁棒性得到了进一步提升,重光照的效果和成功率也有了明显的提高。尤其是全身人像的重打光效果更精准和自然。环境光照建模方法也进行了改进,从较为简单的光照建模加强为支持直接输入复杂的环境光照图,从而避免了因低阶近似导致的信息丢失,能够更精确地表示复杂的光照条件,生成更加逼真的效果。另外,还实现了根据背景光照条件自动调整前景人像光照的功能。该功能可用于虚拟场景渲染与合成,能够将真实人像与虚拟场景无缝融合,生成高质量的合成图像。近期实现了针对非理想拍摄条件下的人像光照增强功能。该功能能够自动增强在侧光、顶光、背光等复杂光线环境下拍摄的照片光照,智能地提升图像亮度,减轻阴影,提升照片的整体观感。通过采用模型蒸馏等技术简化模型结构,已成功将该技术部署到了移动设备上,目前正在持续进行性能优化和效果调整,以进一步提升用户体验。
VR手柄跟踪是SLAM技术的一个新拓展领域,是VR终端设备的刚需技术。VR手柄算法完成了从仿真到实际设备开发的转变。支持多种第三方设备,并支持双手柄实时交互,实现了安全区设定、空间划线等功能。对VR手柄跟踪算法的性能、鲁棒性、精度等进行了全面的优化,在高通XR2设备平台上,算法单帧耗时在22ms以内,支持视野可见范围内2m/s的剧烈运动,平均定位精度小于6.5mm。除了基于光斑的传统VR手柄,还开发了使用手机作为VR手柄的功能,可以使用普通的Android手机实现实时六自由度跟踪定位,实现菜单点选、简单的游戏交互等。对手机手柄跟踪算法的性能、鲁棒性、精度等进行了全面的优化。从逻辑上优化了用户体验,使得输出轨迹更加光滑、流畅。
SLAM技术在XR眼镜的头部位姿估计上取得显著进步。头部位姿估计是XR眼镜的一个核心技术和基础功能,要求低功耗、高精度和低时延。通过优化SLAM算法和把视觉模块从CPU移到DSP,SLAM算法计算效率提升30%,有效地降低了功耗和运动时延。针对XR常见的室内小面积使用场景,对建图模块进行大量优化,极大提高后端建图和实时定位精度。同时,改进姿态预测模块,实时定位准确度提升30%,接近业内毫米级的定位精度要求。已有版本在多款XR原型眼镜上集成,能为快速、准确的头部位姿估计提供良好的用户体验。
同时,SLAM技术在本报告期内扩展到高阶辅助驾驶领域,包括城市NOA产品的记忆行车自建图算法和基于SDMapPro地图的BEV道路融合定位。在轻图辅助下,本报告期内实现了硬件选型,BEV+GPS+里程计的多传感器融合定位算法,支持城区内各种复杂路段。
本报告期内研发了激光SLAM技术,该技术可以支持智能驾驶中4d标注所需的高精度、低时延的6DoF定位和道路场景的点云稠密重建。
(25)3DAR动画
公司打通了3D数字人创建、编辑、实时驱动全流程。支持基于单张图或扫描模型完成数字人重建。与之前的重建算法相比,改善了头顶区域、眼睛的相似度,提升了纹理重建效果。编辑模块支持对重建模型的脸型、头型、五官、脖子等进行直观地修改。实现了基于单个RGB摄像头的实时全身驱动,包括表情跟踪与手势跟踪,实时动画效果基本达到业界领先水平。3D数字人重建增加了人头重建模块,提高重建人头几何的相似度;支持双眼皮的拟合,眼睛的相似度;增加了编辑模块,支持重建模型的再编辑及调整,同时也支持从中性模型开始编辑。新研发了基于球形实验室多视角数据的超写实数字人重建方案。新方案的重建质量远好于传统方案,3D渲染结果能达到以假乱真的地步。支持左右90度的视角渲染,渲染结果包含部分躯干。支持表情实时编辑,也可进行单目表情实时驱动。为了改善3D数字人重建的真实性及超写实数字人重建的便捷性,新研发了基于3D高斯表达的数字人方案,此方案更加便捷,用户仅需输入两分钟左右的自拍视频,即可重建出包含部分驱动的写实数字人,算法可在手机端运行,不仅支持表情、视线、头部位姿的实时编辑及驱动,也能较好地复现出各向异性的光照效果。
(26)健康监测
在保持健康监测技术稳步量产的前提下,提升技术先进性,保持业界前沿地位。心率检测方面,结合更精准的频率分析技术和场景识别技术,提高多场景下的信号质量评判和提取能力,提升产品精度和不同镜头多种场景适配程度;呼吸检测方面,利用新的信号处理方法,扩大瞬时呼吸支持范围,提升瞬时呼吸算法场景精度和鲁棒性,在主动检测功能中新增9种呼吸异常状态的检测,着重提升了对呼吸停滞的判断准确率,同时优化了被动检测场景下的呼吸算法精度。
ADAS产品矩阵持续深化技术布局与场景拓展,通过多维度创新实现产品力跃升。本报告期,公司基于市场需求与技术创新双轮驱动战略,构建了覆盖低、中、高算力平台的完整产品体系,形成低算力预警产品、高性价比前视L2产品、中算力环周L2+产品的阶梯化布局,通过持续技术迭代在算法优化、功能完善与性能突破等方面取得显著进展。低算力预警产品完成第二代技术迭代,实现安全性能与运行效能的同步优化。核心预警功能指标取得突破性进展:前向碰撞预警(FCW)功能召回率提升3%,精准率提升6%;车道偏离预警(LDW)功能召回率提升5%,精准率提升3%;盲点监测(BSD)功能召回率提升20%,误报率降低50%。系统架构层面,算法整体耗时降低10%,内存占用减少60%,并通过自适应场景管理系统完成对欧洲E-NCAP、GSR等法规场景的全覆盖适配。前视L2级产品实现纯视觉技术路线的重大突破。通过构建“检测+测量+决策”全链条深度学习架构,并引入端到端技术框架,障碍物检测模块取得突破性进展:基于时空连续性约束的新型测距算法使目标物距离测量误差环比降低10%,速度输出稳定性提升60%,由此推动大规模路测中AEB误报率环比下降60%。道路环境感知方面,采用分段式BEV方案,经三次迭代升级,车道线整体召回率提升3%,在复杂场景下平均召回率达到95%。车道居中控制(LCC)系统通过引入场景自适应算法,支持场景类型扩展30%至12大类(含无车道线路段、施工区等特殊场景),最高适用车速提升30%。底层算法方面,自动标定算法支持曲率范围扩展,平均耗时降低40%,工况识别准确率提升5%;同时新增纯视觉灯系检测算法,支持夜间光源、车尾灯及信号灯识别,最远探测距离突破200米。面向高阶智能驾驶的中算力环周一体产品基于端到端BEV方案逐步深入迭代,关键精度指标环比提升10%。功能开发方面,在基础L2功能之上,已实现无高精地图支持的高速上下匝道技术闭环,完成第一版实车功能验证。ADAS规控上完成AEB、ACC、LCCdemo样车的搭建,通过持续的技术迭代与场景适配,ADAS系列产品在复杂环境下的感知精度与决策可靠性显著提升,用户实际体验获得系统性优化。
(28)图像特效
基于丁达尔效应产生的物理原理,选择合适的场景对仿真实现进行合理的简化和模拟,最终实现一套结合AI和CG的方法,为特定的场景图像添加上合适的丁达尔特效效果,提升图像艺术感。人像线条画效果和宠物线条画效果,这两种效果都结合了AI技术和审美的艺术,通过AI算法提取出具有表现力的线条,然后根据审美的评判制定一些准则将原始图像转换为一幅线条艺术画。目前二者都已实现手机端部署,并有参数控制线条粗细、颜色、数量等,从而满足不同用户的自适应调整需求。
光照耀斑项目基于对物理世界相机镜头与光照规律的精确建模,通过模拟实际镜头的参数,设计任意预想的耀斑效果。在用户拍照时添加耀斑效果,能显著提升图像的层次感和真实感。同时,精心设计的耀斑样式还能提升图像的艺术美感。该算法结合了光照方向检测,能够根据当前光照环境自动调整耀斑样式,以确保耀斑效果与当前场景自然贴合。目前,该项目已在手机端部署,并包含耀斑颜色与样式设计模块,可以满足用户获取不同耀斑风格的需求。
FairCip人像风格化效果通过无监督、少样本地学习特定风格的图像,将图像风格迁移到目标人像中,同时保留人物的可识别特征,实现了数据需求量低、效果稳定、帧间连续性好的人像风格迁移算法,并在服务器端进行了部署,同时向客户递交了一些测试通过的风格化模型进行商用。
PersonaCoorTone技术旨在通过个性化定制打破当前设备端内置滤镜的局面,允许用户创建新的基于学习方案的滤镜风格,释放创造力。首先,用户根据个人喜好在app上编辑素材,得到自己想要的风格图,然后直接在设备端进行在线训练,快则几分钟,慢则30分钟就能得到目标风格模型,视素材量而定。用户在后续拍照时,只需要选择训练好的风格模型,就能得到目标风格图像。小巧轻便的模型设计是关键,大大减少用户等待的时间,提升用户体验。
新研发了AIGC视频生成技术,能够基于单张人物全身照片和预定义的动作模板生成相应的动画视频。该技术使用便捷,生成的视频能够很好地保持输入图像的人物脸型、发型、服装、配饰等外观,也能较好地保持图像背景不变。同时,能够很好地表现大角度的人脸以及生成转身的效果。2024下半年更新了AIGC视频生成的技术,在原有生成动画的能力之外,增加了手部动作的稳定性,改善了视频的整体画质;除此之外增加支持基于人物全身正面照加背身照和预定义动作模板生成对应的动画视频,以及基于半身人物照片生成相应的半身动画视频。公司产品在模特视频生成质量上达到行业领先水平。在同类图生视频产品中,公司产品独具优势,是目前唯一能够支持正反面输入并实现360度完美还原服装细节的产品。目前,该技术在PSAI网站上线,基于用户上传的图像生成模特走秀视频。
通过深入的尝试与研究,基于潜心沉淀的视觉大模型、小模型(细分模型与浅层模型)以及各类CV和CG引擎包构建了一套专有的计算技术引擎ArcMuse。该引擎为虹软PSAI赋予了卓越的智能商拍能力,可高质量生成服装模特展示图、服装展示图、商品展示图及模特展示视频,全方位提升商拍图片及视频的美感和质感,助力用户在效率、创意和成本方面取得更大的提升。
对于其中的AI模特视频生成功能,用户仅需要上传一张全身模特照片,即可生成转身等复杂动作,高保真地展现和还原模特穿上服装后的动态效果,以及衣服的物理效果。它基于ArcMuse计算技术引擎大模型的生成能力,并结合了公司多年沉淀的视频人像属性解析技术,能够保持模特自然的写实效果,无论是正面、侧面、大角度都可以高保真生成和还原,同时可以完美地还原服装物理效果,如裙摆的飘动,完美地表现模特穿上服装之后优雅的风采和神态。
对于其中的AI智能试衣功能,用户只需要上传一张服饰图,选择目标模特,即可生成该模特穿着该服饰的效果图,该效果图能够真实体现服饰穿着在模特身上的悬垂感、褶皱及光影变化等,且与真实服饰保持较好的一致性。其中的服饰图可以支持挂拍服饰图、平铺服饰图及3D服饰图,且支持上装、下装、裙子等多个品类的服饰。目标模特同时支持内置模特和用户自定义模特,其中内置模特覆盖不同年龄、性别、肤色等,用户自定义模特可由用户根据自身需求上传相应图像。该功能基于虹软自研扩散模型基础架构及海量数据训练,能够极大简化传统真人模特拍摄的流程和效率。
通过对用户需求反馈的持续优化迭代,该方案已达成行业领先水平,有效助力公司PSAI项目为服装商家提供兼具优质效果、快速响应与降本增效特性的解决方案。
同时,针对目前项目落地中服饰品牌客户的真实需求,支持了同版型替换功能和局部重绘功能。在输入服饰与模特身着服饰版型相同时,同版型替换功能能够输出相同版型的服装上身图像,服饰上身效果更加稳定,细节纹理更加贴合服饰原图。服饰局部重绘功能针对智能试衣中出现的局部版型和纹理错乱的问题,框选需要修改的区域后进行局部修改,可以明显提升出图效率。
对于其中的真人图/人台图功能,用户上传一张真人图或人台图后,PSAI将智能保持用户提供图片中的服装信息,在生成阶段,PSAI为用户提供丰富多样的预设模特和场景资源选择。预设模特包括不同年龄、性别、人种和风格的模特,例如儿童、中年和老年,网红风、韩风、美式复古风等;场景方面,PSAI提供上百种不同预设场景风格的选择,包括影棚等各种室内场景,以及森林、雪山、草原、沙漠等室外场景,通过迭代优化,不断丰富AI模特和场景的细节,提高出图率,这些多样化的资源和提高的出图率将帮助用户在提升效率、创意和降低成本方面取得更大的进步。同时,PSAI支持了用户通过提示词自主描述模特场景,或上传场景参考图,丰富了场景来源和选择性。真实而风格迥异的模特形象,可以吸引更多目标消费者的注意力,增强商家的品牌形象。针对用户文本交互,PSAI推出了自己的大语言模型,用于将任意语言、格式和内容的用户输入转换为适合模型输入的精准提示词,降低了用户的语言和知识门槛。同时,PSAI也接入了DeepSeek作为扩充,增强了复杂用户输入的推理能力。针对大客户的模特形象定制,PSAI推出了ConstantID,该算法支持从各个角度还原真实的模特样貌,保持超高的相似度和真实的皮肤质感,并且直出4k高分辨率图片,为多角度一致模特生成提供了稳定的算法流程。
对于其中的AI商品图功能,用户只需上传一张商品图,即能够智能保持商品主体信息,并基于ArcMuse计算技术引擎大模型和众多引擎组件的生成与控制能力,高效地生成多种场景和风格的精美广告图,大大降低了商品图的制作成本。为了达到商品与场景的完美融合,提供了纯色、展台、海边、雪山、赛博朋克、多巴胺等多种预制场景供用户选择。通过在算法层面对生成过程的精细控制,使得生成的场景更加真实、效果更加自然。同时,针对用户的个性化需求,还支持了任意画幅比例生成、预制素材库、上传参考图等功能,允许用户自主控制画面的构图、元素、色彩和风格,极大地扩展了用户的创作空间。报告期内,PSAI也支持了用户通过提示词自主描述商品场景、背景合成、相似风格、拍同款等功能,给客户提供了更多更便捷的选择。
对于其中的AI商品图功能,基于新的生成大模型对在线功能进行了迭代升级,使得生成的图像在细节表现上更加精致和准确,为用户提供了更出色的使用体验。通过自注意力映射、Lora等生成控制技术,进一步提高了模型对于前景商品和背景区域的感知能力和控制能力,解决了图像生成中的画质差、图像模糊等问题,提升了出图效率。
除了以上四种核心AI技术,PhotoStudioAI还提供了智能补光、智能美化、魔法擦除、画质升级和智能抠图等AI编辑功能,既可以完成商拍成品图的美学提升,也为用户的创作提供了更大的发挥空间。
AVM技术在持续推进产品标准化和工程化、提升产品质量方面,取得了显著进展。首先,在平台化方面,新增了对三路、五路和六路图像拼接的支持,进一步提升了多相机分布下的图像处理能力,确保在不同硬件平台的功能兼容性与效果稳定性。其次,在性能方面,通过优化代码框架和处理流程,显著减少了算法处理耗时,并有效降低了对CPU、GPU、内存和带宽等系统资源的消耗,使得产品能够成功落地更多中低端平台。最后,在效果方面,深入优化了镜头阴影校正、图像清晰度提升及颜色一致性等技术,大幅提升了图像细节和色彩表现的准确性与自然度。
在L2级行泊一体解决方案中,自动泊车辅助(APA)和记忆泊车辅助(HPA)是其重要组成部分。APA功能能够在无需驾驶员干预的情况下自动完成泊入动作,而HPA则允许用户在完成一次路线行驶后,再次到达相同停车场时基于历史建图自动完成循迹泊车。本报告期内基于低算力平台的APA产品在功能层面上实现了从1到N的突破:新增支持用户自选方向的自动泊出功能;实现了基于视觉检测方案的空间车位检测与泊入泊出功能;新增车头/车尾泊入方向切换功能;实现了基于移动设备的离车泊入、遥控泊车、直进直退功能;对于动态障碍物,决策模块优化预测刹停逻辑,增加了行人经过提醒等语音交互信息,并根据障碍物动静态情况进行路径更新;增加了自动车位选择功能,简化交互流程;此外,新增的自选车位功能也提供了更加灵活的泊车位置选择。自动泊车辅助在视觉感知方面拆分为车位检测和避障检测两大技术点:①车位检测能够在寻库、泊入阶段实现垂直、水平、斜列、砖线、机械全类别的检测结果,并且能够提供视野范围内任意目标车位的高精定位,3m内车位入口感知精度误差<2cm,为极窄车位、机械车位等困难场景提供可靠的安全冗余;特别针对业界难点的机械车位,开发了配套的感知解决方案,配合规控已经实现了机械车位成功泊入,泊车成功率持续优化中。在本报告期内,待优化项更加收敛,针对难例场景进一步迭代模型,提升低照度、强曝光、强阴影、积水等开放场景的感知稳定性。自动泊车辅助过程中,结合融合多帧的车位检测结果,构建基于车位角点的优化问题,提供车位跟踪、车位建图以及基于车位的自车定位功能,在寻库、泊车过程中向下游提供稳定、精准的车位地图,达到准量产水平。②在避障检测方面,FreeSpace检测通过数据工程模型方案的持续改进,显著提高了模型精度,并支持了不接地、墙体在内的更多语义。在模型设备端输出最关注的0~5米内,同类别点平均距离误差下降至原有误差的70%,所有点平均距离误差下降到原有误差的67%,测距点满足分类和距离要求的召回率显著提升;OD算法中进一步加入了车辆行人等类别的关键点检测,通过模型输出目标朝向角和测距点细粒度语义,服务下游模块。在视觉空间车位检测上,支持了不同方向下对车辆角度的准确估计,实现了水平和垂直空间车位的有效检测和跟踪,完成了准确的视觉空间车位泊入,弥补了超声波雷达空间车位的不足。在多模态感知融合方面,增加了超声波雷达障碍物检测结果与视觉障碍物检测结果的感知融合,提供了更加安全可靠的泊车可行驶区域。
本报告期内泊车感知团队面向中低算力平台进行了技术架构的重大升级,基于特殊的鱼眼BEV算法开发了端到端感知架构,成功将车位检测、障碍物识别、交通参与者检测、标志检测及可行驶区域感知融合至单一模型中。同时将可行驶区域由传统2D的FreeSpace升级为3D占据栅格表示,显著提升了对复杂环境的适应能力。在技术实现过程中,团队针对TDA4、8255等中低算力平台进行了深度优化:通过部署逻辑优化与模型结构重构,将模型推理耗时降低70%;通过精心设计特征维度匹配和利用NPU加速,规避了部分高耗时算子;通过预计算重投影参数等方法,将初始化耗时降低数十倍,满足低算力实车部署要求。为解决贴地障碍物高度识别精度不足的问题,创新性地提出体素OCC与高度场结合的方案,在保持计算效率的同时,实现了厘米级地面精细感知,为极限场景下的自动泊车提供了更可靠的环境理解能力,有效提升了APA与HPA功能在复杂场景中的鲁棒性。
APA自动泊车规控上利用混合A*成功实现了垂直车位、平行车位、斜列车位的正常泊入,并顺利匹配到大小不同车型上,并在小车型上验证了立体车库的泊入效果。报告期内,还大幅度优化了路径搜索算法的效率,提升了规划的反应速度,同时优化了碰撞检测模型,针对窄车位、断头路等复杂场景,实现了场景识别功能,支持掉头再泊入功能,依赖于远距离记忆地图,成功实现远距离记忆泊入车位。在路径平滑方面,采用了弹性优化策略,在空间充裕的场景下使用更舒适的曲线,而在空间有限的场景下则平滑相对安全的曲线,显著提升车辆控制的平顺性。
HPA在视觉感知方面的技术点则为大范围语义泊车地图的构建,包括车位、立柱、地表标志、减速带、道路边界等元素的泊车语义地图构建。完成构建泊车地图,可用于自车定位,提供目标车位的指引;也可用于记忆泊车过程中的路径规划。在本报告期内,HPA算法的效率、稳定性和初定位重定位的准确性进一步提升,确保车辆在进入泊车区域时能够迅速且准确地进行定位,并在需要时进行精确的重定位。在规划控制方面,HPA实现了循迹代客泊车功能,能够根据泊车语义地图中的信息,循迹引导车辆沿着记忆路线行驶。无论直行、转弯还是绕行,均能精确控制车辆的行驶轨迹。
(31)三维渲染引擎
三维渲染引擎提供了渲染、动画、UI等完整的图形引擎解决方案。渲染模块内置基于物理的HDR渲染管线,支持gTF文件格式,符合gTF的材质和渲染标准,可以加载大量高质量3D模型,与通用材质模型兼容,可以渲染多种材质如金属、塑料、玻璃、皮肤、车漆、车灯、皮革等。重构渲染管线,支持前向渲染及延迟渲染,支持多种反走样方案,提升渲染真实度。动画系统实现了播放及编辑模型预置骨骼动画,基于人体捕捉系统,可以实时驱动数字角色。额外支持弹簧振子系统,有助于实现头发、衣服等物体跟随摆动。为满足车载业务,新增节点动画和形变动画具有可编辑功能,从而满足三维雷达墙、相机环视等复杂动效。HMI方面在原有2DUI方案上升级为3DUI,可以在三维场景中实现引导线,轨迹线等车载相关业务需求。引擎系统模块提供丰富接口,让开发者自由组织三维场景内容,支持多种平台,已经为移动端、PC、服务器端提供稳定且高效渲染效果。为了让用户获得更加优质的SR效果,引擎内置物体运动补偿,抖动、突变异常判断功能。针对车载低算力座舱平台,我们优化了调度指令和资源预编译系统,引擎初始化时间减少70%。优化渲染指令调用,减少50%的CPU耗时。针对车载HMI多物体渲染优化如下功能:添加场景管理,减少视野外物体所带来的额外性能消耗,CPU与GPU交互时间降低30%;支持GPU压缩纹理,进一步减少初始化时间;优化内部数据结构,相同材质球模型绘制合并,减少内存访问次数。着色器支持离线编译及自动更新,解决客户更新GPU后着色器不兼容的问题。由于急剧增多的车型需求,我们推出了AVM、APA编辑器,提升项目美术资源的制作、验证效率。
(32)图像修补技术
修补(Inpainting)技术是一种恢复图像与视频中缺失区域的技术,目标是让修补后的图像在视觉上自然协调,尽可能接近真实场景。修补的区域可以是被遮挡的内容、损坏的部分,或者是需要去除的对象(如水印、路人、障碍物等)。
新研发了图像修补技术,用户上传一张图像,通过交互界面选取希望填补的区域,即可生成自然的修补结果,修补区域内的图像内容与外围区域保持协调,边缘部分过渡平滑。针对任务难度及性能要求的不同,在手机端落地了两套不同的算法方案。精简版方案在确保基础修补效果的同时,重点优化模型参数量与计算量,满足手机用户对通用场景实现快速修补的需求。算法通过设计前景物体感知掩码,修补背景时避免融入前景信息。该技术支持任意大小的图像和任意形状的修补区域,生成内容清晰、自然、合理,具有较强的维持原有结构的能力,可以满足大部分用户需求。完整版方案利用稳定扩散模型的可控生成与图像编辑能力,进一步提升修补质量,优化细节还原与纹理生成,使生成结果更加无缝自然,减弱视觉突兀感,确保修补区域与原始图像高度融合。结合公司自研的高精度路人分割算法,搭建了一套完整的路人擦除方案,并着力优化主体遮挡、极小面积路人、复杂姿态等困难场景的处理结果。
新研发了视频修补技术,视频目标分割模块根据目标特征,在整段视频中跟踪用户选取的目标物体,输出像素级分割结果。通过优化特征匹配算法和记忆模块,提升了算法在多目标、小物体和遮挡等情况下的分割掩码的准确性和稳定性。通过模型压缩合并、蒸馏等技术手段,大幅提升了算法在设备端的性能,单帧处理速度满足实时要求。同时,针对AI编辑中常用的路人消除功能,开发了智能路人检测分割算法,能够在复杂场景下对背后路人进行精准的自动识别和分割,可大幅提升功能的易用性和用户体验。光流估计和补全模块是视频修补技术中的重要环节,结合光流估计与区域填充技术,通过引入端到端的二合一网络,避免了多步误差累计,提升了复杂动态场景下的光流补全质量和泛化能力。同时针对手机端做高效性能优化,降低计算开销,将单帧处理时间从1000+ms压缩至10ms,使算法速度和精度上均达到项目要求。视频修补模块基于视频序列与目标分割结果,利用光流建模时序运动信息,估计待修补区域的位移数值,创新性地提出累积误差截断、关键像素缓存等算法策略,改善了复杂场景下的模糊问题与光影问题。此外,基于并行计算、模型蒸馏量化等一系列方法,将整套视频修补方案成功部署到手机端。
2、报告期内获得的研发成果
公司坚持以创新驱动企业发展,不断探索视觉领域的前沿技术,持续高水平研发投入打造核心竞争力,研发投入强度连续多年达30%以上。截至2024年12月31日,公司拥有专利288项(其中发明专利264项)、软件著作权154项。相较于2023年末,报告期内净增发明专利16项、软件著作权7项。
3、研发投入情况表
4、在研项目情况
5、研发人员情况
6、其他说明
三、报告期内核心竞争力分析
(一)核心竞争力分析
1、人才优势
在超过30年的发展历程中,公司磨合出一支以博士为带头人、硕士为骨干的核心研发团队,充分掌握核心技术算法,并进一步落地成为成熟的商业产品。通过长期的潜心学习,公司始终立足于领域内的最前沿,建立和长期保持行业内经验积累和能力上的领先优势。
虹软科技及其下属公司经过30多年的摸索,不断改善形成了一套独有的高效管理模式,基本实现自动化、自驱、自愿的高效运行状态,同时采用“导师制”培养模式,有效减少研发的试错次数。高效的研发管理体系提高了公司的自主创新能力和产品研发速度,提升了公司视觉人工智能技术算法水平。目前,公司拥有良好人才储备并在持续完善,为重要项目的推进奠定了基础。
2、技术积累优势
公司技术积累优势主要体现在端计算和边缘计算技术的积累优势、视觉人工智能技术的层次积累优势、工程落地能力,具体见本节“
二、报告期内公司所从事的主要业务、经营模式、行业情况及研发情况说明/(三)所处行业情况/1.行业的发展阶段、基本特点、主要技术门槛/1.2主要技术门槛”。
虹软自成立以来便致力于计算机视觉技术的研发,技术所应用的终端,从个人电脑、数码相机、智能手机,再发展到智能汽车、AI眼镜、XR3D空间计算头显以及其他AIoT领域,一直与影像产业的发展、消费者的需求和影像科技创新紧密相连。经过数十年的技术、专利和人才积累,公司已全面掌握视觉人工智能及人工智能的各项底层算法技术并不断进行技术演进,掌握包括即时定位与建图、图像语义分割、人体识别、物体识别、场景识别、图像增强、三维重建、虚拟人像动画、虚拟数字人等全方位的视觉人工智能技术。公司所掌握的这些底层技术具有通用性和延展性,在此基础之上,公司构建了不同的组件和产品,并衍生出多种产品应用方案满足相应的细分市场需求。
公司坚持以创新驱动企业发展,持续高水平研发投入,不断打磨视觉人工智能技术能力。截至报告期末,公司拥有专利288项(其中发明专利264项)、软件著作权154项。
3、产业链深度合作优势
公司所涉的消费电子产业与汽车产业,高度依赖产业协同。公司拥有紧密、稳定的产业生态关系,与高通、联发科、格科微、索尼传感器、三星半导体、艾迈斯半导体、OmniVision、舜宇光学、英飞凌等平台、传感器、摄像头模组厂等产业链上下游主流公司开展合作。在智能汽车业务上,除了既有的合作伙伴之外,公司也持续与更多的芯片、相机模组、Tier1等诸多上下游产业链公司形成了相互信赖的合作伙伴关系。
凭借与产业链内主流公司长期、广泛的合作,公司掌握了持续开发、迭代与硬件更加匹配的算法的能力,通过共同研发、持续合作交流,得以在客户提出技术需求后,在最短时间内及时响应,提供低能耗、高效率、硬件平台适应性广的解决方案,保持技术持续处于行业最前沿。
4、客户及品牌优势
公司是全球领先的视觉人工智能算法供应商,客户群体广泛。在智能手机领域,公司主要客户包括三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商,服务范围涵盖全球90%以上的安卓手机品牌。在智能汽车领域,公司方案不仅可满足GBT、C-NCAP、C-IASI、IVISTA等国内法规及行业标准要求,而且还可满足DDAW、ADDW、ISASTU型式认证、E-NCAP、A-NCAP等各项海外法规及行业标准要求。在这一领域,公司已协助众多OEM客户顺利在相关国家地区实现产品量产落地,大大加快了新车市场化进程。在智能商拍领域,PSAI产品已入驻淘宝、1688、抖店、京东、拼多多和Shein等多家主流电商平台服务市场,累计服务数十万大小商家。在AI眼镜领域,公司成功赋能雷鸟V3,助力雷鸟V3成为国内首家发售的AI眼镜产品,市场反响热烈。优良的客户质量、良好的市场口碑、国际化的品牌认可度、海量历史销售数据,为公司后续业务发展奠定了良好基础。
(二)报告期内发生的导致公司核心竞争力受到严重影响的事件、影响分析及应对措施
四、风险因素
(一)尚未盈利的风险
(二)业绩大幅下滑或亏损的风险
(三)核心竞争力风险
1、技术升级迭代风险
公司所处的视觉人工智能行业技术升级迅速,是典型的科技驱动型行业,产品更新换代频繁,市场对技术与产品的需求不断提高,更多的视觉人工智能技术正被运用到各类智能终端。作为一家以研发和技术为核心驱动力的企业,如果公司不能正确判断和及时把握行业的发展趋势和技术的演进路线,并投入充足的研发力量布局下一代的视觉人工智能技术研发,可能导致公司无法保持当前的技术领先性,从而对公司未来的经营产生不利影响。
在移动智能终端领域,智能手机市场的需求变化较快,相关技术的迭代周期较短,迭代周期约为1-2年。如果公司未能及时更新升级相关技术或根据市场需求成功开发出新产品,则公司可能出现技术落后、技术迭代不及时等情况,从而导致市场占有率大幅下降。在AI眼镜、XR3D空间计算头显等方向,公司进行了一系列前瞻性的技术和业务布局,但若无法抓住未来市场涌现的机遇尽快获取客户,则可能导致错失发展机遇的风险。在智能汽车领域,当前产业竞争加剧,如公司无法快速与OEM合作伙伴推出针对高阶智能驾驶相关有竞争力的量产产品,则公司可能面临错失发展机遇的风险。
2、市场竞争风险
公司所处行业发展前景广阔,近年来参与者不断增多,并不断加大技术研发及市场开拓的投入,行业竞争加剧。众多企业凭借其在特定细分领域的优势参与各垂直应用领域的竞争。若公司不能持续有效地制定并实施业务发展规划,保持技术和产品的领先性,则将受到行业内其他竞争者的挑战,从而面临市场竞争加剧而导致的毛利率下滑和市场占有率下降的风险,进而影响公司的经营业绩和发展潜力。
3、核心技术泄密的风险
公司销售的各类产品均基于公司独立研发积累的大量计算机视觉核心技术。为保护公司的核心技术,公司制定了严格的保密体系,但上述措施仍无法完全避免公司核心技术泄密的风险。未来如果公司相关核心技术内控制度不能得到有效执行,或者出现重大疏忽、恶意串通、舞弊等行为而导致公司核心技术泄露,将对公司的核心竞争力产生风险。
(四)经营风险
1、新业务开发和拓展风险
公司经过数十年的发展,积累了大量视觉人工智能的底层算法,这些底层算法具有通用性、延展性,除了可以广泛运用于智能手机外,还可应用于AI眼镜、XR3D空间计算头显等其他消费电子产品以及智能汽车、智能商拍、智能保险、智能零售、智能家居、医疗健康等多个领域。
新业务的成功与否既受到行业发展状况、市场需求变动以及市场竞争状况等因素影响,又受到公司对新领域的理解、认知、推广力度及与伙伴的合作等诸多因素影响。因此,公司对新业务开发和拓展可能不及预期。如果公司在新领域产品开发或市场推广效果不佳,或者出现其他不利因素,将可能导致公司新业务开发失败,从而对公司未来的经营业绩产生不利影响。
2、主要客户采购量减少的风险
报告期内,公司前五名客户销售额为49,021.72万元,占销售总额的60.14%。如果智能手机出货量下滑、主要客户业务发展战略发生调整、主要客户因供应链短缺等原因延迟推出新机型或者其他不可预知的原因导致对公司产品的采购需求下降,则会对公司整体经营业绩产生不利影响。
3、核心人才流失、未能招募足额的优秀人才及人力成本上升风险
公司所处的视觉人工智能行业近年来发展蓬勃,对人才的需求量较大。公司的业务发展,需要一批稳定的研发技术人员、产品化人才及管理人才,这些核心人才对于公司业务的发展壮大起到至关重要的作用。
公司的成功取决于不断吸收和留住高水平的研发、产品、销售和管理人才。尽管公司通过内部培养及外部引进逐步形成了较为稳定的核心人才团队,并通过树立企业文化、优化薪酬体系、改善工作环境、完善绩效考核机制等方式完善了人才培养体系,但是,仍然可能出现核心人才流失的情况,从而给公司业务带来不利影响。
公司所处行业内企业对于优秀人才的竞争越来越激烈。如果公司未能招募到满足公司业务发展需求的优秀人才,则会对公司的业务发展产生不利影响;如果公司在人力成本上的投入增长速度持续高于收入的增长速度,则会对公司的短期经营业绩产生不利影响。
4、管理能力不能满足业务发展需求的风险
目前,公司已积累了适应业务快速发展的经营管理经验,完善了相关内部控制制度,逐步实现了公司内控制度的完整性、合理性和有效性。随着新业务的深入推进,公司资产规模和经营规模扩张,在研究开发、市场开拓、资本运作、内部控制、运营管理、财务管理等方面对公司的管理层提出更高的要求。若公司的组织模式、管理制度和管理人员未能适应公司内外环境的变化,将给公司持续发展带来不利影响。若公司管理水平不能快速适应不断扩大的经营规模,解决上市公司经营管理面临的新课题,也将对公司发展带来不利影响。
(五)财务风险
1、税收优惠的不确定性风险
报告期内,公司及子公司享受了一系列增值税税收优惠、所得税税收优惠,尽管税收减免对公司业绩的影响有限,但如果未来公司所享受的税收优惠政策出现不可预测的不利变化,或者在税收减免期内公司不完全符合税收减免申报的条件,则公司将在相应年度无法享受税收优惠或存在所享受的税收优惠减少的可能性。公司税收优惠政策可能的变化会使公司未来经营业绩、现金流水平受到不利影响。
2、汇率波动风险
虹软科技是一家全球化公司,在海外多地拥有经营主体,且客户分布韩国、日本、台湾地区、美国及欧洲等各地,报告期内公司来源于境外的收入占比为44.59%,上述境外业务使用外币进行结算,受到人民币汇率水平变化的影响。随着公司业务的发展,公司外汇结算量将可能进一步增加,同时人民币汇率受国内外政治、经济环境等综合因素的影响,存在波动风险,进而对公司的经营业绩产生不利影响。
3、应收账款收回风险
截至报告期末,公司应收账款账面余额为26,042.82万元,应收账款账面余额占营业收入的比例为31.95%。如果未来宏观经济形势发生不利变化,客户经营状况发生重大困难,公司可能面临应收账款无法收回而增加坏账损失的风险。
(六)行业风险
目前,公司提供的视觉人工智能解决方案主要应用于智能手机、智能汽车行业,主要客户包括了三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商以及国内主要的自主品牌、部分合资品牌、外资品牌汽车主机厂商。报告期内,公司移动智能终端视觉解决方案业务收入为67,526.11万元,占公司营业收入比例为82.84%,公司下游主要客户集中于智能手机市场。
公司智能手机视觉解决方案收入与智能手机和摄像头的出货量虽无明显线性相关关系,但如果智能手机出货量下滑、摄像头出货量出现下降,主要智能手机业务客户发展战略发生调整或者其他不可预知的原因导致对公司的智能手机计算机视觉解决方案的采购需求下降,则会对公司经营业绩产生不利影响。智能汽车业务方面,若行业竞争加剧,公司技术及产品竞争力不足,客户业务发展战略发生调整、客户自身业务发展状况发生改变或供应链紧缺等,可能导致公司智能汽车业务进展不及预期,以上因素可能会对公司经营业绩产生不利影响。
(七)宏观环境风险
1、宏观经济风险
公司主要从事视觉人工智能技术的研发和应用,主要产品有移动智能终端视觉解决方案、智能驾驶视觉解决方案和其他AIoT智能设备视觉解决方案,主要终端应用领域包括智能手机、笔记本电脑、智能可穿戴设备等消费电子产品以及智能汽车等,应用领域对国内外宏观经济、经济运行周期变动较为敏感。如果国内外宏观经济发生重大变化、经济增长速度放缓或出现周期性波动,公司主要客户因终端需求下滑、调整自身市场计划,或因供应链短缺等原因延迟推出新产品而对公司采购需求下降,且公司未能及时对行业需求进行合理预期并调整公司的经营策略,可能对公司未来的发展以及经营业绩产生负面影响。
2、贸易摩擦风险
随着公司经营规模的不断扩大,公司人员增加、结构优化导致各项费用增加,同时在国际贸易摩擦的背景下,国外客户受美国制约可能向公司减少采购,国内外客户受制于贸易摩擦或其他因素导致的自身销量下降进而可能对公司采购下降,以上因素可能会对公司的短期业绩形成不利影响。
(八)存托凭证相关风险
(九)其他重大风险
1、诉讼风险
在业务发展过程中,公司可能面临各种诉讼、仲裁。公司不排除在经营过程中,因公司业务、人力、投资等事项而引发诉讼、仲裁事项,从而耗费公司的人力、物力,以及分散管理的精力。公司实际控制人HuiDeng(邓晖)于2019年9月出具承诺,针对“MarcChan、LeiLi及其家庭基金诉讼事宜”,如发生任何纠纷(包括但不限于诉讼、仲裁、索赔等)给公司造成任何经济损失(包括但不限于支付赔偿款、律师费、诉讼费等)均由公司实际控制人HuiDeng(邓晖)独立承担。截至目前,双方均已提起上诉,上诉结果存在不确定性。
2、母子公司多层架构的风险
公司下设多家境内外子公司,层级较多,公司面临各国法律及税收的监管要求。如果未来境外子公司所在国家或地区法律及税收的监管要求发生不利变化,同时公司实际控制人、管理层缺少相应的管理经验和能力,将增加公司管理协调的难度,带来经营管理风险,从而对公司业绩造成不利影响。如果未来境外子公司所在国家或地区对于现金分红、资金结转等事项进行严格监管,可能对公司下级子公司的经营利润逐级分配至母公司构成一定障碍,可能造成母公司没有足额资金进行现金分红的风险。
3、知识产权侵权风险
公司坚持自主创新的研发路线,经过多年的技术开发和业务积累,掌握了多项核心技术,拥有发明专利264项、软件著作权154项。公司的商标、专利、软件著作权等知识产权对于公司的业务经营至关重要,公司建立了完善的知识产权维护机制以保护公司的知识产权免受侵犯。但是,考虑到知识产权的特殊性,第三方侵犯公司知识产权的情况仍然有可能发生,从而导致公司为制止侵权行为产生额外费用,对公司正常业务经营造成不利影响。
同时,虽然公司一直坚持自主创新的研发战略,以开发自有、底层技术为主要研发路线,以避免侵犯第三方知识产权,但仍不排除少数竞争对手采取恶意诉讼的市场策略,利用知识产权相关诉讼等拖延公司市场拓展,以及公司员工对于知识产权的理解出现偏差等因素出现侵犯第三方知识产权的风险。
五、报告期内主要经营情况
报告期内,公司实现营业收入81,517.35万元,较上年同期增长21.62%;实现归属于上市公司股东的净利润17,668.58万元,较上年同期增长99.67%。
六、公司关于公司未来发展的讨论与分析
(一)行业格局和趋势
(二)公司发展战略
公司以“商业本身并不是生活和生命的全部,我们希望通过努力和智慧创造出被客户喜爱、尊重的伟大产品,并成为世界领先的智能视觉技术供应商和服务商”为经营宗旨,以市场为导向,以科技为支撑,以诚实守信为根本准则,不断巩固和进一步提高竞争优势,实施坚持原创,坚持深耕计算机视觉算法技术,深化各行业布局的发展战略,逐步将计算机视觉算法技术的应用扩展至更多的智能终端设备领域,为更多的行业客户提供最优的计算机视觉算法解决方案及服务。
(三)经营计划
2025年,公司将以技术创新赋能行业为使命,秉持“夯实核心赛道、突破新兴领域、引领场景革命”的目标,通过强化视觉AI核心基座、创新技术与产品、拓展市场、优化经营管理等举措,持续发挥在视觉AI领域的领军优势,让虹软视觉AI技术广泛赋能更多场景,全面提升行业影响力。此外,对于符合公司战略方向的优质资产,公司还将探索通过并购等资本化运作方式开展产业布局,快速提升公司的竞争力和创新能力,瞄准能力强化以及新业务拓展,追求更高质量、更加稳健的可持续发展,为社会、客户及合作伙伴创造更大价值。
一、聚焦主业经营,构筑面向未来的领先和竞争力
2025年,公司将保持对研发的高投入,持续深耕底层核心技术,以深厚的技术积淀为基石,构筑面向未来的领先和竞争力。市场方面,公司将继续巩固移动智能终端市场领导地位,加速智能驾驶技术规模化落地,前瞻布局AIGC智能商拍以及AI眼镜、XR头显、机器人等下一代人机交互入口,不断丰富视觉AI场景智能生态,实现技术、市场与商业价值的协同增长。
1、强化市场领先地位,继续引领移动影像技术与体验革新
随着AI技术的快速发展,移动智能终端对算力的需求呈指数级增长,而硬件工艺进步趋缓,成本却在不断攀升。在这一挑战与机遇并存的环境下,虹软将持续加大研发投入,强化系统工程创新,推动基础技术、计算架构和软件算法的深度优化,积极探索AI与视觉大模型技术融合与系统性突破。
2025年,公司将持续在TurboFusion系列产品线上进行技术和产品的迭代升级。在端侧AI计算能力上,公司将基于大模型架构,进一步集成生成式AI能力,提升图像和视频处理的智能化水平。通过生成式AI技术,TurboFusion将实现更先进的图像语义理解、动态降噪和场景分割功能,为用户提供更自然、更高质量的图像和视频效果。在系统优化维度,公司将针对市场上多元化的硬件平台进行深度优化,降低整体系统功耗,为功能扩展预留计算资源,并进一步增强TurboFusion在实时图像与视频处理中的性能,以满足更高要求的应用场景。在市场推广上,公司将加速TurboFusion技术在全机型市场上的渗透,并将结合产业中传感器、SoC等核心硬件特性为客户开发定制化产品。
2、深化智能汽车业务战略布局,实现市场份额的稳步提升
经过多年来持续投入耕耘,公司智能座舱产品已在行业内构建起差异化竞争优势。作为长期战略机会点,2025年,公司将持续加大“舱外”和“海外”业务的技术投入与资源配置,强化与整车厂、Tier1及生态伙伴协作,以此加速公司智能汽车解决方案的规模化落地,提升市场份额。
(1)智能座舱:巩固市场地位,强化智能座舱拳头产品
2025年,公司将在智能座舱领域继续加大研发投入,推动产品的持续迭代与升级,进一步强化技术优势。特别是在驾驶员监控系统(DMS)和乘员监测系统(OMS)等关键领域,公司将集中精力推动这些产品的合规认证和全球化推广,以满足国内外对智能座舱的严格法规要求。
与此同时,公司还将推动创新型智能座舱产品的落地和推广。2024年,公司新产品SmartFit已完成了POC技术验证,健康监测算法产品开启了从1到N的量产复制,2025年,公司将加大对创新产品的推广力度,优化产品在不同车型上的适配能力,推动在市场中的渗透,向大众化车型普及,为更多消费者带来智能化、个性化的座舱体验。
(2)舱外产品:推动产品规模化落地,优化全场景智能驾驶体验
2024年,公司重点推出基于智能SoC的舱泊一体解决方案,该方案目前已成功获得客户的POC项目机会。2025年,公司将加速推进新产品量产前的技术验证工作,争取在年内实现量产导入。
公司在自动驾驶领域的战略布局持续深化。为满足国内外法规和市场需求变化,公司将在2025年推出智能驾驶前视一体机解决方案SouthLake。同时,还将继续开展WestLake产品功能、性能优化升级和市场推广工作。
(3)商用车与工程机械:强化法规适配,推动规模化应用
2025年,公司将持续升级在商用车及工程机械车辆市场的技术及产品解决方案,在产品技术上继承乘用车领域领先的产品技术,并结合商用车及工程机械车辆的应用场景持续优化,帮助客户打造优秀的安全驾驶产品和体验。在市场拓展上,覆盖更多的商用车主机厂及车型的定点及量产,积极推进软件算法解决方案以及AiTrak软硬件一体解决方案的市场覆盖度。同时,面向存量的普通货运、两客一危、出租网约、公交等后市场的需求,为大量的后装客户提供满足不同车型营运要求的后装软件算法解决方案。
(4)海外市场:强化本地化适配,拓展全球业务版图
2025年,公司将在海外市场深化本地化适配工作,进一步拓展全球业务版图。产品层面,公司将继续推进VisDrive、Tahoe、SouthLake、MonoLake等核心产品的国际化布局,并根据欧盟ENCAP2026等要求及时更新产品发展计划,以使产品契合全球市场标准,满足不同地区客户需求。市场拓展方面,公司积极构建广泛多元的合作渠道,2025年,公司将全方位加深与合作伙伴的协作,创新合作模式,开拓更多海外项目,不断拓展公司在国际市场的影响力。
3、积极布局前沿赛道,拓展新兴业务空间
随着端侧AI计算能力的跃升和大模型的快速发展,智能设备正迈向更高阶的自主感知、实时交互和个性化内容生成。这些能力的增强,不仅拓宽了人机交互的边界,也推动了视觉AI在多个新兴产业的深度融合。2025年,公司将结合自身优势和行业应用需求,提升定制化、行业化能力,在AI眼镜、XR头显、机器人、AIGC智能商拍等重点领域打造更多标杆产品和应用。
(1)AI智能眼镜,拓展多维拍摄视角
基于AI眼镜这一创新产品形态,公司积极探索多元应用场景,深入挖掘适配AI眼镜特性的优质产品。2025年,公司将通过持续优化产品能力,不断丰富AI眼镜生态系统,致力于为AI眼镜拓展更为广阔的发展空间,解锁更多潜在价值与应用可能。在算法优化上,公司将运用先进的图像处理技术与深度学习技术提升算法,以增强算法应对低光照、大动态范围和快速运动等复杂场景的能力。在生态协作上,公司通过与高通等芯片厂商紧密合作,推动影像算法与新一代AI眼镜芯片的深度协同。在平台构建上,公司将积极构建AI眼镜影像算法平台,着手平台架构设计与开发,使其具备跨手机和眼镜平台的兼容性,以支持市场上现有及未来发布的各类设备,与此同时,提供标准化的API接口,简化第三方开发者接入,降低开发成本和时间。
(2)XR头显,打造沉浸式虚实融合体验
XR头显的核心能力在于精准环境感知、智能视觉交互、实时内容生成,公司将围绕这些关键技术持续突破。2025年,公司将优化视觉SLAM(同步定位与地图构建)技术,提升XR设备在复杂物理环境中的空间定位和场景理解能力,使虚拟与现实的融合更加自然流畅。同时,依托手势识别、眼动追踪、图像理解等AI视觉技术,增强XR设备的智能交互能力,使用户能够更加直观、便捷地控制虚拟内容。此外,公司将结合AIGC与视觉大模型技术,实现虚拟环境建模、个性化数字人生成、智能化场景构建,让XR体验更具沉浸感与个性化。
(3)智能商拍,焕新AIGC内容创作
在商拍领域,AI技术正在重塑商品商业宣传资料的内容生产方式。2024年,公司持续推进AI大模型技术商业化应用创新,旗下PSAI已完成Web端应用程序与微信小程序的双端覆盖,构建起跨平台的数字化服务矩阵。PSAI个人终端应用已完成产品原型开发和小范围测试验证,公司将秉持审慎创新原则,结合技术成熟度曲线与个人消费市场偏好和规律,稳步推进产品价值转化进程。
2025年,公司将持续推进大模型迭代更新,研发新一代融合多模态信息的视频生成垂直大模型,以DiT架构为核心,进一步提升ArcMuse计算技术引擎在智能商拍业务上的应用表现,与此同时,公司将根据客户的个性化需求,提供定制化商拍服务,进一步加速行业赋能,帮助客户实现更高效的内容创作与传播。另外,结合PSAI在智能商拍领域的技术积累和行业优势,2025年,公司还将推动AI大模型在上游服装工业领域的应用和示范。
(4)虹软AI视觉,赋能多元场景落地
公司持续关注人工智能领域的新技术和新市场,积极探索虹软视觉AI技术在更广泛智能设备及场景中的应用可能性。智能机器人正成为AI赋能物理世界的重要载体,其核心能力依赖于精准的环境感知、智能决策与高效交互。
2025年,在环境感知与自适应交互技术方面,公司将致力于开发复杂场景理解和动态环境适应技术,使具身智能设备(如机器人等)能在暗光照或极暗光照环境、背景杂乱、大侧或逆光等复杂环境中准确识别物体,并实时感知环境变化进行高精度的视觉调整和决策。在精细操作辅助技术方面,公司将优化高精度手势识别和视觉引导的智能设备(如机械臂)操作技术,使机器人智能设备能根据手势指令进行精细操作。在情感识别与交互技术方面,公司将研发情感状态识别和个性化交互技术,使智能设备(如机器人等)能根据人的情感状态提供人性化服务。在多模态融合技术方面,公司将探索视觉与语音、触觉的融合技术,提高智能设备(如机器人等)的交互准确性和操作安全性。在自主学习与进化技术方面,公司将致力于视觉模型的在线更新和视觉策略的优化,使智能设备(如机器人等)能不断学习和适应新环境。在安全监控与保障技术方面,公司将开发异常行为监测和视觉安全验证技术,保障智能设备(如机器人等)和周围人员的安全。
二、持续创新投入,为“视觉AI+X”产业发展蓝图注入动能
2025年,公司将着力升级新一代ArcMuse计算技术引擎,致力于构建一个兼顾视觉效果与性能的综合型视觉AI基础架构。第一,公司将对现有模型和引擎模块进行深度优化升级,提升基座模型和垂直模型的性能表现,具体涵盖CPG与KDE控制引擎迭代、图像与视频生成大模型的性能优化、精准数据库建设以及集群优化和汇编级代码优化。第二,公司将新增底层功能模块,进一步拓展引擎的适用范围,包括DiT大模型端侧引擎与自适应美学系统,以及基于大模型的新型目标检测模块。
依托新一代ArcMuse计算技术引擎,深度融合公司在“云+端”层面的工程创新能力,借助集群优化、端侧优化以及数据与知识蒸馏等方式,ArcMuse计算技术将实现对公司各核心业务领域的全方位赋能,为公司“视觉AI+X”产业发展蓝图注入强劲动能。
三、精准优化经营管理,全面提高经营质效
2025年,除继续坚持研发驱动,聚焦主业稳健经营,从而提升价值创造能力之外,公司还将从人才队伍建设、持续提升业财融合、加强现金管理等维度精准优化经营管理,全面提升经营效率与效果。
1、发挥人才专业能力,支持组织效能提升
2025年,公司将人力资源工作重点聚焦于发挥优秀人才专业能力,强化团队间有效协同,提升组织协作效率,进而促进组织效能的提升。在人才供应链建设方面,公司将持续发力,依据业务领域实施精准招聘策略,及时为各业务提供既具备技术能力,又拥有创新潜力的人才。人才培训与发展力度也将进一步加强。根据业务战略,公司将按照岗位类别、业务定位等属性,分层分类地开展专业能力培训提升项目,以此强化各岗位角色的战略执行力和实际问题解决能力。公司还将继续完善各业务领域专家级人才的能力绩效评估机制和职业发展规划设计,充分发挥资深员工的传、帮、带作用,助力新员工快速融入重要项目。此外,公司着重提升人力资源部门对业务需求的感知与协同能力,全力支持业务团队实现战略目标的传导、绩效共识的构建、正向文化的引导以及激励关怀的保障,致力于塑造良好的高绩效团队业务氛围。
2、优化经营质量,促进业财协同
在财企协作方面,公司深入推进业财融合,促进业务与财务的高效协同。围绕客户信用管理,持续优化评审流程,强化应收账款管理,以此助力业务结构优化,推动客户多元化发展。针对成熟业务,对客户的签约情况、业务贡献度、收入及现金流质量展开动态监测,不断完善客户维度分析,为业务决策提供有力支撑。对于次新业务,完善管控机制,借助第三方征信数据,优化客户信用评审,强化信用风险管理,同时推动销售合同优化收款条件。新业务方面,将风控环节前移,使管理团队参与立项前评审,从源头把控风险。2025年,公司将延续分级分类的账期管理策略,进一步提升财务管理精细化水平,助力公司稳健发展。
3、强化现金管理,精准平衡资金安全与收益
长期以来,公司始终紧密围绕视觉人工智能技术持续投入资源,致力于在行业领域稳固保持领先地位。多年来,公司尤为注重维持充裕的现金储备,为技术研发提供坚实资金支持,并防范经营中的不确定性风险。截至2024年末,公司资金存量达到人民币204,050.36万元。公司通过“阶梯式存款+低风险理财”的组合模式,实现资金配置结构化,提升了现金管理综合收益率。2025年,公司将继续实施全球化统筹策略,更为全面地综合考量海外资金与境内资金在结构化产品及币种上的组合配置,平衡资金的安全与增值。
收起▲