AI训练数据的研发设计、生产及销售业务。
智能语音、计算机视觉、自然语言处理、训练数据相关的应用服务
智能语音 、 计算机视觉 、 自然语言处理 、 训练数据相关的应用服务
一般项目:技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广;软件开发;软件销售;计算机软硬件及辅助设备零售;计算机软硬件及辅助设备批发;货物进出口;技术进出口;非居住房地产租赁。(除依法须经批准的项目外,凭营业执照依法自主开展经营活动)许可项目:第二类增值电信业务;互联网信息服务;职业中介活动。(依法须经批准的项目,经相关部门批准后方可开展经营活动,具体经营项目以相关部门批准文件或许可证件为准)(不得从事国家和本市产业政策禁止和限制类项目的经营活动。)
| 业务名称 | 2025-12-31 | 2025-06-30 | 2024-12-31 | 2024-06-30 | 2023-12-31 |
|---|---|---|---|---|---|
| 专利数量:授权专利(个) | 13.00 | 1.00 | 11.00 | 0.00 | 30.00 |
| 专利数量:授权专利:其他(个) | 0.00 | 0.00 | 0.00 | 0.00 | 14.00 |
| 专利数量:授权专利:外观设计专利(个) | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| 专利数量:授权专利:发明专利(个) | 1.00 | 0.00 | 4.00 | 0.00 | 6.00 |
| 专利数量:授权专利:实用新型专利(个) | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| 专利数量:授权专利:软件著作权(个) | 12.00 | 1.00 | 7.00 | 0.00 | 10.00 |
| 专利数量:申请专利(个) | 24.00 | 0.00 | 22.00 | 5.00 | 30.00 |
| 专利数量:申请专利:其他(个) | 0.00 | 0.00 | 9.00 | 0.00 | 15.00 |
| 专利数量:申请专利:发明专利(个) | 4.00 | 0.00 | 5.00 | 0.00 | 5.00 |
| 专利数量:申请专利:外观设计专利(个) | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| 专利数量:申请专利:实用新型专利(个) | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| 专利数量:申请专利:软件著作权(个) | 20.00 | 0.00 | 8.00 | 5.00 | 10.00 |
| 境内业务营业收入(元) | 2.19亿 | 8318.45万 | - | - | - |
| 境内业务营业收入同比增长率(%) | 77.72 | 70.70 | - | - | - |
| 海外业务营业收入(元) | 1.58亿 | 7351.14万 | - | - | - |
| 海外业务营业收入同比增长率(%) | 38.68 | 68.24 | - | - | - |
| 境外业务营业收入(元) | - | - | - | 4369.53万 | - |
营业收入 X
| 业务名称 | 营业收入(元) | 收入比例 | 营业成本(元) | 成本比例 | 主营利润(元) | 利润比例 | 毛利率 | |
|---|---|---|---|---|---|---|---|---|
|
加载中...
|
||||||||
| 客户名称 | 销售额(元) | 占比 |
|---|---|---|
| 客户1 |
7158.68万 | 18.99% |
| 客户2 |
2739.57万 | 7.27% |
| 客户3 |
2721.60万 | 7.22% |
| 客户4 |
2421.82万 | 6.42% |
| 客户5 |
2373.54万 | 6.30% |
| 供应商名称 | 采购额(元) | 占比 |
|---|---|---|
| 供应商1 |
5592.65万 | 25.44% |
| 供应商2 |
1782.81万 | 8.11% |
| 供应商3 |
1471.92万 | 6.70% |
| 供应商4 |
932.81万 | 4.24% |
| 供应商5 |
790.07万 | 3.59% |
| 客户名称 | 销售额(元) | 占比 |
|---|---|---|
| 客户1 |
5253.35万 | 22.16% |
| 客户2 |
1361.23万 | 5.74% |
| 客户3 |
1331.23万 | 5.62% |
| 客户4 |
1223.96万 | 5.16% |
| 客户5 |
1163.32万 | 4.91% |
| 供应商名称 | 采购额(元) | 占比 |
|---|---|---|
| 供应商1 |
1282.80万 | 11.54% |
| 供应商2 |
847.27万 | 7.62% |
| 供应商3 |
780.58万 | 7.02% |
| 供应商4 |
681.60万 | 6.13% |
| 供应商5 |
484.91万 | 4.36% |
| 客户名称 | 销售额(元) | 占比 |
|---|---|---|
| 客户1 |
1254.04万 | 7.38% |
| 客户2 |
1214.90万 | 7.15% |
| 客户3 |
1213.58万 | 7.14% |
| 客户4 |
1095.57万 | 6.44% |
| 客户5 |
901.49万 | 5.30% |
| 供应商名称 | 采购额(元) | 占比 |
|---|---|---|
| 供应商1 |
1075.79万 | 11.14% |
| 供应商2 |
742.26万 | 7.69% |
| 供应商3 |
575.50万 | 5.96% |
| 供应商4 |
435.13万 | 4.51% |
| 供应商5 |
341.66万 | 3.54% |
| 客户名称 | 销售额(元) | 占比 |
|---|---|---|
| 客户1 |
2805.77万 | 10.67% |
| 客户2 |
2753.70万 | 10.47% |
| 客户3 |
2588.84万 | 9.85% |
| 客户4 |
1849.67万 | 7.04% |
| 客户5 |
1802.93万 | 6.86% |
| 供应商名称 | 采购额(元) | 占比 |
|---|---|---|
| 供应商1 |
4147.01万 | 31.73% |
| 供应商2 |
1580.09万 | 12.09% |
| 供应商3 |
777.55万 | 5.95% |
| 供应商4 |
516.61万 | 3.95% |
| 供应商5 |
413.23万 | 3.16% |
| 客户名称 | 销售额(元) | 占比 |
|---|---|---|
| 客户1 |
2339.01万 | 11.33% |
| 客户2 |
2293.76万 | 11.11% |
| 客户3 |
1830.03万 | 8.86% |
| 客户4 |
1055.44万 | 5.11% |
| 客户5 |
1053.70万 | 5.10% |
| 供应商名称 | 采购额(元) | 占比 |
|---|---|---|
| 供应商1 |
5381.83万 | 48.73% |
| 供应商2 |
1780.98万 | 16.12% |
| 供应商3 |
441.78万 | 4.00% |
| 供应商4 |
406.02万 | 3.68% |
| 供应商5 |
376.68万 | 3.41% |
一、报告期内公司所从事的主要业务、经营模式、行业情况说明
(一)主要业务、主要产品或服务情况
1.主要业务情况
公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。
自2005年成立以来,公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展,公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业,并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音(语音识别、语音...
查看全部▼
一、报告期内公司所从事的主要业务、经营模式、行业情况说明
(一)主要业务、主要产品或服务情况
1.主要业务情况
公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。
自2005年成立以来,公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展,公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业,并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。
公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国移动、中国科学院、清华大学等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量超过1,200家,覆盖了科技互联网、社交、IoT、具身智能、智能驾驶、大模型等领域的主流企业,以及政企、教育科研机构。
2.主要产品及服务情况
2.1主要产品及服务按业务类型分类
公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域,广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外,公司还提供与训练数据相关的应用服务。
(1)智能语音
人工智能在语音领域的应用技术主要包括语音识别、语音合成等。
语音识别(AutomaticSpeechRecognition,ASR)是让机器能够“听懂”人类语音的技术,它能使机器自动将语音信号转换为对应的文本信息。
语音合成(TexttoSpeech,TTS)是让机器能够“说出”人类语音的技术,它使机器能将文字信息转化为流畅的语音“朗读”出来,相当于给机器安上了人工嘴巴。
以日常生活中的情景为例,语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换为文字,实现了软件“听懂”语音并“听写”出文字的效果;而地图、导航软件则运用语音合成技术,实现了软件“发声说话”的效果,为用户提供即时语音导航。
公司通过设计(设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等)、采集(定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频)、加工(对音频文件进行切分、标注各类声音特征,形成带时间戳和特征标签的文本和标注文件等)、质检(对数据集进行质量检测,如音字一致性、标注准确率检查等)等训练数据集生产环节;或者针对客户提供的原料音频文件执行加工、质检工作,最终形成客户所需的智能语音训练数据集。
(2)计算机视觉
计算机视觉(ComputerVision,CV)是使机器具备“看”的功能的技术,它使得智能驾驶、智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。
以日常生活中的情景为例,在汽车的自动驾驶功能中,计算机视觉技术使得汽车能够“看见”并识别行车过程中的各种行人、路况场景,为后续作出相应的反应奠定基础;在机场、车站安检中,计算机视觉技术使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。
公司通过设计训练数据集结构、采集(如定义合适的人脸、动作、场景作为采集对象,组织被采集人按照要求拍摄照片、录制视频等)、加工(对图像、视频文件进行打点、拉框、分割标注等)、质检(对数据集进行质量检测,如检验图片、视频文件格式是否正确,检查光照环境、物体种类的数量是否达标,打点标框的准确率是否符合要求等);或者对客户提供的图像、视频文件执行加工、质检工作,最终形成客户所需的计算机视觉训练数据集。
(3)自然语言处理
自然语言处理(NaturalLanguageProcessing,NLP)是使机器能够像人一样理解语言意图的技术。
以日常生活中的情景为例,寄送快递时使用的“智能填写”功能即运用了自然语言处理技术,在输入框中填入整段联系信息,软件应用能够理解语义,并从中识别及提取“收件人”、“联系方式”、“地址信息”等所需信息,完成自动填写;智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术,使得程序、机器能够读懂人类语言的真正意图,并相应做出反应、提供服务等。
公司通过设计训练数据集结构、采集(收集或编写自然语言文本、对话等数据信息)、加工(对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等)、质检(对数据集进行质量检测,如检验文本、词性或者语义的标注结果是否准确等);或者对客户提供的自然语言文本执行加工、质检工作,最终形成客户所需的自然语言训练数据集。
(4)训练数据相关的应用服务
公司开放基于多年行业经验打磨的数据处理工具集及平台,提供包括公有云访问、私有化部署及SaaS化服务的多种能力,满足产业链上各类企业对于数据处理工具及平台能力的需求。
公司基于自身生产的训练数据提供算法相关的模型训练服务、模型评测服务及模型应用服务,运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景的专属算法模型,提高AI技术应用效果。
前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。
成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。
2.2主要产品或服务的终端应用场景
公司提供的高质量、大规模、结构化的训练数据,为算法模型的训练拓展提供了可靠的训练素材,助力AI技术实现实践应用及商业化落地,赋能AI技术与实体经济深度融合。公司提供的训练数据广泛应用于众多主流AI产品及终端应用的训练过程中,覆盖了个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等多种应用场景。
(二)主要经营模式
1.盈利模式
与主要产品及服务类型对应,公司的盈利模式主要包括以下三类:
(1)定制服务:公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下,公司享有服务费收入,不享有最终生成的训练数据的知识产权,不可将此类业务生产的训练数据向其他客户重复销售。
(2)标准化产品:公司开发自有知识产权的训练数据集产品,通过销售训练数据集产品的使用授权许可,获取让渡资产使用权收入。此类训练数据集一经开发完成,可多次销售并获取授权许可收入。
(3)训练数据相关的应用服务:公司基于积累的训练数据和多年行业经验提供数据处理工具集及平台服务、算法相关的模型训练、模型评测及模型应用服务,通常以软件授权或软硬件一体化形式交付平台产品、算法模型拓展、开发成果等,获取让渡资产使用权收入和技术服务等收入。
2.生产或服务模式
(1)训练数据集生产模式
公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。
公司的训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。
(2)训练数据相关的应用服务模式
公司开放基于多年行业经验打磨的数据处理工具集及平台,提供包括公有云访问、私有化部署及SaaS化服务的多种能力,满足产业链上各类企业对于数据处理工具及平台能力的需求。
公司基于其生产的训练数据提供算法模型相关的训练、评测及应用服务,助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景(例如特定行业、特定口音等)的专属算法模型,提高AI技术应用效果。
以某大型科技公司客户项目为例,客户研发了特定语音识别算法模型,需要根据算法模型的实际场景(如法院庭审场景)开发落地应用。公司承担了部分落地应用拓展相关的开发工作,围绕客户的算法模型和接口开发,最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。
3.采购模式
公司实行集中采购与分散采购相结合的采购管理模式,建立了规范的采购管理制度与供应商管理体系。
按照采购对象区分,公司的采购主要包括业务项目采购和公司常规采购,按照采购品类进一步划分为数据服务采购、岗位服务采购和其他品类采购。
数据服务采购:指语音识别采集、语音识别转写、语音合成、自然语言处理、图像视频处理、智能驾驶、具身智能领域等公司主要业务的原材料数据以及原材料数据加工服务采购,主要包括非核心技术环节的原料数据采集、标注服务等。
岗位服务采购:主要针对临时性的、不设长期岗位的业务领域的外包采购,如保洁、临时招聘服务、少量实习生招聘等。
其他品类采购:(1)常规货物类采购,涵盖日常运营中所需的办公家具、计算机、服务器、办公用品等有形物资;(2)无形资产类采购,包括数据生产、研发活动所需专用平台、专用软件等;(3)日常运营服务类采购,包括云服务、审计服务、差旅服务等。
经过多年的发展,公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度,形成权责清晰、流程规范、监督有效的采购管理体系,并与主要的供应商形成了良好稳定的长期合作关系,为公司持续健康发展提供坚实可靠的供应链保障。
4.营销模式
公司采用直接对接并服务客户的直销模式进行营销,符合行业通行惯例。公司以高质量的训练数据集及相关服务吸引客户,并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、参与学术会议和行业展会新产品发布、搭建并持续升级公司官方网站和建立自媒体矩阵等方式提升品牌知名度、开拓新客户,后续再通过商务谈判、招投标等形式获取具体业务机会。
(三)所处行业情况
1、行业的发展阶段、基本特点、主要技术门槛
1.1行业的发展阶段、基本特点
(1)政策、技术、应用协同共振,全球AI产业迈入高速发展新阶段
当前,全球人工智能产业正处于历史性拐点,政策、技术与应用的三重共振正推动行业进入高速增长通道。
政策层面,主要经济体竞相加码。中国国务院于2025年8月印发《关于深入实施“人工智能+”行动的意见》,明确提出到2027年新一代智能终端、智能体等应用普及率超70%,至2035年全面迈入智能经济与智能社会时代,标志着我国AI产业进入“规模化提升”阶段。美国在“星际之门”计划(5000亿美元基础设施投资)基础上,相继推出“美国AI行动计划”与“创世纪计划”,持续扩大领先优势。欧盟于2025年4月发布《人工智能大陆行动计划》,聚焦算力、数据、应用、人才与法规五大领域,计划在2021-2027年间投资超100亿欧元建设AI工厂。
技术层面,革命性突破持续涌现。以DeepSeekR1为代表的开源模型将API调用成本降低90-95%,大幅降低应用门槛。同时,多模态大模型(如GoogleDeepMind的Genie3、OpenAIGPT-5、阿里Qwen3-VL等)不断拓展能力边界,实现从语言理解、视觉识别到3D世界生成的全模态交互。2025年被视为“智能体元年”,AIAgent凭借自主任务规划、动态决策与闭环执行能力,实现从“被动响应指令”向“主动解决复杂问题”的跨越,正成为驱动产业变革的核心力量。
应用层面,技术平权加速AI向千行百业渗透。大模型正向金融、医疗、制造等核心领域深度赋能,智能风控、智慧医疗、智能制造等应用场景持续丰富,推动各行业效率提升与模式创新。
总体来看,在政策引导、技术迭代与商业落地的正向循环下,全球AI产业正加速迈向规模化、价值化发展的新阶段,迎来前所未有的战略机遇。根据国际数据公司(IDC)的数据,预计全球人工智能(AI)IT总投资规模在2028年增至8,159亿美元,2024年至2028年复合增长率(CAGR)为32.9%。
中国作为全球科技大国,深度受益AI技术发展。根据艾瑞咨询的数据,2024至2029年中国AI产业将保持32.1%的年均复合增长率,在2029年突破1万亿的市场规模。
(2)训练数据作为AI发展的“燃料”作用更加凸显,成为大模型竞赛中的重要决定因素
算法、算力、数据是AI三大核心要素。当前,产业正经历从“以模型为中心”向“以数据为中心”的范式转变。算法端,主流大模型纷纷开源,技术壁垒持续降低;算力端,以DeepSeek为代表的架构创新大幅降低了训练成本,算力不再构成发展瓶颈。在此背景下,训练数据的重要性被进一步放大,从“辅助燃料”升级为“核心引擎”。
高质量数据直接决定模型能力上限,能显著提升推断可靠性并减少幻觉现象。当前,大模型发展正面临严峻的“数据墙”——高质量数据短缺已成为AI规模化落地的关键制约。业内普遍反映,诸多行业大模型未达预期,根源在于数据基础薄弱。因此,数据已成为各国发展AI产业的关键胜负手。
根据Cognilytica数据统计显示,预计2027年全球AI训练数据市场规模将增长到220亿美元,2021-2027年复合增长率达32%。
中国作为全球人工智能产业增速最快的国家之一,对高质量训练数据的需求持续攀升。国务院《关于深入实施“人工智能+”行动的意见》及国家数据局相关方案明确提出,将持续加强高质量数据集建设,重点布局多模态、具身智能、推理思维链及长视频数据等方向。在产业和政策双轮驱动下,中国AI基础数据服务市场进入加速增长通道。
根据艾瑞咨询的数据,2024年中国人工智能基础数据服务市场规模为58亿元,2028年规模将达到170亿元,年复合增长率为30.84%。
(3)数据要素价值加快释放,数据产业已成为数字经济发展新增长点
a.政策驱动持续加码,数据制度不断完善
国家数据要素市场化配置改革已进入系统深化阶段。2024年1月,财政部《企业数据资源相关会计处理暂行规定》正式施行,数据资产入表从自选动作转变为规定动作。同年,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》(国数政策〔2023〕11号),选取工业制造、金融服务、医疗健康等12个行业和领域,推动发挥数据要素乘数效应。《关于促进数据产业高质量发展的指导意见》《关于促进数据标注产业高质量发展的实施意见》等21项政策和指导意见陆续发布,明确到2029年数据产业规模年均复合增长率超15%。从数据基础制度建设年到数据改革攻坚年,国家数据局进一步明确将2026年定调为“数据价值释放年”,加强高质量数据建设,持续支撑人工智能创新发展。
b.市场活力加速迸发,产业布局多点开花
在政策与需求双重驱动下,数据要素市场规模稳步扩大。高质量数据集建设成为“数据要素X”和“人工智能+”两大行动的“焊接点”,国家数据局推动成都、长沙、保定、沈阳等7个城市率先开展承接国家数据标注任务城市建设,先行先试探索产业发展经验,随后,呼和浩特、武汉、南宁等新一批城市也陆续开展强基扩容、标注攻坚、应用赋能等数据标注产业攻坚行动,推动数据标注创新试验区建设。“人工智能+”行动到哪里,高质量数据集的建设和推广就到哪里的发展势头强劲。
c.技术创新持续突破,流通底座日益夯实
核心技术迭代持续赋能数据要素市场化。数据标注领域,大模型辅助自动化标注、生成式AI融入标注流水线,推动人机协同智能化升级,2025-2026年全球数据标注解决方案市场年复合增长率达24.3%。可信数据空间建设进入规模化实践阶段,首批遴选的63个国家级试点项目已全面启动,覆盖国民经济32个行业大类,服务900余个具体应用场景,吸引了近7万家市场主体参与,数据流通利用的基础设施体系正在加速完善。数据要素的流通与利用成本持续降低,技术创新正为数据要素市场化配置构筑起日益坚实的支撑体系。
综上,数据要素正从支撑性资源转变为基础性生产要素,政策、市场、技术协同推进,深度融入企业经营与产业升级,将成为未来十年最重要的新兴生产要素之一。
(4)训练数据领域的未来发展趋势
随着DeepSeek、Gemini等成为现象级应用,以及AI手机、具身智能等终端加速落地,大模型技术正驱动数据需求发生深刻变革。
a.多模态大模型成为主流,驱动多模态数据需求爆发式增长
大模型正从单模态向多模态范式加速演进。多模态技术的本质在于跨模态信息融合,即通过协同处理文本、图像、音频、视频等不同形式的数据,使AI具备更接近人类的全维度认知能力。这种演进解锁了诸如视觉问答、跨模态生成、智能语音交互等复杂场景的应用潜力。以视觉问答为例,系统需同时解析图像中的视觉和文本信息,并通过模态对齐与知识推理生成准确回答。这一过程的实现,依赖于海量高质量的图文对数据。数据服务商需构建覆盖多样化场景的问答对,通过模拟现实中的视觉推理逻辑,训练AI建立视觉-语言联合表征能力。实践证明,数据质量与多样性直接决定多模态模型的能力上限。随着多模态数据生态的完善,AI的感知与认知能力将实现新跨越。
b.大模型从“规模驱动”转向“推理驱动”,思维链(CoT)数据成为关键突破口
随着模型参数量逼近实用天花板,传统ScalingLaw的边际收益正在递减。单纯堆算力与参数已难以解决逻辑、数学等复杂推理任务,行业正加速向“推理驱动”范式转型——让模型从直觉式“快思考”转向逻辑式“慢思考”。
2025年,DeepSeekR1的推出验证了这一路径的可行性。其核心创新在于思维链(Chain-of-Thought,CoT)技术:通过将复杂问题拆解为多步可追溯的推理步骤,得以模拟人类的分步思考过程,显著提升逻辑一致性与答案可解释性。这一技术突破使CoT数据从“可选项”变为“必选项”。
对于数据服务商而言,CoT数据的供给能力将成为衡量专业水准的关键标尺。率先建立专家标注体系、掌握复杂推理数据生产方法论的企业,将在大模型下一阶段的竞争中占据核心生态位。
c.从通用到垂直,高质量行业数据需求显著提升
DeepSeek等开源模型的高性能、低成本加速了AI应用普及,推动AI从通用助手向行业专家和AIAgent演进。医疗、法律、金融等垂直领域对专业数据的需求激增:医疗大模型要求标注人员具备医学知识,法律模型需理解法条与判例逻辑。同时,AIAgent需要理解用户指令并执行订餐、行程规划等复杂任务,对多轮交互、任务拆解类数据提出新要求。对于数据服务商而言,上述变化意味着核心竞争力正在重构:不再仅仅是“数据产量”的比拼,更是行业理解深度、专家资源网络、复杂任务拆解能力的综合考验。能够为垂直领域提供“数据+知识”一体化解决方案的企业,将在AI产业深水区占据不可替代的位置。
d.具身智能浪潮来袭,数据供给瓶颈亟待突破
具身智能被广泛视为通往AGI的关键一跃。2025年,特斯拉Optimus、Figure01等机器人加速从实验室走向工厂与家庭。与纯软件AI不同,具身智能要求模型理解并交互于真实物理世界——这一跨越带来了根本性的数据挑战。
虚拟合成数据虽可批量生成,但“仿真到现实”的差距始终存在——物理引擎无法完美模拟摩擦力、形变、光照变化等复杂因素。真机遥操采集(如人类通过VR设备远程操控机器人)能产出最高质量的数据,但单条数据采集成本高达数十元,难以快速规模化。目前,混合式数据策略成为行业共识,即用第一人称视角、UMI数据、虚拟数据等进行预训练、用真实数据精调。
对于数据服务商而言,具身智能是一个全新的蓝海市场。当前行业仍处于“数据荒”阶段,率先建立物理世界数据采集、以及仿真数据能力的数据服务企业,将在具身智能时代占据更强的先发优势。
e.数据安全法规密集落地,合规能力成核心竞争力
近年,《数据安全法》《个人信息保护法》《网络数据安全管理条例》等法律法规相继实施。
2025年,国家进一步强化数据出境安全评估、生成式AI内容标识等要求。对于数据服务企业,数据安全与合规能力已成为核心评价维度。能够持续跟踪法律变化、建立成熟安全管理体系、坚持发展与安全并重的企业,将具备更强的市场竞争力。
1.2行业的主要技术门槛
随着AI技术不断演进、产业应用不断丰富,训练数据的市场需求呈现体量、难度、复杂性、合规性持续上升的趋势,数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力、算法辅助数据生产能力、以及数据合规管理能力,这使得行业的技术门槛持续提升,具体体现为:
(1)在训练数据研发、生产全流程中的算法全面介入
随着大模型训练从“以模型为中心”转向“以数据为中心”,头部客户群体对于数据规模和处理效率的要求不断提升,数据服务商须在研发、生产流程中全面引入算法以实现高效、合理的人机协同。一般而言,在训练数据研发、生产全流程中融入算法技术,可用于训练数据集的设计及训练数据生产的各个环节,例如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低对人员的依赖(既有人员数量的降低、也有对人员标注能力要求的降低),并构建训练数据设计、加工相关的核心技术;也可用于检查训练数据集对算法模型的训练效果,进而保障训练数据集质量。
(2)平台工具链功能及适配性要求持续提升
当前,客户侧的数据采集、标注需求范围在逐渐拓宽,多模态数据、CoT数据、具身智能数据等新型数据类型的涌现,对数据服务商的平台工具能力提出了更高要求。平台上处理大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化程度如何等等这些因素都决定了平台的适配性和能力如何,并最终决定了数据处理的质量、效率、成本。
(3)语音语言学基础研究方面须有深厚积累
伴随语音技术进一步落地并向更多垂直场景渗透,同时受中国企业出海需求、国外企业全球拓展两方面支撑,客户在多语种、多音色等方面的需求持续提升。多语种数据标注需兼顾发音、语法及文化背景差异。此外,情感标签、语调标记、韵律特征等细粒度语音标注需求日益增加,要求数据服务商在音素集构建、发音词典编制、跨语种迁移学习等基础研究领域具备深厚积累。只有在这一领域长期投入、具备系统性语音语言学研发能力的服务商,才能满足客户在多语种、多场景下的多元化数据需求。
因此,市场上仅有极少数企业通过长期自主研发能够达到上述核心技术门槛,成为有能力向不同客户群体提供综合、高效、合规的数据产品及服务的供应商。
2、公司所处的行业地位分析及其变化情况
作为行业的头部阵营企业,海天瑞声在经营情况、技术实力、以及以数据安全为代表的其他综合能力方面都展示出明显优势,并具有较强国际竞争力。近年来公司紧跟AI技术发展趋势,尤其关注在客户资源、技术实力、产品/服务等方面的竞争优势,树立国内领先基础数据服务商的品牌形象,以巩固公司的行业领先地位。
3、报告期内新技术、新产业、新业态、新模式的发展情况和未来发展趋势
(1)DeepSeek带火CoT技术,多领域CoT数据需求集中涌现
伴随DeepSeekR1的火爆出圈,其背后的思维链(CoT)技术成为AI领域的新焦点。该技术通过模拟人类“慢思考”认知模式,将复杂问题拆解为逻辑严密的推理链条,使AI系统在数学推导、专业决策等场景中准确率大幅提升。DeepSeek官方已公开R1的完整训练路径,将全过程拆解为冷启动、推理导向RL、拒绝采样再微调、对齐导向RL四步,其中冷启动阶段正是使用数千条能体现思考过程的CoT数据对模型进行监督微调,才使得R1在AIME2025测试中,准确率由70%提升至87.5%。在医疗影像诊断、法律文书推理、金融风控等专业领域,融入分步推理过程的CoT数据,可使模型掌握从问题解析到结论验证的完整认知闭环,提升专业任务准确性和可解释性。因此,在大模型向垂直领域拓展时,高质量的多领域CoT数据需求预期将快速增加,并成为推动AI技术发展的关键因素。
(2)垂向领域数据需求快速增加,标注复杂度不断提升
以DeepSeek为代表的开源大模型,凭借高性能、低成本和无限制商用等特点,加速了AI应用的普及。该技术民主化浪潮推动行业从通用模型竞赛转向面向医疗、金融、制造等领域的深度价值挖掘,催生出行业数据处理需求的指数级增长。麦肯锡调研显示,全球78%的组织已在日常运营中使用某种AI工具,其中85%已将AIAgent集成至少一项工作流程。与通用类数据处理不同,行业数据处理难度更大、更加注重专业性,对数据服务商的综合能力也提出了更高的要求。一方面,数据服务商需具备行业know-how,以设计出符合行业需求的数据解决方案;另一方面,随着模型向更专业化和精细化方向发展,丰富的垂类专家资源也至关重要。
(3)AIAgent技术路线快速演进,GUI数据与行为轨迹数据需求已开始呈现增长态势
以OpenClaw为代表的AIAgent开始大规模落地应用,标志着AI从被动响应工具向主动决策执行者的根本性跨越。AIAgent已具备明确的“感知-决策-执行”闭环能力,可应用于采购策略制定、工作流审批、工业设备操控等复杂场景。在技术路线上,GUIAgent路线加速走向成熟,突破传统API调用模式,使智能体能够像人类一样通过视觉识别“看”懂屏幕、利用模拟点击“操作”按钮,实现跨应用自动化操作。然而,GUIAgent的训练面临严峻的数据瓶颈——端到端训练需要海量高质量GUI交互数据,但手动大规模标注行动轨迹成本极高。为此,行业正积极探索从公开屏幕录制视频中自动挖掘训练数据的技术路径,有望大幅降低标注需求。同时,行为轨迹数据的采集与标注成为新焦点,数据服务商需大规模采集鼠标移动、点击、键盘输入、屏幕触摸等完整操作序列,并将宏观看似复杂的任务指令拆解为可训练的微观动作逻辑,为AIAgent训练提供结构化且具情境意义的数据支撑。在Agent迈向规模化落地的关键窗口期,具备多端(PC、移动)行为轨迹数据采集与标注能力的数据服务商将获得显著的差异化竞争优势。
(4)具身智能的训练数据市场呈现出巨大的供需缺口,需求旺盛且潜力巨大
具身智能作为实现通用人工智能(AGI)的关键路径与终极载体,正受到越来越多的关注。2026年被行业公认为具身智能的“数据之年”,数据需求正呈指数级爆发——从Pi0的1万小时训练,到Gen-0的27万小时,头部具身大模型所需真机训练数据正逼近甚至超过百万小时级别。业内共识认为,具身模型真正收敛需几百万甚至数千万小时高质量训练数据,但当前国内各家具身智能公司数据总量仅约几十万小时,量级差距巨大。从政策层面看,工信部等七部门联合印发《关于推动未来产业创新发展的实施意见》,将具身智能纳入未来制造、未来信息等六大战略方向;北京、上海、深圳等城市已出台专项行动计划,通过资金与政策支持推动具身智能产业发展。具身智能需要机器人在复杂的真实世界中实现自主感知、学习和适应,该能力的构建依赖海量来自“真实物理环境”的动态交互数据进行训练。目前数据获取仍面临成本高昂、场景覆盖有限等挑战,高质量具身智能数据市场正呈现巨大的供需缺口,需求旺盛,未来增长潜力巨大。
(5)数字经济发展催生新型数据服务模式
发展数字经济已经成为我国经济“弯道超车”以及挖掘经济内生增长的重要战略举措。国家在数字经济建设方面决心极为坚定,通过《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》、《数字中国建设整体布局规划》等政策文件的密集发布以及组建成立国家数据局、国家数据发展研究院、世界数据组织(WDO)等职能部门和组织,进一步统筹并加速落地数字经济发展战略,而数据要素作为深化数字经济发展的核心引擎,也将迎来新的发展机遇。未来,围绕数据确权、汇聚、处理、利用和流通等环节将会产生巨大的增量市场空间,催生出围绕公共数据以及行业数据开发的新型数据服务需求,以及以行业高质量数据集构建、可信数据空间建设运营、数据标注基地建设、数据平台开发运营、数据交易为代表的新产品、新业态、新模式。二、经营情况讨论与分析
2025年,在全球人工智能产业蓬勃发展的大背景下,公司业务实现全面增长。一方面,随着多模态大模型技术持续突破和“人工智能+”应用场景不断丰富,全球训练数据需求呈现爆发式增长,公司凭借丰富的数据服务经验以及海量标品数据集积累,持续获得国内外头部科技企业的数据需求订单。此外,在国家“人工智能+”战略指引下,地方政府积极布局结合各地产业特色的人工智能应用,公司一方面为相关项目交付垂直领域AI模型及应用平台,实现了从数据服务向模型交付与解决方案落地的业务延伸,另一方面助力地方政府建设针对地方产业特色的高质量数据集,推动数据资源向资产化、价值化转化。与此同时,以运营商为代表的国央企也在加速AI布局,重点投入多模态基座模型研发和垂直领域应用落地,为公司带来新的业务增长点。另外,2024年公司新拓展的东南亚数据交付基地已进入稳定运营阶段,该基地不仅成功打开了海外定制化服务市场,更为海外业务贡献了显著的增量收入。以上因素共同推动,公司2025年度营业收入、归属于母公司所有者的净利润、归属于母公司所有者的扣除非经常性损益的净利润同比均实现较高增长。
报告期内,在上交所发布的“沪市上市公司2024-2025年度信息披露工作评价结果”中,公司首次荣获最高“A级”评价。这一优异成绩不仅体现了公司在治理体系规范透明、信息披露全面及时、投资者关系管理及规范运作等方面的卓越水平,也彰显了监管机构对公司的高度认可。
报告期内,公司实现营业收入3.77亿元,较上年同期增长59.00%;归属于母公司所有者的净利润1,411.85万元,较上年同期增加24.54%;归属于母公司所有者的扣除非经常性损益的净利润为1,078.52万元,较上年同期增加116.85%;经营性现金流净额177.26万元,较上年同期
下降93.83%。截至报告期末,公司总资产为8.61亿元,较期初增加6.51%;归属于母公司的所有者权益为7.42亿元,较期初减少0.21%。2025年年公司具体经营情况如下:
(一)核心业务板块经营情况
1.境外训练数据业务
2025年,在全球人工智能产业加速渗透及多模态大模型需求爆发的背景下,AI训练数据服务市场持续扩容。在此趋势下,公司海外业务实现收入1.58亿元,同比增长38.68%,继续保持强劲增长态势。
从业务驱动因素来看,一方面,以全球头部消费电子、企业级SaaS应用软件公司等为代表的国际客户,为支撑其全球化业务拓展,持续释放大规模多语种语音、平行语料等高质量训练数据需求。公司凭借在语言研究领域超二十年的技术积累,以及覆盖智能语音、自然语言等多个技术方向的标准化数据集产品优势,进一步赢得了境外客户优选。另一方面,公司在东南亚新建的数据交付基地已进入稳定运营阶段,该基地不仅成功打开了定制化服务市场,更为海外业务贡献了显著的增量收入,未来该基地也将成为支撑公司全球化战略的重要支点。
此外,为进一步提升全球市场竞争力,报告期内,公司持续优化国际化布局。在市场拓展方面,进一步强化北美、欧洲及日韩销售团队,深化本地化服务能力;同时,通过参与CVPR、ACL、Interspeech等全球顶级AI学术会议,提升技术品牌认知度和影响力;同时,重点加强海外交付能力建设,通过拓展东南亚数据交付基地的团队规模和服务范围,为国际客户提供更加高效、合规的数据服务支持。未来,这些战略布局也将为公司把握全球AI产业发展机遇、实现更高质量的国际化发展奠定坚实基础。
2.境内训练数据业务
2025年,随着人工智能技术在各行业的深度渗透和垂直场景的加速落地,AI产业呈现出明显的"场景纵深化"发展趋势。
从市场需求结构来看,AI生态的参与主体日趋多元,除传统科技企业外,政府与国央企积极入局共建。政府机构依托数据资源优势,通过可信数据空间等新型基础设施建设打通数据孤岛,围绕当地特色产业构建高质量语料体系。报告期内,公司已为广西、四川等地打造多类特色数据集,并同步推进湖南、内蒙古等地的专项数据集建设。同时,国务院国资委深入推进央企“AI+”专项行动,以运营商为代表的央企加快布局自主可控AI大模型,数据资源投入力度持续加大,为公司带来新的增量空间。
此外,以短视频平台、本地生活服务平台为代表的头部科技互联网企业开始将AI技术提升至核心战略地位,重点布局多语种语音交互、智能内容生成等关键技术,持续优化用户体验和内容创作效率,为业务创新和国际化发展提供技术支撑。同时,传统科技企业持续加大AI技术研发投入,重点强化多模态基础模型能力建设,特别是在多语种处理等关键领域深化布局,夯实全球化发展的技术基础。公司基于在智能语音、自然语言、计算机视觉等领域多年的技术积累,以及构建的近1,900个标准化数据集的专业产品体系,已成为多家行业领先企业的核心数据服务供应商,市场竞争优势进一步巩固。
3.数据要素业务
2025年,随着《"数据要素×"三年行动计划(2024—2026年)》深入实施和各地数据要素市场化配置改革加速推进,我国数据要素产业迈入高质量发展新阶段。
在这一背景下,国家数据局指导成都、长沙、保定等7个城市建设数据标注基地,先行先试探索数据标注产业发展经验。数据标注基地建设成为推动数据要素价值释放的关键举措,旨在解决AI产业发展中的数据质量、标准统一和要素流通等核心问题。为支持国家数据产业发展战略,公司充分发挥在数据服务领域的技术积累,提供覆盖数据全生命周期的综合解决方案。在数据汇聚环节,公司与地方政府合作共建高质量数据集,整合公共数据和行业数据资源;在生产加工环节,建设数据可信空间,提供数据处理平台和运营服务;在开发利用环节,基于高质量数据开展模型训练;同时为中小企业提供数据治理服务。截至目前,公司已与成都、长沙、保定等承担数据标注基地建设任务的城市的地方政府成立合资公司,并与内蒙古呼和浩特签署战略合作协议,聚焦当地乳业、草种、文旅等特色产业,共建高质量数据集,有效驱动当地产业的数字化转型。此外,公司也正在持续拓展与华东、华南等地的战略合作,进一步完善标注基地的全国性业务布局。
在支撑地方政府文旅产业数字化方面,公司也已取得阶段性成果:已完成彭州等地高质量文旅视频数据集的建设工作,重点为智能导览等应用场景提供专业数据支撑。此外,公司深度参与华为+陕文投集团合作的陕西文旅示范项目,充分发挥在数据服务领域的技术优势,重点支持高质量文旅数据集建设和AI文旅垂直大模型开发,推动"AI+文旅"场景的规模化应用,为陕西文旅产业数字化转型提供全方位数据支撑和解决方案。与此同时,公司还参与"京西智谷数字人平台及配音平台项目",提供2,000余个数字人形象,通过数字人技术助力北京门头沟区乡村振兴和文化传播。
在区域合作方面,公司立足广西作为中国—东盟数字合作枢纽的战略定位,全面深度参与中国—东盟人工智能创新合作中心建设并与地方政府联合成立数字工坊,凭借在东盟小语种数据处理以及OCR预识别算法上的技术优势,有力支持东盟语料库建设。
通过参与国家级数据标注基地建设和区域数字合作项目,公司不仅实现了数据要素业务市场空间的持续拓展,也为推动我国数据要素市场高质量发展注入了新动能。未来,公司将继续深化在数据汇聚、处理、应用等环节的技术创新,致力于构建更加完善的数据要素产业生态体系。
以上境内训练数据业务以及数据要素业务,共同驱动公司境内业务收入同比增长77.72%至2.19亿元。
(二)核心技术能力建设情况
2025年,按照技术+产品双轮驱动的定位,公司继续保持有竞争力的研发投入强度,不断提
升技术和平台工具先进性、在大模型数据处理技术方向进行积极探索储备、巩固标准化数据集产品储备、增厚语音语言学基础研究领先性,持续巩固公司核心竞争力。报告期内,公司研发费用共计5,858.58万元,占当期营业收入的15.54%。截至报告期末,公司研发人员数量为61人。1.算法及平台能力建设、大模型数据处理技术持续探索储备
报告期内,公司持续保持大规模基础研发投入,重点提升人工智能基础算法、一体化数据处理平台及前沿技术研究等领域的核心能力,持续推动大模型数据服务的迭代升级,并形成了一定的代表性成果:
1.1算法
公司在智能语音、计算机视觉、自然语言处理等领域的预标注算法上持续深耕布局,同时,在面向智慧文旅场景的多模态大模型能力研究、面向数字人场景的基础能力研究、智能驾驶、大模型训练数据清洗与自动化标注、面向语音场景的数据自动化清洗、面向中文方言的语音识别大模型等垂直领域取得显著进展。面向智慧文旅场景的多模态大模型能力研究主要包括:文旅场景的语音合成大模型、视觉大模型、LLM大模型训练与微调,并完成主流国产算法的模型推理适配工作。面向数字人场景的基础能力研究主要包括:图片数字人算法、视频数字人算法的研发和国产服务器部署;智能驾驶主要聚焦在4D点云重建算法、4D到2D厘米级自动化映射、预刷红绿灯算法、亿级点云地面检测算法、3D单边定制化自动贴合算法、3D连续帧跟踪算法等;在大模型训练数据清洗与自动化标注研发领域内,研发老挝语OCR、文本过滤、敏感信息脱敏等语料自动化清洗算法,研发覆盖10+个垂类领域适配的OCR算法矩阵,完成10+个语种的ITN/TN清洗pipeline搭建与优化;针对语音大模型训练数据,完成语音数据自动化清洗pipeline的升级,融合10+种模型算法,构建了5个适配不同垂类清洗任务的自动化pipeline,可满足90%以上的语音自动化清洗与标注需求;针对中文方言领域,完成面向中文方言的语音识别大模型相关的流式模型框架搭建、训练数据清洗与整合、评测数据集制定、待评测的对标模型推理环境搭建,完成语料配方、模型训练相关实验,并取得预期效果。
1.2平台
公司持续在数据处理平台进行规模化投入,重点提升语音、视觉等核心领域的数据采集、数据清洗及数据标注环节处理效率。同时,为完善产业生态布局、增强内部管理效率,公司新增建设人工智能数据服务实训和AI数据生产管理两大专业平台,具体情况如下:
智能语音平台:声优工厂平台形成规模化声优资源池,覆盖中、英、日、韩4大语系36种音色标签。通过性别校验等算法模型,大幅提升试音通过率,且单条试音审核时长压缩10倍以上;自研流程引擎让项目平均周期缩减一半。公司自研的多模态推荐模型,可实现候选声优的秒级反馈,匹配精准度提升至90%以上。副语言&音素边界标注平台实现全流程自动化升级,通过集成语音识别等算法模块,将标注时间缩短约一半。新增多轨打点标注体系,实现多通道音频多人对话场景的专业化标注,支持语音重叠预测可视化、多通道波形-频谱-文本层联动展示,填补了复杂语音场景标注空白,大幅提升了多人对话类数据的标注精准度与专业性。构建了精细化权限治理体系,该体系可适配多场景任务需求,且使跨角色协同效率提升50%以上。
计算机视觉平台:Bev视角点云、2D图标注平台攻克多源数据技术难关,自研时空配准引擎实现多源点云亚像素级对齐;轻量化拓扑压缩算法在保持99.5%几何精度下,通过点云压缩技术,将训练加载时间缩短80%。此外,采用风格迁移网络实现4种天气、5个时段无缝切换,兼容主流行业标准,大幅降低客户迁移成本。标注工具效率较传统提升近5倍,支持超过1,000个标注员并发作业,日均可产出50万张AI训练样本,并已在智能驾驶为代表的三大场景应用落地。
面向人工智能数据服务的实训平台:旨在服务高校人才培养、面向企业人员开展AI知识科普与技能培训,助力企业掌握AI数据应用能力、实现智能化升级,为AI产业链提供高质量的人才培养方案。平台包括理论体系建设、课程学习、上机实训、课后练习、在线考试、资格认证、人才推送等一体化体系,重点覆盖文本、语音、图像、视频、3D点云等多类型数据标注实训。公司已完成整体架构设计及重要模块开发,并形成基础理论体系和全模态实战课程课件。
面向人工智能数据生产的管理平台:为应对人工智能数据业务不断发展所带来的项目管理、商务管理、财务管理等诸多管理能力不断提升的需求,公司整合既有工具模块、优化现存平台、并整体提升用户交互体验,建设新一代面向人工智能数据生产的管理平台。该平台包括不少于20个重要功能模块的建设任务。公司今年已完成包括客户管理、合同管理、项目管理、供应商管理等重要模块的建设任务;初步完成发票和决算等财务管理模块的框架搭建;并陆续启动剩余模块的开发任务。同时,为保证新老模块切换及系统升级的连续性,已完成数据迁移设计并启动迁移脚本开发工作。部分能力已在公司内部落地,并支撑业务加速发展。
以上平台均以技术创新构建壁垒,兼具规模化能力与商业化成果,为持续增长奠定基础。
2.标准化数据集产品
标准化数据集产品,是公司区别于众多竞争对手以定制化服务为主的特有商业模式,也是公司核心竞争力之一,标准化产品是公司基于未来行业需求的研判,在市场需求出现之前,预先开发的数据集,具有即用即取的特点,可帮助客户大幅缩短模型研发周期并有效降低数据投入成本。同时,由于产品本身的知识产权由公司享有,具有一次性研发生产、可重复多次销售的特点,因此可更好帮助公司实现未来可持续性销售、以及毛利空间提升。
因此,为更好适应行业发展需求,公司2025年在产品研发方面持续投入,用于开发覆盖智能语音、计算机视觉以及自然语言等传统深度学习以及大模型领域的相关数据集产品。截至报告期末,公司新增研发超160个训练数据集产品,自有知识产权的训练数据产品储备达到1,877个,尤其在多语种语音对话、多语种OCR、多音色多情感数据集等方面积累了更丰富的标准化产品资源,并建成包括“双工数据集”、“视觉大模型(图像-文本)预训练及微调数据集”等在内的多领域大模型数据集。
截至报告期末,公司已向下游客户提供了累计超过12,000次/个定制或标准化训练数据集,并已应用于个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等22类创新应用领域,赋能人工智能技术与实体经济的深度融合。
3.语音语言学能力
随着全球化扩张成为头部AI企业收入增长的重要引擎,多语种数据的作用和价值更加凸显。为更好满足客户多语种拓展需求,公司持续保持语音语言学研究力度,在语音语言学基础研究方面,公司不断丰富合作语言学家团队资源,成员遍布世界各地的学校及研究机构,在语音语言学领域具备丰富经验和技术储备。截至报告期末,公司已经拥有超过300个语种/方言的覆盖能力,不仅包括英、法、德、意、西、日、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时,公司建立了成熟的发音词典构建流程,公司已积累下近140个多语种的发音词典,覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种,累计词条数超过1,200万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司的主要竞争壁垒及核心技术之一。
(三)其他综合能力建设情况
1.数据安全及合规
2025年,中央和地方出台了一系列有关数据要素、数据安全的法律法规和政策,对企业的数据安全水准和能力提出了更高要求,也为企业在数据要素、人工智能等领域的发展提供了新的机遇。公司一直以来非常重视数据安全管理以及相关能力的提升,并将其作为把握新发展机遇所必须练好的“基本功”。报告期内,公司积极参与行业发展,提出立法建议、参与行业调研,数据安全能力获得广泛认可。
2.供应链体系
2025年,公司围绕AI大模型在垂直领域的深度应用,全面升级供应链生态体系。在产业布局方面,公司深度整合产学研资源,重点布局具身智能、医疗、金融、教育、美学等专业领域,通过与行业权威机构合作,构建了覆盖诊断、智能投顾、合规风控、数字版权等场景的专业资源池,显著提升了供应链的行业适配性和专业壁垒。
公司在全球化资源网络建设方面取得重要突破:通过海外数据基地建设和供应商资源拓展,已覆盖60万终端资源,涉及176个国家和地区及超过300种语种/方言,大幅提升全球数据服务的响应能力。
此外,公司通过技术创新驱动供应链管理效能提升:通过知识图谱与区块链技术融合,实现跨领域资源的智能匹配与全流程可信溯源;依托动态标签体系和智能算法,完成需求线上化、结算线上化管理;基于精细化成本模型与实时化系统,实现订单处理、资源配置的全链路数字化,为可持续产能扩张奠定基础。
3.人力资源
报告期内,公司坚持人才强企战略,持续完善人力资源管理体系,不断拓宽人才渠道,精准为交付体系补充核心岗位人才,提升人岗匹配度。重点健全人才培训与职业发展体系,分层分类开展业务培训和管理能力培养,对应届高潜毕业生、新锐力量、中坚力量、中高层管理人员采取不同的梯队建设规划,以保障人才队伍的不断夯实。深化绩效、薪酬、晋升联动改革,健全中长期激励机制,有效激发员工积极性与创造力。文化建设方面,强化高度敬业和持续创新文化,进行榜样之星等多样化的文化倡导和活动辐射,打造更加尊重信赖和追求卓越的组织基因,持续提升人力资源整体效能,为公司长期可持续发展筑牢人力根基。
三、报告期内核心竞争力分析
(一)核心竞争力分析
1.研发优势
公司拥有同行业具有竞争力的综合研发实力,截至报告期末,公司研发团队规模为61人,研发能力全面覆盖平台工具开发、算法研究、产品设计等多条主线。公司核心研发人员均曾服务于全球顶尖科技企业或毕业于名校,组成了公司坚实的研发领导核心力量。同时,多年来,公司积累了较为完备的综合性、一体化数据处理平台及工具体系,覆盖智能语音、计算机视觉、自然语言等全业态领域,可服务于市面上绝大多数数据处理场景需求,包括但不限于智能驾驶、智能家居、个人助手、文旅应用、内容生成等场景。公司还设置了专门的产品研发部门,可及时应对大模型时代加速变化的技术变革、前瞻性挖掘和布局新兴市场需求、抢占市场先机。此外,基于公司在训练数据领域多年积累下的大量、多元化数据以及数据处理经验,通过算法平台团队与数据业务团队无缝衔接,公司可更好完成预识别算法性能提升,实现少量数据注入->算法训练->标注员反馈->模型生成->处理大量数据的自闭环体系,助力公司做大规模、提升效率、降低成本。同时,20多年数据行业的从业经验积累,使得公司具备较强的数据生产工程化能力,可助力公司大幅缩短数据研发及生产周期,为公司抢占市场提供了有力支撑。上述因素共同驱动公司构建较高的行业技术壁垒。
2.产品优势
通常来说,标准化数据集产品具有可即时获取、价格相对优惠等特点,因此市场需求旺盛。但由于标准化数据集产品是先于客户需求形成,需要数据服务商具备较强的市场趋势前瞻能力、以及财务实力进行提前投入,因此行业中具备标准化数据集产品规模化生产能力的服务商较为有限,该方向具备较高竞争壁垒。
对于公司而言,标准化训练数据集产品的知识产权由公司享有,具有一次性研发生产、可重复多次销售的特点,可显著助力公司毛利水平提升,实现训练数据产品的规模化效应,因此也是公司区别于众多竞争对手的一个优势亮点。
公司基于20多年数据服务经验、以及对客户需求的深刻理解,持续开拓标准化数据集,自有知识产权的训练数据产品储备达到1,877个,全面覆盖智能语音、计算机视觉、自然语言等多条业务线。这些高质量数据集可全面支持智能客服、个人助手、数字人等前沿AI应用场景的研发落地。特别值得一提的是,我们的标品数据已支持超300种语言/方言,能够充分满足全球AI企业的多语言需求,为客户的国际化战略提供强有力的数据支撑。
3.语音语言学能力优势
随着境外客户全球化扩张以及境内客户出海成为新的行业发展趋势,多语种能力成为数据服务领域的核心竞争力之一,而语音语言学储备则是实现多语种拓展的重要前提。经过20年积累,公司已沉淀下深厚的语音语言学基础研究成果,并已将其运用至构建高质量的智能语音、以及多模态训练数据。在语音语言学基础研究领域,公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累,以及不断创新的发音词典构建技术和流程技术。截至报告期末,公司已经拥有超过300个语种/方言的覆盖能力,不仅包括英、法、德、意、西、日、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时,公司已积累下近140个多语种的发音词典,覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种,累计词条数超过1,200万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司的主要竞争壁垒及核心技术之一。
4.数据安全及合规能力优势
海天瑞声自成立之初即把数据安全、数据合规视为生命线,公司在多年的数据风险识别和管理实践中,已经形成了较为成熟的安全、合规管理体系。资质方面,公司拥有ISO27001信息安全管理体系认证、ISO27701隐私信息管理体系认证、ISO42001人工智能管理体系认证证书、ISO20000信息技术服务管理体系、国家信息系统安全等级保护三级备案、北京市规划和自然资源委员会行政许可乙级测绘资质等。行业参与方面,公司入选中共中央网络安全和信息化委员会办公室“人工智能企业典型应用案例”,相关业务和数据安全实践受到《人民日报》等权威媒体报道和关注。公司为中国信通院数据安全推进计划成员单位,董事兼总经理李科连续入选该计划数安智库专家,其所参与、领导的公司数据安全工作,受到《北京日报》等权威媒体报道。此外,公司积极参与行业发展,入选国家标准《信息技术人工智能术语》核心参编单位、《人工智能数据标注平台技术要求和测试方法》核心参编单位,数据安全能力获得认可并产生广泛、积极的行业影响。
(二)报告期内发生的导致公司核心竞争力受到严重影响的事件、影响分析及应对措施
(三)核心技术与研发进展
1、核心技术及其先进性以及报告期内的变化情况
公司高度重视并坚持科技创新,通过持续的研发投入积累形成了12项核心技术,覆盖基础研究、平台工具、训练数据生产三个层次,应用于训练数据生产的设计、采集、加工、质检全流程之中。
上述核心技术构成了公司生产经营的基础,通过上述核心技术的成果转化,公司形成了基于核心技术的训练数据相关产品和服务。
(1)基础研究层面,报告期内,公司持续在智能语音、计算机视觉、自然语言进行技术拓展,同时在多模态文旅大模型、数字人算法、智能驾驶、大模型训练数据清洗与自动化标注、面向语音场景的数据自动化清洗、面向中文方言的语音识别大模型等垂直领域取得显著进展。多模态文旅大模型主要包括:文旅场景的语音合成大模型、文旅场景视觉大模型、文旅场景的LLM大模型训练与微调,并完成主流国产算法的模型推理适配工作。数字人算法主要包括:图片数字人算法、视频数字人算法的研发和部署;智能驾驶主要聚焦在以下领域的算法研发:4D点云重建算法、4D到2D厘米级自动化映射、预刷红绿灯算法、亿级点云地面检测算法、3D单边定制化自动贴合算法、3D连续帧跟踪算法等;在大模型训练数据清洗与自动化标注研发领域内,研发老挝语OCR算法,研发覆盖发票、行程单、护照、专利等垂类领域适配的OCR算法矩阵,完成题库、ITN/TN等多种语料清洗pipeline搭建与优化,并在项目中取得良好效果;针对语音大模型训练数据,完成语音数据自动化清洗pipeline的升级,融合VAD、多语种ASR语音识别、说话人检测等模型算法对多垂类的语音数据进行自动化清洗与标注;针对中文方言的语音识别大模型研发,通过流式模型框架设计、自有方言数据整合与清洗,完成语料配方、模型训练相关实验,并取得预期效果。
(2)在平台工具层面进展如下:
智能语音平台:声优工厂平台形成规模化声优资源池,覆盖中、英、日、韩4大语系36种音色标签。通过性别校验等算法模型,大幅提升试音通过率,且单条试音审核时长压缩10倍以上;自研流程引擎让项目平均周期缩减一半。公司自研的多模态推荐模型,可实现候选声优的秒级反馈,匹配精准度提升至90%以上。副语言&音素边界标注平台实现全流程自动化升级,通过集成语音识别等算法模块,将标注时间缩短约一半。新增多轨打点标注体系,实现多通道音频多人对话场景的专业化标注,支持语音重叠预测可视化、多通道波形-频谱-文本层联动展示,填补了复杂语音场景标注空白,大幅提升了多人对话类数据的标注精准度与专业性。构建了精细化权限治理体系,该体系可适配多场景任务需求,且使跨角色协同效率提升50%以上。
计算机视觉平台:Bev视角点云、2D图标注平台攻克多源数据技术难关,自研时空配准引擎实现多源点云亚像素级对齐;轻量化拓扑压缩算法在保持99.5%几何精度下,通过点云压缩技术,将训练加载时间缩短80%。此外,采用风格迁移网络实现4种天气、5个时段无缝切换,兼容主流行业标准,大幅降低客户迁移成本。标注工具效率较传统提升近5倍,支持超过1,000个标注员并发作业,日均可产出50万张AI训练样本,并已在智能驾驶为代表的三大场景应用落地。
面向人工智能数据服务的实训平台:旨在为AI产业链提供高质量的人才培养方案,平台包括理论体系建设、课程学习、上机实训、课后练习、在线考试、资格认证、人才推送等重要模块,覆盖文本、语音、图像、视频、3D点云等多模态、多类型数据标注实训。公司已完成整体架构设计及重要模块开发,并形成基础理论体系和全模态实战课程的课件。
面向人工智能数据生产的管理平台:为应对人工智能数据业务不断发展所带来的项目管理、商务管理、财务管理等诸多管理能力不断提升的需求,公司整合既有工具模块、优化现存平台,并整体提升用户交互体验,建设新一代面向人工智能数据生产的管理平台。该平台包括不少于20个重要功能模块的建设任务。公司今年已完成包括客户管理、合同管理、项目管理、供应商管理等重要模块的建设任务;初步完成发票和决算等财务管理模块的框架搭建;并陆续启动剩余模块的开发任务。同时,为保证新老模块切换及系统升级的连续性,已完成数据迁移设计并启动迁移脚本开发工作。部分能力已在公司内部落地,并支撑业务加速发展。
以上平台均以技术创新构建壁垒,兼具规模化能力与商业化成果,为持续增长奠定基础。
2、报告期内获得的研发成果
报告期内,公司新获得发明专利1项,软件著作权12项。截至2025年12月31日,公司共获得专利授权42项,获得登记的软件著作权192项。
四、风险因素
(一)尚未盈利的风险
(二)业绩大幅下滑或亏损的风险
(三)核心竞争力风险
1.核心技术快速迭代的风险
由于人工智能行业整体发展较为迅速,应用领域和应用场景不断拓展,下游需求随着行业发展不断发生变化,公司进行数据开发所需的各项技术也面临着快速迭代更新的风险。如果公司无法保持对行业发展趋势的洞察能力以及对研发人才的有效组织和研发经费的经济投入,则可能导致公司在行业技术快速迭代过程中无法持续保持技术先进性和技术优势,进而对公司的客户拓展、产品创新和经营业绩造成不利影响。
2.核心技术人员流失风险
随着行业的持续发展,行业内企业之间对于高端人才的竞争日益激烈,如果公司无法持续加强核心技术人员的培养及引进并为核心技术人员提供有竞争力的激励机制和薪资待遇,则将存在核心技术人员流失的风险,公司的技术水平、研发能力也将受到不利影响。
3.核心技术失密风险
公司的数据产品和服务均以核心技术为基础。公司制定了严格的保密制度并严格执行,但上述措施仍无法完全避免公司核心技术的失密风险。如果公司相关核心技术的内控和保密机制不能得到有效执行,则可能导致公司核心技术失密的风险。
4.训练数据标准化产品无法实现授权销售的风险
公司根据对算法模型应用领域、行业发展趋势、市场需求等的评估和研判,自行设计并开发多种训练数据集标准化产品,开发完成后根据客户实际需求进行销售,授权给客户使用。在该种业务类型下,公司开发训练数据集产品,承担开发费用,并拥有训练数据集产品的知识产权。如果公司开发的训练数据集产品不能满足下游客户对训练数据的要求,则可能存在无法实现授权销售的风险,进而对公司未来的经营业绩产生不利影响。
5.数据安全相关风险
公司主要从事训练数据的研发设计、生产及销售业务,所提供的产品和服务主要以数据的形式体现。一方面,随着公司业务的快速发展和规模的持续扩张,原料数据采集与数据加工的数量持续增长;另外一方面,包括《数据安全法》《个人信息保护法》《生成式人工智能服务管理暂行办法》《网络数据安全管理条例》《个人信息保护合规审计管理办法》等在内的与数据安全、个人信息保护相关的法律规章体系正在逐步完善。公司如果未能按照法律规章或客户的更新要求及时调整现行业务开展方式、公司的数据安全管理体系研发升级未能跟上业务发展的需要或客户未能遵守训练数据产品保护相关商业约定,则公司可能产生诉讼纠纷或面临生产经营不符合法律规章的要求、训练数据产品被泄露或盗版等数据安全相关风险。
同时,《数据出境安全评估办法》《促进和规范数据跨境流动规定》等法律法规加强了对境内收集或产生的个人信息数据的跨境行为的规制。如果将来公司未能根据相关要求及时履行相应的程序,公司开展的属于该办法限定范围内的境外业务将受到一定程度的影响。
(四)经营风险
1.收入主要来自老客户,新客户收入占比较低的风险
报告期内,公司收入主要来自老客户,占比达到78.62%,新客户收入占比较低。公司正致力于维护老客户、拓展新客户,若老客户降低对公司产品、服务的采购量或公司未能维持与老客户的合作关系,则公司的经营情况将受到不利影响;若新客户拓展情况不达预期,则公司的经营情况也将受到不利影响。
2.新业务拓展风险
随着人工智能行业持续快速地增长,下游客户对高质量、多样性、大规模训练数据的需求将持续增加。公司能否紧跟下游需求变化,加深对下游行业基础技术的理解并开发出更多的业务机会,一方面受到行业发展状况、市场需求变化以及市场竞争状况等因素影响,另一方面也取决于公司对于下游众多新领域新场景的理解认知以及合作拓展能力等诸多因素。因此,公司新业务的开拓可能不及预期或者遇到其他不利因素,进而对公司未来的经营业绩产生不利影响。
3.采购成本上升风险
报告期内,公司进行采购原料数据采集、标注所支付的数据服务费占全年与主营业务相关的采购总额的比重较高,达到78.36%。随着城乡生活成本的持续提升,前述采购价格可能存在持续上升的趋势,若公司的技术发展带来的效率提升无法抵消前述采购成本上升的影响,可能会对公司的经营业绩带来一定不利影响。
(五)财务风险
1.经营性现金流风险
报告期内,公司经营活动产生的现金流量净额为177.26万元。主要系公司加大海外业务拓展力度、业务规模增长,相应占用了较多运营资金所致。若未来公司持续增强境内外业务布局,经营活动现金流量可能维持当前水平,或阶段性呈现净流出状态,从而使公司面临一定的资金压力风险。此外,若未来经营活动现金流入不及预期,也可能导致公司资金周转紧张,对日常运营和项目投入产生不利影响。
2.应收账款回款风险
随着公司经营规模的扩大,应收账款存在随之增长的风险。公司应收账款客户主要为大型上市公司、中央企业、国有企业,客户资质优良,回款保障程度相对较高。目前公司制定了完善的回款清欠机制,实行多元化的回款策略,执行奖惩相结合的回款考核制度,并对客户执行严格的分级评价制度,根据客户实际情况调整收款政策,整体应收账款风险处于可控水平。若主要客户经营状况发生不利变化、付款能力下降或付款周期延长,会给公司应收账款回收带来不利影响。
(六)行业风险
1.市场竞争加剧的风险
公司所在的细分领域为AI基础数据服务领域。近年来,参与该行业的公司不断增多,由于整体行业较新,行业标准和法律监管仍处于规范阶段,因此整体行业目前处于高速发展且格局未定的状态,导致市场竞争加剧。公司如果不能持续有效地制定并实施业务发展规划,则将受到竞争者的挑战,从而面临市场竞争加剧而导致的经营状况下滑、市场地位下降和可能失去主要客户的风险,进而影响公司的盈利能力和发展潜力。
2.业务发展受下游人工智能领域发展状况影响较大的风险
公司主要为AI产业链上的各类机构提供算法模型开发所需的训练数据,服务于下游人工智能行业发展。公司的经营情况、业务发展与下游人工智能领域的发展状况息息相关。若未来人工智能领域景气度下降,或因技术更迭使得对训练数据的市场需求发生变动,将对公司业绩产生较大影响。
(七)宏观环境风险
1.经营业绩受税收优惠政策影响较大的风险
报告期内,公司享受了高新技术企业和研发费用加计扣除等一系列税收优惠,经营业绩受税收优惠政策影响较大。如果未来公司所享受的税收优惠政策出现不利变化,或者公司不再符合税收优惠的条件,则公司将无法持续享受税收优惠或存在所享受的税收优惠减少的可能性,并进而对公司未来经营业绩和现金流水平造成不利影响。
2.汇率波动风险
海天瑞声作为一家面向全球的训练数据服务商,拥有数量众多的境外客户,遍布美国、韩国、日本等各地区,报告期内公司境外收入占比为41.81%,该等收入使用外币进行结算,并受人民币汇率水平变化的影响。人民币汇率可能受到国内外政治、经济环境等因素的影响,存在波动风险,进而对公司的经营业绩产生不利影响。
3.中美贸易摩擦风险
公司产品和服务的主要出口地包括美国、日韩等国家或地区。报告期内,公司出口美国的营业收入占当期公司营业收入的比重为19.12%。公司相关境外业务始终严格遵守中国及他国法律。但国际局势瞬息万变,近年来中美贸易摩擦不断,如果中美双方出台新的贸易保护主义措施,可能会影响美国市场相关客户将数据提供给公司用于标注,减少与公司进行训练数据方面的业务合作,公司相关业务可能会受到约束,将会对公司的生产经营产生不利影响。
(八)存托凭证相关风险
(九)其他重大风险
实际控制人控制不当的风险
截至报告期末,贺琳直接持有公司1,177.38万股股份(占总股本的19.52%),并通过控制中毅安间接控制公司552.22万股股份(占总股本的9.15%),合计控制公司28.67%的股份,为公司实际控制人。
如果实际控制人利用其控制地位,通过行使表决权或其他方式对公司财务管理、人事、发展战略、经营决策等重大事项施加不利影响,其他股东的利益可能受到损害。
五、报告期内主要经营情况
报告期内,公司实现营业收入3.77亿元,较上年同期增长59.00%;归属于母公司所有者的净利润1,411.85万元,较上年同期增加24.54%;归属于母公司所有者的扣除非经常性损益的净利润为1,078.52万元,较上年同期增加116.85%;经营性现金流净额177.26万元,较上年同期下降93.83%。截至报告期末,公司总资产为8.61亿元,较期初增加6.51%;归属于母公司的所有者权益为7.42亿元,较期初减少0.21%。
六、公司关于公司未来发展的讨论与分析
(一)行业格局和趋势
(二)公司发展战略
2026年,公司将在保障基础数据业务稳健发展的同时,寻求新的业绩增长点。首先,公司将以全球化战略扩张为核心,通过全球化营销体系搭建、升级,进一步深化全球化发展策略,持续扩大公司的全球卡位优势。同时,公司将继续聚焦大模型赛道,重点投入多语种语音和视觉数据集,完善CoT推理数据体系。同时布局具身智能新兴赛道,填补真实场景数据空白。随着"AI+"战略推进,公司将加速扩充金融、医疗等垂直领域数据资源,把握大模型行业落地机遇,持续巩固市场领先地位。此外,公司也将持续探索以数据要素为代表的高增长业务领域,基于过往数据服务能力,通过前沿市场跟踪,不断拓展服务边界,探索潜在增量市场空间。
(三)经营计划
2026年,公司将围绕既定战略,继续发扬二次创业精神,坚守“构筑智能世界数据基石”使命,不断提升核心能力,优化用户体验,促使业务长期健康稳定发展。2026年公司具体经营计划如下:
1、夯实传统业务,力拓新兴业务
(1)全球化战略扩张,持续扩大全球卡位优势
2025年,公司在新时期的全球化战略取得初步成效。2026年,公司将进一步深化全球化发展战略:一是加快全球化服务网络建设,在已设立的中国香港、新加坡和美国区域子公司基础上,积极推进日本、韩国及欧盟子公司落地,提升客户触达效率和需求响应速度;二是持续完善东南亚数据交付基地的运营能力,并考虑在东南亚其他地区拓展类似基地,持续开拓中高端数据标注市场;三是积极参与全球顶级AI会议,拓展品牌影响力和优质客户渠道,持续扩大公司的全球卡位优势。
(2)大模型数据业务持续深耕,Agent数据需求蓄势待发
大模型技术是AI发展的核心推动力量,大模型相关数据业务已成为公司的核心业务基本盘。2026年,公司将重点推进以下工作:一是持续更新以多语种语音、通用及特定领域视觉为代表的多模态数据集产品,更好服务大模型语音交互和视觉理解、视觉生成等需求;二是积极扩展CoT推理数据集储备,在K12、大学专业课程、理科竞赛、代码等领域构建权威专家题库和详尽解题流程,助力大模型适应各领域的复杂推理任务;三是在垂直领域,伴随DeepSeek带来的大模型性能和成本革命,“AI+”继续成为国家重要战略,垂类数据处理需求快速增长,公司将持续扩充金融、医疗等专业领域标注资源储备。
智能终端侧的AIAgent预计将成为又一个重要的AI落地场景,预期将带来新型数据需求。AIAgent需要大量各类应用的操作数据以训练其对操作流程的理解,同时也需要处理和理解来自终端场景的多样化数据。海天瑞声已在2025年与华为昇腾联合发布“海天瑞声×昇腾DeepSeek数据飞轮智能体”,为企业提供零代码、低门槛的智能体部署方案,构建了“数据标注—模型训练—应用反馈”的完整闭环。公司已具备面向AIAgent的全流程数据服务能力,能够覆盖各类应用操作数据、多语种多模态数据等多样化需求。2026年,公司将持续布局Agent智能体数据赛道,拓展GUI数据、行为轨迹数据等新型数据服务能力,抢抓AIAgent规模化落地的市场机遇。
(3)聚力具身智能数据赛道,打造全流程能力闭环
2025年以来,具身智能进入加速发展期,产业正从技术验证迈向场景应用,对具身训练数据的质量、规模和场景化提出了更高要求。公司已组建具身智能数据专项团队开展相关业务,并开始在全国多个城市启动项目落地,与多家头部机器人本体厂商开展合作,加快扩大高质量人形机器人数据资源供给,推动人形机器人在千行百业的规模化应用。2026年,公司将加快具身智能数据训练场方案落地与数据资源储备,持续深化与头部机器人本体厂商、科技大厂、相关地方政府的合作,为具身智能产业的加速发展提供坚实的数据支撑。
(4)创新数据要素业务,构建数据服务新模式
数据已成为智能经济时代最重要的生产要素之一,2026年国家数据局将其定调为“数据要素价值释放年”。一是加速智能化标注工程服务平台升级,人机协同降本增效。数据标注行业正从人工密集型向技术密集型加速转型,公司将进一步引入大模型辅助预标注与自动化纠错机制,实现人机协同数据服务模式。同时,开发面向特定场景的自动化标注工具,优化处理效率。二是不断从通用通识领域逐步向行业和场景高质量数据集建设深化。行业高质量数据集正取代通用语料,成为决定模型落地效果的关键变量,公司将重点深耕商贸流通、教育教学、金融服务、医疗卫生、自动驾驶、具身智能等细分赛道,构建专家标注团队,打造专业壁垒。提供兼具领域知识与标注能力的“数据专家”服务,提升附加值和客户黏性。三是前瞻布局合成数据与多模态数据新赛道。随着具身智能、人形机器人、智能体等前沿技术涌现,市场对多模态数据、思维链数据的需求呈井喷之势,布局合成数据生成业务,抢占新赛道。四是积极与国家数据标注基地、人工智能中试基地和数据标注创新试验区等深度合作,开展高质量数据集建设,助力地方人工智能和数字经济发展。基于地方特色数据建设行业高质量数据集、搭建可信数据空间保障数据安全、参与建设数据交易平台促进数据流通、向下游延伸开展场景化模型开发与应用落地。在数据汇聚、加工、开发利用及流通交易等各环节拓展服务能力,开发行业智能体解决方案,切实将数据要素能力赋能给政企客户,助力国家智能经济的高质量发展。
2、聚焦主业,进行全方位核心能力建设
(1)核心技术
公司将持续聚焦智能语音、计算机视觉、自然语言等核心业务领域,关注智能驾驶、智能家居、个人助手、文旅应用、内容生成等行业场景及以大模型为主的新兴技术方向的数据需求,在数据工具链及平台建设、大模型及具身智能前沿技术探索、行业场景理解、新语言研究以及多语种多模态数据布局等方面持续投入研发力量,不断提升训练数据生产的智能化与规模化水平。与此同时,公司将加快推进标注流程的智能化升级与标准化数据产品体系建设,持续优化毛利结构,夯实公司在新一轮AI竞争中的核心优势。
(2)数据安全
近年来,随着《数据安全法》《个人信息保护法》《网络数据安全管理条例》《数据出境安全评估办法》《促进和规范数据跨境流动规定》《个人信息保护合规审计管理办法》等法律法规快速落地实施,公司所处行业的法律环境正在快速趋严,在此背景下,数据安全、个人信息保护已成为行业客户选择数据服务商时的重要考量因素以及新的行业壁垒。2026年,公司将继续加大数据安全及合规能力体系建设,通过完善内部制度流程建设、根据业务发展方向提前进行资质布局、广泛参与行业交流、不断提升企业数据安全及合规技术和机制等方式,提升应对更高标准、更严格的数据监管要求的能力,提高整体数据安全保障水平,将之逐步打造成为核心竞争力之一,更好地为公司数据业务发展和数据要素市场开拓提供保障和助力。
(3)供应链
2026年,公司将继续推进供应链管理的智能化和自动化。实时监控供应链运行状态,提前识别并应对风险。在数据管理方面,完善数据可视化平台,新增实时数据展示模块以优化用户体验,并加强数据安全管理,确保数据的保密性、完整性和可用性。
在供应链优化与创新方面,持续推进供应商多元化战略,扩大供应商的地理分布和行业覆盖,深化与供应商的协同合作;加大海外资源池建设投入,优化海外资源布局,提升全球供应链的竞争力。同时,加强供应链韧性建设,完善风险管理体系,提高应对突发事件的能力。
在人才培养与团队建设方面,加大供应链人才的培养和引进力度,提升员工数字化技能,鼓励团队协作与创新,为供应链建设提供坚实的人才支持。
(4)市场营销
2026年,为更好支撑全球化发展战略,公司将持续加强全球市场营销体系建设,全面升级品牌战略工程。公司将进一步加大品牌营销投入,在拓展社交、直播、搜索引擎等多渠道营销的同时,积极参与海内外顶级AI会议,持续提升品牌知名度与客群覆盖范围。同时,公司将强化境外本土营销团队建设,通过织密客户服务网络,不断提升客户服务体验。在国内市场,公司将持续为各领域合作伙伴提供专业的新型高质量AI数据解决方案,提升客户服务满意度,并依托开源语音大模型Dolphin升级版,进一步增强公司技术影响力。
(5)人力资源
在人工智能产业快速发展的背景下,公司应对市场变化、保持领先地位、推动业务与技术创新的根本动力,源于组织与人才的高质量发展。人力资源工作将紧紧围绕业务中长期发展目标的实现,在2026年重点推进以下关键举措:
1、大力提升基层人才储备密度,增强中层人才的管理能力,建设结构健康、持续有力的人才梯队。其中,以吸引和招募人工智能及训练数据领域的创新人才为最高优先级,同时强化各层级梯队的人才能力建设,全面支撑公司核心战略落地;
2、高效监控人工成本的投入产出,通过提升人效,切实保障经营目标的实现;
3、优化销售、生产、研发等多体系的绩效与薪酬管理机制,结合员工持股等中长期激励手段,更有效地牵引员工与公司共同实现业务目标。
收起▲