海天瑞声(688787) 经营分析_F10_同花顺金融服务网

主营介绍

主营业务：
AI训练数据的研发设计、生产及销售业务。
产品类型：
智能语音、计算机视觉、自然语言处理、训练数据相关的应用服务
产品名称：
智能语音、计算机视觉、自然语言处理、训练数据相关的应用服务
经营范围：
一般项目：技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广；软件开发；软件销售；计算机软硬件及辅助设备零售；计算机软硬件及辅助设备批发；货物进出口；技术进出口；非居住房地产租赁。（除依法须经批准的项目外，凭营业执照依法自主开展经营活动）许可项目：第二类增值电信业务；互联网信息服务；职业中介活动。（依法须经批准的项目，经相关部门批准后方可开展经营活动，具体经营项目以相关部门批准文件或许可证件为准）(不得从事国家和本市产业政策禁止和限制类项目的经营活动。)

运营业务数据

累计值

最新公告日期：2026-04-24　

业务名称	2025-12-31	2025-06-30	2024-12-31	2024-06-30	2023-12-31
专利数量:授权专利(个)	13.00	1.00	11.00	0.00	30.00
专利数量:授权专利:其他(个)	0.00	0.00	0.00	0.00	14.00
专利数量:授权专利:发明专利(个)	1.00	0.00	4.00	0.00	6.00
专利数量:授权专利:外观设计专利(个)	0.00	0.00	0.00	0.00	0.00
专利数量:授权专利:实用新型专利(个)	0.00	0.00	0.00	0.00	0.00
专利数量:授权专利:软件著作权(个)	12.00	1.00	7.00	0.00	10.00
专利数量:申请专利(个)	24.00	0.00	22.00	5.00	30.00
专利数量:申请专利:其他(个)	0.00	0.00	9.00	0.00	15.00
专利数量:申请专利:发明专利(个)	4.00	0.00	5.00	0.00	5.00
专利数量:申请专利:外观设计专利(个)	0.00	0.00	0.00	0.00	0.00
专利数量:申请专利:实用新型专利(个)	0.00	0.00	0.00	0.00	0.00
专利数量:申请专利:软件著作权(个)	20.00	0.00	8.00	5.00	10.00
境内业务营业收入(元)	2.19亿	8318.45万	-	-	-
境内业务营业收入同比增长率(%)	77.72	70.70	-	-	-
海外业务营业收入(元)	1.58亿	7351.14万	-	-	-
海外业务营业收入同比增长率(%)	38.68	68.24	-	-	-
境外业务营业收入(元)	-	-	-	4369.53万	-

主营构成分析

报告期

加载中...

营业收入 X

收入比例

营业收入

单位（%）单位（万元）

业务名称		营业收入(元)	收入比例	营业成本(元)	成本比例	主营利润(元)	利润比例	毛利率
加载中...

注：通常在中报、年报时披露　

主要客户及供应商

您对此栏目的评价：有用没用提建议

前5大客户：共销售了1.74亿元,占营业收入的46.20%

客户1
客户2
客户3
客户4
客户5
其他

客户名称	销售额（元）	占比
客户1	7158.68万	18.99%
客户2	2739.57万	7.27%
客户3	2721.60万	7.22%
客户4	2421.82万	6.42%
客户5	2373.54万	6.30%

前5大供应商：共采购了1.06亿元,占总采购额的48.08%

供应商1
供应商2
供应商3
供应商4
供应商5
其他

供应商名称	采购额（元）	占比
供应商1	5592.65万	25.44%
供应商2	1782.81万	8.11%
供应商3	1471.92万	6.70%
供应商4	932.81万	4.24%
供应商5	790.07万	3.59%

前5大客户：共销售了1.03亿元,占营业收入的43.59%

客户1
客户2
客户3
客户4
客户5
其他

客户名称	销售额（元）	占比
客户1	5253.35万	22.16%
客户2	1361.23万	5.74%
客户3	1331.23万	5.62%
客户4	1223.96万	5.16%
客户5	1163.32万	4.91%

前5大供应商：共采购了4077.16万元,占总采购额的36.67%

供应商1
供应商2
供应商3
供应商4
供应商5
其他

供应商名称	采购额（元）	占比
供应商1	1282.80万	11.54%
供应商2	847.27万	7.62%
供应商3	780.58万	7.02%
供应商4	681.60万	6.13%
供应商5	484.91万	4.36%

前5大客户：共销售了5679.58万元,占营业收入的33.41%

客户1
客户2
客户3
客户4
客户5
其他

客户名称	销售额（元）	占比
客户1	1254.04万	7.38%
客户2	1214.90万	7.15%
客户3	1213.58万	7.14%
客户4	1095.57万	6.44%
客户5	901.49万	5.30%

前5大供应商：共采购了3170.34万元,占总采购额的32.84%

供应商1
供应商2
供应商3
供应商4
供应商5
其他

供应商名称	采购额（元）	占比
供应商1	1075.79万	11.14%
供应商2	742.26万	7.69%
供应商3	575.50万	5.96%
供应商4	435.13万	4.51%
供应商5	341.66万	3.54%

前5大客户：共销售了1.18亿元,占营业收入的44.89%

客户1
客户2
客户3
客户4
客户5
其他

客户名称	销售额（元）	占比
客户1	2805.77万	10.67%
客户2	2753.70万	10.47%
客户3	2588.84万	9.85%
客户4	1849.67万	7.04%
客户5	1802.93万	6.86%

前5大供应商：共采购了7434.49万元,占总采购额的56.88%

供应商1
供应商2
供应商3
供应商4
供应商5
其他

供应商名称	采购额（元）	占比
供应商1	4147.01万	31.73%
供应商2	1580.09万	12.09%
供应商3	777.55万	5.95%
供应商4	516.61万	3.95%
供应商5	413.23万	3.16%

前5大客户：共销售了8571.94万元,占营业收入的41.52%

客户1
客户2
客户3
客户4
客户5
其他

客户名称	销售额（元）	占比
客户1	2339.01万	11.33%
客户2	2293.76万	11.11%
客户3	1830.03万	8.86%
客户4	1055.44万	5.11%
客户5	1053.70万	5.10%

前5大供应商：共采购了8387.29万元,占总采购额的75.94%

供应商1
供应商2
供应商3
供应商4
供应商5
其他

供应商名称	采购额（元）	占比
供应商1	5381.83万	48.73%
供应商2	1780.98万	16.12%
供应商3	441.78万	4.00%
供应商4	406.02万	3.68%
供应商5	376.68万	3.41%

董事会经营评述

　　一、报告期内公司所从事的主要业务、经营模式、行业情况说明
　　(一)主要业务、主要产品或服务情况
　　1.主要业务情况
　　公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工，最终形成可供AI算法模型训练使用的专业数据集，通过软件形式向客户交付。
　　自2005年成立以来，公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展，公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业，并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音（语音识别、语音... 查看全部▼

　　一、报告期内公司所从事的主要业务、经营模式、行业情况说明
　　(一)主要业务、主要产品或服务情况
　　1.主要业务情况
　　公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工，最终形成可供AI算法模型训练使用的专业数据集，通过软件形式向客户交付。
　　自2005年成立以来，公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展，公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业，并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音（语音识别、语音合成等）、计算机视觉、自然语言等多个核心领域，全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。
　　公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国移动、中国科学院、清华大学等国内外客户的认可，应用于其研发的个人助手、智能音箱、语音导航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量超过1,200家，覆盖了科技互联网、社交、IoT、具身智能、智能驾驶、大模型等领域的主流企业，以及政企、教育科研机构。
　　2.主要产品及服务情况
　　2.1主要产品及服务按业务类型分类
　　公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域，广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外，公司还提供与训练数据相关的应用服务。
　　（1）智能语音
　　人工智能在语音领域的应用技术主要包括语音识别、语音合成等。
　　语音识别（AutomaticSpeechRecognition，ASR）是让机器能够“听懂”人类语音的技术，它能使机器自动将语音信号转换为对应的文本信息。
　　语音合成（TexttoSpeech，TTS）是让机器能够“说出”人类语音的技术，它使机器能将文字信息转化为流畅的语音“朗读”出来，相当于给机器安上了人工嘴巴。
　　以日常生活中的情景为例，语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换为文字，实现了软件“听懂”语音并“听写”出文字的效果；而地图、导航软件则运用语音合成技术，实现了软件“发声说话”的效果，为用户提供即时语音导航。
　　公司通过设计（设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等）、采集（定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频）、加工（对音频文件进行切分、标注各类声音特征，形成带时间戳和特征标签的文本和标注文件等）、质检（对数据集进行质量检测，如音字一致性、标注准确率检查等）等训练数据集生产环节；或者针对客户提供的原料音频文件执行加工、质检工作，最终形成客户所需的智能语音训练数据集。
　　（2）计算机视觉
　　计算机视觉（ComputerVision，CV）是使机器具备“看”的功能的技术，它使得智能驾驶、智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。
　　以日常生活中的情景为例，在汽车的自动驾驶功能中，计算机视觉技术使得汽车能够“看见”并识别行车过程中的各种行人、路况场景，为后续作出相应的反应奠定基础；在机场、车站安检中，计算机视觉技术使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。
　　公司通过设计训练数据集结构、采集（如定义合适的人脸、动作、场景作为采集对象，组织被采集人按照要求拍摄照片、录制视频等）、加工（对图像、视频文件进行打点、拉框、分割标注等）、质检（对数据集进行质量检测，如检验图片、视频文件格式是否正确，检查光照环境、物体种类的数量是否达标，打点标框的准确率是否符合要求等）；或者对客户提供的图像、视频文件执行加工、质检工作，最终形成客户所需的计算机视觉训练数据集。
　　（3）自然语言处理
　　自然语言处理（NaturalLanguageProcessing，NLP）是使机器能够像人一样理解语言意图的技术。
　　以日常生活中的情景为例，寄送快递时使用的“智能填写”功能即运用了自然语言处理技术，在输入框中填入整段联系信息，软件应用能够理解语义，并从中识别及提取“收件人”、“联系方式”、“地址信息”等所需信息，完成自动填写；智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术，使得程序、机器能够读懂人类语言的真正意图，并相应做出反应、提供服务等。
　　公司通过设计训练数据集结构、采集（收集或编写自然语言文本、对话等数据信息）、加工（对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等）、质检（对数据集进行质量检测，如检验文本、词性或者语义的标注结果是否准确等）；或者对客户提供的自然语言文本执行加工、质检工作，最终形成客户所需的自然语言训练数据集。
　　（4）训练数据相关的应用服务
　　公司开放基于多年行业经验打磨的数据处理工具集及平台，提供包括公有云访问、私有化部署及SaaS化服务的多种能力，满足产业链上各类企业对于数据处理工具及平台能力的需求。
　　公司基于自身生产的训练数据提供算法相关的模型训练服务、模型评测服务及模型应用服务，运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定应用场景的专属算法模型，提高AI技术应用效果。
　　前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。
　　成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。
　　2.2主要产品或服务的终端应用场景
　　公司提供的高质量、大规模、结构化的训练数据，为算法模型的训练拓展提供了可靠的训练素材，助力AI技术实现实践应用及商业化落地，赋能AI技术与实体经济深度融合。公司提供的训练数据广泛应用于众多主流AI产品及终端应用的训练过程中，覆盖了个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等多种应用场景。
　　(二)主要经营模式
　　1.盈利模式
　　与主要产品及服务类型对应，公司的盈利模式主要包括以下三类：
　　（1）定制服务：公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下，公司享有服务费收入，不享有最终生成的训练数据的知识产权，不可将此类业务生产的训练数据向其他客户重复销售。
　　（2）标准化产品：公司开发自有知识产权的训练数据集产品，通过销售训练数据集产品的使用授权许可，获取让渡资产使用权收入。此类训练数据集一经开发完成，可多次销售并获取授权许可收入。
　　（3）训练数据相关的应用服务：公司基于积累的训练数据和多年行业经验提供数据处理工具集及平台服务、算法相关的模型训练、模型评测及模型应用服务，通常以软件授权或软硬件一体化形式交付平台产品、算法模型拓展、开发成果等，获取让渡资产使用权收入和技术服务等收入。
　　2.生产或服务模式
　　（1）训练数据集生产模式
　　公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。
　　公司的训练数据生产过程主要包括四个环节：设计（训练数据集结构设计）、采集（获取原料数据）、加工（数据标注）及质检（各环节数据质量、加工质量检测）。
　　（2）训练数据相关的应用服务模式
　　公司开放基于多年行业经验打磨的数据处理工具集及平台，提供包括公有云访问、私有化部署及SaaS化服务的多种能力，满足产业链上各类企业对于数据处理工具及平台能力的需求。
　　公司基于其生产的训练数据提供算法模型相关的训练、评测及应用服务，助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定应用场景（例如特定行业、特定口音等）的专属算法模型，提高AI技术应用效果。
　　以某大型科技公司客户项目为例，客户研发了特定语音识别算法模型，需要根据算法模型的实际场景（如法院庭审场景）开发落地应用。公司承担了部分落地应用拓展相关的开发工作，围绕客户的算法模型和接口开发，最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。
　　3.采购模式
　　公司实行集中采购与分散采购相结合的采购管理模式，建立了规范的采购管理制度与供应商管理体系。
　　按照采购对象区分，公司的采购主要包括业务项目采购和公司常规采购，按照采购品类进一步划分为数据服务采购、岗位服务采购和其他品类采购。
　　数据服务采购：指语音识别采集、语音识别转写、语音合成、自然语言处理、图像视频处理、智能驾驶、具身智能领域等公司主要业务的原材料数据以及原材料数据加工服务采购，主要包括非核心技术环节的原料数据采集、标注服务等。
　　岗位服务采购：主要针对临时性的、不设长期岗位的业务领域的外包采购，如保洁、临时招聘服务、少量实习生招聘等。
　　其他品类采购：（1）常规货物类采购，涵盖日常运营中所需的办公家具、计算机、服务器、办公用品等有形物资；（2）无形资产类采购，包括数据生产、研发活动所需专用平台、专用软件等；（3）日常运营服务类采购，包括云服务、审计服务、差旅服务等。
　　经过多年的发展，公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度，形成权责清晰、流程规范、监督有效的采购管理体系，并与主要的供应商形成了良好稳定的长期合作关系，为公司持续健康发展提供坚实可靠的供应链保障。
　　4.营销模式
　　公司采用直接对接并服务客户的直销模式进行营销，符合行业通行惯例。公司以高质量的训练数据集及相关服务吸引客户，并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、参与学术会议和行业展会新产品发布、搭建并持续升级公司官方网站和建立自媒体矩阵等方式提升品牌知名度、开拓新客户，后续再通过商务谈判、招投标等形式获取具体业务机会。
　　(三)所处行业情况
　　1、行业的发展阶段、基本特点、主要技术门槛
　　1.1行业的发展阶段、基本特点
　　（1）政策、技术、应用协同共振，全球AI产业迈入高速发展新阶段
　　当前，全球人工智能产业正处于历史性拐点，政策、技术与应用的三重共振正推动行业进入高速增长通道。
　　政策层面，主要经济体竞相加码。中国国务院于2025年8月印发《关于深入实施“人工智能+”行动的意见》，明确提出到2027年新一代智能终端、智能体等应用普及率超70%，至2035年全面迈入智能经济与智能社会时代，标志着我国AI产业进入“规模化提升”阶段。美国在“星际之门”计划（5000亿美元基础设施投资）基础上，相继推出“美国AI行动计划”与“创世纪计划”，持续扩大领先优势。欧盟于2025年4月发布《人工智能大陆行动计划》，聚焦算力、数据、应用、人才与法规五大领域，计划在2021-2027年间投资超100亿欧元建设AI工厂。
　　技术层面，革命性突破持续涌现。以DeepSeekR1为代表的开源模型将API调用成本降低90-95%，大幅降低应用门槛。同时，多模态大模型（如GoogleDeepMind的Genie3、OpenAIGPT-5、阿里Qwen3-VL等）不断拓展能力边界，实现从语言理解、视觉识别到3D世界生成的全模态交互。2025年被视为“智能体元年”，AIAgent凭借自主任务规划、动态决策与闭环执行能力，实现从“被动响应指令”向“主动解决复杂问题”的跨越，正成为驱动产业变革的核心力量。
　　应用层面，技术平权加速AI向千行百业渗透。大模型正向金融、医疗、制造等核心领域深度赋能，智能风控、智慧医疗、智能制造等应用场景持续丰富，推动各行业效率提升与模式创新。
　　总体来看，在政策引导、技术迭代与商业落地的正向循环下，全球AI产业正加速迈向规模化、价值化发展的新阶段，迎来前所未有的战略机遇。根据国际数据公司（IDC）的数据，预计全球人工智能(AI)IT总投资规模在2028年增至8,159亿美元，2024年至2028年复合增长率(CAGR)为32.9%。
　　中国作为全球科技大国，深度受益AI技术发展。根据艾瑞咨询的数据，2024至2029年中国AI产业将保持32.1%的年均复合增长率，在2029年突破1万亿的市场规模。
　　（2）训练数据作为AI发展的“燃料”作用更加凸显，成为大模型竞赛中的重要决定因素
　　算法、算力、数据是AI三大核心要素。当前，产业正经历从“以模型为中心”向“以数据为中心”的范式转变。算法端，主流大模型纷纷开源，技术壁垒持续降低；算力端，以DeepSeek为代表的架构创新大幅降低了训练成本，算力不再构成发展瓶颈。在此背景下，训练数据的重要性被进一步放大，从“辅助燃料”升级为“核心引擎”。
　　高质量数据直接决定模型能力上限，能显著提升推断可靠性并减少幻觉现象。当前，大模型发展正面临严峻的“数据墙”——高质量数据短缺已成为AI规模化落地的关键制约。业内普遍反映，诸多行业大模型未达预期，根源在于数据基础薄弱。因此，数据已成为各国发展AI产业的关键胜负手。
　　根据Cognilytica数据统计显示，预计2027年全球AI训练数据市场规模将增长到220亿美元，2021-2027年复合增长率达32%。
　　中国作为全球人工智能产业增速最快的国家之一，对高质量训练数据的需求持续攀升。国务院《关于深入实施“人工智能+”行动的意见》及国家数据局相关方案明确提出，将持续加强高质量数据集建设，重点布局多模态、具身智能、推理思维链及长视频数据等方向。在产业和政策双轮驱动下，中国AI基础数据服务市场进入加速增长通道。
　　根据艾瑞咨询的数据，2024年中国人工智能基础数据服务市场规模为58亿元，2028年规模将达到170亿元，年复合增长率为30.84%。
　　（3）数据要素价值加快释放，数据产业已成为数字经济发展新增长点
　　a.政策驱动持续加码，数据制度不断完善
　　国家数据要素市场化配置改革已进入系统深化阶段。2024年1月，财政部《企业数据资源相关会计处理暂行规定》正式施行，数据资产入表从自选动作转变为规定动作。同年，国家数据局等17部门联合印发《“数据要素×”三年行动计划（2024—2026年）》（国数政策〔2023〕11号），选取工业制造、金融服务、医疗健康等12个行业和领域，推动发挥数据要素乘数效应。《关于促进数据产业高质量发展的指导意见》《关于促进数据标注产业高质量发展的实施意见》等21项政策和指导意见陆续发布，明确到2029年数据产业规模年均复合增长率超15%。从数据基础制度建设年到数据改革攻坚年，国家数据局进一步明确将2026年定调为“数据价值释放年”，加强高质量数据建设，持续支撑人工智能创新发展。
　　b.市场活力加速迸发，产业布局多点开花
　　在政策与需求双重驱动下，数据要素市场规模稳步扩大。高质量数据集建设成为“数据要素X”和“人工智能+”两大行动的“焊接点”，国家数据局推动成都、长沙、保定、沈阳等7个城市率先开展承接国家数据标注任务城市建设，先行先试探索产业发展经验，随后，呼和浩特、武汉、南宁等新一批城市也陆续开展强基扩容、标注攻坚、应用赋能等数据标注产业攻坚行动，推动数据标注创新试验区建设。“人工智能+”行动到哪里，高质量数据集的建设和推广就到哪里的发展势头强劲。
　　c.技术创新持续突破，流通底座日益夯实
　　核心技术迭代持续赋能数据要素市场化。数据标注领域，大模型辅助自动化标注、生成式AI融入标注流水线，推动人机协同智能化升级，2025-2026年全球数据标注解决方案市场年复合增长率达24.3%。可信数据空间建设进入规模化实践阶段，首批遴选的63个国家级试点项目已全面启动，覆盖国民经济32个行业大类，服务900余个具体应用场景，吸引了近7万家市场主体参与，数据流通利用的基础设施体系正在加速完善。数据要素的流通与利用成本持续降低，技术创新正为数据要素市场化配置构筑起日益坚实的支撑体系。
　　综上，数据要素正从支撑性资源转变为基础性生产要素，政策、市场、技术协同推进，深度融入企业经营与产业升级，将成为未来十年最重要的新兴生产要素之一。
　　（4）训练数据领域的未来发展趋势
　　随着DeepSeek、Gemini等成为现象级应用，以及AI手机、具身智能等终端加速落地，大模型技术正驱动数据需求发生深刻变革。
　　a.多模态大模型成为主流，驱动多模态数据需求爆发式增长
　　大模型正从单模态向多模态范式加速演进。多模态技术的本质在于跨模态信息融合，即通过协同处理文本、图像、音频、视频等不同形式的数据，使AI具备更接近人类的全维度认知能力。这种演进解锁了诸如视觉问答、跨模态生成、智能语音交互等复杂场景的应用潜力。以视觉问答为例，系统需同时解析图像中的视觉和文本信息，并通过模态对齐与知识推理生成准确回答。这一过程的实现，依赖于海量高质量的图文对数据。数据服务商需构建覆盖多样化场景的问答对，通过模拟现实中的视觉推理逻辑，训练AI建立视觉-语言联合表征能力。实践证明，数据质量与多样性直接决定多模态模型的能力上限。随着多模态数据生态的完善，AI的感知与认知能力将实现新跨越。
　　b.大模型从“规模驱动”转向“推理驱动”，思维链（CoT）数据成为关键突破口
　　随着模型参数量逼近实用天花板，传统ScalingLaw的边际收益正在递减。单纯堆算力与参数已难以解决逻辑、数学等复杂推理任务，行业正加速向“推理驱动”范式转型——让模型从直觉式“快思考”转向逻辑式“慢思考”。
　　2025年，DeepSeekR1的推出验证了这一路径的可行性。其核心创新在于思维链（Chain-of-Thought,CoT）技术：通过将复杂问题拆解为多步可追溯的推理步骤，得以模拟人类的分步思考过程，显著提升逻辑一致性与答案可解释性。这一技术突破使CoT数据从“可选项”变为“必选项”。
　　对于数据服务商而言，CoT数据的供给能力将成为衡量专业水准的关键标尺。率先建立专家标注体系、掌握复杂推理数据生产方法论的企业，将在大模型下一阶段的竞争中占据核心生态位。
　　c.从通用到垂直，高质量行业数据需求显著提升
　　DeepSeek等开源模型的高性能、低成本加速了AI应用普及，推动AI从通用助手向行业专家和AIAgent演进。医疗、法律、金融等垂直领域对专业数据的需求激增：医疗大模型要求标注人员具备医学知识，法律模型需理解法条与判例逻辑。同时，AIAgent需要理解用户指令并执行订餐、行程规划等复杂任务，对多轮交互、任务拆解类数据提出新要求。对于数据服务商而言，上述变化意味着核心竞争力正在重构：不再仅仅是“数据产量”的比拼，更是行业理解深度、专家资源网络、复杂任务拆解能力的综合考验。能够为垂直领域提供“数据+知识”一体化解决方案的企业，将在AI产业深水区占据不可替代的位置。
　　d.具身智能浪潮来袭，数据供给瓶颈亟待突破
　　具身智能被广泛视为通往AGI的关键一跃。2025年，特斯拉Optimus、Figure01等机器人加速从实验室走向工厂与家庭。与纯软件AI不同，具身智能要求模型理解并交互于真实物理世界——这一跨越带来了根本性的数据挑战。
　　虚拟合成数据虽可批量生成，但“仿真到现实”的差距始终存在——物理引擎无法完美模拟摩擦力、形变、光照变化等复杂因素。真机遥操采集（如人类通过VR设备远程操控机器人）能产出最高质量的数据，但单条数据采集成本高达数十元，难以快速规模化。目前，混合式数据策略成为行业共识，即用第一人称视角、UMI数据、虚拟数据等进行预训练、用真实数据精调。
　　对于数据服务商而言，具身智能是一个全新的蓝海市场。当前行业仍处于“数据荒”阶段，率先建立物理世界数据采集、以及仿真数据能力的数据服务企业，将在具身智能时代占据更强的先发优势。
　　e.数据安全法规密集落地，合规能力成核心竞争力
　　近年，《数据安全法》《个人信息保护法》《网络数据安全管理条例》等法律法规相继实施。
　　2025年，国家进一步强化数据出境安全评估、生成式AI内容标识等要求。对于数据服务企业，数据安全与合规能力已成为核心评价维度。能够持续跟踪法律变化、建立成熟安全管理体系、坚持发展与安全并重的企业，将具备更强的市场竞争力。
　　1.2行业的主要技术门槛
　　随着AI技术不断演进、产业应用不断丰富，训练数据的市场需求呈现体量、难度、复杂性、合规性持续上升的趋势，数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力、算法辅助数据生产能力、以及数据合规管理能力，这使得行业的技术门槛持续提升，具体体现为：
　　（1）在训练数据研发、生产全流程中的算法全面介入
　　随着大模型训练从“以模型为中心”转向“以数据为中心”，头部客户群体对于数据规模和处理效率的要求不断提升，数据服务商须在研发、生产流程中全面引入算法以实现高效、合理的人机协同。一般而言，在训练数据研发、生产全流程中融入算法技术，可用于训练数据集的设计及训练数据生产的各个环节，例如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低对人员的依赖（既有人员数量的降低、也有对人员标注能力要求的降低），并构建训练数据设计、加工相关的核心技术；也可用于检查训练数据集对算法模型的训练效果，进而保障训练数据集质量。
　　（2）平台工具链功能及适配性要求持续提升
　　当前，客户侧的数据采集、标注需求范围在逐渐拓宽，多模态数据、CoT数据、具身智能数据等新型数据类型的涌现，对数据服务商的平台工具能力提出了更高要求。平台上处理大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化程度如何等等这些因素都决定了平台的适配性和能力如何，并最终决定了数据处理的质量、效率、成本。
　　（3）语音语言学基础研究方面须有深厚积累
　　伴随语音技术进一步落地并向更多垂直场景渗透，同时受中国企业出海需求、国外企业全球拓展两方面支撑，客户在多语种、多音色等方面的需求持续提升。多语种数据标注需兼顾发音、语法及文化背景差异。此外，情感标签、语调标记、韵律特征等细粒度语音标注需求日益增加，要求数据服务商在音素集构建、发音词典编制、跨语种迁移学习等基础研究领域具备深厚积累。只有在这一领域长期投入、具备系统性语音语言学研发能力的服务商，才能满足客户在多语种、多场景下的多元化数据需求。
　　因此，市场上仅有极少数企业通过长期自主研发能够达到上述核心技术门槛，成为有能力向不同客户群体提供综合、高效、合规的数据产品及服务的供应商。
　　2、公司所处的行业地位分析及其变化情况
　　作为行业的头部阵营企业，海天瑞声在经营情况、技术实力、以及以数据安全为代表的其他综合能力方面都展示出明显优势，并具有较强国际竞争力。近年来公司紧跟AI技术发展趋势，尤其关注在客户资源、技术实力、产品/服务等方面的竞争优势，树立国内领先基础数据服务商的品牌形象，以巩固公司的行业领先地位。
　　3、报告期内新技术、新产业、新业态、新模式的发展情况和未来发展趋势
　　（1）DeepSeek带火CoT技术，多领域CoT数据需求集中涌现
　　伴随DeepSeekR1的火爆出圈，其背后的思维链（CoT）技术成为AI领域的新焦点。该技术通过模拟人类“慢思考”认知模式，将复杂问题拆解为逻辑严密的推理链条，使AI系统在数学推导、专业决策等场景中准确率大幅提升。DeepSeek官方已公开R1的完整训练路径，将全过程拆解为冷启动、推理导向RL、拒绝采样再微调、对齐导向RL四步，其中冷启动阶段正是使用数千条能体现思考过程的CoT数据对模型进行监督微调，才使得R1在AIME2025测试中，准确率由70%提升至87.5%。在医疗影像诊断、法律文书推理、金融风控等专业领域，融入分步推理过程的CoT数据，可使模型掌握从问题解析到结论验证的完整认知闭环，提升专业任务准确性和可解释性。因此，在大模型向垂直领域拓展时，高质量的多领域CoT数据需求预期将快速增加，并成为推动AI技术发展的关键因素。
　　（2）垂向领域数据需求快速增加，标注复杂度不断提升
　　以DeepSeek为代表的开源大模型，凭借高性能、低成本和无限制商用等特点，加速了AI应用的普及。该技术民主化浪潮推动行业从通用模型竞赛转向面向医疗、金融、制造等领域的深度价值挖掘，催生出行业数据处理需求的指数级增长。麦肯锡调研显示，全球78%的组织已在日常运营中使用某种AI工具，其中85%已将AIAgent集成至少一项工作流程。与通用类数据处理不同，行业数据处理难度更大、更加注重专业性，对数据服务商的综合能力也提出了更高的要求。一方面，数据服务商需具备行业know-how，以设计出符合行业需求的数据解决方案；另一方面，随着模型向更专业化和精细化方向发展，丰富的垂类专家资源也至关重要。
　　（3）AIAgent技术路线快速演进，GUI数据与行为轨迹数据需求已开始呈现增长态势
　　以OpenClaw为代表的AIAgent开始大规模落地应用，标志着AI从被动响应工具向主动决策执行者的根本性跨越。AIAgent已具备明确的“感知-决策-执行”闭环能力，可应用于采购策略制定、工作流审批、工业设备操控等复杂场景。在技术路线上，GUIAgent路线加速走向成熟，突破传统API调用模式，使智能体能够像人类一样通过视觉识别“看”懂屏幕、利用模拟点击“操作”按钮，实现跨应用自动化操作。然而，GUIAgent的训练面临严峻的数据瓶颈——端到端训练需要海量高质量GUI交互数据，但手动大规模标注行动轨迹成本极高。为此，行业正积极探索从公开屏幕录制视频中自动挖掘训练数据的技术路径，有望大幅降低标注需求。同时，行为轨迹数据的采集与标注成为新焦点，数据服务商需大规模采集鼠标移动、点击、键盘输入、屏幕触摸等完整操作序列，并将宏观看似复杂的任务指令拆解为可训练的微观动作逻辑，为AIAgent训练提供结构化且具情境意义的数据支撑。在Agent迈向规模化落地的关键窗口期，具备多端（PC、移动）行为轨迹数据采集与标注能力的数据服务商将获得显著的差异化竞争优势。
　　（4）具身智能的训练数据市场呈现出巨大的供需缺口，需求旺盛且潜力巨大
　　具身智能作为实现通用人工智能（AGI）的关键路径与终极载体，正受到越来越多的关注。2026年被行业公认为具身智能的“数据之年”，数据需求正呈指数级爆发——从Pi0的1万小时训练，到Gen-0的27万小时，头部具身大模型所需真机训练数据正逼近甚至超过百万小时级别。业内共识认为，具身模型真正收敛需几百万甚至数千万小时高质量训练数据，但当前国内各家具身智能公司数据总量仅约几十万小时，量级差距巨大。从政策层面看，工信部等七部门联合印发《关于推动未来产业创新发展的实施意见》，将具身智能纳入未来制造、未来信息等六大战略方向；北京、上海、深圳等城市已出台专项行动计划，通过资金与政策支持推动具身智能产业发展。具身智能需要机器人在复杂的真实世界中实现自主感知、学习和适应，该能力的构建依赖海量来自“真实物理环境”的动态交互数据进行训练。目前数据获取仍面临成本高昂、场景覆盖有限等挑战，高质量具身智能数据市场正呈现巨大的供需缺口，需求旺盛，未来增长潜力巨大。
　　（5）数字经济发展催生新型数据服务模式
　　发展数字经济已经成为我国经济“弯道超车”以及挖掘经济内生增长的重要战略举措。国家在数字经济建设方面决心极为坚定，通过《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》、《数字中国建设整体布局规划》等政策文件的密集发布以及组建成立国家数据局、国家数据发展研究院、世界数据组织（WDO）等职能部门和组织，进一步统筹并加速落地数字经济发展战略，而数据要素作为深化数字经济发展的核心引擎，也将迎来新的发展机遇。未来，围绕数据确权、汇聚、处理、利用和流通等环节将会产生巨大的增量市场空间，催生出围绕公共数据以及行业数据开发的新型数据服务需求，以及以行业高质量数据集构建、可信数据空间建设运营、数据标注基地建设、数据平台开发运营、数据交易为代表的新产品、新业态、新模式。
　　二、经营情况讨论与分析
　　2025年，在全球人工智能产业蓬勃发展的大背景下，公司业务实现全面增长。一方面，随着多模态大模型技术持续突破和“人工智能+”应用场景不断丰富，全球训练数据需求呈现爆发式增长，公司凭借丰富的数据服务经验以及海量标品数据集积累，持续获得国内外头部科技企业的数据需求订单。此外，在国家“人工智能+”战略指引下，地方政府积极布局结合各地产业特色的人工智能应用，公司一方面为相关项目交付垂直领域AI模型及应用平台，实现了从数据服务向模型交付与解决方案落地的业务延伸，另一方面助力地方政府建设针对地方产业特色的高质量数据集，推动数据资源向资产化、价值化转化。与此同时，以运营商为代表的国央企也在加速AI布局，重点投入多模态基座模型研发和垂直领域应用落地，为公司带来新的业务增长点。另外，2024年公司新拓展的东南亚数据交付基地已进入稳定运营阶段，该基地不仅成功打开了海外定制化服务市场，更为海外业务贡献了显著的增量收入。以上因素共同推动，公司2025年度营业收入、归属于母公司所有者的净利润、归属于母公司所有者的扣除非经常性损益的净利润同比均实现较高增长。
　　报告期内，在上交所发布的“沪市上市公司2024-2025年度信息披露工作评价结果”中，公司首次荣获最高“A级”评价。这一优异成绩不仅体现了公司在治理体系规范透明、信息披露全面及时、投资者关系管理及规范运作等方面的卓越水平，也彰显了监管机构对公司的高度认可。
　　报告期内，公司实现营业收入3.77亿元，较上年同期增长59.00%；归属于母公司所有者的净利润1,411.85万元，较上年同期增加24.54%；归属于母公司所有者的扣除非经常性损益的净利润为1,078.52万元，较上年同期增加116.85%；经营性现金流净额177.26万元，较上年同期下降93.83%。截至报告期末，公司总资产为8.61亿元，较期初增加6.51%；归属于母公司的所有者权益为7.42亿元，较期初减少0.21%。2025年年公司具体经营情况如下：
　　(一)核心业务板块经营情况
　　1.境外训练数据业务
　　2025年，在全球人工智能产业加速渗透及多模态大模型需求爆发的背景下，AI训练数据服务市场持续扩容。在此趋势下，公司海外业务实现收入1.58亿元，同比增长38.68%，继续保持强劲增长态势。
　　从业务驱动因素来看，一方面，以全球头部消费电子、企业级SaaS应用软件公司等为代表的国际客户，为支撑其全球化业务拓展，持续释放大规模多语种语音、平行语料等高质量训练数据需求。公司凭借在语言研究领域超二十年的技术积累，以及覆盖智能语音、自然语言等多个技术方向的标准化数据集产品优势，进一步赢得了境外客户优选。另一方面，公司在东南亚新建的数据交付基地已进入稳定运营阶段，该基地不仅成功打开了定制化服务市场，更为海外业务贡献了显著的增量收入，未来该基地也将成为支撑公司全球化战略的重要支点。
　　此外，为进一步提升全球市场竞争力，报告期内，公司持续优化国际化布局。在市场拓展方面，进一步强化北美、欧洲及日韩销售团队，深化本地化服务能力；同时，通过参与CVPR、ACL、Interspeech等全球顶级AI学术会议，提升技术品牌认知度和影响力；同时，重点加强海外交付能力建设，通过拓展东南亚数据交付基地的团队规模和服务范围，为国际客户提供更加高效、合规的数据服务支持。未来，这些战略布局也将为公司把握全球AI产业发展机遇、实现更高质量的国际化发展奠定坚实基础。
　　2.境内训练数据业务
　　2025年，随着人工智能技术在各行业的深度渗透和垂直场景的加速落地，AI产业呈现出明显的"场景纵深化"发展趋势。
　　从市场需求结构来看，AI生态的参与主体日趋多元，除传统科技企业外，政府与国央企积极入局共建。政府机构依托数据资源优势，通过可信数据空间等新型基础设施建设打通数据孤岛，围绕当地特色产业构建高质量语料体系。报告期内，公司已为广西、四川等地打造多类特色数据集，并同步推进湖南、内蒙古等地的专项数据集建设。同时，国务院国资委深入推进央企“AI+”专项行动，以运营商为代表的央企加快布局自主可控AI大模型，数据资源投入力度持续加大，为公司带来新的增量空间。
　　此外，以短视频平台、本地生活服务平台为代表的头部科技互联网企业开始将AI技术提升至核心战略地位，重点布局多语种语音交互、智能内容生成等关键技术，持续优化用户体验和内容创作效率，为业务创新和国际化发展提供技术支撑。同时，传统科技企业持续加大AI技术研发投入，重点强化多模态基础模型能力建设，特别是在多语种处理等关键领域深化布局，夯实全球化发展的技术基础。公司基于在智能语音、自然语言、计算机视觉等领域多年的技术积累，以及构建的近1,900个标准化数据集的专业产品体系，已成为多家行业领先企业的核心数据服务供应商，市场竞争优势进一步巩固。
　　3.数据要素业务
　　2025年，随着《"数据要素×"三年行动计划（2024—2026年）》深入实施和各地数据要素市场化配置改革加速推进，我国数据要素产业迈入高质量发展新阶段。
　　在这一背景下，国家数据局指导成都、长沙、保定等7个城市建设数据标注基地，先行先试探索数据标注产业发展经验。数据标注基地建设成为推动数据要素价值释放的关键举措，旨在解决AI产业发展中的数据质量、标准统一和要素流通等核心问题。为支持国家数据产业发展战略，公司充分发挥在数据服务领域的技术积累，提供覆盖数据全生命周期的综合解决方案。在数据汇聚环节，公司与地方政府合作共建高质量数据集，整合公共数据和行业数据资源；在生产加工环节，建设数据可信空间，提供数据处理平台和运营服务；在开发利用环节，基于高质量数据开展模型训练；同时为中小企业提供数据治理服务。截至目前，公司已与成都、长沙、保定等承担数据标注基地建设任务的城市的地方政府成立合资公司，并与内蒙古呼和浩特签署战略合作协议，聚焦当地乳业、草种、文旅等特色产业，共建高质量数据集，有效驱动当地产业的数字化转型。此外，公司也正在持续拓展与华东、华南等地的战略合作，进一步完善标注基地的全国性业务布局。
　　在支撑地方政府文旅产业数字化方面，公司也已取得阶段性成果：已完成彭州等地高质量文旅视频数据集的建设工作，重点为智能导览等应用场景提供专业数据支撑。此外，公司深度参与华为+陕文投集团合作的陕西文旅示范项目，充分发挥在数据服务领域的技术优势，重点支持高质量文旅数据集建设和AI文旅垂直大模型开发，推动"AI＋文旅"场景的规模化应用，为陕西文旅产业数字化转型提供全方位数据支撑和解决方案。与此同时，公司还参与"京西智谷数字人平台及配音平台项目"，提供2,000余个数字人形象，通过数字人技术助力北京门头沟区乡村振兴和文化传播。
　　在区域合作方面，公司立足广西作为中国—东盟数字合作枢纽的战略定位，全面深度参与中国—东盟人工智能创新合作中心建设并与地方政府联合成立数字工坊，凭借在东盟小语种数据处理以及OCR预识别算法上的技术优势，有力支持东盟语料库建设。
　　通过参与国家级数据标注基地建设和区域数字合作项目，公司不仅实现了数据要素业务市场空间的持续拓展，也为推动我国数据要素市场高质量发展注入了新动能。未来，公司将继续深化在数据汇聚、处理、应用等环节的技术创新，致力于构建更加完善的数据要素产业生态体系。
　　以上境内训练数据业务以及数据要素业务，共同驱动公司境内业务收入同比增长77.72%至2.19亿元。
　　(二)核心技术能力建设情况
　　2025年，按照技术+产品双轮驱动的定位，公司继续保持有竞争力的研发投入强度，不断提升技术和平台工具先进性、在大模型数据处理技术方向进行积极探索储备、巩固标准化数据集产品储备、增厚语音语言学基础研究领先性，持续巩固公司核心竞争力。报告期内，公司研发费用共计5,858.58万元，占当期营业收入的15.54%。截至报告期末，公司研发人员数量为61人。
　　1.算法及平台能力建设、大模型数据处理技术持续探索储备
　　报告期内，公司持续保持大规模基础研发投入，重点提升人工智能基础算法、一体化数据处理平台及前沿技术研究等领域的核心能力，持续推动大模型数据服务的迭代升级，并形成了一定的代表性成果：
　　1.1算法
　　公司在智能语音、计算机视觉、自然语言处理等领域的预标注算法上持续深耕布局，同时，在面向智慧文旅场景的多模态大模型能力研究、面向数字人场景的基础能力研究、智能驾驶、大模型训练数据清洗与自动化标注、面向语音场景的数据自动化清洗、面向中文方言的语音识别大模型等垂直领域取得显著进展。面向智慧文旅场景的多模态大模型能力研究主要包括：文旅场景的语音合成大模型、视觉大模型、LLM大模型训练与微调，并完成主流国产算法的模型推理适配工作。面向数字人场景的基础能力研究主要包括：图片数字人算法、视频数字人算法的研发和国产服务器部署；智能驾驶主要聚焦在4D点云重建算法、4D到2D厘米级自动化映射、预刷红绿灯算法、亿级点云地面检测算法、3D单边定制化自动贴合算法、3D连续帧跟踪算法等；在大模型训练数据清洗与自动化标注研发领域内，研发老挝语OCR、文本过滤、敏感信息脱敏等语料自动化清洗算法，研发覆盖10+个垂类领域适配的OCR算法矩阵，完成10+个语种的ITN/TN清洗pipeline搭建与优化；针对语音大模型训练数据，完成语音数据自动化清洗pipeline的升级，融合10+种模型算法，构建了5个适配不同垂类清洗任务的自动化pipeline，可满足90%以上的语音自动化清洗与标注需求；针对中文方言领域，完成面向中文方言的语音识别大模型相关的流式模型框架搭建、训练数据清洗与整合、评测数据集制定、待评测的对标模型推理环境搭建，完成语料配方、模型训练相关实验，并取得预期效果。
　　1.2平台
　　公司持续在数据处理平台进行规模化投入，重点提升语音、视觉等核心领域的数据采集、数据清洗及数据标注环节处理效率。同时，为完善产业生态布局、增强内部管理效率，公司新增建设人工智能数据服务实训和AI数据生产管理两大专业平台，具体情况如下：
　　智能语音平台：声优工厂平台形成规模化声优资源池，覆盖中、英、日、韩4大语系36种音色标签。通过性别校验等算法模型，大幅提升试音通过率，且单条试音审核时长压缩10倍以上；自研流程引擎让项目平均周期缩减一半。公司自研的多模态推荐模型，可实现候选声优的秒级反馈，匹配精准度提升至90%以上。副语言&音素边界标注平台实现全流程自动化升级，通过集成语音识别等算法模块，将标注时间缩短约一半。新增多轨打点标注体系，实现多通道音频多人对话场景的专业化标注，支持语音重叠预测可视化、多通道波形-频谱-文本层联动展示，填补了复杂语音场景标注空白，大幅提升了多人对话类数据的标注精准度与专业性。构建了精细化权限治理体系，该体系可适配多场景任务需求，且使跨角色协同效率提升50%以上。
　　计算机视觉平台：Bev视角点云、2D图标注平台攻克多源数据技术难关，自研时空配准引擎实现多源点云亚像素级对齐；轻量化拓扑压缩算法在保持99.5%几何精度下，通过点云压缩技术，将训练加载时间缩短80%。此外，采用风格迁移网络实现4种天气、5个时段无缝切换，兼容主流行业标准，大幅降低客户迁移成本。标注工具效率较传统提升近5倍，支持超过1,000个标注员并发作业，日均可产出50万张AI训练样本，并已在智能驾驶为代表的三大场景应用落地。
　　面向人工智能数据服务的实训平台：旨在服务高校人才培养、面向企业人员开展AI知识科普与技能培训，助力企业掌握AI数据应用能力、实现智能化升级，为AI产业链提供高质量的人才培养方案。平台包括理论体系建设、课程学习、上机实训、课后练习、在线考试、资格认证、人才推送等一体化体系，重点覆盖文本、语音、图像、视频、3D点云等多类型数据标注实训。公司已完成整体架构设计及重要模块开发，并形成基础理论体系和全模态实战课程课件。
　　面向人工智能数据生产的管理平台：为应对人工智能数据业务不断发展所带来的项目管理、商务管理、财务管理等诸多管理能力不断提升的需求，公司整合既有工具模块、优化现存平台、并整体提升用户交互体验，建设新一代面向人工智能数据生产的管理平台。该平台包括不少于20个重要功能模块的建设任务。公司今年已完成包括客户管理、合同管理、项目管理、供应商管理等重要模块的建设任务；初步完成发票和决算等财务管理模块的框架搭建；并陆续启动剩余模块的开发任务。同时，为保证新老模块切换及系统升级的连续性，已完成数据迁移设计并启动迁移脚本开发工作。部分能力已在公司内部落地，并支撑业务加速发展。
　　以上平台均以技术创新构建壁垒，兼具规模化能力与商业化成果，为持续增长奠定基础。
　　2.标准化数据集产品
　　标准化数据集产品，是公司区别于众多竞争对手以定制化服务为主的特有商业模式，也是公司核心竞争力之一，标准化产品是公司基于未来行业需求的研判，在市场需求出现之前，预先开发的数据集，具有即用即取的特点，可帮助客户大幅缩短模型研发周期并有效降低数据投入成本。同时，由于产品本身的知识产权由公司享有，具有一次性研发生产、可重复多次销售的特点，因此可更好帮助公司实现未来可持续性销售、以及毛利空间提升。
　　因此，为更好适应行业发展需求，公司2025年在产品研发方面持续投入，用于开发覆盖智能语音、计算机视觉以及自然语言等传统深度学习以及大模型领域的相关数据集产品。截至报告期末，公司新增研发超160个训练数据集产品，自有知识产权的训练数据产品储备达到1,877个，尤其在多语种语音对话、多语种OCR、多音色多情感数据集等方面积累了更丰富的标准化产品资源，并建成包括“双工数据集”、“视觉大模型（图像-文本）预训练及微调数据集”等在内的多领域大模型数据集。
　　截至报告期末，公司已向下游客户提供了累计超过12,000次/个定制或标准化训练数据集，并已应用于个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等22类创新应用领域，赋能人工智能技术与实体经济的深度融合。
　　3.语音语言学能力
　　随着全球化扩张成为头部AI企业收入增长的重要引擎，多语种数据的作用和价值更加凸显。为更好满足客户多语种拓展需求，公司持续保持语音语言学研究力度，在语音语言学基础研究方面，公司不断丰富合作语言学家团队资源，成员遍布世界各地的学校及研究机构，在语音语言学领域具备丰富经验和技术储备。截至报告期末，公司已经拥有超过300个语种/方言的覆盖能力，不仅包括英、法、德、意、西、日、韩等常见语种，还包括东南亚、一带一路等国家地区的罕见小语种，尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时，公司建立了成熟的发音词典构建流程，公司已积累下近140个多语种的发音词典，覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种，累计词条数超过1,200万条，可支撑构建高质量的智能语音、以及多模态训练数据，是公司的主要竞争壁垒及核心技术之一。
　　(三)其他综合能力建设情况
　　1.数据安全及合规
　　2025年，中央和地方出台了一系列有关数据要素、数据安全的法律法规和政策，对企业的数据安全水准和能力提出了更高要求，也为企业在数据要素、人工智能等领域的发展提供了新的机遇。公司一直以来非常重视数据安全管理以及相关能力的提升，并将其作为把握新发展机遇所必须练好的“基本功”。报告期内，公司积极参与行业发展，提出立法建议、参与行业调研，数据安全能力获得广泛认可。
　　2.供应链体系
　　2025年，公司围绕AI大模型在垂直领域的深度应用，全面升级供应链生态体系。在产业布局方面，公司深度整合产学研资源，重点布局具身智能、医疗、金融、教育、美学等专业领域，通过与行业权威机构合作，构建了覆盖诊断、智能投顾、合规风控、数字版权等场景的专业资源池，显著提升了供应链的行业适配性和专业壁垒。
　　公司在全球化资源网络建设方面取得重要突破：通过海外数据基地建设和供应商资源拓展，已覆盖60万终端资源，涉及176个国家和地区及超过300种语种/方言，大幅提升全球数据服务的响应能力。
　　此外，公司通过技术创新驱动供应链管理效能提升：通过知识图谱与区块链技术融合，实现跨领域资源的智能匹配与全流程可信溯源；依托动态标签体系和智能算法，完成需求线上化、结算线上化管理；基于精细化成本模型与实时化系统，实现订单处理、资源配置的全链路数字化，为可持续产能扩张奠定基础。
　　3.人力资源
　　报告期内，公司坚持人才强企战略，持续完善人力资源管理体系，不断拓宽人才渠道，精准为交付体系补充核心岗位人才，提升人岗匹配度。重点健全人才培训与职业发展体系，分层分类开展业务培训和管理能力培养，对应届高潜毕业生、新锐力量、中坚力量、中高层管理人员采取不同的梯队建设规划，以保障人才队伍的不断夯实。深化绩效、薪酬、晋升联动改革，健全中长期激励机制，有效激发员工积极性与创造力。文化建设方面，强化高度敬业和持续创新文化，进行榜样之星等多样化的文化倡导和活动辐射，打造更加尊重信赖和追求卓越的组织基因，持续提升人力资源整体效能，为公司长期可持续发展筑牢人力根基。
　　三、报告期内核心竞争力分析
　　(一)核心竞争力分析
　　1.研发优势
　　公司拥有同行业具有竞争力的综合研发实力，截至报告期末，公司研发团队规模为61人，研发能力全面覆盖平台工具开发、算法研究、产品设计等多条主线。公司核心研发人员均曾服务于全球顶尖科技企业或毕业于名校，组成了公司坚实的研发领导核心力量。同时，多年来，公司积累了较为完备的综合性、一体化数据处理平台及工具体系，覆盖智能语音、计算机视觉、自然语言等全业态领域，可服务于市面上绝大多数数据处理场景需求，包括但不限于智能驾驶、智能家居、个人助手、文旅应用、内容生成等场景。公司还设置了专门的产品研发部门，可及时应对大模型时代加速变化的技术变革、前瞻性挖掘和布局新兴市场需求、抢占市场先机。此外，基于公司在训练数据领域多年积累下的大量、多元化数据以及数据处理经验，通过算法平台团队与数据业务团队无缝衔接，公司可更好完成预识别算法性能提升，实现少量数据注入->算法训练->标注员反馈->模型生成->处理大量数据的自闭环体系，助力公司做大规模、提升效率、降低成本。同时，20多年数据行业的从业经验积累，使得公司具备较强的数据生产工程化能力，可助力公司大幅缩短数据研发及生产周期，为公司抢占市场提供了有力支撑。上述因素共同驱动公司构建较高的行业技术壁垒。
　　2.产品优势
　　通常来说，标准化数据集产品具有可即时获取、价格相对优惠等特点，因此市场需求旺盛。但由于标准化数据集产品是先于客户需求形成，需要数据服务商具备较强的市场趋势前瞻能力、以及财务实力进行提前投入，因此行业中具备标准化数据集产品规模化生产能力的服务商较为有限，该方向具备较高竞争壁垒。
　　对于公司而言，标准化训练数据集产品的知识产权由公司享有，具有一次性研发生产、可重复多次销售的特点，可显著助力公司毛利水平提升，实现训练数据产品的规模化效应，因此也是公司区别于众多竞争对手的一个优势亮点。
　　公司基于20多年数据服务经验、以及对客户需求的深刻理解，持续开拓标准化数据集，自有知识产权的训练数据产品储备达到1,877个，全面覆盖智能语音、计算机视觉、自然语言等多条业务线。这些高质量数据集可全面支持智能客服、个人助手、数字人等前沿AI应用场景的研发落地。特别值得一提的是，我们的标品数据已支持超300种语言/方言，能够充分满足全球AI企业的多语言需求，为客户的国际化战略提供强有力的数据支撑。
　　3.语音语言学能力优势
　　随着境外客户全球化扩张以及境内客户出海成为新的行业发展趋势，多语种能力成为数据服务领域的核心竞争力之一，而语音语言学储备则是实现多语种拓展的重要前提。经过20年积累，公司已沉淀下深厚的语音语言学基础研究成果，并已将其运用至构建高质量的智能语音、以及多模态训练数据。在语音语言学基础研究领域，公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累，以及不断创新的发音词典构建技术和流程技术。截至报告期末，公司已经拥有超过300个语种/方言的覆盖能力，不仅包括英、法、德、意、西、日、韩等常见语种，还包括东南亚、一带一路等国家地区的罕见小语种，尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时，公司已积累下近140个多语种的发音词典，覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种，累计词条数超过1,200万条，可支撑构建高质量的智能语音、以及多模态训练数据，是公司的主要竞争壁垒及核心技术之一。
　　4.数据安全及合规能力优势
　　海天瑞声自成立之初即把数据安全、数据合规视为生命线，公司在多年的数据风险识别和管理实践中，已经形成了较为成熟的安全、合规管理体系。资质方面，公司拥有ISO27001信息安全管理体系认证、ISO27701隐私信息管理体系认证、ISO42001人工智能管理体系认证证书、ISO20000信息技术服务管理体系、国家信息系统安全等级保护三级备案、北京市规划和自然资源委员会行政许可乙级测绘资质等。行业参与方面，公司入选中共中央网络安全和信息化委员会办公室“人工智能企业典型应用案例”，相关业务和数据安全实践受到《人民日报》等权威媒体报道和关注。公司为中国信通院数据安全推进计划成员单位，董事兼总经理李科连续入选该计划数安智库专家，其所参与、领导的公司数据安全工作，受到《北京日报》等权威媒体报道。此外，公司积极参与行业发展，入选国家标准《信息技术人工智能术语》核心参编单位、《人工智能数据标注平台技术要求和测试方法》核心参编单位，数据安全能力获得认可并产生广泛、积极的行业影响。
　　(二)报告期内发生的导致公司核心竞争力受到严重影响的事件、影响分析及应对措施
　　(三)核心技术与研发进展
　　1、核心技术及其先进性以及报告期内的变化情况
　　公司高度重视并坚持科技创新，通过持续的研发投入积累形成了12项核心技术，覆盖基础研究、平台工具、训练数据生产三个层次，应用于训练数据生产的设计、采集、加工、质检全流程之中。
　　上述核心技术构成了公司生产经营的基础，通过上述核心技术的成果转化，公司形成了基于核心技术的训练数据相关产品和服务。
　　（1）基础研究层面，报告期内，公司持续在智能语音、计算机视觉、自然语言进行技术拓展，同时在多模态文旅大模型、数字人算法、智能驾驶、大模型训练数据清洗与自动化标注、面向语音场景的数据自动化清洗、面向中文方言的语音识别大模型等垂直领域取得显著进展。多模态文旅大模型主要包括：文旅场景的语音合成大模型、文旅场景视觉大模型、文旅场景的LLM大模型训练与微调，并完成主流国产算法的模型推理适配工作。数字人算法主要包括：图片数字人算法、视频数字人算法的研发和部署；智能驾驶主要聚焦在以下领域的算法研发：4D点云重建算法、4D到2D厘米级自动化映射、预刷红绿灯算法、亿级点云地面检测算法、3D单边定制化自动贴合算法、3D连续帧跟踪算法等；在大模型训练数据清洗与自动化标注研发领域内，研发老挝语OCR算法，研发覆盖发票、行程单、护照、专利等垂类领域适配的OCR算法矩阵，完成题库、ITN/TN等多种语料清洗pipeline搭建与优化，并在项目中取得良好效果；针对语音大模型训练数据，完成语音数据自动化清洗pipeline的升级，融合VAD、多语种ASR语音识别、说话人检测等模型算法对多垂类的语音数据进行自动化清洗与标注；针对中文方言的语音识别大模型研发，通过流式模型框架设计、自有方言数据整合与清洗，完成语料配方、模型训练相关实验，并取得预期效果。
　　（2）在平台工具层面进展如下：
　　智能语音平台：声优工厂平台形成规模化声优资源池，覆盖中、英、日、韩4大语系36种音色标签。通过性别校验等算法模型，大幅提升试音通过率，且单条试音审核时长压缩10倍以上；自研流程引擎让项目平均周期缩减一半。公司自研的多模态推荐模型，可实现候选声优的秒级反馈，匹配精准度提升至90%以上。副语言&音素边界标注平台实现全流程自动化升级，通过集成语音识别等算法模块，将标注时间缩短约一半。新增多轨打点标注体系，实现多通道音频多人对话场景的专业化标注，支持语音重叠预测可视化、多通道波形-频谱-文本层联动展示，填补了复杂语音场景标注空白，大幅提升了多人对话类数据的标注精准度与专业性。构建了精细化权限治理体系，该体系可适配多场景任务需求，且使跨角色协同效率提升50%以上。
　　计算机视觉平台：Bev视角点云、2D图标注平台攻克多源数据技术难关，自研时空配准引擎实现多源点云亚像素级对齐；轻量化拓扑压缩算法在保持99.5%几何精度下，通过点云压缩技术，将训练加载时间缩短80%。此外，采用风格迁移网络实现4种天气、5个时段无缝切换，兼容主流行业标准，大幅降低客户迁移成本。标注工具效率较传统提升近5倍，支持超过1,000个标注员并发作业，日均可产出50万张AI训练样本，并已在智能驾驶为代表的三大场景应用落地。
　　面向人工智能数据服务的实训平台：旨在为AI产业链提供高质量的人才培养方案，平台包括理论体系建设、课程学习、上机实训、课后练习、在线考试、资格认证、人才推送等重要模块，覆盖文本、语音、图像、视频、3D点云等多模态、多类型数据标注实训。公司已完成整体架构设计及重要模块开发，并形成基础理论体系和全模态实战课程的课件。
　　面向人工智能数据生产的管理平台：为应对人工智能数据业务不断发展所带来的项目管理、商务管理、财务管理等诸多管理能力不断提升的需求，公司整合既有工具模块、优化现存平台，并整体提升用户交互体验，建设新一代面向人工智能数据生产的管理平台。该平台包括不少于20个重要功能模块的建设任务。公司今年已完成包括客户管理、合同管理、项目管理、供应商管理等重要模块的建设任务；初步完成发票和决算等财务管理模块的框架搭建；并陆续启动剩余模块的开发任务。同时，为保证新老模块切换及系统升级的连续性，已完成数据迁移设计并启动迁移脚本开发工作。部分能力已在公司内部落地，并支撑业务加速发展。
　　以上平台均以技术创新构建壁垒，兼具规模化能力与商业化成果，为持续增长奠定基础。
　　2、报告期内获得的研发成果
　　报告期内，公司新获得发明专利1项，软件著作权12项。截至2025年12月31日，公司共获得专利授权42项，获得登记的软件著作权192项。
　　四、风险因素
　　(一)尚未盈利的风险
　　(二)业绩大幅下滑或亏损的风险
　　(三)核心竞争力风险
　　1.核心技术快速迭代的风险
　　由于人工智能行业整体发展较为迅速，应用领域和应用场景不断拓展，下游需求随着行业发展不断发生变化，公司进行数据开发所需的各项技术也面临着快速迭代更新的风险。如果公司无法保持对行业发展趋势的洞察能力以及对研发人才的有效组织和研发经费的经济投入，则可能导致公司在行业技术快速迭代过程中无法持续保持技术先进性和技术优势，进而对公司的客户拓展、产品创新和经营业绩造成不利影响。
　　2.核心技术人员流失风险
　　随着行业的持续发展，行业内企业之间对于高端人才的竞争日益激烈，如果公司无法持续加强核心技术人员的培养及引进并为核心技术人员提供有竞争力的激励机制和薪资待遇，则将存在核心技术人员流失的风险，公司的技术水平、研发能力也将受到不利影响。
　　3.核心技术失密风险
　　公司的数据产品和服务均以核心技术为基础。公司制定了严格的保密制度并严格执行，但上述措施仍无法完全避免公司核心技术的失密风险。如果公司相关核心技术的内控和保密机制不能得到有效执行，则可能导致公司核心技术失密的风险。
　　4.训练数据标准化产品无法实现授权销售的风险
　　公司根据对算法模型应用领域、行业发展趋势、市场需求等的评估和研判，自行设计并开发多种训练数据集标准化产品，开发完成后根据客户实际需求进行销售，授权给客户使用。在该种业务类型下，公司开发训练数据集产品，承担开发费用，并拥有训练数据集产品的知识产权。如果公司开发的训练数据集产品不能满足下游客户对训练数据的要求，则可能存在无法实现授权销售的风险，进而对公司未来的经营业绩产生不利影响。
　　5.数据安全相关风险
　　公司主要从事训练数据的研发设计、生产及销售业务，所提供的产品和服务主要以数据的形式体现。一方面，随着公司业务的快速发展和规模的持续扩张，原料数据采集与数据加工的数量持续增长；另外一方面，包括《数据安全法》《个人信息保护法》《生成式人工智能服务管理暂行办法》《网络数据安全管理条例》《个人信息保护合规审计管理办法》等在内的与数据安全、个人信息保护相关的法律规章体系正在逐步完善。公司如果未能按照法律规章或客户的更新要求及时调整现行业务开展方式、公司的数据安全管理体系研发升级未能跟上业务发展的需要或客户未能遵守训练数据产品保护相关商业约定，则公司可能产生诉讼纠纷或面临生产经营不符合法律规章的要求、训练数据产品被泄露或盗版等数据安全相关风险。
　　同时，《数据出境安全评估办法》《促进和规范数据跨境流动规定》等法律法规加强了对境内收集或产生的个人信息数据的跨境行为的规制。如果将来公司未能根据相关要求及时履行相应的程序，公司开展的属于该办法限定范围内的境外业务将受到一定程度的影响。
　　(四)经营风险
　　1.收入主要来自老客户，新客户收入占比较低的风险
　　报告期内，公司收入主要来自老客户，占比达到78.62%，新客户收入占比较低。公司正致力于维护老客户、拓展新客户，若老客户降低对公司产品、服务的采购量或公司未能维持与老客户的合作关系，则公司的经营情况将受到不利影响；若新客户拓展情况不达预期，则公司的经营情况也将受到不利影响。
　　2.新业务拓展风险
　　随着人工智能行业持续快速地增长，下游客户对高质量、多样性、大规模训练数据的需求将持续增加。公司能否紧跟下游需求变化，加深对下游行业基础技术的理解并开发出更多的业务机会，一方面受到行业发展状况、市场需求变化以及市场竞争状况等因素影响，另一方面也取决于公司对于下游众多新领域新场景的理解认知以及合作拓展能力等诸多因素。因此，公司新业务的开拓可能不及预期或者遇到其他不利因素，进而对公司未来的经营业绩产生不利影响。
　　3.采购成本上升风险
　　报告期内，公司进行采购原料数据采集、标注所支付的数据服务费占全年与主营业务相关的采购总额的比重较高，达到78.36%。随着城乡生活成本的持续提升，前述采购价格可能存在持续上升的趋势，若公司的技术发展带来的效率提升无法抵消前述采购成本上升的影响，可能会对公司的经营业绩带来一定不利影响。
　　(五)财务风险
　　1.经营性现金流风险
　　报告期内，公司经营活动产生的现金流量净额为177.26万元。主要系公司加大海外业务拓展力度、业务规模增长，相应占用了较多运营资金所致。若未来公司持续增强境内外业务布局，经营活动现金流量可能维持当前水平，或阶段性呈现净流出状态，从而使公司面临一定的资金压力风险。此外，若未来经营活动现金流入不及预期，也可能导致公司资金周转紧张，对日常运营和项目投入产生不利影响。
　　2.应收账款回款风险
　　随着公司经营规模的扩大，应收账款存在随之增长的风险。公司应收账款客户主要为大型上市公司、中央企业、国有企业，客户资质优良，回款保障程度相对较高。目前公司制定了完善的回款清欠机制，实行多元化的回款策略，执行奖惩相结合的回款考核制度，并对客户执行严格的分级评价制度，根据客户实际情况调整收款政策，整体应收账款风险处于可控水平。若主要客户经营状况发生不利变化、付款能力下降或付款周期延长，会给公司应收账款回收带来不利影响。
　　(六)行业风险
　　1.市场竞争加剧的风险
　　公司所在的细分领域为AI基础数据服务领域。近年来，参与该行业的公司不断增多，由于整体行业较新，行业标准和法律监管仍处于规范阶段，因此整体行业目前处于高速发展且格局未定的状态，导致市场竞争加剧。公司如果不能持续有效地制定并实施业务发展规划，则将受到竞争者的挑战，从而面临市场竞争加剧而导致的经营状况下滑、市场地位下降和可能失去主要客户的风险，进而影响公司的盈利能力和发展潜力。
　　2.业务发展受下游人工智能领域发展状况影响较大的风险
　　公司主要为AI产业链上的各类机构提供算法模型开发所需的训练数据，服务于下游人工智能行业发展。公司的经营情况、业务发展与下游人工智能领域的发展状况息息相关。若未来人工智能领域景气度下降，或因技术更迭使得对训练数据的市场需求发生变动，将对公司业绩产生较大影响。
　　(七)宏观环境风险
　　1.经营业绩受税收优惠政策影响较大的风险
　　报告期内，公司享受了高新技术企业和研发费用加计扣除等一系列税收优惠，经营业绩受税收优惠政策影响较大。如果未来公司所享受的税收优惠政策出现不利变化，或者公司不再符合税收优惠的条件，则公司将无法持续享受税收优惠或存在所享受的税收优惠减少的可能性，并进而对公司未来经营业绩和现金流水平造成不利影响。
　　2.汇率波动风险
　　海天瑞声作为一家面向全球的训练数据服务商，拥有数量众多的境外客户，遍布美国、韩国、日本等各地区，报告期内公司境外收入占比为41.81%，该等收入使用外币进行结算，并受人民币汇率水平变化的影响。人民币汇率可能受到国内外政治、经济环境等因素的影响，存在波动风险，进而对公司的经营业绩产生不利影响。
　　3.中美贸易摩擦风险
　　公司产品和服务的主要出口地包括美国、日韩等国家或地区。报告期内，公司出口美国的营业收入占当期公司营业收入的比重为19.12%。公司相关境外业务始终严格遵守中国及他国法律。但国际局势瞬息万变，近年来中美贸易摩擦不断，如果中美双方出台新的贸易保护主义措施，可能会影响美国市场相关客户将数据提供给公司用于标注，减少与公司进行训练数据方面的业务合作，公司相关业务可能会受到约束，将会对公司的生产经营产生不利影响。
　　(八)存托凭证相关风险
　　(九)其他重大风险
　　实际控制人控制不当的风险
　　截至报告期末，贺琳直接持有公司1,177.38万股股份（占总股本的19.52%），并通过控制中毅安间接控制公司552.22万股股份（占总股本的9.15%），合计控制公司28.67%的股份，为公司实际控制人。
　　如果实际控制人利用其控制地位，通过行使表决权或其他方式对公司财务管理、人事、发展战略、经营决策等重大事项施加不利影响，其他股东的利益可能受到损害。
　　五、报告期内主要经营情况
　　报告期内，公司实现营业收入3.77亿元，较上年同期增长59.00%；归属于母公司所有者的净利润1,411.85万元，较上年同期增加24.54%；归属于母公司所有者的扣除非经常性损益的净利润为1,078.52万元，较上年同期增加116.85%；经营性现金流净额177.26万元，较上年同期下降93.83%。截至报告期末，公司总资产为8.61亿元，较期初增加6.51%；归属于母公司的所有者权益为7.42亿元，较期初减少0.21%。
　　六、公司关于公司未来发展的讨论与分析
　　(一)行业格局和趋势
　　(二)公司发展战略
　　2026年，公司将在保障基础数据业务稳健发展的同时，寻求新的业绩增长点。首先，公司将以全球化战略扩张为核心，通过全球化营销体系搭建、升级，进一步深化全球化发展策略，持续扩大公司的全球卡位优势。同时，公司将继续聚焦大模型赛道，重点投入多语种语音和视觉数据集，完善CoT推理数据体系。同时布局具身智能新兴赛道，填补真实场景数据空白。随着"AI+"战略推进，公司将加速扩充金融、医疗等垂直领域数据资源，把握大模型行业落地机遇，持续巩固市场领先地位。此外，公司也将持续探索以数据要素为代表的高增长业务领域，基于过往数据服务能力，通过前沿市场跟踪，不断拓展服务边界，探索潜在增量市场空间。
　　(三)经营计划
　　2026年，公司将围绕既定战略，继续发扬二次创业精神，坚守“构筑智能世界数据基石”使命，不断提升核心能力，优化用户体验，促使业务长期健康稳定发展。2026年公司具体经营计划如下：
　　1、夯实传统业务，力拓新兴业务
　　（1）全球化战略扩张，持续扩大全球卡位优势
　　2025年，公司在新时期的全球化战略取得初步成效。2026年，公司将进一步深化全球化发展战略：一是加快全球化服务网络建设，在已设立的中国香港、新加坡和美国区域子公司基础上，积极推进日本、韩国及欧盟子公司落地，提升客户触达效率和需求响应速度；二是持续完善东南亚数据交付基地的运营能力，并考虑在东南亚其他地区拓展类似基地，持续开拓中高端数据标注市场；三是积极参与全球顶级AI会议，拓展品牌影响力和优质客户渠道，持续扩大公司的全球卡位优势。
　　（2）大模型数据业务持续深耕，Agent数据需求蓄势待发
　　大模型技术是AI发展的核心推动力量，大模型相关数据业务已成为公司的核心业务基本盘。2026年，公司将重点推进以下工作：一是持续更新以多语种语音、通用及特定领域视觉为代表的多模态数据集产品，更好服务大模型语音交互和视觉理解、视觉生成等需求；二是积极扩展CoT推理数据集储备，在K12、大学专业课程、理科竞赛、代码等领域构建权威专家题库和详尽解题流程，助力大模型适应各领域的复杂推理任务；三是在垂直领域，伴随DeepSeek带来的大模型性能和成本革命，“AI+”继续成为国家重要战略，垂类数据处理需求快速增长，公司将持续扩充金融、医疗等专业领域标注资源储备。
　　智能终端侧的AIAgent预计将成为又一个重要的AI落地场景，预期将带来新型数据需求。AIAgent需要大量各类应用的操作数据以训练其对操作流程的理解，同时也需要处理和理解来自终端场景的多样化数据。海天瑞声已在2025年与华为昇腾联合发布“海天瑞声×昇腾DeepSeek数据飞轮智能体”，为企业提供零代码、低门槛的智能体部署方案，构建了“数据标注—模型训练—应用反馈”的完整闭环。公司已具备面向AIAgent的全流程数据服务能力，能够覆盖各类应用操作数据、多语种多模态数据等多样化需求。2026年，公司将持续布局Agent智能体数据赛道，拓展GUI数据、行为轨迹数据等新型数据服务能力，抢抓AIAgent规模化落地的市场机遇。
　　（3）聚力具身智能数据赛道，打造全流程能力闭环
　　2025年以来，具身智能进入加速发展期，产业正从技术验证迈向场景应用，对具身训练数据的质量、规模和场景化提出了更高要求。公司已组建具身智能数据专项团队开展相关业务，并开始在全国多个城市启动项目落地，与多家头部机器人本体厂商开展合作，加快扩大高质量人形机器人数据资源供给，推动人形机器人在千行百业的规模化应用。2026年，公司将加快具身智能数据训练场方案落地与数据资源储备，持续深化与头部机器人本体厂商、科技大厂、相关地方政府的合作，为具身智能产业的加速发展提供坚实的数据支撑。
　　（4）创新数据要素业务，构建数据服务新模式
　　数据已成为智能经济时代最重要的生产要素之一，2026年国家数据局将其定调为“数据要素价值释放年”。一是加速智能化标注工程服务平台升级，人机协同降本增效。数据标注行业正从人工密集型向技术密集型加速转型，公司将进一步引入大模型辅助预标注与自动化纠错机制，实现人机协同数据服务模式。同时，开发面向特定场景的自动化标注工具，优化处理效率。二是不断从通用通识领域逐步向行业和场景高质量数据集建设深化。行业高质量数据集正取代通用语料，成为决定模型落地效果的关键变量，公司将重点深耕商贸流通、教育教学、金融服务、医疗卫生、自动驾驶、具身智能等细分赛道，构建专家标注团队，打造专业壁垒。提供兼具领域知识与标注能力的“数据专家”服务，提升附加值和客户黏性。三是前瞻布局合成数据与多模态数据新赛道。随着具身智能、人形机器人、智能体等前沿技术涌现，市场对多模态数据、思维链数据的需求呈井喷之势，布局合成数据生成业务，抢占新赛道。四是积极与国家数据标注基地、人工智能中试基地和数据标注创新试验区等深度合作，开展高质量数据集建设，助力地方人工智能和数字经济发展。基于地方特色数据建设行业高质量数据集、搭建可信数据空间保障数据安全、参与建设数据交易平台促进数据流通、向下游延伸开展场景化模型开发与应用落地。在数据汇聚、加工、开发利用及流通交易等各环节拓展服务能力，开发行业智能体解决方案，切实将数据要素能力赋能给政企客户，助力国家智能经济的高质量发展。
　　2、聚焦主业，进行全方位核心能力建设
　　（1）核心技术
　　公司将持续聚焦智能语音、计算机视觉、自然语言等核心业务领域，关注智能驾驶、智能家居、个人助手、文旅应用、内容生成等行业场景及以大模型为主的新兴技术方向的数据需求，在数据工具链及平台建设、大模型及具身智能前沿技术探索、行业场景理解、新语言研究以及多语种多模态数据布局等方面持续投入研发力量，不断提升训练数据生产的智能化与规模化水平。与此同时，公司将加快推进标注流程的智能化升级与标准化数据产品体系建设，持续优化毛利结构，夯实公司在新一轮AI竞争中的核心优势。
　　（2）数据安全
　　近年来，随着《数据安全法》《个人信息保护法》《网络数据安全管理条例》《数据出境安全评估办法》《促进和规范数据跨境流动规定》《个人信息保护合规审计管理办法》等法律法规快速落地实施，公司所处行业的法律环境正在快速趋严，在此背景下，数据安全、个人信息保护已成为行业客户选择数据服务商时的重要考量因素以及新的行业壁垒。2026年，公司将继续加大数据安全及合规能力体系建设，通过完善内部制度流程建设、根据业务发展方向提前进行资质布局、广泛参与行业交流、不断提升企业数据安全及合规技术和机制等方式，提升应对更高标准、更严格的数据监管要求的能力，提高整体数据安全保障水平，将之逐步打造成为核心竞争力之一，更好地为公司数据业务发展和数据要素市场开拓提供保障和助力。
　　（3）供应链
　　2026年，公司将继续推进供应链管理的智能化和自动化。实时监控供应链运行状态，提前识别并应对风险。在数据管理方面，完善数据可视化平台，新增实时数据展示模块以优化用户体验，并加强数据安全管理，确保数据的保密性、完整性和可用性。
　　在供应链优化与创新方面，持续推进供应商多元化战略，扩大供应商的地理分布和行业覆盖，深化与供应商的协同合作；加大海外资源池建设投入，优化海外资源布局，提升全球供应链的竞争力。同时，加强供应链韧性建设，完善风险管理体系，提高应对突发事件的能力。
　　在人才培养与团队建设方面，加大供应链人才的培养和引进力度，提升员工数字化技能，鼓励团队协作与创新，为供应链建设提供坚实的人才支持。
　　（4）市场营销
　　2026年，为更好支撑全球化发展战略，公司将持续加强全球市场营销体系建设，全面升级品牌战略工程。公司将进一步加大品牌营销投入，在拓展社交、直播、搜索引擎等多渠道营销的同时，积极参与海内外顶级AI会议，持续提升品牌知名度与客群覆盖范围。同时，公司将强化境外本土营销团队建设，通过织密客户服务网络，不断提升客户服务体验。在国内市场，公司将持续为各领域合作伙伴提供专业的新型高质量AI数据解决方案，提升客户服务满意度，并依托开源语音大模型Dolphin升级版，进一步增强公司技术影响力。
　　（5）人力资源
　　在人工智能产业快速发展的背景下，公司应对市场变化、保持领先地位、推动业务与技术创新的根本动力，源于组织与人才的高质量发展。人力资源工作将紧紧围绕业务中长期发展目标的实现，在2026年重点推进以下关键举措：
　　1、大力提升基层人才储备密度，增强中层人才的管理能力，建设结构健康、持续有力的人才梯队。其中，以吸引和招募人工智能及训练数据领域的创新人才为最高优先级，同时强化各层级梯队的人才能力建设，全面支撑公司核心战略落地；
　　2、高效监控人工成本的投入产出，通过提升人效，切实保障经营目标的实现；
　　3、优化销售、生产、研发等多体系的绩效与薪酬管理机制，结合员工持股等中长期激励手段，更有效地牵引员工与公司共同实现业务目标。收起▲

　　一、报告期内公司所属行业及主营业务情况说明：
　　（一）所属行业情况
　　1.行业的发展阶段、基本特点、主要技术门槛
　　1.1行业的发展阶段、基本特点
　　（1）政策、技术、应用协同共振，全球AI产业迈入高速发展新阶段
　　当前，全球人工智能产业正迎来历史性发展拐点，政策、技术与应用的三重共振推动行业进入高速增长通道。中、美、欧三大经济体持续加码AI布局：中国通过《新一代人工智能发展规划》和《"十四五"数字经济发展规划》等构建了涵盖技术研发、资源建设和标准制定的全链条政策体系；美国则依托《人工智能行政令》和星际之门计划（Stargate）等，持续巩固其在人工智能基础设施领域的领先优势；欧... 查看全部▼

　　一、报告期内公司所属行业及主营业务情况说明：
　　（一）所属行业情况
　　1.行业的发展阶段、基本特点、主要技术门槛
　　1.1行业的发展阶段、基本特点
　　（1）政策、技术、应用协同共振，全球AI产业迈入高速发展新阶段
　　当前，全球人工智能产业正迎来历史性发展拐点，政策、技术与应用的三重共振推动行业进入高速增长通道。中、美、欧三大经济体持续加码AI布局：中国通过《新一代人工智能发展规划》和《"十四五"数字经济发展规划》等构建了涵盖技术研发、资源建设和标准制定的全链条政策体系；美国则依托《人工智能行政令》和星际之门计划（Stargate）等，持续巩固其在人工智能基础设施领域的领先优势；欧盟以《人工智能大陆行动计划》为纲领，配套《数字欧洲计划（2025-2027年工作方案》专项资金，重点培育AI与高性能计算融合创新。技术层面，人工智能也正在经历革命性突破，DeepSeek R1等开源模型通过性能提升与成本优化的双重突破，显著降低了技术应用门槛；多模态大模型（如Genie3、GPT-5）也在不断拓展AI能力边界，实现全模态互动能力。这种技术平权运动正在加速AI向千行百业渗透，大模型已逐步开始向金融、医疗、制造等核心领域进行新一轮的赋能，智能风控、AI辅助诊断、智能制造等应用场景不断丰富，推动各行业效率提升和模式创新。全球AI产业也将在上述政策引导、技术迭代与商业落地的正向循环下，迎来前所未有的发展机遇，加速向规模化、价值化阶段迈进。
　　根据国际数据公司（IDC）的数据，2024年全球人工智能(AI)IT总投资规模为3,158亿美元，预计在2028年增至8,159亿美元，年复合增长率(CAGR)为32.9%。
　　中国作为全球科技大国，也深度受益AI技术发展。根据艾瑞咨询的数据，2024至2029年中国AI产业将保持32.1%的年均复合增长率，在2029年突破1万亿的市场规模。
　　（2）训练数据作为AI发展和演进“燃料”的作用更加凸显，并逐渐成为大模型竞赛中的重要决定性要素
　　在AI产业链中，算法、算力和数据共同构成技术发展的三大核心要素。过去十多年，人工智能产业以算法为核心，通过深度学习算法的不断创新，推动人工智能产业的快速发展。但未来，当更多先进算法趋于开源，算法的差异化壁垒逐渐消除；此外，以DeepSeek为代表的算法架构创新和工程优化，带来了训练以及推理成本的大幅下降，这也意味着算力将不再是制约AI发展的核心因素。在此背景下，训练数据的重要性被进一步放大，成为未来AI发展的关键驱动因素。数据的质量、规模和精准性将直接决定模型能力的上限，高质量的训练数据不仅能显著提升模型的推断可靠性，还能有效减少幻觉和错误信息的产生，成为模型落地效果的关键。因此，高质量数据需求将呈现快速增长趋势。
　　根据Cognilytica数据统计显示，预计2027年全球AI训练数据市场规模将增长到220亿美元，2021-2027年复合增长率达32%。
　　中国作为全球人工智能产业增速最快的国家之一，相关数据需求也在快速增长。根据艾瑞咨询的数据，2024年中国人工智能基础数据服务市场规模为58亿元，2028年规模将达到170亿元，年复合增长率为30.84%。
　　（3）数据要素价值加快释放，数据产业已成为数字经济发展新增长点
　　在数字浪潮席卷全球的当下，数据产业已成为经济发展的新引擎。在以习近平同志为核心的党中央坚强领导下，我国牢牢把握数字化、网络化、智能化发展机遇，全面深化数据要素市场化配置改革。坚持推进数据要素市场化配置改革“一条主线”，统筹数字中国、数字经济、数字社会“三个建设”的工作思路，推动数据工作更好服务高质量发展。同时，探索完善数据基础制度体系，加快推进数据基础设施建设，提升数据资源开发和利用水平。2024年国家数据局联合多部门制定《关于促进数据产业高质量发展的指导意见》、《关于加快公共数据资源开发利用的意见》、《关于促进数据标注产业高质量发展的实施意见》等21项政策，2025年还将有10余项政策发布，进一步完善数据基础制度，充分体现国家高度重视数据产业高质量发展。《关于促进数据产业高质量发展的指导意见》指明了数据技术和产业重点发展方向；《关于促进数据标注产业高质量发展的实施意见》明确提出培育壮大数据标注产业对于提升数据供给质量，推动人工智能创新发展具有重要支撑作用。
　　各地开展流通利用基础设施先行先试，不断夯实数据开发利用的设施底座，布局数据基础设施。以场景牵引带动数据要素价值充分释放，深入实施“数据要素×”行动，开展公共数据“跑起来”示范场景建设，全面深入推动数据开发利用。培育数据汇聚共享、开发利用的数据企业，加快构建全国一体化数据市场。成立全国数据标准化技术委员会，不断推出数据标准、规范。持续推进高质量数据集建设，支撑人工智能创新发展。据国家数据局统计，我国已经建设高质量数据集超过3.5万个，总体量超过了400PB。人工智能模型的训练也推动了数据交易需求的攀升，截至2025年6月底，各地高质量数据集累计交易额近40亿元，数据交易机构挂牌的高质量数据集总规模达到了246PB。
　　全国各地数据要素市场化配置改革也在加速推进。例如北京市在探索和实践数据基础制度先行示范区、人工智能数据训练基地的基础上，发布《北京市关于建设数据要素综合试验区的实施意见》，开展数据要素综合试验区建设，打造“高端数据标注基地”。上海印发《关于人工智能“模塑申城”的实施方案》，瞄准技术前沿，坚持应用牵引，通过推进人工智能“模塑申城”，建设智能算力集群、语料供给体系、虚实融合实训场、行业基座大模型等基础底座，打造智能终端、科学智能、在线新经济、自动驾驶、具身智能等关键领域生产力工具，聚焦金融、制造、教育、医疗、文旅、城市治理等重点行业加速应用赋能。
　　成都市《成都市进一步促进人工智能产业高质量发展的若干政策措施实施细则》，提出支持高端要素聚集。实施公共数据资源赋能人工智能产业发展行动。依托成都市公共数据开放平台、成都市公共数据运营服务平台，依法、合规、有序向人工智能企业提供公共数据开放服务和授权开发利用。支持企业自主或联合行业协会、科研机构等建设高质量人工智能数据集。长沙市政府印发《长沙市关于推进国家数据标注基地建设的若干政策（试行）》，从聚焦加快培育标注产业、支持技术创新攻关、加强专业人才培育、促进数据服务赋能等四大方面推出了14条产业政策，加大扶持力度。湖北武汉发布《武汉市促进数据产业发展若干政策措施（征求意见稿）》，提出聚焦数据产业发展的关键核心技术，组织实施市级科技重大专项，根据项目投入、实施难度、实施成效等情况，给予单个项目最高2,000万元资金支持。呼和浩特市政府发布《关于促进绿色算力及人工智能产业高质量发展的若干意见》，每年统筹安排1.28亿元专项资金，推出5大方面、17项有力措施，全力推动产业升级。
　　总体来看，我国数据产业发展势头良好、前景广阔。随着“人工智能+”和“数据要素×”等国家战略行动计划的实施，全国各地均在加速推进数据要素市场化配置改革，未来将以高质量数据集建设，夯实人工智能数据基石，推动数字经济高质量发展为目标，围绕数据的汇聚、治理、标注、运营、评测、开发利用以及流通交易全流程，将产生包括数据汇聚、数据治理、数据标注、数据运营、数据评测、数据应用、数据流通、可信数据空间、数据标注基地运营等在内的新业态、新模式，将成为我国数字经济发展的新增长极。
　　（4）训练数据领域的未来发展趋势
　　随着DeepSeek、GPT-4o等成为全球范围内的现象级应用，以及以手机、具身智能为代表的AI终端的快速推出，人工智能迎来了新的发展机遇，其背后的大模型技术也正在带来相关数据需求的变化和增长。
　　a.多模态大模型正成为人工智能发展的新趋势，多模态数据需求显著上升当前，大模型正经历从单模态到多模态的范式转变。多模态技术的本质在于跨模态信息融合，即通过协同处理文本、图像、音频、视频等不同形式的数据，使AI具备更接近人类的全维度认知能力。这种演进不仅显著提升了模型在跨模态任务中的鲁棒性，更解锁了诸如视觉问答、跨模态生成、智能语音交互等复杂场景的应用潜力。
　　以视觉问答为例，系统需同时解析图像中的视觉元素和文本问题的语义信息，并通过模态对齐与知识推理生成准确回答。这一过程的实现，依赖于海量高质量的图文对数据。数据服务商需构建覆盖多样化场景的问答对，通过模拟真实世界的视觉推理逻辑，训练AI建立视觉-语言联合表征能力。而在语音合成领域，要实现富有表现力的拟人化发声，仅有时序对齐的文本-语音数据远远不够，还需引入情感标签、语调标记、韵律特征等细粒度标注，让AI精确捕捉人类语言中的情感起伏和表达风格。
　　实践证明，数据质量与多样性是多模态AI发展的决定性因素：一方面，优质数据定义了模型的能力上限；另一方面，数据分布的广度直接关系到技术落地的普适性。未来，随着多模态数据生态的持续完善，AI的感知与认知能力有望实现新的跨越。
　　b.大模型发展正在从"规模驱动"向"推理驱动"转型，高质量思维链（CoT）数据成为提升大模型复杂推理能力的关键突破口随着DeepSeek R1的推出，思维链技术（Chain of Thought,CoT）迅速成为AI领域的研究热点。这项技术通过引导模型模拟人类逐步推理的过程，显著提升了其在逻辑推理、数学计算及复杂问答等任务中的表现。
　　过往几年，大语言模型（LLM）的发展主要遵循Scaling Law（规模定律），即通过扩大模型参数量和训练数据规模来提升性能。然而，随着知识积累的边际效益逐渐降低，仅单纯依赖规模的增长已难以实现质的飞跃。于是，让AI像人类一样进行深度、有序的“慢思考”，成为突破现有认知能力瓶颈的关键方向。以数学问题为例，传统LLM往往直接输出最终答案，而省略中间推理过程，导致错误率居高不下。相比之下，具备CoT能力的模型会分步骤解析问题，先理解题意，再梳理已知条件，逐步推导计算，并最终验证结果的合理性。这种显式推理机制不仅大幅提高了模型的准确性，还使其决策过程更加透明，便于开发者理解和优化。
　　然而，思维链能力高度依赖高质量的CoT数据——即包含详细推理步骤的问答对。这类数据由于专业性强、标注难度高，目前仍属于稀缺资源。具体而言，优质的CoT数据需要领域专家进行人工构建，不仅要确保问题本身的复杂性，还需对解题过程中的每个逻辑进行严格验证，这种双重门槛使得数据生产周期往往长达普通标注任务的数倍。当前即便是最前沿的合成数据技术，在生成具有严密因果关系的多步推理时，仍会有相当概率出现逻辑断层，这也使得高阶人工标注目前仍是不可替代的重要数据来源。
　　c.从通用到垂直，高质量行业数据需求显著提升以DeepSeek为代表的开源大模型，以其高性能、低成本，以及允许全球用户无限制商用等特点，进一步加速了AI应用的普及，激发了应用层的创新活力，使AI逐渐从通用大模型向更广泛的应用场景和行业领域拓展，AI不再局限于作为回答通用问题的智能助手，而是能够针对特定行业/场景提供解决方案，或者协助执行各类复杂任务的超级助理（AI Agent）。例如，在医疗领域，AI可以作为影像科医生辅助诊断；在法律领域，AI可以担任法律顾问提供专业咨询；同时，AI Agent也能够独立完成点外卖、制定行程、预订机票等日常任务。
　　AI不仅在传统行业与生活场景中展现出独特价值，在智能终端领域，同样掀起了革新的浪潮。例如，AI在智能手机上的应用，可以帮助用户通过文字快速创作专业级摄影大片；当海量照片让整理相册成为难题时，可以快速通过文字描述定位对应图像，实现即时快速检索。在交互层面，AI赋能的语音助手也有质的飞跃。如今的语音助手不再是简单的指令执行者，它们能理解各种不同语种、不同场景下，复杂的语义和情感，并用不同的音色情感与用户进行交互。
　　与以往通用数据处理需求不同，垂向领域的数据处理更加注重专业性。例如，传统的自然语言处理只包括基本的文本处理工作，例如，分词、词性、正则化等标注需求，这些任务无需标注人员具有特定的行业知识；相对地，开发专门领域，例如医疗大模型，则要求标注人员不仅具备扎实的医疗专业知识，还要能够熟练使用医疗术语进行专业场景下的表达，使医疗模型能够理解和生成专业的医疗内容。这种专业化的需求也对数据服务商提出了更高的要求，数据服务商不仅要对行业有深刻的理解，以设计出符合行业需求的数据解决方案，还需要具备更丰富的专家库储备，以提供高质量的数据标注服务以及相关专业咨询服务。
　　d.具身智能浪潮来袭，数据供给瓶颈亟待突破具身智能作为通向通用人工智能（AGI）的关键路径与终极载体，正引领着AI发展的下一波浪潮。与传统大模型不同，具身智能的核心在于构建能够与物理世界深度交互的智能体。这不仅需要突破性的多模态感知技术（包括视觉、听觉等），更重要的是要具备基于环境感知的自主决策与执行能力。实现这一目标的关键在于海量的物理世界交互数据，目前行业主要依赖四种数据来源，互联网开源数据集（整合现有的公开机器人数据）、虚拟合成（利用仿真环境生成训练数据）、动作捕捉（记录人类在特定环境中的行为模式）、以及机器人遥操（通过人工远程操控获取真实场景下的操作数据）等。其中，虚拟合成技术虽解决了初期数据短缺问题，但由于"仿真差距"的存在，其数据质量往往难以满足高精度训练需求。而开源数据集则面临着数据规模有限（通常仅百万级）、采集条件单一等挑战，无法支撑复杂场景下（需要千万级数据）的模型训练需求。当前，在具身智能蓬勃发展的大背景下，高质量的数据供给短缺问题愈发凸显，具身智能的训练数据市场呈现出巨大的供需缺口，需求旺盛且潜力巨大。
　　e.国家法律法规密集落地，对数据安全及合规提出更高要求近年来，数字经济规模快速扩张，数据作为数字经济时代核心生产要素，重要性更加凸显，但数据不同于传统生产要素，其中可能涉及个人隐私以及国家安全的重要信息，因此，为更好保障数字经济长期稳定的可持续发展，建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年，国家陆续出台包括《数据安全法》、《个人信息保护法》、《网络数据安全管理条例》等主流法律法规，为解决数据安全问题、净化行业快速发展中的不良乱象提供了切实可行的法律依据。
　　未来，随着AI技术不断革新，应用行业以及场景不断增加，各行业、各领域数据安全规范逐渐落地将成为趋势，对于以数据生产为主营业务的数据服务企业，数据安全及合规能力将成为数据服务能力的核心评价维度，成熟的安全合规管理体系将成为重要评价标准，能持续跟踪法律环境变化，积极响应监管政策，牢牢把握发展与安全并重的原则的企业将具有更强的市场竞争力。
　　1.2行业的主要技术门槛随着AI技术不断演进、产业应用不断丰富，训练数据的市场需求呈现体量、难度、复杂性、合规性持续上升的趋势，数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力、算法辅助数据生产能力、以及数据合规管理能力，这使得行业的技术门槛持续提升，具体体现为：
　　（1）在训练数据研发、生产全流程中的算法全面介入
　　随着AI技术应用落地的规模化效应凸显，客户对于数据规模和处理效率的要求不断提升，数据服务商须在研发、生产流程中全面引入算法以实现高效、合理的人机协作模式，进而实现降本增效的目标。一般而言，在训练数据研发、生产全流程中融入算法技术，可用于训练数据集的设计及训练数据生产的各个环节，例如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低对人员的依赖（既有人员数量的降低、也有对人员标注能力要求的降低），并构建训练数据设计、加工相关的核心技术；也可用于检查训练数据集对算法模型的训练效果，进而保障训练数据集质量。
　　（2）平台工具链功能及适配性要求持续提升
　　当前，客户侧的数据采集、标注需求范围在逐渐拓宽，数据采集与标注需满足的AI应用场景比以往明显更加广泛、复杂，这就对数据服务商的平台工具能力提出了更高要求，平台上处理大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化程度如何等等这些因素都决定了平台的适配性和能力如何，并最终决定了数据处理的质量、效率、成本。
　　（3）语音语言学基础研究方面须有深厚积累
　　伴随语音技术进一步发展落地、并向各行各业和更多垂直场景不断渗透，同时受到中国企业出海需求、国外企业区域拓展需求两方面的支撑，客户在多语种、多音色、音素集、发音规则、发音词典等方面的要求在不断抬升，这意味着只有那些在语音语言学基础研究方面投入更多、拥有深厚积累的数据服务商才能满足客户在这方面的多元化需求。
　　因此，市场上仅有极少数企业通过长期自主研发的方式能够达到上述核心技术门槛，成为有能力向不同客户群体提供综合、高效、合规的数据产品及服务的供应商。
　　2.公司所处的行业地位分析及其变化情况
　　作为行业的头部阵营企业，海天瑞声在经营情况、技术实力、以及以数据安全为代表的其他综合能力方面都展示出明显优势，并具有较强国际竞争力。近年来公司紧跟AI技术发展趋势，尤其关注在客户资源、技术实力、产品/服务等方面的竞争优势，树立国内领先基础数据服务商的品牌形象，以巩固公司的行业领先地位。
　　（二）主营业务情况说明：
　　公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工，最终形成可供AI算法模型训练使用的专业数据集，通过软件形式向客户交付。
　　自2005年成立以来，公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展，公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业，并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音（语音识别、语音合成等）、计算机视觉、自然语言等多个核心领域，全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。
　　公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国移动、中国科学院、清华大学等国内外客户的认可，应用于其研发的个人助手、智能音箱、语音导航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量超过1,100家，覆盖了科技互联网、社交、IoT、智能驾驶、大模型等领域的主流企业，以及政企、教育科研机构。
　　（三）主要产品及服务情况
　　1.主要产品及服务按业务类型分类
　　公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域，广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外，公司还提供与训练数据相关的应用服务。
　　（1）智能语音
　　人工智能在语音领域的应用技术主要包括语音识别、语音合成等。
　　语音识别（Automatic Speech Recognition，ASR）是让机器能够“听懂”人类语音的技术，它能使机器自动将语音信号转换为对应的文本信息。
　　语音合成（Text to Speech，TTS）是让机器能够“说出”人类语音的技术，它使机器能将文字信息转化为流畅的语音“朗读”出来，相当于给机器安上了人工嘴巴。
　　以日常生活中的情景为例，语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换为文字，实现了软件“听懂”语音并“听写”出文字的效果；而地图、导航软件则运用语音合成技术，实现了软件“发声说话”的效果，为用户提供即时语音导航。
　　公司通过设计（设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等）、采集（定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频）、加工（对音频文件进行切分、标注各类声音特征，形成带时间戳和特征标签的文本和标注文件等）、质检（对数据集进行质量检测，如音字一致性、标注准确率检查等）等训练数据集生产环节；或者针对客户提供的原料音频文件执行加工、质检工作，最终形成客户所需的智能语音训练数据集。
　　（2）计算机视觉
　　计算机视觉（Computer Vision，CV）是使机器具备“看”的功能的技术，它使得智能驾驶、智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。
　　以日常生活中的情景为例，在汽车的自动驾驶功能中，计算机视觉技术使得汽车能够“看见”并识别行车过程中的各种行人、路况场景，为后续作出相应的反应奠定基础；在机场、车站安检中，计算机视觉技术使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。
　　公司通过设计训练数据集结构、采集（如定义合适的人脸、动作、场景作为采集对象，组织被采集人按照要求拍摄照片、录制视频等）、加工（对图像、视频文件进行打点、拉框、分割标注等）、质检（对数据集进行质量检测，如检验图片、视频文件格式是否正确，检查光照环境、物体种类的数量是否达标，打点标框的准确率是否符合要求等）；或者对客户提供的图像、视频文件执行加工、质检工作，最终形成客户所需的计算机视觉训练数据集。
　　（3）自然语言处理
　　自然语言处理（Natural Language Processing，NLP）是使机器能够像人一样理解语言意图的技术。
　　以日常生活中的情景为例，寄送快递时使用的“智能填写”功能即运用了自然语言处理技术，在输入框中填入整段联系信息，软件应用能够理解语义，并从中识别及提取“收件人”、“联系方式”、“地址信息”等所需信息，完成自动填写；智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术，使得程序、机器能够读懂人类语言的真正意图，并相应做出反应、提供服务等。
　　公司通过设计训练数据集结构、采集（收集或编写自然语言文本、对话等数据信息）、加工（对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等）、质检（对数据集进行质量检测，如检验文本、词性或者语义的标注结果是否准确等）；或者对客户提供的自然语言文本执行加工、质检工作，最终形成客户所需的自然语言训练数据集。
　　（4）训练数据相关的应用服务
　　公司开放基于多年行业经验打磨的数据处理工具集及平台，提供包括公有云访问、私有化部署及SaaS化服务的多种能力，满足产业链上各类企业对于数据处理工具及平台能力的需求。
　　公司基于自身生产的训练数据提供算法相关的模型训练服务、模型评测服务及模型应用服务，运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定应用场景的专属算法模型，提高AI技术应用效果。
　　前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。
　　成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。以智能语音训练数据集为例，成品训练数据集包含原始采集形成的音频文件、与音频文件对应的带有时间戳的标注文件，训练数据集相关的设计文档、训练数据集说明，发音词典，数据集参数信息文件等。
　　2.主要产品或服务的终端应用场景
　　公司提供的高质量、大规模、结构化的训练数据，为算法模型的训练拓展提供了可靠的训练素材，助力AI技术实现实践应用及商业化落地，赋能AI技术与实体经济深度融合。公司提供的训练数据广泛应用于众多主流AI产品及终端应用的训练过程中，覆盖了个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等多种应用场景。
　　（四）主要经营模式
　　1.盈利模式
　　与主要产品及服务类型对应，公司的盈利模式主要包括以下三类：
　　（1）定制服务：公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下，公司享有服务费收入，不享有最终生成的训练数据的知识产权，不可将此类业务生产的训练数据向其他客户重复销售。
　　（2）标准化产品：公司开发自有知识产权的训练数据集产品，通过销售训练数据集产品的使用授权许可，获取让渡资产使用权收入。此类训练数据集一经开发完成，可多次销售并获取授权许可收入。
　　（3）训练数据相关的应用服务：公司基于积累的训练数据和多年行业经验提供数据处理工具集及平台服务、算法相关的模型训练、模型评测及模型应用服务，通常以软件授权或软硬件一体化形式交付平台产品、算法模型拓展、开发成果等，获取让渡资产使用权收入和技术服务等收入。
　　2.生产或服务模式
　　（1）训练数据集生产模式
　　公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。
　　公司的训练数据生产过程主要包括四个环节：设计（训练数据集结构设计）、采集（获取原料数据）、加工（数据标注）及质检（各环节数据质量、加工质量检测）。
　　（2）训练数据相关的应用服务模式
　　公司开放基于多年行业经验打磨的数据处理工具集及平台，提供包括公有云访问、私有化部署及SaaS化服务的多种能力，满足产业链上各类企业对于数据处理工具及平台能力的需求。
　　公司基于其生产的训练数据提供算法模型相关的训练、评测及应用服务，助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定应用场景（例如特定行业、特定口音等）的专属算法模型，提高AI技术应用效果。
　　以某大型科技公司客户项目为例，客户研发了特定语音识别算法模型，需要根据算法模型的实际场景（如法院庭审场景）开发落地应用。公司承担了部分落地应用拓展相关的开发工作，围绕客户的算法模型和接口开发，最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。
　　3.采购模式
　　按照采购的内容及主体划分，公司的采购包括：数据服务采购：公司在数据采集、加工环节中，向人力资源服务等类型的公司等供应商采购的，非核心技术环节的原料数据采集、标注服务。
　　岗位服务采购：主要针对临时性的、不设长期岗位的业务领域的外包采购，如保洁、临时招聘服务、少量实习生招聘等。
　　其他采购：
　　（1）训练数据生产所需的资产，主要包括软、硬件设备及其他需求物品采购；
　　（2）日常运营所需的资产及物品，如办公用房、车辆、办公家具、计算机设备等；
　　（3）日常专项服务采购等，主要包括审计服务、会议服务、差旅服务等。
　　上述原料数据采集、加工环节所涉及的数据服务采购，为公司最主要的采购类别，由集采中心负责；各部门岗位服务采购由人力资源部负责；其余日常运营相关的资产物品采购、专项服务采购等非业务采购由集采中心负责。财务中心负责参与采购供应商的遴选、监督与管理，并对采购费用进行核算及结算。
　　经过多年的发展，公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度，设立有完善的采购流程和体系，并与主要的供应商形成了良好稳定的长期合作关系。
　　4.营销模式
　　公司采用直接对接并服务客户的直销模式进行营销，符合行业通行惯例。公司以高质量的训练数据集及相关服务吸引客户，并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、参与学术会议和行业展会新产品发布、搭建并持续升级公司官方网站和建立自媒体矩阵等方式提升品牌知名度、开拓新客户，后续再通过商务谈判、招投标等形式获取具体业务机会。
　　二、经营情况的讨论与分析
　　2025年上半年，在全球人工智能产业蓬勃发展的大背景下，公司业务实现全面增长。一方面，随着多模态大模型技术持续突破和“人工智能+”应用场景不断丰富，全球训练数据需求呈现爆发式增长，公司凭借丰富的数据服务经验以及海量标品数据集积累，持续获得国内外头部科技企业的数据需求订单；另一方面，在国家“人工智能+”战略指引下，以运营商为代表的国央企加速AI布局，重点投入多模态基座模型研发和垂直领域应用落地，为公司带来新的业务增长点。与此同时，去年公司新拓展的东南亚数据交付基地已进入稳定运营阶段，该基地不仅成功打开了海外定制化服务市场，更为海外业务贡献了显著的增量收入。以上因素共同推动，公司2025年上半年度营业收入、归属于母公司所有者的净利润、归属于母公司所有者的扣除非经常性损益的净利润同比均实现显著增长。
　　报告期内，公司实现营业收入1.57亿元，较上年同期增长69.54%；归属于母公司所有者的净利润380.46万元，较上年同期增加813.65%；归属于母公司所有者的扣除非经常性损益的净利润为98.35万元，较上年同期增加465.94万元；经营性现金流净额-3,375.12万元，较上年同期下降315.29%。截至报告期末，公司总资产为8.17亿元，较期初增加1.03%；归属于母公司的所有者权益为7.29亿元，较期初减少1.94%。2025年上半年公司具体经营情况如下：
　　(一)核心业务板块经营情况
　　1.境外训练数据业务
　　2025年上半年，在全球人工智能产业加速渗透及多模态大模型需求爆发的背景下，AI训练数据服务市场持续扩容。在此趋势下，公司海外业务实现收入7,351.14万元，同比增长68.24%，继续保持强劲增长态势。
　　从业务驱动因素来看，一方面，以全球头部消费电子、企业级SaaS应用软件公司等为代表的国际客户，为支撑其全球化业务拓展，持续加大对多语种语音、平行语料等高质量训练数据的投入力度。公司凭借在语言研究领域长达二十年的技术积累，以及覆盖智能语音、自然语言等多个技术方向的标准化数据集产品优势，进一步赢得了境外客户优选。另一方面，公司在东南亚新建的数据交付基地已进入稳定运营阶段，该基地不仅成功打开了当地定制化服务市场，更为海外业务贡献了显著的增量收入，未来该基地也将成为支撑公司全球化战略的重要支点。
　　此外，为进一步提升全球市场竞争力，报告期内，公司持续优化国际化布局。在市场拓展方面，进一步强化北美、欧洲及日韩销售团队，深化本地化服务能力；同时，通过参与CVPR、ACL、Tech-AD等全球顶级AI学术会议，提升技术品牌认知度和影响力；同时，重点加强海外交付能力建设，通过拓展菲律宾数据交付基地的团队规模和服务范围，为国际客户提供更加高效、合规的数据服务支持。未来，这些战略布局也将为公司把握全球AI产业发展机遇、实现更高质量的国际化发展奠定坚实基础。
　　2.境内训练数据业务
　　2025年上半年，随着人工智能技术在各行业的深度渗透和垂直场景的加速落地，AI产业呈现出明显的"场景纵深化"发展趋势。在此背景下，公司境内业务实现营业收入8,318.45万元，同比增长70.70%，展现出强劲增长态势。
　　从市场需求结构来看，AI技术应用主体呈现多元化发展趋势。首先，以运营商为代表的国央企积极响应国家"人工智能+"战略部署，加快推进多模态基座大模型研发，并在政务、法律、教育等重点领域进行布局；其次，以短视频平台、本地生活服务平台为代表的头部科技互联网企业开始将AI技术提升至核心战略地位，重点布局多语种语音交互、智能内容生成等关键技术，持续优化用户体验和内容创作效率，为业务创新和国际化发展提供技术支撑。同时，传统科技企业持续加大AI技术研发投入，重点强化多模态基础模型能力建设，特别是在多语种处理等关键领域深化布局，夯实全球化发展的技术基础。公司基于在智能语音、自然语言、计算机视觉等领域多年的技术积累，以及构建的近1,800个标准化数据集的专业产品体系，已成为多家行业领先企业的核心数据服务供应商，市场竞争优势进一步巩固。
　　3.数据要素业务
　　2025年上半年，随着《"数据要素×"三年行动计划》深入实施和各地数据要素市场化配置改革加速推进，我国数据要素产业迈入高质量发展新阶段。
　　在这一背景下，国家数据局指导成都、长沙、保定等7个城市建设数据标注基地，先行先试探索数据标注产业发展经验。数据标注基地建设成为推动数据要素价值释放的关键举措，旨在解决AI产业发展中的数据质量、标准统一和要素流通等核心问题。为支持国家数据产业发展战略，公司充分发挥在数据服务领域的技术积累，提供覆盖数据全生命周期的综合解决方案。在数据汇聚环节，公司与地方政府合作共建高质量数据集，整合公共数据和行业数据资源；在生产加工环节，建设数据可信空间，提供数据处理平台和运营服务；在开发利用环节，基于高质量数据开展模型训练；同时为中小企业提供数据治理服务。截至目前，公司已与3个承担数据标注基地建设任务的城市：成都、长沙、保定等地方政府成立合资公司，并与内蒙古呼和浩特签署战略合作协议，聚焦当地乳业、草种、文旅等特色产业，共建高质量数据集，有效驱动当地产业的数字化转型。此外，公司正积极拓展与上海、广州、宜宾等十余地的战略合作，进一步完善标注基地的全国性业务布局。
　　在支撑地方政府文旅产业数字化方面，公司也已取得阶段性成果：已启动彭州、长沙等地高质量文旅视频数据集的建设工作，重点为智能导览等应用场景提供专业数据支撑。此外，公司深度参与华为+陕文投集团合作的陕西文旅示范项目，充分发挥在数据服务领域的技术优势，重点支持高质量文旅数据集建设和AI文旅垂直大模型开发，推动"AI＋文旅"场景的规模化应用，为陕西文旅产业数字化转型提供全方位数据支撑和解决方案。与此同时，公司还参与"京西智谷数字人平台及配音平台项目"，提供2,000余个数字人形象，通过数字人技术助力北京门头沟区乡村振兴和文化传播。
　　在区域合作方面，公司立足广西作为中国—东盟数字合作枢纽的战略定位，全面深度参与中国—东盟人工智能创新合作中心建设并与地方政府联合成立数字工坊，凭借在东盟小语种数据处理以及OCR预识别算法上的技术优势，有力支持东盟语料库建设。
　　通过参与国家级数据标注基地建设和区域数字合作项目，公司不仅实现了数据要素业务市场空间的持续拓展，也为推动我国数据要素市场高质量发展注入了新动能。未来，公司将继续深化在数据汇聚、处理、应用等环节的技术创新，致力于构建更加完善的数据要素产业生态体系。
　　(二)核心技术能力建设情况
　　2025年上半年，按照技术+产品双轮驱动的定位，公司继续保持有竞争力的研发投入强度，不断提升技术和平台工具先进性、在大模型数据处理技术方向进行积极探索储备、巩固标准化数据集产品储备、增厚语音语言学基础研究领先性，持续巩固公司核心竞争力。报告期内，公司研发费用共计2,956.45万元，占当期营业收入的18.87%。截至报告期末，公司研发人员数量为58人。
　　1.算法及平台能力建设、大模型数据处理技术持续探索储备
　　报告期内，公司持续加大基础研发投入力度，重点提升人工智能基础算法、一体化数据处理平台及前沿技术研究等领域的核心能力，持续推动大模型数据服务的迭代升级，并形成了一定的代表性成果：1.1算法公司在智能语音、计算机视觉、自然语言处理等领域的预标注算法上持续深耕布局，同时，在面向智慧文旅场景的多模态大模型能力研究、面向数字人场景的基础能力研究、智能驾驶、大模型训练数据清洗与自动化标注等垂直领域取得显著进展。面向智慧文旅场景的多模态大模型能力研究主要包括：文旅场景的语音合成大模型、文旅场景视觉大模型、文旅场景的LLM大模型训练与微调，并完成主流国产算法的模型推理适配工作。面向数字人场景的基础能力研究主要包括：图片数字人算法、视频数字人算法的研发和部署，以及3D数字人前沿算法的调研与实践；智能驾驶主要聚焦在以下领域的算法研发：4D点云重建与2D厘米级自动化映射、预刷红绿灯算法、亿级点云地面检测算法、通用3D目标检测模型升级等；在大模型训练数据清洗与自动化标注研发领域内，研发老挝语OCR与语料自动化清洗算法，并在项目中取得良好效果；针对语音大模型训练数据，完成语音数据自动化清洗pipeline的升级，融合10+种模型算法对多种类型的数据进行自动化清洗与标注；针对LLM大模型训练数据，完成题库、ITN/TN等多种语料清洗pipeline搭建与优化。
　　1.2平台公司持续在数据处理平台进行规模化投入，重点提升语音、视觉等核心领域的采集及标注环节处理效率。同时，为完善产业生态布局、增强内部管理效率，公司新增建设人工智能数据服务实训和AI数据生产管理两大专业平台，具体情况如下：
　　智能语音平台：声优工厂平台形成规模化声优资源池，覆盖中、英、日、韩4大语系36种音色标签。通过性别校验等算法模型，大幅提升试音通过率，且单条试音审核时长压缩10倍以上；自研流程引擎让项目平均周期缩减一半。公司自研的多模态推荐模型，可实现候选声优的秒级反馈，匹配精准度提升至90%以上。副语言&音素边界标注平台实现全流程自动化升级，通过集成语音识别等算法模块，将标注时间缩短约一半。构建了精细化权限治理体系，该体系可适配多场景任务需求，且使跨角色协同效率提升50%以上。
　　计算机视觉平台：Bev视角点云、2D图标注平台攻克多源数据技术难关，自研时空配准引擎实现多源点云亚像素级对齐；轻量化拓扑压缩算法在保持99.5%几何精度下，通过点云压缩技术，将训练加载时间缩短80%。此外，采用风格迁移网络实现4种天气、5个时段无缝切换，兼容主流行业标准，大幅降低客户迁移成本。标注工具效率较传统提升近5倍，支持超过1,000个标注员并发作业，日均可产出50万张AI训练样本，并已在智能驾驶为代表的三大场景应用落地。
　　面向人工智能数据服务的实训平台：旨在为AI产业链提供高质量的人才培养方案，包括理论体系建设、课程学习、上机实训、课后练习、在线考试、资格认证、人才推送等重要模块。公司已基本完成整体架构设计，并形成基础理论和部分模态实战课程的课件。
　　面向人工智能数据生产的管理平台：为应对人工智能数据业务不断发展所带来的项目管理、商务管理、财务管理等诸多管理能力不断提升的需求，公司整合既有工具模块、优化现存平台，建设新一代面向人工智能数据生产的管理平台。该平台包括不少于20个重要功能模块的建设任务。公司上半年已完成包括客户管理、合同管理等重要模块的建设任务。部分能力已在公司内部落地，并支撑业务加速发展。
　　以上平台均以技术创新构建壁垒，兼具规模化能力与商业化成果，为持续增长奠定基础。
　　2.标准化数据集产品
　　标准化数据集产品，是公司区别于众多竞争对手以定制化服务为主的特有商业模式，也是公司核心竞争力之一，标准化产品是公司基于未来行业需求的研判，在市场需求出现之前，预先开发的数据集，具有即用即取的特点，可帮助客户大幅缩短模型研发周期并有效降低数据投入成本。同时，由于产品本身的知识产权由公司享有，具有一次性研发生产、可重复多次销售的特点，因此可更好帮助公司实现未来可持续性销售、以及毛利空间提升。
　　因此，为更好适应行业发展需求，公司2025年上半年在产品研发方面持续投入，用于开发覆盖智能语音、计算机视觉以及自然语言等传统深度学习以及大模型领域的相关数据集产品。截止报告期末，公司新增研发超70个训练数据集产品，自有知识产权的训练数据产品储备达到1,790个，尤其在多语种语音对话、多语种OCR、多音色多情感数据集等方面积累了更丰富的标准化产品资源，并建成包括“双工数据集”、“视觉大模型（图像-文本）预训练及微调数据集”等在内的多领域大模型数据集。截止报告期末，截止报告期末，公司已向下游客户提供了累计超过10,000次/个定制或标准化训练数据集，并已应用于个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等22类创新应用领域，赋能人工智能技术与实体经济的深度融合。
　　3.语音语言学能力
　　随着全球化扩张成为头部AI企业收入增长的重要引擎，多语种数据的作用和价值更加凸显。为更好满足客户多语种拓展需求，公司持续保持语音语言学研究力度，在语音语言学基础研究方面，公司不断丰富合作语言学家团队资源，成员遍布世界各地的学校及研究机构，在语音语言学领域具备丰富经验和技术储备。截止报告期末，公司已经拥有超过240个语种/方言的覆盖能力，不仅包括英、法、德、意、西、日、韩等常见语种，还包括东南亚、一带一路等国家地区的罕见小语种，尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时，公司建立了成熟的发音词典构建流程，公司已积累下近140个多语种的发音词典，覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种，累计词条数超过1,200万条，可支撑构建高质量的智能语音、以及多模态训练数据，是公司的主要竞争壁垒及核心技术之一。
　　(三)其他综合能力建设情况
　　1.数据安全及合规
　　2025年上半年，中央和地方出台了一系列有关数据要素、数据安全的法律法规和政策，对企业的数据安全水准和能力提出了更高要求，也为企业在数据要素、人工智能等领域的发展提供了新的机遇。公司一直以来非常重视数据安全管理以及相关能力的提升，并将其作为把握新发展机遇所必须练好的“基本功”。报告期内，公司积极参与行业发展，提出立法建议、参与行业调研，数据安全能力获得广泛认可。
　　2.供应链体系
　　2025年上半年，公司围绕AI大模型在垂直领域的深度应用，全面升级供应链生态体系。在产业布局方面，公司深度整合产学研资源，重点布局医疗、金融、教育、美学等专业领域，通过与行业权威机构合作，构建了覆盖诊断、智能投顾、合规风控、数字版权等场景的专业资源池，显著提升了供应链的行业适配性和专业壁垒。
　　公司在全球化资源网络建设方面取得重要突破：通过海外数据基地建设和供应商资源拓展，已覆盖49万终端资源，涉及173个国家和地区及超过250种外语种，大幅提升全球数据服务的响应能力。
　　此外，公司通过技术创新驱动供应链管理效能提升：通过知识图谱与区块链技术融合，实现跨领域资源的智能匹配与全流程可信溯源；依托动态标签体系和智能算法，完成需求线上化、结算线上化管理；基于精细化成本模型与实时化系统，实现订单处理、资源配置的全链路数字化，为可持续产能扩张奠定基础。
　　3.人力资源
　　报告期内，公司完成销售、生产、研发体系的绩效管理机制优化，并对内部反馈机制及奖金核算机制进行迭代，以期增强绩效牵引力实现更加公平和富于激励性的管理效果。上半年公司组织多种类专项培训及人才发展项目，在大模型领域的探索与应用进行广泛深入的内部交流，组织销售、生产、职能等多体系的软技能培训，对应届高潜毕业生、新锐力量、中坚力量、中高层管理人员采取不同的梯队建设规划，以保障人才队伍的不断夯实。文化建设方面，强化高度敬业和持续创新文化，进行榜样之星等多样化的文化倡导和活动辐射，打造更加尊重信赖和追求卓越的组织基因。同时在人才引进方面，启动海外人才招募、研发专项人才和高潜毕业生吸引计划，引入多名欧美同业专家、优质研发人员、及卓越背景应届毕业生，充实销售、研发及项目交付队伍的人才密度，发展健康、可持续、多元化的人才队伍。
　　三、报告期内核心竞争力分析
　　(一)核心竞争力分析
　　1.研发优势
　　公司拥有同行业具有竞争力的综合研发实力，截至报告期末，公司研发团队规模为58人，研发能力全面覆盖平台工具开发、算法研究、产品设计等多条主线。公司核心研发人员均曾服务于全球顶尖科技企业或毕业于名校，组成了公司坚实的研发领导核心力量。同时，多年来，公司积累了较为完备的综合性、一体化数据处理平台及工具体系，覆盖智能语音、计算机视觉、自然语言等全业态领域，可服务于市面上绝大多数数据处理场景需求，包括但不限于智能驾驶、智能家居、个人助手、内容生成等。公司还设置了专门的产品研发部门及AI+研发部门，可前瞻性挖掘和布局新兴市场需求，抢占市场先机。此外，基于公司在训练数据领域多年积累下的大量、多元化数据以及数据处理经验，通过算法平台团队与数据业务团队无缝衔接，公司可更好完成预识别算法性能提升，实现少量数据注入->算法训练->标注员反馈->模型生成->处理大量数据的自闭环体系，助力公司做大规模、提升效率、降低成本。同时，20年数据行业的从业经验积累，使得公司具备较强的数据生产工程化能力，可助力公司大幅缩短数据研发及生产周期，为公司抢占市场提供了有力支撑。上述因素共同驱动公司构建较高的行业技术壁垒。
　　2.产品优势
　　通常来说，标准化数据集产品具有可即时获取、价格相对优惠等特点，因此市场需求旺盛。但由于标准化数据集产品是先于客户需求形成，需要数据服务商具备较强的市场趋势前瞻能力、以及财务实力进行提前投入，因此行业中具备标准化数据集产品规模化生产能力的服务商较为有限，该方向具备较高竞争壁垒。
　　对于公司而言，标准化训练数据集产品的知识产权由公司享有，具有一次性研发生产、可重复多次销售的特点，可显著助力公司毛利水平提升，实现训练数据产品的规模化效应，因此也是公司区别于众多竞争对手的一个优势亮点。
　　公司基于20年数据服务经验、以及对客户需求的深刻理解，持续开拓标准化数据集，自有知识产权的训练数据产品储备达到1,790个，全面覆盖智能语音、计算机视觉、自然语言等多条业务线。这些高质量数据集可全面支持智能客服、个人助手、数字人等前沿AI应用场景的研发落地。
　　特别值得一提的是，我们的标品数据已支持247种语言/方言，能够充分满足全球AI企业的多语言需求，为客户的国际化战略提供强有力的数据支撑。
　　3.语音语言学能力优势
　　随着境外客户全球化扩张以及境内客户出海成为新的行业发展趋势，多语种能力成为数据服务领域的核心竞争力之一，而语音语言学储备则是实现多语种拓展的重要前提。经过20年积累，公司已沉淀下深厚的语音语言学基础研究成果，并已将其运用至构建高质量的智能语音、以及多模态训练数据。在语音语言学基础研究领域，公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累，以及不断创新的发音词典构建技术和流程技术。截止报告期末，公司已经拥有超过240个语种/方言的覆盖能力，不仅包括英、法、德、意、西、日、韩等常见语种，还包括东南亚、一带一路等国家地区的罕见小语种，尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时，公司已积累下近140个多语种的发音词典，覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种，累计词条数超过1,200万条，可支撑构建高质量的智能语音、以及多模态训练数据，是公司的主要竞争壁垒及核心技术之一。
　　4.数据安全及合规能力优势
　　海天瑞声自成立之初即把数据安全、数据合规视为生命线，公司在多年的数据风险识别和管理实践中，已经形成了较为成熟的安全、合规管理体系。资质方面，公司拥有ISO27001信息安全管理体系认证、ISO27701隐私信息管理体系认证、国家信息系统安全等级保护三级备案、北京市规划和自然资源委员会行政许可乙级测绘资质等。行业参与方面，公司入选中共中央网络安全和信息化委员会办公室“人工智能企业典型应用案例”，相关业务和数据安全实践受到《人民日报》等权威媒体报道和关注。公司为中国信通院数据安全推进计划成员单位，董事兼总经理李科连续入选该计划数安智库专家，其所参与、领导的公司数据安全工作，受到《北京日报》等权威媒体报道。此外，公司积极参与行业发展，入选国家标准《信息技术人工智能术语》核心参编单位、《人工智能数据标注平台技术要求和测试方法》核心参编单位，数据安全能力获得认可并产生广泛、积极的行业影响。
　　(二)报告期内发生的导致公司核心竞争力受到严重影响的事件、影响分析及应对措施
　　(三)核心技术与研发进展
　　1、核心技术及其先进性以及报告期内的变化情况
　　（1）基础研究层面，报告期内，公司持续在智能语音、计算机视觉、自然语言进行技术拓展，同时在多模态文旅大模型、数字人算法、智能驾驶、大模型训练数据清洗与自动化标注等垂直领域取得显著进展。多模态文旅大模型主要包括：文旅场景的语音合成大模型、文旅场景视觉大模型、文旅场景的LLM大模型训练与微调，并完成主流国产算法的模型推理适配工作。数字人算法主要包括：图片数字人算法、视频数字人算法的研发和部署，以及3D数字人前沿算法的调研与实践；智能驾驶主要聚焦在以下领域的算法研发：4D点云重建与2D厘米级自动化映射、预刷红绿灯算法、亿级点云地面检测算法、通用3D目标检测模型升级等；在大模型训练数据清洗与自动化标注研发领域内，研发老挝语OCR与语料自动化清洗算法，并在项目中取得良好效果；针对语音大模型训练数据，完成语音数据自动化清洗pipeline的升级，融合10+种模型算法对多种类型的数据进行自动化清洗与标注；针对LLM大模型训练数据，完成题库、ITN/TN等多种语料清洗pipeline搭建与优化。
　　（2）在平台工具层面进展如下：
　　智能语音平台：声优工厂平台形成规模化声优资源池，覆盖中、英、日、韩4大语系36种音色标签。通过性别校验等算法模型，大幅提升试音通过率，且单条试音审核时长压缩10倍以上；自研流程引擎让项目平均周期缩减一半。公司自研的多模态推荐模型，可实现候选声优的秒级反馈，匹配精准度提升至90%以上。副语言&音素边界标注平台实现全流程自动化升级，通过集成语音识别等算法模块，将标注时间缩短约一半。构建了精细化权限治理体系，该体系可适配多场景任务需求，且使跨角色协同效率提升50%以上。
　　计算机视觉平台：Bev视角点云、2D图标注平台攻克多源数据技术难关，自研时空配准引擎实现多源点云亚像素级对齐；轻量化拓扑压缩算法在保持99.5%几何精度下，通过点云压缩技术，将训练加载时间缩短80%。此外，采用风格迁移网络实现4种天气、5个时段无缝切换，兼容主流行业标准，大幅降低客户迁移成本。标注工具效率较传统提升近5倍，支持超过1,000个标注员并发作业，日均可产出50万张AI训练样本，并已在智能驾驶为代表的三大场景应用落地。
　　面向人工智能数据服务的实训平台：旨在为AI产业链提供高质量的人才培养方案，包括理论体系建设、课程学习、上机实训、课后练习、在线考试、资格认证、人才推送等重要模块。公司已基本完成整体架构设计，并形成基础理论和部分模态实战课程的课件。
　　面向人工智能数据生产的管理平台：为应对人工智能数据业务不断发展所带来的项目管理、商务管理、财务管理等诸多管理能力不断提升的需求，公司整合既有工具模块、优化现存平台，建设新一代面向人工智能数据生产的管理平台。该平台包括不少于20个重要功能模块的建设任务。公司上半年已完成包括客户管理、合同管理等重要模块的建设任务。部分能力已在公司内部落地，并支撑业务加速发展。
　　以上平台均以技术创新构建壁垒，兼具规模化能力与商业化成果，为持续增长奠定基础。
　　2、报告期内获得的研发成果
　　报告期内，公司新获得软件著作权1项。截至2025年6月30日，公司共获得专利授权41项，获得登记的软件著作权181项。
　　四、报告期内主要经营情况
　　报告期内，公司实现营业收入1.57亿元，较上年同期增长69.54%；归属于母公司所有者的净利润380.46万元，较上年同期增加813.65%；归属于母公司所有者的扣除非经常性损益的净利润为98.35万元，较上年同期增加465.94万元；经营性现金流净额-3,375.12万元，较上年同期下降315.29%。截至报告期末，公司总资产为8.17亿元，较期初增加1.03%；归属于母公司的所有者权益为7.29亿元，较期初减少1.94%。
　　五、风险因素
　　(一)核心竞争力风险
　　1.核心技术快速迭代的风险
　　由于人工智能行业整体发展较为迅速，应用领域和应用场景不断拓展，下游需求随着行业发展不断发生变化，公司进行数据开发所需的各项技术也面临着快速迭代更新的风险。如果公司无法保持对行业发展趋势的洞察能力以及对研发人才的有效组织和研发经费的经济投入，则可能导致公司在行业技术快速迭代过程中无法持续保持技术先进性和技术优势，进而对公司的客户拓展、产品创新和经营业绩造成不利影响。
　　2.核心技术人员流失风险
　　随着行业的持续发展，行业内企业之间对于高端人才的竞争日益激烈，如果公司无法持续加强核心技术人员的培养及引进并为核心技术人员提供有竞争力的激励机制和薪资待遇，则将存在核心技术人员流失的风险，公司的技术水平、研发能力也将受到不利影响。
　　3.核心技术失密风险
　　公司的数据产品和服务均以核心技术为基础。公司制定了严格的保密制度并严格执行，但上述措施仍无法完全避免公司核心技术的失密风险。如果公司相关核心技术的内控和保密机制不能得到有效执行，则可能导致公司核心技术失密的风险。
　　4.训练数据标准化产品无法实现授权销售的风险
　　公司根据对算法模型应用领域、行业发展趋势、市场需求等的评估和研判，自行设计并开发多种训练数据集标准化产品，开发完成后根据客户实际需求进行销售，授权给客户使用。在该种业务类型下，公司开发训练数据集产品，承担开发费用，并拥有训练数据集产品的知识产权。如果公司开发的训练数据集产品不能满足下游客户对训练数据的要求，则可能存在无法实现授权销售的风险，进而对公司未来的经营业绩产生不利影响。
　　5.数据安全相关风险
　　公司主要从事训练数据的研发设计、生产及销售业务，所提供的产品和服务主要以数据的形式体现。一方面，随着公司业务的快速发展和规模的持续扩张，原料数据采集与数据加工的数量持续增长；另外一方面，包括《数据安全法》、《个人信息保护法》、《生成式人工智能服务管理暂行办法》、《网络数据安全管理条例》等在内的与数据安全、个人信息保护相关的法律规章体系正逐步完善。公司如果未能按照法律规章或客户的更新要求及时调整现行业务开展方式、公司的数据安全管理体系研发升级未能跟上业务发展的需要、或客户未能遵守训练数据产品保护相关商业约定，则公司可能产生诉讼纠纷或面临生产经营不符合法律规章的要求、训练数据产品被泄露、盗版等数据安全相关风险。
　　同时，《数据出境安全评估办法》、《促进和规范数据跨境流动规定》等法律法规加强了对境内收集或产生的个人信息数据的跨境行为的规制。如果将来公司未能根据相关要求及时履行相应的程序，公司开展的属于该办法限定范围内的境外业务将受到一定程度的影响。
　　(二)经营风险
　　1.收入主要来自老客户，新客户收入占比较低的风险
　　报告期内，公司收入主要来自老客户，占比达到90.39%，新客户收入占比较低。公司正致力于维护老客户、拓展新客户，若老客户降低对公司产品、服务的采购量或公司未能维持与老客户的合作关系，则公司的经营情况将受到不利影响；若新客户拓展情况不达预期，则公司的经营情况也将受到不利影响。
　　2.新业务拓展风险
　　随着人工智能行业持续快速地增长，下游客户对高质量、多样性、大规模训练数据的需求将持续增加。公司能否紧跟下游需求变化，加深对下游行业基础技术的理解并开发出更多的业务机会，一方面受到行业发展状况、市场需求变化以及市场竞争状况等因素影响，另一方面也取决于公司对于下游众多新领域新场景的理解认知以及合作拓展能力等诸多因素。因此，公司新业务的开拓可能不及预期或者遇到其他不利因素，进而对公司未来的经营业绩产生不利影响。
　　3.采购成本上升风险
　　报告期内，公司进行采购原料数据采集、标注所支付的数据服务费占全年与主营业务相关的采购总额的比重较高，达到89.69%。随着城乡生活成本的持续提升，前述采购价格可能存在持续上升的趋势，若公司的技术发展带来的效率提升无法抵消前述采购成本上升的影响，可能会对公司的经营业绩带来一定不利影响。
　　(三)行业风险
　　1.市场竞争加剧的风险
　　公司所在的细分领域为AI基础数据服务领域。近年来，参与该行业的公司不断增多，由于整体行业较新，行业标准和法律监管仍处于规范阶段，因此整体行业目前处于高速发展且格局未定的状态，导致市场竞争加剧。公司如果不能持续有效地制定并实施业务发展规划，则将受到竞争者的挑战，从而面临市场竞争加剧而导致的经营状况下滑、市场地位下降和可能失去主要客户的风险，进而影响公司的盈利能力和发展潜力。
　　2.业务发展受下游人工智能领域发展状况影响较大的风险
　　公司主要为AI产业链上的各类机构提供算法模型开发所需的训练数据，服务于下游人工智能行业发展。公司的经营情况、业务发展与下游人工智能领域的发展状况息息相关。若未来人工智能领域景气度下降，或因技术更迭使得对训练数据的市场需求发生变动，将对公司业绩产生较大影响。
　　(四)宏观环境风险
　　1.经营业绩受税收优惠政策影响较大的风险
　　报告期内，公司享受了增值税即征即退、高新技术企业和研发费用加计扣除等一系列税收优惠，经营业绩受税收优惠政策影响较大。如果未来公司所享受的税收优惠政策出现不利变化，或者公司不再符合税收优惠的条件，则公司将无法持续享受税收优惠或存在所享受的税收优惠减少的可能性，并进而对公司未来经营业绩和现金流水平造成不利影响。
　　2.汇率波动风险
　　海天瑞声作为一家面向全球的训练数据服务商，拥有数量众多的境外客户，遍布美国、韩国、日本等各地区，报告期内公司境外收入占比为46.91%，该等收入使用外币进行结算，并受人民币汇率水平变化的影响。人民币汇率可能受到国内外政治、经济环境等因素的影响，存在波动风险，进而对公司的经营业绩产生不利影响。
　　3.中美贸易摩擦风险
　　公司产品和服务的主要出口地包括美国、日韩等国家或地区。报告期内，公司出口美国的营业收入占当期公司营业收入的比重为21.16%。公司相关境外业务始终严格遵守中国及他国法律。但国际局势瞬息万变，近年来中美贸易摩擦不断，如果中美双方出台新的贸易保护主义措施，可能会影响美国市场相关客户将数据提供给公司用于标注，减少与公司进行训练数据方面的业务合作，公司相关业务可能会受到约束，将会对公司的生产经营产生不利影响。
　　(五)其他重大风险实际控制人控制不当的风险
　　截止报告期末，贺琳直接持有公司1,213.76万股股份（占总股本的20.12%），并通过控制中毅安间接控制公司693.58万股股份（占总股本的11.50%），合计控制公司31.62%的股份，为公司实际控制人。
　　如果实际控制人利用其控制地位，通过行使表决权或其他方式对公司财务管理、人事、发展战略、经营决策等重大事项施加不利影响，其他股东的利益可能受到损害。收起▲

　　一、经营情况讨论与分析
　　2024年，受益于多模态大模型的快速发展以及“AI+”在应用端的进一步落地，全球训练数据需求快速增长。一方面，大模型语音交互需求持续攀升，公司凭借多年在语音数据方面的积累，获得以智能终端厂商、科技互联网公司等为代表的国内外科技巨头多类语音数据订单，带动大模型相关业务收入快速增加，并成为公司收入增长的核心引擎。另一方面，为更好拥抱新一轮全球化市场机遇，公司持续加大海外市场拓展力度，丰富品牌营销策略、推动销售提速，并通过建设海外交付能力完善海外供应链体系，启动海外全链条服务能力的延展，进一步带动境外业务收入显著复苏。此外，公司不断拓展智能驾驶服务能力边界，抢抓车企出... 查看全部▼

　　一、经营情况讨论与分析
　　2024年，受益于多模态大模型的快速发展以及“AI+”在应用端的进一步落地，全球训练数据需求快速增长。一方面，大模型语音交互需求持续攀升，公司凭借多年在语音数据方面的积累，获得以智能终端厂商、科技互联网公司等为代表的国内外科技巨头多类语音数据订单，带动大模型相关业务收入快速增加，并成为公司收入增长的核心引擎。另一方面，为更好拥抱新一轮全球化市场机遇，公司持续加大海外市场拓展力度，丰富品牌营销策略、推动销售提速，并通过建设海外交付能力完善海外供应链体系，启动海外全链条服务能力的延展，进一步带动境外业务收入显著复苏。此外，公司不断拓展智能驾驶服务能力边界，抢抓车企出海机遇，积极探索布局境外数据采集业务；同时继续保持有竞争力的研发投入，持续优化迭代智能驾驶数据处理相关算法研发和平台建设，以及智能化标注能力数据服务能力逐步延伸至4D数据标注、大点云分割等更复杂场景，以更好适应以BEV技术为主、稳步向OCC技术方向探索的高阶智能驾驶技术需求。受上述各项积极因素带动，公司整体营业收入实现同比增长。
　　此外，由于标准化数据集产品收入占比大幅提升，同时公司整体数据交付能力在管理能力优化、平台技术提升、供应链进一步整合和扩展等因素的共同推动下，使训练数据定制服务的毛利率也同比显著增长，共同驱动公司整体毛利率增加至66.46%。此外，应收账款减值减少导致信用减值损失同比下降。以上因素共同驱动公司全年净利润大幅增长，实现扭亏为盈。
　　报告期内，公司实现营业收入2.37亿元，较上年同期增长39.45%；归属于母公司所有者的净利润1,133.61万元，较上年同期增加4,172.13万元；归属于母公司所有者的扣除非经常性损益的净利润为497.35万元，较上年同期增加4,844.42万元；经营性现金流净额2,873.34万元，较上年同期增加5,977.96万元。截至报告期末，公司总资产为8.08亿元，归属于母公司的所有者权益为7.43亿元，分别较期初减少1.95%和4.99%。2024年公司具体经营情况如下：
　　(一)核心业务板块经营情况
　　1.训练数据全球化业务
　　2024年，受益于大模型技术的快速发展以及应用领域不断拓展，以智能终端厂商为代表的科技巨头纷纷加大多模态数据投入，全球数据服务市场持续增长。在此背景下，公司凭借多年在语言研究方面的技术积累、以及全球领先的标准化数据集产品储备，进一步赢得了境外客户信赖。与此同时，《促进和规范数据跨境流动规定》等法规出台，为数据出境提供了更为高效简明的路径。得益于行业发展以及政策环境的改善，截至报告期末，公司境外业务收入较上年同期显著增长89.53%至1.14亿元。
　　此外，为更好把握行业机遇、进一步扩大全球客户辐射范围，公司从体系搭建、市场研究、品牌升级、营销推广等多维度提升业务、客户触达及服务能力。报告期内，公司持续加强境外销售团队建设，进一步织密客户服务网络；同时，通过参与包括WebSummitQatar、ICASSP、AIEXPOTOKYO、AutosenseandInCabin、CVPR、ACL、Interspeech、SLT及NeurPS等全球知名行业及AI学术顶会，以及布局搜索广告投放、社交媒体矩阵等多类宣传渠道等方式，向全球市场展示公司先进技术实力及创新产品，提升行业影响力和美誉度。2024年公司获得由AcquisitionInternationaMagazine颁发的"BestAI-PoweredDataSoutionsCompany"奖项和Datarade颁发的"TopAITrainingDataProvider"奖项。截至报告期末，公司境外客户数量已超过260家。
　　报告期内，公司通过在新加坡投资设立控股公司的方式拓展海外首个自主可控的数据交付基地，在订单、产能两端同步实现增量覆盖，不仅有助于培育新的营收增长点，更为下一步提升海外定制化业务能力奠定基础。
　　2.大模型数据服务业务
　　伴随大模型技术的不断突破，人工智能行业被按下发展“快进键”，数据作为大模型的“燃料”，已成为模型公司打造差异化优势的战略性资源，高质量数据需求快速增加。报告期内，公司不断拓展自身大模型数据服务能力，从预训练、后训练、到指令微调、对齐、评测等全链条环节为客户提供立体支撑；同时，也逐渐从通用的基座模型的数据服务，拓展至艺术、工业、教育、医疗等多类垂直领域；服务的客户范围也已覆盖至主要大模型厂商和研究机构。报告期内，公司持续加大大模型数据方向的研发投入，增厚大模型领域的数据储备，新增开发了多类多语种、多音色、多情感、多场景的ASR和TTS语音数据集；以及服务视觉理解以及视觉生成的视觉数据集；同时，前瞻性建设了用于提升大模型推理能力的CoT数据集，通过详细的推理步骤注释，让大模型学习从问题到答案的逻辑推导过程，有效填补传统数据集缺乏推理结构的空白。与此同时，为更好理解大模型技术方向，报告期内，公司通过前瞻性研究，探索大模型数据的规模化生产方式，全面助力公司大模型业务的扩张。公司已和清华大学联合启动多语种语音大模型研发计划，该项目将基于最新的E-Branchformer、CTC-Attention技术，自研东方40语种、以及中国22方言数据清洗技术，训练了0.1B-1.7B等4个不同规模的语音大模型，模型效果达到了业界同等尺寸的领先水平。公司的算法团队联合清华大学语音与音频技术实验室充分利用公司海量高质量语音数据集储备，充分发挥各自所长，促进大模型技术在数据生产领域的更深层次的应用。
　　3.智能驾驶行业数据服务业务
　　2024年，为更好抢抓智能驾驶行业机遇，同时应对更为复杂的数据处理需求，公司加大了对高级别数据标注工具的研发力度，截至报告期末，DOTS-AD平台新增3D动静分离标注工具，BEV多图层4D车道线标注工具，并升级点云分割工具支持连续帧叠加标注和大点云分段加载、点云区域分割等核心能力，有效支撑了自动驾驶BEV和OCC主流算法演进对数据标注工具的需求。此外，公司不断优化算法中台中枢能力，开发了2D&3D融合的动静分离检测追踪算法，在点云连续帧融合产线实现提效30%以上；迭代优化点云分割算法和地面检测算法，在点云分割产线实现提效20%以上；研发3D点云预刷式跟踪技术、4D点云重建技术，均取得了20%以上的提效成果。
　　此外，为进一步支撑我国车企的国际化战略，公司在全球范围内扩展了道路采集业务，可提供包括采集方案设计、采集人员组织、车队管理、车辆改装及数据清洗与脱敏等在内的全链条服务。截至报告期末，公司采集业务已覆盖包括德国、西班牙、捷克等多个国家，为公司构建智能驾驶全球化数据服务能力奠定了基础。同时，舱内支撑DMS和OMS研发需求的采集业务也已拓展至俄罗斯、奥地利等多个欧洲国家，为众多客户出海业务提供有力数据支持。
　　(二)核心技术能力建设情况
　　2024年，按照技术+产品双轮驱动的定位，公司继续保持有竞争力的研发投入强度，不断提升技术和平台工具先进性、在大模型数据处理技术方向进行积极探索储备、巩固标准化数据集产品储备、增厚语音语言学基础研究领先性，持续巩固公司核心竞争力。报告期内，公司研发费用共计6,343.91万元，占当期营业收入的26.76%。截至报告期末，公司研发人员数量79人。
　　1.算法及平台能力建设、大模型数据处理技术持续探索储备
　　报告期内，公司持续加大基础研发投入，进一步提升人工智能基础算法、一体化数据处理平台、前沿技术研发等领域能力；在智能驾驶数据处理综合性平台上继续提升自动化能力，并落地更多面向智能驾驶数据预处理的相关算法；同时，在面向大模型预训练、后训练、微调、对齐及评测技术上持续保持技术探索、储备，推动相关领域的数据服务，并形成了一些代表性成果：
　　1.1算法
　　智能语音领域，完成Whisper推理框架升级、显存占用降低59%、推理延迟降低59%，新增ASR模型11个、语音识别算法支持语种数增至130+个，大幅提升了算法在实际项目中的降本增效能力。在计算机视觉领域，引入Detzero-track、CenterPoint、Lane-Marking-Detection、FaceFusion、roop、Utraytics、BoT-SORT等有代表性的计算机视觉框架或算法，上线3D点云目标检测多模型融合算法、4D大点云车道线检测算法、GDINO-零样本目标检测等算法，优化2D细分类视频跟踪算法、2D异形红绿灯跟踪算法、4D车道线长度动态自适应调整算法等多个智能驾驶场景下的模型，并新增超过27种不同场景的视觉类算法预处理技术。在大模型算法领域，针对公司自有知识产权的语音数据集，设计通用的数据清洗、模型训练、模型评测框架，已完成数据清洗pipeine搭建，并初步清洗出通用格式的语音数据数十万小时，同时完成语音大模型训练所需要的算力集群搭建、算法框架研发、模型训练pipeine搭建、并完成东方语种语音大模型的训练、微调、评测等。针对视觉大模型应用领域，构建起基于特征向量的去重技术、美学评分模型、图文生成模型等多个基础能力，并在项目中投入应用，取得了良好的降本效果。
　　1.2平台
　　公司在训练数据生产与管理的一体化平台建设方向精耕细作，展现了一系列创新成果，具体可归结为以下核心维度：
　　（1）重点推进以数据为核心的一体化平台体系建设，通过集中研发DataX数据中台，优化整合原有数据存储、数据可视化和数据流转等功能，全面提升一体化数据处理平台的处理过程柔性管理能力，数据处理管道新增可视化编排工具，集成20+新型算子，实现了十余类核心预处理算法模型自动化对接、数据切片、数据加工处理管道的快速搭建与灵活编排，以及数据处理算子集成与统一管理，共计近60个功能点。
　　（2）实现贯穿数据采标、模型训练、模型效果展示全生命周期管理：重点优化多源多模态非结构化与结构化数据的标准化与一致性管理，以及点云与图像类算法模型对比与模型评测支撑能力。深度集成预处理算法库，算法评测体系扩展至15+量化指标，支持多模型对比测试与算法结果可视化展示，扩展模型版本效果量化对比展示及分析能力等超60个功能点，大幅提升公司对训练数据的一站式全生命周期管理能力，形成从数据管理到模型迭代的完整算法增强闭环。
　　（3）积极投入人工智能数据运营平台的全链路智能化体系革新，重点建设数据共建共享机制、全面升级多模态AI标注算法矩阵、有效优化分级流通合规保障体系等核心功能，创新研发自动化标注工具集群，搭建覆盖开源开放、成员共建、可信空间的三级数据生态，形成覆盖文本、语音、图像、视频的智能化处理矩阵。同时，逐步建设形成从资质认证、脱敏加密到合规审计的全流程安全管控体系，强化跨平台数据流动追溯与多角色协同能力，构筑起集数据汇聚、生产、治理、流通、应用于一体的智能化基础设施平台，推动数据要素市场基础设施向智能化、合规化、生态化方向加速演进。
　　通过上述投入，截至报告期末，公司共获得专利授权41项，获得登记的软件著作权180项。同时，公司实质性地提升了自身的数据全生命周期管理与运营能力、算法能力、工程化数据研发及生产能力，形成了更为合理、高效的人机协同智能化解决方案，持续降低训练数据开发成本，以AI赋能训练数据开发，以训练数据驱动AI产业发展。
　　2.标准化数据集产品
　　标准化数据集产品，是公司区别于众多竞争对手以定制化服务为主的特有商业模式，也是公司核心竞争力之一，标准化产品是公司基于未来行业需求的研判，在市场需求出现之前，预先开发的数据集，具有即用即取的特点，可帮助客户大幅缩短模型研发周期并有效降低数据投入成本。同时，由于产品本身的知识产权由公司享有，具有一次性研发生产、可重复多次销售的特点，因此可更好帮助公司实现未来可持续性销售、以及毛利空间提升。
　　因此，为更好适应行业发展需求，公司2024年在产品研发方面持续投入，用于开发覆盖智能语音、计算机视觉以及自然语言等传统深度学习以及大模型领域的相关数据集产品。截止报告期末，公司新增研发超150个训练数据集产品，自有知识产权的训练数据产品储备超过1,700个，尤其在多语种及多音色语音数据集和发音词典、动作捕捉等多模态数据集、以及多语种OCR和手写体数据集等方面积累了更丰富的标准化产品资源，并建成包括“大语言模型中文对话预训练数据集”、“语音大模型（声音复刻、歌曲）预训练及微调数据集”、“视觉大模型（图像-文本）预训练及微调数据集”等在内的多领域大模型数据集。
　　截止报告期末，公司已向下游客户提供了累计超过9,500次/个定制或标准化训练数据集，并已应用于个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等22类创新应用领域，赋能人工智能技术与实体经济的深度融合。
　　3.语音语言学能力
　　随着全球化扩张成为头部AI企业收入增长的重要引擎，多语种数据的作用和价值更加凸显。为更好满足客户多语种拓展需求，公司持续保持语音语言学研究力度，在语音语言学基础研究方面，公司不断丰富合作语言学家团队资源，成员遍布世界各地的学校及研究机构，在语音语言学领域具备丰富经验和技术储备。截止报告期末，公司已经拥有超过205个语种/方言的覆盖能力，不仅包括含英、法、德、意、西、日、韩等常见语种，还包括东南亚、一带一路等国家地区的罕见小语种，尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时，公司建立了成熟的发音词典构建流程，公司已积累下近140个多语种的发音词典，覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种，累计词条数超过1,200万条，可支撑构建高质量的智能语音、以及多模态训练数据，是公司的主要竞争壁垒及核心技术之一。
　　(三)其他综合能力建设情况
　　1.数据安全及合规
　　2024年，中央和地方出台了一系列有关数据要素、数字经济的法律法规和政策，同时，《促进和规范数据跨境流动规定》等法规出台，都对企业的数据安全水准和能力提出了更高要求，也为企业在数据要素、人工智能等领域的发展提供了新的机遇。
　　公司一直以来非常重视数据安全管理以及相关能力的提升，并将其作为把握新发展机遇所必须练好的“基本功”。2024年，公司在数据安全方面取得了多项工作成果。公司“AIGC训练数据业务的综合合规管理机制”案例荣获中国互联网协会首届“金灵光杯”中国互联网创新大赛企业合规赛道优秀奖。公司积极参与行业发展，提出立法建议、参与行业调研，数据安全能力获得广泛认可。
　　公司也一直坚持统筹安全与发展并重的原则，在守住安全合规底线的前提下积极拓展包括数据跨境流通在内的数据要素业务。
　　2.供应链体系
　　2024年，在AI大模型技术快速迭代的驱动下，公司战略布局医疗、金融、法律、艺术等垂直领域，深度整合产学研资源，通过与各行业的专业机构及专家的合作成功构建了覆盖诊断、智能投顾、合规风控、数字版权等细分场景的供应链资源池，不仅提升了供应链体系的响应敏捷度与行业适配性，更通过知识图谱与区块链技术的融合应用，实现了跨领域资源的智能匹配与全流程可信溯源，显著增强了供应链生态的多样性与专业壁垒。
　　在战略供应商生态构建方面，公司深度践行“共生共赢”理念，与战略供应商建立了长期稳定的合作关系，加强了与供应商的风险共担机制，共同应对市场波动和不确定性。
　　公司也进一步优化了供应链网络，特别是在海外一手资源群体的扩展方面取得了重要进展。通过建设大型数据基地及精细化管理资源池，供应链的多样性和稳定性得到了显著提升，为实现可持续性产能扩张和成本优化奠定了坚实基础。
　　在供应链管理体系建设方面，通过建立更细致的成本核算模型和流程监控节点，实现了对供应链各环节成本和效率的精准把控。同时，全面升级线上管理系统，实现了订单处理、资源配置和结算审批的一体化和实时化。
　　3.人力资源
　　报告期内，公司完成销售、生产、研发体系的绩效管理机制优化，并对内部反馈机制及奖金核算机制进行迭代，以期增强绩效牵引力实现更加公平和富于激励性的管理效果。上半年公司组织多种类专项培训及人才发展项目，在大模型领域的探索与应用进行广泛深入的内部交流，组织销售、生产、职能等多体系的软技能培训，对应届高潜毕业生、新锐力量、中坚力量、中高层管理人员采取不同的梯队建设规划，以保障人才队伍的不断夯实。文化建设方面，强化高度敬业和持续创新文化，进行榜样之星等多样化的文化倡导和活动辐射，打造更加尊重信赖和追求卓越的组织基因。同时在人才引进方面，启动海外人才招募、研发专项人才和高潜毕业生吸引计划，引入多名欧美同业专家、优质研发人员、及卓越背景应届毕业生，充实销售、研发及项目交付队伍的人才密度，发展健康、可持续、多元化的人才队伍。
　　
　　二、报告期内公司所从事的主要业务、经营模式、行业情况及研发情况说明
　　(一)主要业务、主要产品或服务情况
　　1.主要业务情况
　　公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工，最终形成可供AI算法模型训练使用的专业数据集，通过软件形式向客户交付。
　　自2005年成立以来，公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展，公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业，并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音（语音识别、语音合成等）、计算机视觉、自然语言等多个核心领域，全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。
　　公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等国内外客户的认可，应用于其研发的个人助手、智能音箱、语音导航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量超过1,050家，覆盖了科技互联网、社交、IoT、智能驾驶、大模型等领域的主流企业，以及政企、教育科研机构。
　　2.主要产品及服务情况
　　2.1主要产品及服务按业务类型分类
　　公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域，广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外，公司还提供与训练数据相关的应用服务。
　　（1）智能语音
　　人工智能在语音领域的应用技术主要包括语音识别、语音合成等。
　　语音识别（AutomaticSpeechRecognition，ASR）是让机器能够“听懂”人类语音的技术，它能使机器自动将语音信号转换为对应的文本信息。
　　语音合成（TexttoSpeech，TTS）是让机器能够“说出”人类语音的技术，它使机器能将文字信息转化为流畅的语音“朗读”出来，相当于给机器安上了人工嘴巴。
　　以日常生活中的情景为例，语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换为文字，实现了软件“听懂”语音并“听写”出文字的效果；而地图、导航软件则运用语音合成技术，实现了软件“发声说话”的效果，为用户提供即时语音导航。
　　公司通过设计（设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等）、采集（定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频）、加工（对音频文件进行切分、标注各类声音特征，形成带时间戳和特征标签的文本和标注文件等）、质检（对数据集进行质量检测，如音字一致性、标注准确率检查等）等训练数据集生产环节；或者针对客户提供的原料音频文件执行加工、质检工作，最终形成客户所需的智能语音训练数据集。
　　（2）计算机视觉
　　计算机视觉（ComputerVision，CV）是使机器具备“看”的功能的技术，它使得智能驾驶、智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。
　　以日常生活中的情景为例，在汽车的自动驾驶功能中，计算机视觉技术使得汽车能够“看见”并识别行车过程中的各种行人、路况场景，为后续作出相应的反应奠定基础；在机场、车站安检中，计算机视觉技术使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。
　　公司通过设计训练数据集结构、采集（如定义合适的人脸、动作、场景作为采集对象，组织被采集人按照要求拍摄照片、录制视频等）、加工（对图像、视频文件进行打点、拉框、分割标注等）、质检（对数据集进行质量检测，如检验图片、视频文件格式是否正确，检查光照环境、物体种类的数量是否达标，打点标框的准确率是否符合要求等）；或者对客户提供的图像、视频文件执行加工、质检工作，最终形成客户所需的计算机视觉训练数据集。
　　（3）自然语言处理
　　自然语言处理（NaturaLanguageProcessing，NLP）是使机器能够像人一样理解语言意图的技术。
　　以日常生活中的情景为例，寄送快递时使用的“智能填写”功能即运用了自然语言处理技术，在输入框中填入整段联系信息，软件应用能够理解语义，并从中识别及提取“收件人”、“联系方式”、“地址信息”等所需信息，完成自动填写；智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术，使得程序、机器能够读懂人类语言的真正意图，并相应做出反应、提供服务等。
　　公司通过设计训练数据集结构、采集（收集或编写自然语言文本、对话等数据信息）、加工（对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等）、质检（对数据集进行质量检测，如检验文本、词性或者语义的标注结果是否准确等）；或者对客户提供的自然语言文本执行加工、质检工作，最终形成客户所需的自然语言训练数据集。
　　（4）训练数据相关的应用服务
　　公司开放基于多年行业经验打磨的数据处理工具集及平台，提供包括公有云访问、私有化部署及SaaS化服务的多种能力，满足产业链上各类企业对于数据处理工具及平台能力的需求。
　　公司基于自身生产的训练数据提供算法相关的模型训练服务、模型评测服务及模型应用服务，运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定应用场景的专属算法模型，提高AI技术应用效果。
　　前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。
　　成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。
　　2.2主要产品或服务的终端应用场景
　　公司提供的高质量、大规模、结构化的训练数据，为算法模型的训练拓展提供了可靠的训练素材，助力AI技术实现实践应用及商业化落地，赋能AI技术与实体经济深度融合。公司提供的训练数据广泛应用于众多主流AI产品及终端应用的训练过程中，覆盖了个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等多种应用场景。
　　(二)主要经营模式
　　1.盈利模式
　　与主要产品及服务类型对应，公司的盈利模式主要包括以下三类：
　　（1）定制服务：公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下，公司享有服务费收入，不享有最终生成的训练数据的知识产权，不可将此类业务生产的训练数据向其他客户重复销售。
　　（2）标准化产品：公司开发自有知识产权的训练数据集产品，通过销售训练数据集产品的使用授权许可，获取让渡资产使用权收入。此类训练数据集一经开发完成，可多次销售并获取授权许可收入。
　　（3）训练数据相关的应用服务：公司基于积累的训练数据和多年行业经验提供数据处理工具集及平台服务、算法相关的模型训练、模型评测及模型应用服务，通常以软件授权或软硬件一体化形式交付平台产品、算法模型拓展、开发成果等，获取让渡资产使用权收入和技术服务等收入。
　　2.生产或服务模式
　　（1）训练数据集生产模式
　　公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。
　　公司的训练数据生产过程主要包括四个环节：设计（训练数据集结构设计）、采集（获取原料数据）、加工（数据标注）及质检（各环节数据质量、加工质量检测）。
　　（2）训练数据相关的应用服务模式
　　公司开放基于多年行业经验打磨的数据处理工具集及平台，提供包括公有云访问、私有化部署及SaaS化服务的多种能力，满足产业链上各类企业对于数据处理工具及平台能力的需求。
　　公司基于其生产的训练数据提供算法模型相关的训练、评测及应用服务，助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定应用场景（例如特定行业、特定口音等）的专属算法模型，提高AI技术应用效果。
　　以某大型科技公司客户项目为例，客户研发了特定语音识别算法模型，需要根据算法模型的实际场景（如法院庭审场景）开发落地应用。公司承担了部分落地应用拓展相关的开发工作，围绕客户的算法模型和接口开发，最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。
　　3.采购模式
　　按照采购的内容及主体划分，公司的采购包括：
　　数据服务采购：公司在数据采集、加工环节中，向人力资源服务等类型的公司等供应商采购的，非核心技术环节的原料数据采集、标注服务。
　　岗位服务采购：主要针对临时性的、不设长期岗位的业务领域的外包采购，如保洁、临时招聘服务、少量实习生招聘等。
　　其他采购：（1）训练数据生产所需的资产，主要包括软、硬件设备及其他需求物品采购；（2）日常运营所需的资产及物品，如办公用房、车辆、办公家具、计算机设备等；（3）日常专项服务采购等，主要包括审计服务、会议服务、差旅服务等。
　　上述原料数据采集、加工环节所涉及的数据服务采购，为公司最主要的采购类别，由集采中心负责；各部门岗位服务采购由人力资源部负责；其余日常运营相关的资产物品采购、专项服务采购等非业务采购由集采中心负责。财务中心负责参与采购供应商的遴选、监督与管理，并对采购费用进行核算及结算。
　　经过多年的发展，公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度，设立有完善的采购流程和体系，并与主要的供应商形成了良好稳定的长期合作关系。
　　4.营销模式
　　公司采用直接对接并服务客户的直销模式进行营销，符合行业通行惯例。公司以高质量的训练数据集及相关服务吸引客户，并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、参与学术会议和行业展会新产品发布、搭建并持续升级公司官方网站和建立自媒体矩阵等方式提升品牌知名度、开拓新客户，后续再通过商务谈判、招投标等形式获取具体业务机会。
　　(三)所处行业情况
　　1、行业的发展阶段、基本特点、主要技术门槛
　　1.1行业的发展阶段、基本特点
　　（1）政策、技术、应用协同共振，全球AI产业迈入高速发展新阶段
　　当前，全球人工智能产业正迎来历史性发展拐点，政策、技术与应用的三重共振推动行业进入高速增长通道。中、美、欧三大经济体持续加码AI布局：中国通过《新一代人工智能发展规划》和《"十四五"数字经济发展规划》等构建了涵盖技术研发、资源建设和标准制定的全链条政策体系；美国则依托《人工智能行政令》和星际之门计划（Stargate）等，持续巩固其在人工智能基础设施领域的领先优势；欧盟以《人工智能大陆行动计划》为纲领，配套《数字欧洲计划（2025-2027年工作方案》专项资金，重点培育AI与高性能计算融合创新。技术层面，人工智能也正在经历革命性突破，DeepSeekR1等开源模型通过性能提升与成本优化的双重突破，显著降低了技术应用门槛；多模态大模型（如Sora、GPT-4o）也在不断拓展AI能力边界，实现全模态互动能力。这种技术平权运动正在加速AI向千行百业渗透，大模型已逐步开始向金融、医疗、制造等核心领域进行新一轮的赋能，智能风控、AI辅助诊断、智能制造等应用场景不断丰富，推动各行业效率提升和模式创新。全球AI产业也将在上述政策引导、技术迭代与商业落地的正向循环下，迎来前所未有的发展机遇，加速向规模化、价值化阶段迈进。
　　根据国际数据公司（IDC）的数据，2024年全球人工智能(AI)IT总投资规模为3,158亿美元，预计在2028年增至8,159亿美元，年复合增长率(CAGR)为32.9%。
　　中国作为全球科技大国，也深度受益AI技术发展。根据艾瑞咨询的数据，2024至2029年中国AI产业将保持32.1%的年均复合增长率，在2029年突破1万亿的市场规模。
　　（2）训练数据作为AI发展和演进“燃料”的作用更加凸显，并逐渐成为大模型竞赛中的重要决定性要素
　　在AI产业链中，算法、算力和数据共同构成技术发展的三大核心要素。过去十多年，人工智能产业以算法为核心，通过深度学习算法的不断创新，推动人工智能产业的快速发展。但未来，当更多先进算法趋于开源，算法的差异化壁垒逐渐消除；此外，以DeepSeek为代表的算法架构创新和工程优化，带来了训练以及推理成本的大幅下降，这也意味着算力将不再是制约AI发展的核心因素。在此背景下，训练数据的重要性被进一步放大，成为未来AI发展的关键驱动因素。数据的质量、规模和精准性将直接决定模型能力的上限，高质量的训练数据不仅能显著提升模型的推断可靠性，还能有效减少幻觉和错误信息的产生，成为模型落地效果的关键。因此，高质量数据需求将呈现快速增长趋势。
　　根据Cogniytica数据统计显示，预计2027年全球AI训练数据市场规模将增长到220亿美元，2021-2027年复合增长率达32%。
　　中国作为全球人工智能产业增速最快的国家之一，相关数据需求也在快速增长。根据艾瑞咨询的数据，2024年中国人工智能基础数据服务市场规模为58亿元，2028年规模将达到170亿元，年复合增长率为30.84%。
　　（3）数据要素市场蓬勃发展，数据行业迎来更为广阔的发展机遇
　　党的二十届三中全会对加快构建促进数字经济发展体制和机制，完善数据要素市场制度规则等作出部署，为中国数据要素市场化改革发展指明了方向。2023年国家数据局成立以来，我国坚持推进数据要素市场化配置改革“一条主线”，统筹数字中国、数字经济、数字社会“三个建设”的工作思路，推动数据工作更好服务高质量发展。同时，探索完善数据基础制度体系，加快推进数据基础设施建设，提升数据资源开发和利用水平。国家数据局联合多部门制定《“数据要素×”三年行动计划（2024—2026年）》《关于促进数据产业高质量发展的指导意见》《国家数据基础设施建设指引》《关于促进数据标注产业高质量发展的实施意见》等一系列数据产业发展指导意见，体现国家高度重视数据产业高质量发展，《关于促进数据产业高质量发展的指导意见》指明了数据技术和产业重点发展方向；《关于促进数据标注产业高质量发展的实施意见》明确提出培育壮大数据标注产业对于提升数据供给质量，推动人工智能创新发展具有重要支撑作用。
　　全国各地数据要素市场化配置改革也在加速推进。例如，北京市制定2024数据工作要点，在探索和实践数据基础制度先行示范区、人工智能数据训练基地的基础上，提出“一区三中心”的建设总体思路，开展“高端数据标注基地”建设，不断完善数据基础制度，激发数据要素活力。2024年国家公布了7个数据标注基地试点城市，数据标注规模再创新高，数据标注总规模达17282TB，相当于中国国家图书馆数字资源总量的6倍左右。其中，成都市发展改革委印发《2024年成都市数字经济发展工作要点》，成都市大数据集团探索精准安全的公共数据开发运营新模式，搭建“成都市公共数据运营服务平台”，保障不同市场主体平等获取数据要素，实现数据要素配置效益最大化、效率最优化。2024年长沙市政府印发《长沙市关于推进国家数据标注基地建设的工作方案》，同时配套出台《长沙市关于推进国家数据标注基地建设若干政策（试行）》，从聚焦加快培育标注产业、支持技术创新攻关、加强专业人才培育、促进数据服务赋能等四大方面推出了14条产业政策，加大扶持力度。沈阳市推动数据要素市场化配置改革，探索数据交易服务机制，实施《沈阳市公共数据授权运营管理办法（试行）》，开展公共数据授权运营探索实践。其他地方政府也非常关注高质量数据集和数据标注产业的发展。例如，呼和浩特市政府印发《关于构建数据基础制度更好发挥数据要素作用的实施方案》，加快构建数据制度，激活数据要素潜能，更好发挥数据要素作用，增强经济发展新动能。打造内蒙古数据要素产业园，创建数据标注基地。
　　总体来看，随着“人工智能+”和“数据要素×”等国家战略行动计划的实施，全国各地均在加速推进数据要素市场化配置改革，未来将以高质量数据集建设，夯实人工智能数据基石，推动数字经济高质量发展为目标，围绕数据的汇聚、治理、标注、运营、评测、开发利用以及流通交易全流程，将产生包括数据汇聚、数据治理、数据标注、数据运营、数据评测、数据应用、数据流通、可信数据空间、数据标注基地运营等在内的新业态、新模式，将成为我国数字经济发展的新增长极。
　　（4）训练数据领域的未来发展趋势
　　随着DeepSeek、GPT-4o等成为全球范围内的现象级应用，以及以手机、具身智能为代表的AI终端的快速推出，人工智能迎来了新的发展机遇，其背后的大模型技术也正在带来相关数据需求的变化和增长。
　　a.多模态大模型正成为人工智能发展的新趋势，多模态数据需求显著上升
　　当前，大模型正经历从单模态到多模态的范式转变。多模态技术的本质在于跨模态信息融合，即通过协同处理文本、图像、音频、视频等不同形式的数据，使AI具备更接近人类的全维度认知能力。这种演进不仅显著提升了模型在跨模态任务中的鲁棒性，更解锁了诸如视觉问答、跨模态生成、智能语音交互等复杂场景的应用潜力。
　　以视觉问答为例，系统需同时解析图像中的视觉元素和文本问题的语义信息，并通过模态对齐与知识推理生成准确回答。这一过程的实现，依赖于海量高质量的图文对数据。数据服务商需构建覆盖多样化场景的问答对，通过模拟真实世界的视觉推理逻辑，训练AI建立视觉-语言联合表征能力。而在语音合成领域，要实现富有表现力的拟人化发声，仅有时序对齐的文本-语音数据远远不够，还需引入情感标签、语调标记、韵律特征等细粒度标注，让AI精确捕捉人类语言中的情感起伏和表达风格。
　　实践证明，数据质量与多样性是多模态AI发展的决定性因素：一方面，优质数据定义了模型的能力上限；另一方面，数据分布的广度直接关系到技术落地的普适性。未来，随着多模态数据生态的持续完善，AI的感知与认知能力有望实现新的跨越。
　　b.大模型发展正在从"规模驱动"向"推理驱动"转型，高质量思维链（CoT）数据成为提升大模型复杂推理能力的关键突破口
　　随着DeepSeekR1的推出，思维链技术（ChainofThought,CoT）迅速成为AI领域的研究热点。这项技术通过引导模型模拟人类逐步推理的过程，显著提升了其在逻辑推理、数学计算及复杂问答等任务中的表现。
　　过往几年，大语言模型（LLM）的发展主要遵循ScaingLaw（规模定律），即通过扩大模型参数量和训练数据规模来提升性能。然而，随着知识积累的边际效益逐渐降低，仅单纯依赖规模的增长已难以实现质的飞跃。于是，让AI像人类一样进行深度、有序的“慢思考”，成为突破现有认知能力瓶颈的关键方向。以数学问题为例，传统LLM往往直接输出最终答案，而省略中间推理过程，导致错误率居高不下。相比之下，具备CoT能力的模型会分步骤解析问题，先理解题意，再梳理已知条件，逐步推导计算，并最终验证结果的合理性。这种显式推理机制不仅大幅提高了模型的准确性，还使其决策过程更加透明，便于开发者理解和优化。
　　然而，思维链能力高度依赖高质量的CoT数据——即包含详细推理步骤的问答对。这类数据由于专业性强、标注难度高，目前仍属于稀缺资源。具体而言，优质的CoT数据需要领域专家进行人工构建，不仅要确保问题本身的复杂性，还需对解题过程中的每个逻辑进行严格验证，这种双重门槛使得数据生产周期往往长达普通标注任务的数倍。当前即便是最前沿的合成数据技术，在生成具有严密因果关系的多步推理时，仍会有相当概率出现逻辑断层，这也使得高阶人工标注目前仍是不可替代的重要数据来源。
　　c.从通用到垂直，高质量行业数据需求显著提升
　　以DeepSeek为代表的开源大模型，以其高性能、低成本，以及允许全球用户无限制商用等特点，进一步加速了AI应用的普及，激发了应用层的创新活力，使AI逐渐从通用大模型向更广泛的应用场景和行业领域拓展，AI不再局限于作为回答通用问题的智能助手，而是能够针对特定行业/场景提供解决方案，或者协助执行各类复杂任务的超级助理（AIAgent）。例如，在医疗领域，AI可以作为影像科医生辅助诊断；在法律领域，AI可以担任法律顾问提供专业咨询；同时，AIAgent也能够独立完成点外卖、制定行程、预订机票等日常任务。
　　AI不仅在传统行业与生活场景中展现出独特价值，在智能终端领域，同样掀起了革新的浪潮。例如，AI在智能手机上的应用，可以帮助用户通过文字快速创作专业级摄影大片；当海量照片让整理相册成为难题时，可以快速通过文字描述定位对应图像，实现即时快速检索。在交互层面，AI赋能的语音助手也有质的飞跃。如今的语音助手不再是简单的指令执行者，它们能理解各种不同语种、不同场景下，复杂的语义和情感，并用不同的音色情感与用户进行交互。
　　与以往通用数据处理需求不同，垂向领域的数据处理更加注重专业性。例如，传统的自然语言处理只包括基本的文本处理工作，例如，分词、词性、正则化等标注需求，这些任务无需标注人员具有特定的行业知识；相对地，开发专门领域，例如医疗大模型，则要求标注人员不仅具备扎实的医疗专业知识，还要能够熟练使用医疗术语进行专业场景下的表达，使医疗模型能够理解和生成专业的医疗内容。这种专业化的需求也对数据服务商提出了更高的要求，数据服务商不仅要对行业有深刻的理解，以设计出符合行业需求的数据解决方案，还需要具备更丰富的专家库储备，以提供高质量的数据标注服务以及相关专业咨询服务。
　　d.具身智能浪潮来袭，数据供给瓶颈亟待突破
　　具身智能作为通向通用人工智能（AGI）的关键路径与终极载体，正引领着AI发展的下一波浪潮。与传统大模型不同，具身智能的核心在于构建能够与物理世界深度交互的智能体。这不仅需要突破性的多模态感知技术（包括视觉、听觉等），更重要的是要具备基于环境感知的自主决策与执行能力。实现这一目标的关键在于海量的物理世界交互数据，目前行业主要依赖四种数据来源，机器人遥操（通过人工远程操控获取真实场景下的操作数据）、动作捕捉（记录人类在特定环境中的行为模式）、虚拟合成（利用仿真环境生成训练数据）和互联网开源数据集（整合现有的公开机器人数据）等。其中，虚拟合成技术虽解决了初期数据短缺问题，但由于"仿真差距"的存在，其数据质量往往难以满足高精度训练需求。而开源数据集则面临着数据规模有限（通常仅百万级）、采集条件单一等挑战，无法支撑复杂场景下（需要千万级数据）的模型训练需求。当前，在具身智能蓬勃发展的大背景下，高质量的数据供给短缺问题愈发凸显，具身智能的训练数据市场呈现出巨大的供需缺口，需求旺盛且潜力巨大。
　　e.国家法律法规密集落地，对数据安全及合规提出更高要求
　　近年来，数字经济规模快速扩张，数据作为数字经济时代核心生产要素，重要性更加凸显，但数据不同于传统生产要素，其中可能涉及个人隐私以及国家安全的重要信息，因此，为更好保障数字经济长期稳定的可持续发展，建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年，国家陆续出台包括《数据安全法》、《个人信息保护法》、《网络数据安全管理条例》等主流法律法规，为解决数据安全问题、净化行业快速发展中的不良乱象提供了切实可行的法律依据。
　　未来，随着AI技术不断革新，应用行业以及场景不断增加，各行业、各领域数据安全规范逐渐落地将成为趋势，对于以数据生产为主营业务的数据服务企业，数据安全及合规能力将成为数据服务能力的核心评价维度，成熟的安全合规管理体系将成为重要评价标准，能持续跟踪法律环境变化，积极响应监管政策，牢牢把握发展与安全并重的原则的企业将具有更强的市场竞争力。
　　1.2行业的主要技术门槛
　　随着AI技术不断演进、产业应用不断丰富，训练数据的市场需求呈现体量、难度、复杂性、合规性持续上升的趋势，数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力、算法辅助数据生产能力、以及数据合规管理能力，这使得行业的技术门槛持续提升，具体体现为：
　　（1）在训练数据研发、生产全流程中的算法全面介入
　　随着AI技术应用落地的规模化效应凸显，客户对于数据规模和处理效率的要求不断提升，数据服务商须在研发、生产流程中全面引入算法以实现高效、合理的人机协作模式，进而实现降本增效的目标。一般而言，在训练数据研发、生产全流程中融入算法技术，可用于训练数据集的设计及训练数据生产的各个环节，例如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低对人员的依赖（既有人员数量的降低、也有对人员标注能力要求的降低），并构建训练数据设计、加工相关的核心技术；也可用于检查训练数据集对算法模型的训练效果，进而保障训练数据集质量。
　　（2）平台工具链功能及适配性要求持续提升
　　当前，客户侧的数据采集、标注需求范围在逐渐拓宽，数据采集与标注需满足的AI应用场景比以往明显更加广泛、复杂，这就对数据服务商的平台工具能力提出了更高要求，平台上处理大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化程度如何等等这些因素都决定了平台的适配性和能力如何，并最终决定了数据处理的质量、效率、成本。
　　（3）语音语言学基础研究方面须有深厚积累
　　伴随语音技术进一步发展落地、并向各行各业和更多垂直场景不断渗透，同时受到中国企业出海需求、国外企业区域拓展需求两方面的支撑，客户在多语种、多音色、音素集、发音规则、发音词典等方面的要求在不断抬升，这意味着只有那些在语音语言学基础研究方面投入更多、拥有深厚积累的数据服务商才能满足客户在这方面的多元化需求。
　　因此，市场上仅有极少数企业通过长期自主研发的方式能够达到上述核心技术门槛，成为有能力向不同客户群体提供综合、高效、合规的数据产品及服务的供应商。
　　2、公司所处的行业地位分析及其变化情况
　　作为行业的头部阵营企业，海天瑞声在经营情况、技术实力、以及以数据安全为代表的其他综合能力方面都展示出明显优势，并具有较强国际竞争力。近年来公司紧跟AI技术发展趋势，尤
　　其关注在客户资源、技术实力、产品/服务等方面的竞争优势，树立国内领先基础数据服务商的品牌形象，以巩固公司的行业领先地位。
　　3、报告期内新技术、新产业、新业态、新模式的发展情况和未来发展趋势
　　（1）DeepSeek带火CoT技术，多领域CoT数据需求集中涌现
　　伴随DeepSeekR1的火爆出圈，其背后的思维链（CoT）技术正在成为AI领域的新焦点。该技术通过模拟人类"慢思考"认知模式，将复杂问题拆解为逻辑严密的推理链条，使AI系统在数学推导、专业决策等场景中准确率大幅提升。
　　而构建优质的CoT能力体系，需要以结构化思维数据工程为核心基础。通过在训练数据中引入包含中间推理步骤的示例，引导模型学习如何逐步进行推理，并在生成回答时模仿这种推理过程。例如，在数学领域，融入分步证明过程的CoT数据，可以使模型掌握从问题解析、公式推导到结论验证的完整认知闭环，使数学问题解决能力大幅提升；在医疗影像诊断领域，借助CoT数据训练的AI模型可基于影像特征给出逐步推理过程，提高诊断准确性和可解释性。因此，在大模型向应用/垂直领域拓展时，高质量的多领域CoT数据需求将快速增加，并成为推动AI技术发展的关键因素。
　　（2）DeepSeek加速AI应用拓展，垂向领域数据需求快速增加，标注难度不断提升
　　以DeepSeek为代表的开源大模型，凭借高性能、低成本和无限制商用等特点，加速了AI应用的普及。该技术民主化浪潮推动行业从"暴力堆参数"的通用模型竞赛，转向面向医疗、金融、制造等领域的深度价值挖掘，催生出行业数据处理需求的指数级增长。与通用类数据处理不同，行业数据处理难度更大、更加注重专业性，对数据服务商的综合能力也提出了更高的要求。一方面，数据服务商需具备行业knowhow，以设计出符合行业需求的数据解决方案；另一方面，随着模型向更专业化和精细化方向发展，丰富的高质量的垂类专家资源也至关重要，目前数据服务公司会在高校密集地区建立数据标注基地，以获取更广泛的高质量的数据标注资源。
　　（3）具身智能的训练数据市场呈现出巨大的供需缺口，需求旺盛且潜力巨大
　　具身智能作为实现通用人工智能（AGI）的关键路径与终极载体，正在受到更多的关注。国家层面，工信部等七部门联合印发《关于推动未来产业创新发展的实施意见》，将具身智能纳入未来制造、未来信息等六大战略方向。地方层面，北京、深圳、广州、上海等城市已出台专项行动计划，通过资金以及政策支持，深入推动具身智能产业发展。具身智能需要机器人在复杂的真实世界中实现自主感知、学习和适应，而该能力的构建则依赖大量的高质量的数据。目前，业内主要包含四种数据获取方式，分别是遥操作技术收集的真机数据、3D环境中模拟的合成数据、动作捕捉获取的人类动作数据、以及从互联网收集的非结构化视频或图像数据。
　　然而，具身智能若想达到更佳的训练效果，尤其是在泛化能力提升方面（即让机器人能够在陌生环境下自主识别和完成任务），仍需要海量的（约数十亿级别）来自“真实物理环境”的动态交互数据进行训练，而非简单的合成数据或互联网获取的数据。但目前，由于真实世界数据获取成本高、时间长，数据体量远无法支持通用机器人的发展。因此，目前具身智能的训练数据市场正面临巨大的供需缺口，需求旺盛，未来增长潜力巨大。
　　（4）数字经济发展催生新型数据服务模式
　　发展数字经济将成为我国经济“弯道超车”以及挖掘经济内生增长的重要战略举措。国家在数字经济建设方面决心极为坚定，通过《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》、《数字中国建设整体布局规划》等政策文件的密集发布以及组建成立国家数据局等方式，进一步统筹并加速落地数字经济发展战略，而数据要素作为深化数字经济发展的核心引擎，也将迎来新的发展机遇。未来，围绕数据确权、汇聚、处理、利用和流通等环节将会产生巨大的增量市场空间，催生出围绕公共数据以及行业数据开发的新型数据服务需求，以及以基地建设、数据平台开发运营、数据交易为代表的新业态、新模式。
　　(四)核心技术与研发进展
　　1、核心技术及其先进性以及报告期内的变化情况
　　公司高度重视并坚持科技创新，通过持续的研发投入积累形成了12项核心技术，覆盖基础研究、平台工具、训练数据生产三个层次，应用于训练数据生产的设计、采集、加工、质检全流程之中；按照从底层自下而上的顺序对上述三个层次的核心技术情况介绍如下：
　　上述核心技术构成了公司生产经营的基础，通过上述核心技术的成果转化，公司形成了基于核心技术的训练数据相关产品和服务。具体所示，其中5项核心技术具备较高技术壁垒：
　　（1）基础研究层面，报告期内，公司持续在智能语音、计算机视觉、自然语言、以及包括智能驾驶、大模型为代表的垂直领域进行技术拓展，并有多项核心技术取得显著进展。例如，在基础算法研究方面，新增数十个基础模型，包括巴什基尔语、卡纳达语、林加拉语等多个ASR语音识别模型、语音无监督数据自动清洗模型、2D-3D融合连续帧交通目标检测模型、3D点云地面自适应检测模型、4D车道线长度动态自适应调整算法、图片美学评分模型等众多模型；同时完成了多个现有模型的优化升级，3D点云目标检测算法准确率提升10%以上、3D点云跟踪算法准确率提升20%以上；在大模型算法与应用研发领域内，探索语音大模型所需要的无监督训练数据自动清洗技术、视觉大模型所需要的图文对数据标注技术在数据自动化处理领域内的应用，并利用LLM大模型完成中文发音预测算法升级，准确率提升20%以上；设计并搭建语音大模型训练框架，完成覆盖40+东方语种的语音识别模型的训练、微调及评测工作，在多项指标中获得SOTA。
　　（2）平台工具层面，持续提升了标注平台对智能驾驶领域前沿算法所需的数据标注服务支撑能力。实现了千万级大规模点云语义分割的技术难点突破与落地，完成了多项4D标注相关平台能力升级，并重点优化了点云语义分割和2D-3D融合连续帧点云标注平台的能力，创新性地设计并实现了点云动静态目标物多帧协同标注套件，大幅提升标注效率。重构了包括副语言标注、打点标注、音素边界标注等在内的多项标注流程，实现了高精度实时语音流线上化处理与可视化渲染，进一步扩展了平台多模态数据融合标注工具能力。
　　（3）训练数据生产层面，重点建设了高性能多源、多维度实时大数据分析系统，实现项目管理数据的交互式智能探查与分析，提升数据透明度，优化了数据同步技术与实时采集质控技术的自动检测与错误报告机制，扩展了算法在实时交互式标注与质检中的应用场景，增强了对多语种、多模态数据支持，进一步提升公司训练数据生产的精细化、智能化管理。
　　以上技术突破均将对更广泛人工智能数据服务产生积极影响。报告期内，公司新申请软件著作权8项。具体见第三节“管理层讨论与分析”二、（四）“核心技术与研发进展”之“报告期内获得的知识产权列表”。
　　2、报告期内获得的研发成果
　　报告期内，公司新申请发明专利5项并均获受理，获得发明专利授权4项；新申请软件著作权8并均获受理，获得登记的软件著作权7项，均为原始取得。截至2024年12月31日，公司共获得专利授权41项，获得登记的软件著作权180项。
　　3、研发投入情况表
　　4、在研项目情况
　　情况说明
　　根据业务发展需要和技术升级要求，部分项目预计总投资规模相较2024年半年度报告有所调整。
　　5、研发人员情况
　　6、其他说明
　　
　　三、报告期内核心竞争力分析
　　(一)核心竞争力分析
　　1.研发优势
　　公司拥有同行业具有竞争力的综合研发实力，截至报告期末，公司研发团队规模为79人，研发能力全面覆盖平台工具开发、算法研究、产品设计等多条主线。公司核心研发人员均曾服务于全球顶尖科技企业或毕业于名校，组成了公司坚实的研发领导核心力量。同时，多年来，公司积累了较为完备的综合性、一体化数据处理平台及工具体系，覆盖智能语音、计算机视觉、自然语言等全业态领域，可服务于市面上绝大多数数据处理场景需求，包括但不限于智能驾驶、智能家居、个人助手、内容生成等。公司还设置了专门的产品研发部门及AI+研发部门，可前瞻性挖掘和布局新兴市场需求，抢占市场先机。此外，基于公司在训练数据领域多年积累下的大量、多元化数据以及数据处理经验，通过算法平台团队与数据业务团队无缝衔接，公司可更好完成预识别算法性能提升，实现少量数据注入->算法训练->标注员反馈->模型生成->处理大量数据的自闭环体系，助力公司做大规模、提升效率、降低成本。同时，20年数据行业的从业经验积累，使得公司具备较强的数据生产工程化能力，可助力公司大幅缩短数据研发及生产周期，为公司抢占市场提供了有力支撑。上述因素共同驱动公司构建较高的行业技术壁垒。
　　2.产品优势
　　通常来说，标准化数据集产品具有可即时获取、价格相对优惠等特点，因此市场需求旺盛。但由于标准化数据集产品是先于客户需求形成，需要数据服务商具备较强的市场趋势前瞻能力、以及财务实力进行提前投入，因此行业中具备标准化数据集产品规模化生产能力的服务商较为有限，该方向具备较高竞争壁垒。
　　对于公司而言，标准化训练数据集产品的知识产权由公司享有，具有一次性研发生产、可重复多次销售的特点，可显著助力公司毛利水平提升，实现训练数据产品的规模化效应，因此也是公司区别于众多竞争对手的一个优势亮点。
　　公司基于20年数据服务经验、以及对客户需求的深刻理解，持续开拓标准化数据集，自有知识产权的训练数据产品储备超过1,700个，全面覆盖智能语音、计算机视觉、自然语言等多条业务线。
　　3.语音语言学能力优势
　　随着境外客户全球化扩张以及境内客户出海成为新的行业发展趋势，多语种能力成为数据服务领域的核心竞争力之一，而语音语言学储备则是实现多语种拓展的重要前提。经过多年积累，公司已沉淀下深厚的语音语言学基础研究成果，并已将其运用至构建高质量的智能语音、以及多模态训练数据。在语音语言学基础研究领域，公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累，以及不断创新的发音词典构建技术和流程技术。截止报告期末，公司已经拥有超过205个语种/方言的覆盖能力，不仅包括含英、法、德、意、西、日、韩等常见语种，还包括东南亚、一带一路等国家地区的罕见小语种，尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时，公司已积累下近140个多语种的发音词典，覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种，累计词条数超过1,200万条，可支撑构建高质量的智能语音、以及多模态训练数据，是公司的主要竞争壁垒及核心技术之一。
　　4.数据安全及合规能力优势
　　海天瑞声自成立之初即把数据安全、数据合规视为生命线，公司在多年的数据风险识别和管理实践中，已经形成了较为成熟的安全、合规管理体系。资质方面，公司拥有ISO27001信息安全管理体系认证、ISO27701隐私信息管理体系认证、国家信息系统安全等级保护三级备案、北京市规划和自然资源委员会行政许可乙级测绘资质等。行业参与方面，公司入选中共中央网络安全和信息化委员会办公室“人工智能企业典型应用案例”，相关业务和数据安全实践受到《人民日报》等权威媒体报道和关注。公司为中国信通院数据安全推进计划成员单位，董事兼总经理李科连续入选该计划数安智库专家，其所参与、领导的公司数据安全工作，受到《北京日报》等权威媒体报道。此外，公司积极参与行业发展，入选国家标准《信息技术人工智能术语》核心参编单位、《人工智能数据标注平台技术要求和测试方法》核心参编单位，数据安全能力获得认可并产生广泛、积极的行业影响。
　　(二)报告期内发生的导致公司核心竞争力受到严重影响的事件、影响分析及应对措施
　　
　　四、风险因素
　　(一)尚未盈利的风险
　　(二)业绩大幅下滑或亏损的风险
　　(三)核心竞争力风险
　　1.核心技术快速迭代的风险
　　由于人工智能行业整体发展较为迅速，应用领域和应用场景不断拓展，下游需求随着行业发展不断发生变化，公司进行数据开发所需的各项技术也面临着快速迭代更新的风险。如果公司无法保持对行业发展趋势的洞察能力以及对研发人才的有效组织和研发经费的经济投入，则可能导致公司在行业技术快速迭代过程中无法持续保持技术先进性和技术优势，进而对公司的客户拓展、产品创新和经营业绩造成不利影响。
　　2.核心技术人员流失风险
　　随着行业的持续发展，行业内企业之间对于高端人才的竞争日益激烈，如果公司无法持续加强核心技术人员的培养及引进并为核心技术人员提供有竞争力的激励机制和薪资待遇，则将存在核心技术人员流失的风险，公司的技术水平、研发能力也将受到不利影响。
　　3.核心技术失密风险
　　公司的数据产品和服务均以核心技术为基础。公司制定了严格的保密制度并严格执行，但上述措施仍无法完全避免公司核心技术的失密风险。如果公司相关核心技术的内控和保密机制不能得到有效执行，则可能导致公司核心技术失密的风险。
　　4.训练数据标准化产品无法实现授权销售的风险
　　公司根据对算法模型应用领域、行业发展趋势、市场需求等的评估和研判，自行设计并开发多种训练数据集标准化产品，开发完成后根据客户实际需求进行销售，授权给客户使用。在该种业务类型下，公司开发训练数据集产品，承担开发费用，并拥有训练数据集产品的知识产权。如果公司开发的训练数据集产品不能满足下游客户对训练数据的要求，则可能存在无法实现授权销售的风险，进而对公司未来的经营业绩产生不利影响。
　　5.数据安全相关风险
　　公司主要从事训练数据的研发设计、生产及销售业务，所提供的产品和服务主要以数据的形式体现。一方面，随着公司业务的快速发展和规模的持续扩张，原料数据采集与数据加工的数量持续增长；另外一方面，包括《数据安全法》、《个人信息保护法》、《生成式人工智能服务管理暂行办法》、《网络数据安全管理条例》等在内的与数据安全、个人信息保护相关的法律规章体系正逐步完善。公司如果未能按照法律规章或客户的更新要求及时调整现行业务开展方式、公司的数据安全管理体系研发升级未能跟上业务发展的需要、或客户未能遵守训练数据产品保护相关商业约定，则公司可能产生诉讼纠纷或面临生产经营不符合法律规章的要求、训练数据产品被泄露、盗版等数据安全相关风险。
　　同时，《数据出境安全评估办法》、《促进和规范数据跨境流动规定》等法律法规加强了对境内收集或产生的个人信息数据的跨境行为的规制。如果将来公司未能根据相关要求及时履行相应的程序，公司开展的属于该办法限定范围内的境外业务将受到一定程度的影响。
　　(四)经营风险
　　1.收入主要来自老客户，新客户收入占比较低的风险
　　报告期内，公司收入主要来自老客户、占比达到85.24%，新客户收入占比较低。公司正致力于维护老客户、拓展新客户，若老客户降低对公司产品、服务的采购量或公司未能维持与老客户的合作关系，则公司的经营情况将受到不利影响；若新客户拓展情况不达预期，则公司的经营情况也将受到不利影响。
　　2.新业务拓展风险
　　随着人工智能行业持续快速地增长，下游客户对高质量、结构化、大规模训练数据的需求将持续增加。公司能否紧跟下游需求变化，加深对下游行业基础技术的理解并开发出更多的业务机会，一方面受到行业发展状况、市场需求变化以及市场竞争状况等因素影响，另一方面也取决于公司对于下游众多新领域新场景的理解认知以及合作拓展能力等诸多因素。因此，公司新业务的开拓可能不及预期或者遇到其他不利因素，进而对公司未来的经营业绩产生不利影响。
　　3.采购成本上升风险
　　报告期内，公司进行采购原料数据采集、标注所支付的数据服务费占全年与主营业务相关的采购总额的比重较高，达到80.45%。随着城乡生活成本的持续提升，前述采购价格可能存在持续上升的趋势，若公司的技术发展带来的效率提升无法抵消前述采购成本上升的影响，可能会对公司的经营业绩带来一定不利影响。
　　(五)财务风险
　　(六)行业风险
　　1.市场竞争加剧的风险
　　公司所在的细分领域为AI基础数据服务领域。近年来，参与该行业的公司不断增多，由于整体行业较新，行业标准和法律监管仍处于规范阶段，因此整体行业目前处于高速发展且格局未定的状态，导致市场竞争加剧。公司如果不能持续有效地制定并实施业务发展规划，则将受到竞争者的挑战，从而面临市场竞争加剧而导致的经营状况下滑、市场地位下降和可能失去主要客户的风险，进而影响公司的盈利能力和发展潜力。
　　2.业务发展受下游人工智能领域发展状况影响较大的风险
　　公司主要为AI产业链上的各类机构提供算法模型开发所需的训练数据，服务于下游人工智能行业发展。公司的经营情况、业务发展与下游人工智能领域的发展状况息息相关。若未来人工智能领域景气度下降，或因技术更迭使得对训练数据的市场需求发生变动，将对公司业绩产生较大影响。
　　(七)宏观环境风险
　　1.经营业绩受税收优惠政策影响较大的风险
　　报告期内，公司享受了增值税即征即退、高新技术企业和研发费用加计扣除等一系列税收优惠，经营业绩受税收优惠政策影响较大。如果未来公司所享受的税收优惠政策出现不利变化，或者公司不再符合税收优惠的条件，则公司将无法持续享受税收优惠或存在所享受的税收优惠减少的可能性，并进而对公司未来经营业绩和现金流水平造成不利影响。
　　2.汇率波动风险
　　海天瑞声作为一家面向全球的训练数据服务商，拥有数量众多的境外客户，遍布美国、韩国、日本等各地区，报告期内公司境外收入占比为47.94%，该等收入使用外币进行结算，并受人民币汇率水平变化的影响。人民币汇率可能受到国内外政治、经济环境等因素的影响，存在波动风险，进而对公司的经营业绩产生不利影响。
　　3.中美贸易摩擦风险
　　公司产品和服务的主要出口地包括美国、日韩等国家或地区。报告期内，公司出口美国的营业收入占当期公司营业收入的比重为32.86%。公司相关境外业务始终严格遵守中国及他国法律。但国际局势瞬息万变，近年来中美贸易摩擦不断，如果中美双方出台新的贸易保护主义措施，可能会影响美国市场相关客户将数据提供给公司用于标注，减少与公司进行训练数据方面的业务合作，公司相关业务可能会受到约束，将会对公司的生产经营产生不利影响。
　　(八)存托凭证相关风险
　　(九)其他重大风险
　　实际控制人控制不当的风险
　　截止报告期末，贺琳直接持有公司1,213.76万股股份（占总股本的20.12%），并通过控制中瑞安间接控制公司693.58万股股份（占总股本的11.50%），合计控制公司31.62%的股份，为公司实际控制人。
　　如果实际控制人利用其控制地位，通过行使表决权或其他方式对公司财务管理、人事、发展战略、经营决策等重大事项施加不利影响，其他股东的利益可能受到损害。
　　
　　五、报告期内主要经营情况
　　报告期内，公司实现业务收入2.37亿元，较上年同期增加39.45%；实现归属于母公司所有者净利润1,133.61万元，较上年同期增加4,172.13万元；扣非后归母净利润497.35万元，较上年同期增加4,844.42万元。截至报告期末，公司总资产为8.08亿元，归属于母公的所有者权益为7.43亿元，分别较上年末减少1.95%和4.99%。
　　
　　六、公司关于公司未来发展的讨论与分析
　　(一)行业格局和趋势
　　(二)公司发展战略
　　2025年，公司将在保障基础数据业务稳健发展的同时，寻求新的业绩增长点。首先，公司将以全球化战略扩张为核心，通过全球化营销体系搭建、升级，进一步深化全球化发展策略，持续扩大公司的全球卡位优势。同时，公司将继续聚焦大模型赛道，重点投入多语种语音和视觉数据集，完善CoT推理数据体系。同时布局具身智能新兴赛道，填补真实场景数据空白。随着"AI+"战略推进，公司将加速扩充金融、医疗等垂直领域数据资源，把握大模型行业落地机遇，持续巩固市场领先地位。此外，公司也将持续探索以数据要素为代表的高增长业务领域，基于过往数据服务能力，通过前沿市场跟踪，不断拓展服务边界，探索潜在增量市场空间。
　　(三)经营计划
　　2025年，公司将围绕既定战略，继续发扬二次创业精神，坚守“构筑智能世界数据基石”使命，不断提升核心能力，优化用户体验，促使业务长期健康稳定发展。2025年公司具体经营计划如下：
　　1、夯实传统业务，探索新兴业务
　　（1）全球化业务
　　伴随Sora、GPT-4o、DeepSeek等陆续推出，AI产业蓬勃发展，全球AI驶入加速发展轨道。为更好把握国际市场需求，公司将推出一项更为全面的出海战略，将涵盖海外供应链体系建设、海外本土销售团队扩张、以及市场推广等各方面，全面加速全球市场的拓展。
　　公司将借助新设海外交付体系，弥补海外服务能力短板，扩张海外定制服务业务；同时，将在科技巨头聚集的北美地区扩充高素质海外销售团队，并择机在欧洲、日韩等地增设本土力量，以提高客户体验和满意度；此外，也将通过积极参与国际学术会议来拓展客户和渠道。展望未来，公司将不断提升交付、销售和市场的综合实力，全力支持国际化战略的进一步执行，争取在海外市场实现新的飞跃。
　　（2）大模型数据业务
　　大模型技术是AI发展的核心推动力量，已成为公司的核心增长引擎之一。2025年，公司将重点投入大模型领域，持续更新以多语种语音、以及通用场景、特定领域的视觉为代表的多模态数据集产品，更好服务大模型语音交互和视觉理解、视觉生成等需求；同时，积极扩展CoT数据集储备，在K12、大学专业课程、理科竞赛、代码等领域构建权威专家题库和详尽解题流程，助力大模型适用各领域的复杂推理任务。另一方面，具身智能作为AGI终极载体，已驶入快速发展轨道，但高质量真实场景的具身智能数据仍存在大量缺口，公司将尝试布局该类新兴领域，从数据角度助力产业发展。同时，伴随DeepSeek带来的大模型性能和成本的革命，大模型已初步具备赋能千行的百业的基础，“AI+”继续成为国家重要战略，由此，垂类数据处理需求将呈现快速增长趋势，公司将积极扩张专业领域标注资源储备，抢抓大模型行业落地机遇。
　　（3）新兴业务探索—数据要素业务
　　数据已成为数字经济时代最重要的生产要素之一，随着世界各国的数字经济战略实施，数据要素这一战略资源备受重视，也被称为二十一世纪的“新能源”。2025年，公司将紧跟国家数据要素领域的政策指引，基于过往业务能力持续探索数据要素市场培育过程中的新业务、新模式，围绕数据的汇聚、生产加工、开发利用以及流通交易等各环节，探索包括和当地政府共建高质量数据集（公共数据、行业数据）、建设数据可信空间（提供数据处理平台、运营平台、基于高质量数据的模型训练）、数据标注基地运营、中小企业数据治理服务；同时，公司也将基于DeepSeek等开源模型以及自身的数据服务能力，开发行业智能体解决方案，切实将公司的数据要素能力赋能给政企客户，助力国家数字经济的高质量发展。
　　2、聚焦主业，进行全方位核心能力建设
　　（1）核心技术
　　2025年，公司将继续秉承技术+产品双轮驱动的核心理念，围绕智能语音、计算机视觉、自然语言等基础业务领域、以及重点服务以大模型为主的新兴技术方向的数据需求，在数据管理平台建设、语音大模型前沿技术探索、业务线平台升级、新语言研究、以及多语种多模态数据布局等方面取得实质性成果，加强技术能力护城河，助力公司不断向实现训练数据生产智能化、规模化方向迈进，确保公司核心竞争力不断提升。
　　（2）数据安全
　　近年来，随着《数据安全法》、《个人信息保护法》、《网络数据安全管理条例》、《数据出境安全评估办法》、《促进和规范数据跨境流动规定》等法律法规快速落地实施，公司所处行业的法律环境正在快速趋严，在此背景下，数据安全、个人信息保护已成为行业客户选择数据服务商时的重要考量因素以及新的行业壁垒。2025年，公司将继续加大数据安全及合规能力体系建设，通过完善内部制度流程建设、根据业务发展方向提前进行资质布局、广泛参与行业交流、不断提升企业数据安全及合规技术和机制等方式，提升应对更高标准、更严格的数据监管要求的能力，提高整体数据安全保障水平，将之逐步打造成为核心竞争力之一，更好地为公司数据业务发展和数据要素市场开拓提供保障和助力。
　　（3）供应链
　　2025年，公司将继续推进供应链管理的智能化和自动化。实时监控供应链运行状态，提前识别并应对风险。在数据管理方面，完善数据可视化平台，新增实时数据展示模块以优化用户体验，并加强数据安全管理，确保数据的保密性、完整性和可用性。
　　在供应链优化与创新方面，持续推进供应商多元化战略，扩大供应商的地理分布和行业覆盖，深化与供应商的协同合作；加大海外资源池建设投入，优化海外资源布局，提升全球供应链的竞争力。同时，加强供应链韧性建设，完善风险管理体系，提高应对突发事件的能力。
　　在人才培养与团队建设方面，加大供应链人才的培养和引进力度，提升员工数字化技能，鼓励团队协作与创新，为供应链建设提供坚实的人才支持。
　　（4）市场营销
　　2025年，为更好支撑全球化发展战略，公司将持续加大全球市场营销体系建设，进一步升级品牌战略工程。公司将继续增加品牌营销投入，在持续拓展社交平台、直播平台、搜索引擎等多渠道营销的同时，积极参与海内外顶级AI会议，持续提升公司品牌认知度以及客群辐射范围。公司将加大境外本土营销团队建设，通过进一步织密客户服务网络，提升客户服务体验。在国内，公司将持续为各领域合作伙伴提供专业的新型高质量AI数据解决方案，提升客户服务满意度，同时通过开源语音大模型Dophin不断提升公司技术影响力。
　　（5）人力资源
　　在人工智能行业瞬息万变高速发展的大背景下，公司应对市场变化、保持领先地位、突破业务和技术创新的动力来自于组织和人才的高质量发展，人力资源工作以业务中长期发展目标的实现为核心导向，在2025年将着力部署如下关键动作：
　　-全力丰富高中基层人才密度，建设充沛健康持久的人才梯队，尤其以人工智能和训练数据领域的创新人才吸引招募为最高优先级，辅以各层梯队的人才能力建设，全力支持公司核心战略的部署；
　　-高效监控人工成本的投入产出，通过人效的提升，确保经营目标的有效实现；
　　-优化销售、生产、研发等多体系的绩效和薪酬管理机制，辅以员工持股等中长期激励方式，更为有效的牵引员工与公司一起实现业务目标。收起▲