海天瑞声(688787) 经营分析_F10_同花顺金融服务网

主营介绍

主营业务：
AI训练数据的研发设计、生产及销售业务。
产品类型：
智能语音、计算机视觉、自然语言处理、训练数据相关的应用服务
产品名称：
智能语音、计算机视觉、自然语言处理、训练数据相关的应用服务
经营范围：
一般项目：技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广；软件开发；软件销售；计算机软硬件及辅助设备零售；计算机软硬件及辅助设备批发；货物进出口；技术进出口；非居住房地产租赁。（除依法须经批准的项目外，凭营业执照依法自主开展经营活动）许可项目：第二类增值电信业务；互联网信息服务；职业中介活动。（依法须经批准的项目，经相关部门批准后方可开展经营活动，具体经营项目以相关部门批准文件或许可证件为准）(不得从事国家和本市产业政策禁止和限制类项目的经营活动。)

运营业务数据

累计值

最新公告日期：2025-08-30　

业务名称	2025-06-30	2024-12-31	2024-06-30	2023-12-31	2022-12-31
境内业务营业收入(元)	8318.45万	-	-	-	-
境内业务营业收入同比增长率(%)	70.70	-	-	-	-
海外业务营业收入(元)	7351.14万	-	-	-	-
海外业务营业收入同比增长率(%)	68.24	-	-	-	-
专利数量:授权专利(个)	1.00	11.00	0.00	30.00	24.00
专利数量:授权专利:其他(个)	0.00	0.00	0.00	14.00	12.00
专利数量:授权专利:发明专利(个)	0.00	4.00	0.00	6.00	5.00
专利数量:授权专利:外观设计专利(个)	0.00	0.00	0.00	0.00	0.00
专利数量:授权专利:实用新型专利(个)	0.00	0.00	0.00	0.00	0.00
专利数量:授权专利:软件著作权(个)	1.00	7.00	0.00	10.00	7.00
专利数量:申请专利(个)	0.00	22.00	5.00	30.00	12.00
专利数量:申请专利:其他(个)	0.00	9.00	0.00	15.00	0.00
专利数量:申请专利:发明专利(个)	0.00	5.00	0.00	5.00	5.00
专利数量:申请专利:外观设计专利(个)	0.00	0.00	0.00	0.00	0.00
专利数量:申请专利:实用新型专利(个)	0.00	0.00	0.00	0.00	0.00
专利数量:申请专利:软件著作权(个)	0.00	8.00	5.00	10.00	7.00
境外业务营业收入(元)	-	-	4369.53万	-	-
业务收入:智能驾驶业(元)	-	-	-	-	4174.51万

主营构成分析

报告期

加载中...

营业收入 X

收入比例

营业收入

单位（%）单位（万元）

业务名称		营业收入(元)	收入比例	营业成本(元)	成本比例	主营利润(元)	利润比例	毛利率
加载中...

注：通常在中报、年报时披露　

主要客户及供应商

您对此栏目的评价：有用没用提建议

前5大客户：共销售了1.03亿元,占营业收入的43.59%

客户1
客户2
客户3
客户4
客户5
其他

客户名称	销售额（元）	占比
客户1	5253.35万	22.16%
客户2	1361.23万	5.74%
客户3	1331.23万	5.62%
客户4	1223.96万	5.16%
客户5	1163.32万	4.91%

前5大供应商：共采购了4077.16万元,占总采购额的36.67%

供应商1
供应商2
供应商3
供应商4
供应商5
其他

供应商名称	采购额（元）	占比
供应商1	1282.80万	11.54%
供应商2	847.27万	7.62%
供应商3	780.58万	7.02%
供应商4	681.60万	6.13%
供应商5	484.91万	4.36%

前5大客户：共销售了5679.58万元,占营业收入的33.41%

客户1
客户2
客户3
客户4
客户5
其他

客户名称	销售额（元）	占比
客户1	1254.04万	7.38%
客户2	1214.90万	7.15%
客户3	1213.58万	7.14%
客户4	1095.57万	6.44%
客户5	901.49万	5.30%

前5大供应商：共采购了3170.34万元,占总采购额的32.84%

供应商1
供应商2
供应商3
供应商4
供应商5
其他

供应商名称	采购额（元）	占比
供应商1	1075.79万	11.14%
供应商2	742.26万	7.69%
供应商3	575.50万	5.96%
供应商4	435.13万	4.51%
供应商5	341.66万	3.54%

前5大客户：共销售了1.18亿元,占营业收入的44.89%

客户1
客户2
客户3
客户4
客户5
其他

客户名称	销售额（元）	占比
客户1	2805.77万	10.67%
客户2	2753.70万	10.47%
客户3	2588.84万	9.85%
客户4	1849.67万	7.04%
客户5	1802.93万	6.86%

前5大供应商：共采购了7434.49万元,占总采购额的56.88%

供应商1
供应商2
供应商3
供应商4
供应商5
其他

供应商名称	采购额（元）	占比
供应商1	4147.01万	31.73%
供应商2	1580.09万	12.09%
供应商3	777.55万	5.95%
供应商4	516.61万	3.95%
供应商5	413.23万	3.16%

前5大客户：共销售了8571.94万元,占营业收入的41.52%

客户1
客户2
客户3
客户4
客户5
其他

客户名称	销售额（元）	占比
客户1	2339.01万	11.33%
客户2	2293.76万	11.11%
客户3	1830.03万	8.86%
客户4	1055.44万	5.11%
客户5	1053.70万	5.10%

前5大供应商：共采购了8387.29万元,占总采购额的75.94%

供应商1
供应商2
供应商3
供应商4
供应商5
其他

供应商名称	采购额（元）	占比
供应商1	5381.83万	48.73%
供应商2	1780.98万	16.12%
供应商3	441.78万	4.00%
供应商4	406.02万	3.68%
供应商5	376.68万	3.41%

前5大客户：共销售了1.17亿元,占营业收入的50.24%

微软
阿里巴巴
腾讯
三星
字节跳动
其他

客户名称	销售额（元）	占比
微软	4332.18万	18.56%
阿里巴巴	3030.38万	12.99%
腾讯	1830.75万	7.84%
三星	1383.66万	5.93%
字节跳动	1149.06万	4.92%

前5大供应商：共采购了6972.22万元,占总采购额的77.25%

善世(广东)企业服务外包有限公司与共青城
北京博睿驰信人力资源有限公司与恩泽尔商贸
李宏
北京冠华英才国际经济技术有限公司
Voices.com Inc
其他

供应商名称	采购额（元）	占比
善世(广东)企业服务外包有限公司与共青城	4403.16万	48.78%
北京博睿驰信人力资源有限公司与恩泽尔商贸	1592.40万	17.64%
李宏	494.44万	5.48%
北京冠华英才国际经济技术有限公司	252.39万	2.80%
Voices.com Inc	229.83万	2.55%

董事会经营评述

　　一、报告期内公司所属行业及主营业务情况说明：
　　（一）所属行业情况
　　1.行业的发展阶段、基本特点、主要技术门槛
　　1.1行业的发展阶段、基本特点
　　（1）政策、技术、应用协同共振，全球AI产业迈入高速发展新阶段
　　当前，全球人工智能产业正迎来历史性发展拐点，政策、技术与应用的三重共振推动行业进入高速增长通道。中、美、欧三大经济体持续加码AI布局：中国通过《新一代人工智能发展规划》和《"十四五"数字经济发展规划》等构建了涵盖技术研发、资源建设和标准制定的全链条政策体系；美国则依托《人工智能行政令》和星际之门计划（Stargate）等，持续巩固其在人工智能基础设施领域的领先优势；欧... 查看全部▼

　　一、报告期内公司所属行业及主营业务情况说明：
　　（一）所属行业情况
　　1.行业的发展阶段、基本特点、主要技术门槛
　　1.1行业的发展阶段、基本特点
　　（1）政策、技术、应用协同共振，全球AI产业迈入高速发展新阶段
　　当前，全球人工智能产业正迎来历史性发展拐点，政策、技术与应用的三重共振推动行业进入高速增长通道。中、美、欧三大经济体持续加码AI布局：中国通过《新一代人工智能发展规划》和《"十四五"数字经济发展规划》等构建了涵盖技术研发、资源建设和标准制定的全链条政策体系；美国则依托《人工智能行政令》和星际之门计划（Stargate）等，持续巩固其在人工智能基础设施领域的领先优势；欧盟以《人工智能大陆行动计划》为纲领，配套《数字欧洲计划（2025-2027年工作方案》专项资金，重点培育AI与高性能计算融合创新。技术层面，人工智能也正在经历革命性突破，DeepSeek R1等开源模型通过性能提升与成本优化的双重突破，显著降低了技术应用门槛；多模态大模型（如Genie3、GPT-5）也在不断拓展AI能力边界，实现全模态互动能力。这种技术平权运动正在加速AI向千行百业渗透，大模型已逐步开始向金融、医疗、制造等核心领域进行新一轮的赋能，智能风控、AI辅助诊断、智能制造等应用场景不断丰富，推动各行业效率提升和模式创新。全球AI产业也将在上述政策引导、技术迭代与商业落地的正向循环下，迎来前所未有的发展机遇，加速向规模化、价值化阶段迈进。
　　根据国际数据公司（IDC）的数据，2024年全球人工智能(AI)IT总投资规模为3,158亿美元，预计在2028年增至8,159亿美元，年复合增长率(CAGR)为32.9%。
　　中国作为全球科技大国，也深度受益AI技术发展。根据艾瑞咨询的数据，2024至2029年中国AI产业将保持32.1%的年均复合增长率，在2029年突破1万亿的市场规模。
　　（2）训练数据作为AI发展和演进“燃料”的作用更加凸显，并逐渐成为大模型竞赛中的重要决定性要素
　　在AI产业链中，算法、算力和数据共同构成技术发展的三大核心要素。过去十多年，人工智能产业以算法为核心，通过深度学习算法的不断创新，推动人工智能产业的快速发展。但未来，当更多先进算法趋于开源，算法的差异化壁垒逐渐消除；此外，以DeepSeek为代表的算法架构创新和工程优化，带来了训练以及推理成本的大幅下降，这也意味着算力将不再是制约AI发展的核心因素。在此背景下，训练数据的重要性被进一步放大，成为未来AI发展的关键驱动因素。数据的质量、规模和精准性将直接决定模型能力的上限，高质量的训练数据不仅能显著提升模型的推断可靠性，还能有效减少幻觉和错误信息的产生，成为模型落地效果的关键。因此，高质量数据需求将呈现快速增长趋势。
　　根据Cognilytica数据统计显示，预计2027年全球AI训练数据市场规模将增长到220亿美元，2021-2027年复合增长率达32%。
　　中国作为全球人工智能产业增速最快的国家之一，相关数据需求也在快速增长。根据艾瑞咨询的数据，2024年中国人工智能基础数据服务市场规模为58亿元，2028年规模将达到170亿元，年复合增长率为30.84%。
　　（3）数据要素价值加快释放，数据产业已成为数字经济发展新增长点
　　在数字浪潮席卷全球的当下，数据产业已成为经济发展的新引擎。在以习近平同志为核心的党中央坚强领导下，我国牢牢把握数字化、网络化、智能化发展机遇，全面深化数据要素市场化配置改革。坚持推进数据要素市场化配置改革“一条主线”，统筹数字中国、数字经济、数字社会“三个建设”的工作思路，推动数据工作更好服务高质量发展。同时，探索完善数据基础制度体系，加快推进数据基础设施建设，提升数据资源开发和利用水平。2024年国家数据局联合多部门制定《关于促进数据产业高质量发展的指导意见》、《关于加快公共数据资源开发利用的意见》、《关于促进数据标注产业高质量发展的实施意见》等21项政策，2025年还将有10余项政策发布，进一步完善数据基础制度，充分体现国家高度重视数据产业高质量发展。《关于促进数据产业高质量发展的指导意见》指明了数据技术和产业重点发展方向；《关于促进数据标注产业高质量发展的实施意见》明确提出培育壮大数据标注产业对于提升数据供给质量，推动人工智能创新发展具有重要支撑作用。
　　各地开展流通利用基础设施先行先试，不断夯实数据开发利用的设施底座，布局数据基础设施。以场景牵引带动数据要素价值充分释放，深入实施“数据要素×”行动，开展公共数据“跑起来”示范场景建设，全面深入推动数据开发利用。培育数据汇聚共享、开发利用的数据企业，加快构建全国一体化数据市场。成立全国数据标准化技术委员会，不断推出数据标准、规范。持续推进高质量数据集建设，支撑人工智能创新发展。据国家数据局统计，我国已经建设高质量数据集超过3.5万个，总体量超过了400PB。人工智能模型的训练也推动了数据交易需求的攀升，截至2025年6月底，各地高质量数据集累计交易额近40亿元，数据交易机构挂牌的高质量数据集总规模达到了246PB。
　　全国各地数据要素市场化配置改革也在加速推进。例如北京市在探索和实践数据基础制度先行示范区、人工智能数据训练基地的基础上，发布《北京市关于建设数据要素综合试验区的实施意见》，开展数据要素综合试验区建设，打造“高端数据标注基地”。上海印发《关于人工智能“模塑申城”的实施方案》，瞄准技术前沿，坚持应用牵引，通过推进人工智能“模塑申城”，建设智能算力集群、语料供给体系、虚实融合实训场、行业基座大模型等基础底座，打造智能终端、科学智能、在线新经济、自动驾驶、具身智能等关键领域生产力工具，聚焦金融、制造、教育、医疗、文旅、城市治理等重点行业加速应用赋能。
　　成都市《成都市进一步促进人工智能产业高质量发展的若干政策措施实施细则》，提出支持高端要素聚集。实施公共数据资源赋能人工智能产业发展行动。依托成都市公共数据开放平台、成都市公共数据运营服务平台，依法、合规、有序向人工智能企业提供公共数据开放服务和授权开发利用。支持企业自主或联合行业协会、科研机构等建设高质量人工智能数据集。长沙市政府印发《长沙市关于推进国家数据标注基地建设的若干政策（试行）》，从聚焦加快培育标注产业、支持技术创新攻关、加强专业人才培育、促进数据服务赋能等四大方面推出了14条产业政策，加大扶持力度。湖北武汉发布《武汉市促进数据产业发展若干政策措施（征求意见稿）》，提出聚焦数据产业发展的关键核心技术，组织实施市级科技重大专项，根据项目投入、实施难度、实施成效等情况，给予单个项目最高2,000万元资金支持。呼和浩特市政府发布《关于促进绿色算力及人工智能产业高质量发展的若干意见》，每年统筹安排1.28亿元专项资金，推出5大方面、17项有力措施，全力推动产业升级。
　　总体来看，我国数据产业发展势头良好、前景广阔。随着“人工智能+”和“数据要素×”等国家战略行动计划的实施，全国各地均在加速推进数据要素市场化配置改革，未来将以高质量数据集建设，夯实人工智能数据基石，推动数字经济高质量发展为目标，围绕数据的汇聚、治理、标注、运营、评测、开发利用以及流通交易全流程，将产生包括数据汇聚、数据治理、数据标注、数据运营、数据评测、数据应用、数据流通、可信数据空间、数据标注基地运营等在内的新业态、新模式，将成为我国数字经济发展的新增长极。
　　（4）训练数据领域的未来发展趋势
　　随着DeepSeek、GPT-4o等成为全球范围内的现象级应用，以及以手机、具身智能为代表的AI终端的快速推出，人工智能迎来了新的发展机遇，其背后的大模型技术也正在带来相关数据需求的变化和增长。
　　a.多模态大模型正成为人工智能发展的新趋势，多模态数据需求显著上升当前，大模型正经历从单模态到多模态的范式转变。多模态技术的本质在于跨模态信息融合，即通过协同处理文本、图像、音频、视频等不同形式的数据，使AI具备更接近人类的全维度认知能力。这种演进不仅显著提升了模型在跨模态任务中的鲁棒性，更解锁了诸如视觉问答、跨模态生成、智能语音交互等复杂场景的应用潜力。
　　以视觉问答为例，系统需同时解析图像中的视觉元素和文本问题的语义信息，并通过模态对齐与知识推理生成准确回答。这一过程的实现，依赖于海量高质量的图文对数据。数据服务商需构建覆盖多样化场景的问答对，通过模拟真实世界的视觉推理逻辑，训练AI建立视觉-语言联合表征能力。而在语音合成领域，要实现富有表现力的拟人化发声，仅有时序对齐的文本-语音数据远远不够，还需引入情感标签、语调标记、韵律特征等细粒度标注，让AI精确捕捉人类语言中的情感起伏和表达风格。
　　实践证明，数据质量与多样性是多模态AI发展的决定性因素：一方面，优质数据定义了模型的能力上限；另一方面，数据分布的广度直接关系到技术落地的普适性。未来，随着多模态数据生态的持续完善，AI的感知与认知能力有望实现新的跨越。
　　b.大模型发展正在从"规模驱动"向"推理驱动"转型，高质量思维链（CoT）数据成为提升大模型复杂推理能力的关键突破口随着DeepSeek R1的推出，思维链技术（Chain of Thought,CoT）迅速成为AI领域的研究热点。这项技术通过引导模型模拟人类逐步推理的过程，显著提升了其在逻辑推理、数学计算及复杂问答等任务中的表现。
　　过往几年，大语言模型（LLM）的发展主要遵循Scaling Law（规模定律），即通过扩大模型参数量和训练数据规模来提升性能。然而，随着知识积累的边际效益逐渐降低，仅单纯依赖规模的增长已难以实现质的飞跃。于是，让AI像人类一样进行深度、有序的“慢思考”，成为突破现有认知能力瓶颈的关键方向。以数学问题为例，传统LLM往往直接输出最终答案，而省略中间推理过程，导致错误率居高不下。相比之下，具备CoT能力的模型会分步骤解析问题，先理解题意，再梳理已知条件，逐步推导计算，并最终验证结果的合理性。这种显式推理机制不仅大幅提高了模型的准确性，还使其决策过程更加透明，便于开发者理解和优化。
　　然而，思维链能力高度依赖高质量的CoT数据——即包含详细推理步骤的问答对。这类数据由于专业性强、标注难度高，目前仍属于稀缺资源。具体而言，优质的CoT数据需要领域专家进行人工构建，不仅要确保问题本身的复杂性，还需对解题过程中的每个逻辑进行严格验证，这种双重门槛使得数据生产周期往往长达普通标注任务的数倍。当前即便是最前沿的合成数据技术，在生成具有严密因果关系的多步推理时，仍会有相当概率出现逻辑断层，这也使得高阶人工标注目前仍是不可替代的重要数据来源。
　　c.从通用到垂直，高质量行业数据需求显著提升以DeepSeek为代表的开源大模型，以其高性能、低成本，以及允许全球用户无限制商用等特点，进一步加速了AI应用的普及，激发了应用层的创新活力，使AI逐渐从通用大模型向更广泛的应用场景和行业领域拓展，AI不再局限于作为回答通用问题的智能助手，而是能够针对特定行业/场景提供解决方案，或者协助执行各类复杂任务的超级助理（AI Agent）。例如，在医疗领域，AI可以作为影像科医生辅助诊断；在法律领域，AI可以担任法律顾问提供专业咨询；同时，AI Agent也能够独立完成点外卖、制定行程、预订机票等日常任务。
　　AI不仅在传统行业与生活场景中展现出独特价值，在智能终端领域，同样掀起了革新的浪潮。例如，AI在智能手机上的应用，可以帮助用户通过文字快速创作专业级摄影大片；当海量照片让整理相册成为难题时，可以快速通过文字描述定位对应图像，实现即时快速检索。在交互层面，AI赋能的语音助手也有质的飞跃。如今的语音助手不再是简单的指令执行者，它们能理解各种不同语种、不同场景下，复杂的语义和情感，并用不同的音色情感与用户进行交互。
　　与以往通用数据处理需求不同，垂向领域的数据处理更加注重专业性。例如，传统的自然语言处理只包括基本的文本处理工作，例如，分词、词性、正则化等标注需求，这些任务无需标注人员具有特定的行业知识；相对地，开发专门领域，例如医疗大模型，则要求标注人员不仅具备扎实的医疗专业知识，还要能够熟练使用医疗术语进行专业场景下的表达，使医疗模型能够理解和生成专业的医疗内容。这种专业化的需求也对数据服务商提出了更高的要求，数据服务商不仅要对行业有深刻的理解，以设计出符合行业需求的数据解决方案，还需要具备更丰富的专家库储备，以提供高质量的数据标注服务以及相关专业咨询服务。
　　d.具身智能浪潮来袭，数据供给瓶颈亟待突破具身智能作为通向通用人工智能（AGI）的关键路径与终极载体，正引领着AI发展的下一波浪潮。与传统大模型不同，具身智能的核心在于构建能够与物理世界深度交互的智能体。这不仅需要突破性的多模态感知技术（包括视觉、听觉等），更重要的是要具备基于环境感知的自主决策与执行能力。实现这一目标的关键在于海量的物理世界交互数据，目前行业主要依赖四种数据来源，互联网开源数据集（整合现有的公开机器人数据）、虚拟合成（利用仿真环境生成训练数据）、动作捕捉（记录人类在特定环境中的行为模式）、以及机器人遥操（通过人工远程操控获取真实场景下的操作数据）等。其中，虚拟合成技术虽解决了初期数据短缺问题，但由于"仿真差距"的存在，其数据质量往往难以满足高精度训练需求。而开源数据集则面临着数据规模有限（通常仅百万级）、采集条件单一等挑战，无法支撑复杂场景下（需要千万级数据）的模型训练需求。当前，在具身智能蓬勃发展的大背景下，高质量的数据供给短缺问题愈发凸显，具身智能的训练数据市场呈现出巨大的供需缺口，需求旺盛且潜力巨大。
　　e.国家法律法规密集落地，对数据安全及合规提出更高要求近年来，数字经济规模快速扩张，数据作为数字经济时代核心生产要素，重要性更加凸显，但数据不同于传统生产要素，其中可能涉及个人隐私以及国家安全的重要信息，因此，为更好保障数字经济长期稳定的可持续发展，建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年，国家陆续出台包括《数据安全法》、《个人信息保护法》、《网络数据安全管理条例》等主流法律法规，为解决数据安全问题、净化行业快速发展中的不良乱象提供了切实可行的法律依据。
　　未来，随着AI技术不断革新，应用行业以及场景不断增加，各行业、各领域数据安全规范逐渐落地将成为趋势，对于以数据生产为主营业务的数据服务企业，数据安全及合规能力将成为数据服务能力的核心评价维度，成熟的安全合规管理体系将成为重要评价标准，能持续跟踪法律环境变化，积极响应监管政策，牢牢把握发展与安全并重的原则的企业将具有更强的市场竞争力。
　　1.2行业的主要技术门槛随着AI技术不断演进、产业应用不断丰富，训练数据的市场需求呈现体量、难度、复杂性、合规性持续上升的趋势，数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力、算法辅助数据生产能力、以及数据合规管理能力，这使得行业的技术门槛持续提升，具体体现为：
　　（1）在训练数据研发、生产全流程中的算法全面介入
　　随着AI技术应用落地的规模化效应凸显，客户对于数据规模和处理效率的要求不断提升，数据服务商须在研发、生产流程中全面引入算法以实现高效、合理的人机协作模式，进而实现降本增效的目标。一般而言，在训练数据研发、生产全流程中融入算法技术，可用于训练数据集的设计及训练数据生产的各个环节，例如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低对人员的依赖（既有人员数量的降低、也有对人员标注能力要求的降低），并构建训练数据设计、加工相关的核心技术；也可用于检查训练数据集对算法模型的训练效果，进而保障训练数据集质量。
　　（2）平台工具链功能及适配性要求持续提升
　　当前，客户侧的数据采集、标注需求范围在逐渐拓宽，数据采集与标注需满足的AI应用场景比以往明显更加广泛、复杂，这就对数据服务商的平台工具能力提出了更高要求，平台上处理大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化程度如何等等这些因素都决定了平台的适配性和能力如何，并最终决定了数据处理的质量、效率、成本。
　　（3）语音语言学基础研究方面须有深厚积累
　　伴随语音技术进一步发展落地、并向各行各业和更多垂直场景不断渗透，同时受到中国企业出海需求、国外企业区域拓展需求两方面的支撑，客户在多语种、多音色、音素集、发音规则、发音词典等方面的要求在不断抬升，这意味着只有那些在语音语言学基础研究方面投入更多、拥有深厚积累的数据服务商才能满足客户在这方面的多元化需求。
　　因此，市场上仅有极少数企业通过长期自主研发的方式能够达到上述核心技术门槛，成为有能力向不同客户群体提供综合、高效、合规的数据产品及服务的供应商。
　　2.公司所处的行业地位分析及其变化情况
　　作为行业的头部阵营企业，海天瑞声在经营情况、技术实力、以及以数据安全为代表的其他综合能力方面都展示出明显优势，并具有较强国际竞争力。近年来公司紧跟AI技术发展趋势，尤其关注在客户资源、技术实力、产品/服务等方面的竞争优势，树立国内领先基础数据服务商的品牌形象，以巩固公司的行业领先地位。
　　（二）主营业务情况说明：
　　公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工，最终形成可供AI算法模型训练使用的专业数据集，通过软件形式向客户交付。
　　自2005年成立以来，公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展，公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业，并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音（语音识别、语音合成等）、计算机视觉、自然语言等多个核心领域，全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。
　　公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国移动、中国科学院、清华大学等国内外客户的认可，应用于其研发的个人助手、智能音箱、语音导航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量超过1,100家，覆盖了科技互联网、社交、IoT、智能驾驶、大模型等领域的主流企业，以及政企、教育科研机构。
　　（三）主要产品及服务情况
　　1.主要产品及服务按业务类型分类
　　公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域，广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外，公司还提供与训练数据相关的应用服务。
　　（1）智能语音
　　人工智能在语音领域的应用技术主要包括语音识别、语音合成等。
　　语音识别（Automatic Speech Recognition，ASR）是让机器能够“听懂”人类语音的技术，它能使机器自动将语音信号转换为对应的文本信息。
　　语音合成（Text to Speech，TTS）是让机器能够“说出”人类语音的技术，它使机器能将文字信息转化为流畅的语音“朗读”出来，相当于给机器安上了人工嘴巴。
　　以日常生活中的情景为例，语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换为文字，实现了软件“听懂”语音并“听写”出文字的效果；而地图、导航软件则运用语音合成技术，实现了软件“发声说话”的效果，为用户提供即时语音导航。
　　公司通过设计（设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等）、采集（定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频）、加工（对音频文件进行切分、标注各类声音特征，形成带时间戳和特征标签的文本和标注文件等）、质检（对数据集进行质量检测，如音字一致性、标注准确率检查等）等训练数据集生产环节；或者针对客户提供的原料音频文件执行加工、质检工作，最终形成客户所需的智能语音训练数据集。
　　（2）计算机视觉
　　计算机视觉（Computer Vision，CV）是使机器具备“看”的功能的技术，它使得智能驾驶、智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。
　　以日常生活中的情景为例，在汽车的自动驾驶功能中，计算机视觉技术使得汽车能够“看见”并识别行车过程中的各种行人、路况场景，为后续作出相应的反应奠定基础；在机场、车站安检中，计算机视觉技术使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。
　　公司通过设计训练数据集结构、采集（如定义合适的人脸、动作、场景作为采集对象，组织被采集人按照要求拍摄照片、录制视频等）、加工（对图像、视频文件进行打点、拉框、分割标注等）、质检（对数据集进行质量检测，如检验图片、视频文件格式是否正确，检查光照环境、物体种类的数量是否达标，打点标框的准确率是否符合要求等）；或者对客户提供的图像、视频文件执行加工、质检工作，最终形成客户所需的计算机视觉训练数据集。
　　（3）自然语言处理
　　自然语言处理（Natural Language Processing，NLP）是使机器能够像人一样理解语言意图的技术。
　　以日常生活中的情景为例，寄送快递时使用的“智能填写”功能即运用了自然语言处理技术，在输入框中填入整段联系信息，软件应用能够理解语义，并从中识别及提取“收件人”、“联系方式”、“地址信息”等所需信息，完成自动填写；智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术，使得程序、机器能够读懂人类语言的真正意图，并相应做出反应、提供服务等。
　　公司通过设计训练数据集结构、采集（收集或编写自然语言文本、对话等数据信息）、加工（对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等）、质检（对数据集进行质量检测，如检验文本、词性或者语义的标注结果是否准确等）；或者对客户提供的自然语言文本执行加工、质检工作，最终形成客户所需的自然语言训练数据集。
　　（4）训练数据相关的应用服务
　　公司开放基于多年行业经验打磨的数据处理工具集及平台，提供包括公有云访问、私有化部署及SaaS化服务的多种能力，满足产业链上各类企业对于数据处理工具及平台能力的需求。
　　公司基于自身生产的训练数据提供算法相关的模型训练服务、模型评测服务及模型应用服务，运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定应用场景的专属算法模型，提高AI技术应用效果。
　　前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。
　　成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。以智能语音训练数据集为例，成品训练数据集包含原始采集形成的音频文件、与音频文件对应的带有时间戳的标注文件，训练数据集相关的设计文档、训练数据集说明，发音词典，数据集参数信息文件等。
　　2.主要产品或服务的终端应用场景
　　公司提供的高质量、大规模、结构化的训练数据，为算法模型的训练拓展提供了可靠的训练素材，助力AI技术实现实践应用及商业化落地，赋能AI技术与实体经济深度融合。公司提供的训练数据广泛应用于众多主流AI产品及终端应用的训练过程中，覆盖了个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等多种应用场景。
　　（四）主要经营模式
　　1.盈利模式
　　与主要产品及服务类型对应，公司的盈利模式主要包括以下三类：
　　（1）定制服务：公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下，公司享有服务费收入，不享有最终生成的训练数据的知识产权，不可将此类业务生产的训练数据向其他客户重复销售。
　　（2）标准化产品：公司开发自有知识产权的训练数据集产品，通过销售训练数据集产品的使用授权许可，获取让渡资产使用权收入。此类训练数据集一经开发完成，可多次销售并获取授权许可收入。
　　（3）训练数据相关的应用服务：公司基于积累的训练数据和多年行业经验提供数据处理工具集及平台服务、算法相关的模型训练、模型评测及模型应用服务，通常以软件授权或软硬件一体化形式交付平台产品、算法模型拓展、开发成果等，获取让渡资产使用权收入和技术服务等收入。
　　2.生产或服务模式
　　（1）训练数据集生产模式
　　公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。
　　公司的训练数据生产过程主要包括四个环节：设计（训练数据集结构设计）、采集（获取原料数据）、加工（数据标注）及质检（各环节数据质量、加工质量检测）。
　　（2）训练数据相关的应用服务模式
　　公司开放基于多年行业经验打磨的数据处理工具集及平台，提供包括公有云访问、私有化部署及SaaS化服务的多种能力，满足产业链上各类企业对于数据处理工具及平台能力的需求。
　　公司基于其生产的训练数据提供算法模型相关的训练、评测及应用服务，助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定应用场景（例如特定行业、特定口音等）的专属算法模型，提高AI技术应用效果。
　　以某大型科技公司客户项目为例，客户研发了特定语音识别算法模型，需要根据算法模型的实际场景（如法院庭审场景）开发落地应用。公司承担了部分落地应用拓展相关的开发工作，围绕客户的算法模型和接口开发，最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。
　　3.采购模式
　　按照采购的内容及主体划分，公司的采购包括：数据服务采购：公司在数据采集、加工环节中，向人力资源服务等类型的公司等供应商采购的，非核心技术环节的原料数据采集、标注服务。
　　岗位服务采购：主要针对临时性的、不设长期岗位的业务领域的外包采购，如保洁、临时招聘服务、少量实习生招聘等。
　　其他采购：
　　（1）训练数据生产所需的资产，主要包括软、硬件设备及其他需求物品采购；
　　（2）日常运营所需的资产及物品，如办公用房、车辆、办公家具、计算机设备等；
　　（3）日常专项服务采购等，主要包括审计服务、会议服务、差旅服务等。
　　上述原料数据采集、加工环节所涉及的数据服务采购，为公司最主要的采购类别，由集采中心负责；各部门岗位服务采购由人力资源部负责；其余日常运营相关的资产物品采购、专项服务采购等非业务采购由集采中心负责。财务中心负责参与采购供应商的遴选、监督与管理，并对采购费用进行核算及结算。
　　经过多年的发展，公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度，设立有完善的采购流程和体系，并与主要的供应商形成了良好稳定的长期合作关系。
　　4.营销模式
　　公司采用直接对接并服务客户的直销模式进行营销，符合行业通行惯例。公司以高质量的训练数据集及相关服务吸引客户，并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、参与学术会议和行业展会新产品发布、搭建并持续升级公司官方网站和建立自媒体矩阵等方式提升品牌知名度、开拓新客户，后续再通过商务谈判、招投标等形式获取具体业务机会。
　　二、经营情况的讨论与分析
　　2025年上半年，在全球人工智能产业蓬勃发展的大背景下，公司业务实现全面增长。一方面，随着多模态大模型技术持续突破和“人工智能+”应用场景不断丰富，全球训练数据需求呈现爆发式增长，公司凭借丰富的数据服务经验以及海量标品数据集积累，持续获得国内外头部科技企业的数据需求订单；另一方面，在国家“人工智能+”战略指引下，以运营商为代表的国央企加速AI布局，重点投入多模态基座模型研发和垂直领域应用落地，为公司带来新的业务增长点。与此同时，去年公司新拓展的东南亚数据交付基地已进入稳定运营阶段，该基地不仅成功打开了海外定制化服务市场，更为海外业务贡献了显著的增量收入。以上因素共同推动，公司2025年上半年度营业收入、归属于母公司所有者的净利润、归属于母公司所有者的扣除非经常性损益的净利润同比均实现显著增长。
　　报告期内，公司实现营业收入1.57亿元，较上年同期增长69.54%；归属于母公司所有者的净利润380.46万元，较上年同期增加813.65%；归属于母公司所有者的扣除非经常性损益的净利润为98.35万元，较上年同期增加465.94万元；经营性现金流净额-3,375.12万元，较上年同期下降315.29%。截至报告期末，公司总资产为8.17亿元，较期初增加1.03%；归属于母公司的所有者权益为7.29亿元，较期初减少1.94%。2025年上半年公司具体经营情况如下：
　　(一)核心业务板块经营情况
　　1.境外训练数据业务
　　2025年上半年，在全球人工智能产业加速渗透及多模态大模型需求爆发的背景下，AI训练数据服务市场持续扩容。在此趋势下，公司海外业务实现收入7,351.14万元，同比增长68.24%，继续保持强劲增长态势。
　　从业务驱动因素来看，一方面，以全球头部消费电子、企业级SaaS应用软件公司等为代表的国际客户，为支撑其全球化业务拓展，持续加大对多语种语音、平行语料等高质量训练数据的投入力度。公司凭借在语言研究领域长达二十年的技术积累，以及覆盖智能语音、自然语言等多个技术方向的标准化数据集产品优势，进一步赢得了境外客户优选。另一方面，公司在东南亚新建的数据交付基地已进入稳定运营阶段，该基地不仅成功打开了当地定制化服务市场，更为海外业务贡献了显著的增量收入，未来该基地也将成为支撑公司全球化战略的重要支点。
　　此外，为进一步提升全球市场竞争力，报告期内，公司持续优化国际化布局。在市场拓展方面，进一步强化北美、欧洲及日韩销售团队，深化本地化服务能力；同时，通过参与CVPR、ACL、Tech-AD等全球顶级AI学术会议，提升技术品牌认知度和影响力；同时，重点加强海外交付能力建设，通过拓展菲律宾数据交付基地的团队规模和服务范围，为国际客户提供更加高效、合规的数据服务支持。未来，这些战略布局也将为公司把握全球AI产业发展机遇、实现更高质量的国际化发展奠定坚实基础。
　　2.境内训练数据业务
　　2025年上半年，随着人工智能技术在各行业的深度渗透和垂直场景的加速落地，AI产业呈现出明显的"场景纵深化"发展趋势。在此背景下，公司境内业务实现营业收入8,318.45万元，同比增长70.70%，展现出强劲增长态势。
　　从市场需求结构来看，AI技术应用主体呈现多元化发展趋势。首先，以运营商为代表的国央企积极响应国家"人工智能+"战略部署，加快推进多模态基座大模型研发，并在政务、法律、教育等重点领域进行布局；其次，以短视频平台、本地生活服务平台为代表的头部科技互联网企业开始将AI技术提升至核心战略地位，重点布局多语种语音交互、智能内容生成等关键技术，持续优化用户体验和内容创作效率，为业务创新和国际化发展提供技术支撑。同时，传统科技企业持续加大AI技术研发投入，重点强化多模态基础模型能力建设，特别是在多语种处理等关键领域深化布局，夯实全球化发展的技术基础。公司基于在智能语音、自然语言、计算机视觉等领域多年的技术积累，以及构建的近1,800个标准化数据集的专业产品体系，已成为多家行业领先企业的核心数据服务供应商，市场竞争优势进一步巩固。
　　3.数据要素业务
　　2025年上半年，随着《"数据要素×"三年行动计划》深入实施和各地数据要素市场化配置改革加速推进，我国数据要素产业迈入高质量发展新阶段。
　　在这一背景下，国家数据局指导成都、长沙、保定等7个城市建设数据标注基地，先行先试探索数据标注产业发展经验。数据标注基地建设成为推动数据要素价值释放的关键举措，旨在解决AI产业发展中的数据质量、标准统一和要素流通等核心问题。为支持国家数据产业发展战略，公司充分发挥在数据服务领域的技术积累，提供覆盖数据全生命周期的综合解决方案。在数据汇聚环节，公司与地方政府合作共建高质量数据集，整合公共数据和行业数据资源；在生产加工环节，建设数据可信空间，提供数据处理平台和运营服务；在开发利用环节，基于高质量数据开展模型训练；同时为中小企业提供数据治理服务。截至目前，公司已与3个承担数据标注基地建设任务的城市：成都、长沙、保定等地方政府成立合资公司，并与内蒙古呼和浩特签署战略合作协议，聚焦当地乳业、草种、文旅等特色产业，共建高质量数据集，有效驱动当地产业的数字化转型。此外，公司正积极拓展与上海、广州、宜宾等十余地的战略合作，进一步完善标注基地的全国性业务布局。
　　在支撑地方政府文旅产业数字化方面，公司也已取得阶段性成果：已启动彭州、长沙等地高质量文旅视频数据集的建设工作，重点为智能导览等应用场景提供专业数据支撑。此外，公司深度参与华为+陕文投集团合作的陕西文旅示范项目，充分发挥在数据服务领域的技术优势，重点支持高质量文旅数据集建设和AI文旅垂直大模型开发，推动"AI＋文旅"场景的规模化应用，为陕西文旅产业数字化转型提供全方位数据支撑和解决方案。与此同时，公司还参与"京西智谷数字人平台及配音平台项目"，提供2,000余个数字人形象，通过数字人技术助力北京门头沟区乡村振兴和文化传播。
　　在区域合作方面，公司立足广西作为中国—东盟数字合作枢纽的战略定位，全面深度参与中国—东盟人工智能创新合作中心建设并与地方政府联合成立数字工坊，凭借在东盟小语种数据处理以及OCR预识别算法上的技术优势，有力支持东盟语料库建设。
　　通过参与国家级数据标注基地建设和区域数字合作项目，公司不仅实现了数据要素业务市场空间的持续拓展，也为推动我国数据要素市场高质量发展注入了新动能。未来，公司将继续深化在数据汇聚、处理、应用等环节的技术创新，致力于构建更加完善的数据要素产业生态体系。
　　(二)核心技术能力建设情况
　　2025年上半年，按照技术+产品双轮驱动的定位，公司继续保持有竞争力的研发投入强度，不断提升技术和平台工具先进性、在大模型数据处理技术方向进行积极探索储备、巩固标准化数据集产品储备、增厚语音语言学基础研究领先性，持续巩固公司核心竞争力。报告期内，公司研发费用共计2,956.45万元，占当期营业收入的18.87%。截至报告期末，公司研发人员数量为58人。
　　1.算法及平台能力建设、大模型数据处理技术持续探索储备
　　报告期内，公司持续加大基础研发投入力度，重点提升人工智能基础算法、一体化数据处理平台及前沿技术研究等领域的核心能力，持续推动大模型数据服务的迭代升级，并形成了一定的代表性成果：1.1算法公司在智能语音、计算机视觉、自然语言处理等领域的预标注算法上持续深耕布局，同时，在面向智慧文旅场景的多模态大模型能力研究、面向数字人场景的基础能力研究、智能驾驶、大模型训练数据清洗与自动化标注等垂直领域取得显著进展。面向智慧文旅场景的多模态大模型能力研究主要包括：文旅场景的语音合成大模型、文旅场景视觉大模型、文旅场景的LLM大模型训练与微调，并完成主流国产算法的模型推理适配工作。面向数字人场景的基础能力研究主要包括：图片数字人算法、视频数字人算法的研发和部署，以及3D数字人前沿算法的调研与实践；智能驾驶主要聚焦在以下领域的算法研发：4D点云重建与2D厘米级自动化映射、预刷红绿灯算法、亿级点云地面检测算法、通用3D目标检测模型升级等；在大模型训练数据清洗与自动化标注研发领域内，研发老挝语OCR与语料自动化清洗算法，并在项目中取得良好效果；针对语音大模型训练数据，完成语音数据自动化清洗pipeline的升级，融合10+种模型算法对多种类型的数据进行自动化清洗与标注；针对LLM大模型训练数据，完成题库、ITN/TN等多种语料清洗pipeline搭建与优化。
　　1.2平台公司持续在数据处理平台进行规模化投入，重点提升语音、视觉等核心领域的采集及标注环节处理效率。同时，为完善产业生态布局、增强内部管理效率，公司新增建设人工智能数据服务实训和AI数据生产管理两大专业平台，具体情况如下：
　　智能语音平台：声优工厂平台形成规模化声优资源池，覆盖中、英、日、韩4大语系36种音色标签。通过性别校验等算法模型，大幅提升试音通过率，且单条试音审核时长压缩10倍以上；自研流程引擎让项目平均周期缩减一半。公司自研的多模态推荐模型，可实现候选声优的秒级反馈，匹配精准度提升至90%以上。副语言&音素边界标注平台实现全流程自动化升级，通过集成语音识别等算法模块，将标注时间缩短约一半。构建了精细化权限治理体系，该体系可适配多场景任务需求，且使跨角色协同效率提升50%以上。
　　计算机视觉平台：Bev视角点云、2D图标注平台攻克多源数据技术难关，自研时空配准引擎实现多源点云亚像素级对齐；轻量化拓扑压缩算法在保持99.5%几何精度下，通过点云压缩技术，将训练加载时间缩短80%。此外，采用风格迁移网络实现4种天气、5个时段无缝切换，兼容主流行业标准，大幅降低客户迁移成本。标注工具效率较传统提升近5倍，支持超过1,000个标注员并发作业，日均可产出50万张AI训练样本，并已在智能驾驶为代表的三大场景应用落地。
　　面向人工智能数据服务的实训平台：旨在为AI产业链提供高质量的人才培养方案，包括理论体系建设、课程学习、上机实训、课后练习、在线考试、资格认证、人才推送等重要模块。公司已基本完成整体架构设计，并形成基础理论和部分模态实战课程的课件。
　　面向人工智能数据生产的管理平台：为应对人工智能数据业务不断发展所带来的项目管理、商务管理、财务管理等诸多管理能力不断提升的需求，公司整合既有工具模块、优化现存平台，建设新一代面向人工智能数据生产的管理平台。该平台包括不少于20个重要功能模块的建设任务。公司上半年已完成包括客户管理、合同管理等重要模块的建设任务。部分能力已在公司内部落地，并支撑业务加速发展。
　　以上平台均以技术创新构建壁垒，兼具规模化能力与商业化成果，为持续增长奠定基础。
　　2.标准化数据集产品
　　标准化数据集产品，是公司区别于众多竞争对手以定制化服务为主的特有商业模式，也是公司核心竞争力之一，标准化产品是公司基于未来行业需求的研判，在市场需求出现之前，预先开发的数据集，具有即用即取的特点，可帮助客户大幅缩短模型研发周期并有效降低数据投入成本。同时，由于产品本身的知识产权由公司享有，具有一次性研发生产、可重复多次销售的特点，因此可更好帮助公司实现未来可持续性销售、以及毛利空间提升。
　　因此，为更好适应行业发展需求，公司2025年上半年在产品研发方面持续投入，用于开发覆盖智能语音、计算机视觉以及自然语言等传统深度学习以及大模型领域的相关数据集产品。截止报告期末，公司新增研发超70个训练数据集产品，自有知识产权的训练数据产品储备达到1,790个，尤其在多语种语音对话、多语种OCR、多音色多情感数据集等方面积累了更丰富的标准化产品资源，并建成包括“双工数据集”、“视觉大模型（图像-文本）预训练及微调数据集”等在内的多领域大模型数据集。截止报告期末，截止报告期末，公司已向下游客户提供了累计超过10,000次/个定制或标准化训练数据集，并已应用于个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等22类创新应用领域，赋能人工智能技术与实体经济的深度融合。
　　3.语音语言学能力
　　随着全球化扩张成为头部AI企业收入增长的重要引擎，多语种数据的作用和价值更加凸显。为更好满足客户多语种拓展需求，公司持续保持语音语言学研究力度，在语音语言学基础研究方面，公司不断丰富合作语言学家团队资源，成员遍布世界各地的学校及研究机构，在语音语言学领域具备丰富经验和技术储备。截止报告期末，公司已经拥有超过240个语种/方言的覆盖能力，不仅包括英、法、德、意、西、日、韩等常见语种，还包括东南亚、一带一路等国家地区的罕见小语种，尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时，公司建立了成熟的发音词典构建流程，公司已积累下近140个多语种的发音词典，覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种，累计词条数超过1,200万条，可支撑构建高质量的智能语音、以及多模态训练数据，是公司的主要竞争壁垒及核心技术之一。
　　(三)其他综合能力建设情况
　　1.数据安全及合规
　　2025年上半年，中央和地方出台了一系列有关数据要素、数据安全的法律法规和政策，对企业的数据安全水准和能力提出了更高要求，也为企业在数据要素、人工智能等领域的发展提供了新的机遇。公司一直以来非常重视数据安全管理以及相关能力的提升，并将其作为把握新发展机遇所必须练好的“基本功”。报告期内，公司积极参与行业发展，提出立法建议、参与行业调研，数据安全能力获得广泛认可。
　　2.供应链体系
　　2025年上半年，公司围绕AI大模型在垂直领域的深度应用，全面升级供应链生态体系。在产业布局方面，公司深度整合产学研资源，重点布局医疗、金融、教育、美学等专业领域，通过与行业权威机构合作，构建了覆盖诊断、智能投顾、合规风控、数字版权等场景的专业资源池，显著提升了供应链的行业适配性和专业壁垒。
　　公司在全球化资源网络建设方面取得重要突破：通过海外数据基地建设和供应商资源拓展，已覆盖49万终端资源，涉及173个国家和地区及超过250种外语种，大幅提升全球数据服务的响应能力。
　　此外，公司通过技术创新驱动供应链管理效能提升：通过知识图谱与区块链技术融合，实现跨领域资源的智能匹配与全流程可信溯源；依托动态标签体系和智能算法，完成需求线上化、结算线上化管理；基于精细化成本模型与实时化系统，实现订单处理、资源配置的全链路数字化，为可持续产能扩张奠定基础。
　　3.人力资源
　　报告期内，公司完成销售、生产、研发体系的绩效管理机制优化，并对内部反馈机制及奖金核算机制进行迭代，以期增强绩效牵引力实现更加公平和富于激励性的管理效果。上半年公司组织多种类专项培训及人才发展项目，在大模型领域的探索与应用进行广泛深入的内部交流，组织销售、生产、职能等多体系的软技能培训，对应届高潜毕业生、新锐力量、中坚力量、中高层管理人员采取不同的梯队建设规划，以保障人才队伍的不断夯实。文化建设方面，强化高度敬业和持续创新文化，进行榜样之星等多样化的文化倡导和活动辐射，打造更加尊重信赖和追求卓越的组织基因。同时在人才引进方面，启动海外人才招募、研发专项人才和高潜毕业生吸引计划，引入多名欧美同业专家、优质研发人员、及卓越背景应届毕业生，充实销售、研发及项目交付队伍的人才密度，发展健康、可持续、多元化的人才队伍。
　　三、报告期内核心竞争力分析
　　(一)核心竞争力分析
　　1.研发优势
　　公司拥有同行业具有竞争力的综合研发实力，截至报告期末，公司研发团队规模为58人，研发能力全面覆盖平台工具开发、算法研究、产品设计等多条主线。公司核心研发人员均曾服务于全球顶尖科技企业或毕业于名校，组成了公司坚实的研发领导核心力量。同时，多年来，公司积累了较为完备的综合性、一体化数据处理平台及工具体系，覆盖智能语音、计算机视觉、自然语言等全业态领域，可服务于市面上绝大多数数据处理场景需求，包括但不限于智能驾驶、智能家居、个人助手、内容生成等。公司还设置了专门的产品研发部门及AI+研发部门，可前瞻性挖掘和布局新兴市场需求，抢占市场先机。此外，基于公司在训练数据领域多年积累下的大量、多元化数据以及数据处理经验，通过算法平台团队与数据业务团队无缝衔接，公司可更好完成预识别算法性能提升，实现少量数据注入->算法训练->标注员反馈->模型生成->处理大量数据的自闭环体系，助力公司做大规模、提升效率、降低成本。同时，20年数据行业的从业经验积累，使得公司具备较强的数据生产工程化能力，可助力公司大幅缩短数据研发及生产周期，为公司抢占市场提供了有力支撑。上述因素共同驱动公司构建较高的行业技术壁垒。
　　2.产品优势
　　通常来说，标准化数据集产品具有可即时获取、价格相对优惠等特点，因此市场需求旺盛。但由于标准化数据集产品是先于客户需求形成，需要数据服务商具备较强的市场趋势前瞻能力、以及财务实力进行提前投入，因此行业中具备标准化数据集产品规模化生产能力的服务商较为有限，该方向具备较高竞争壁垒。
　　对于公司而言，标准化训练数据集产品的知识产权由公司享有，具有一次性研发生产、可重复多次销售的特点，可显著助力公司毛利水平提升，实现训练数据产品的规模化效应，因此也是公司区别于众多竞争对手的一个优势亮点。
　　公司基于20年数据服务经验、以及对客户需求的深刻理解，持续开拓标准化数据集，自有知识产权的训练数据产品储备达到1,790个，全面覆盖智能语音、计算机视觉、自然语言等多条业务线。这些高质量数据集可全面支持智能客服、个人助手、数字人等前沿AI应用场景的研发落地。
　　特别值得一提的是，我们的标品数据已支持247种语言/方言，能够充分满足全球AI企业的多语言需求，为客户的国际化战略提供强有力的数据支撑。
　　3.语音语言学能力优势
　　随着境外客户全球化扩张以及境内客户出海成为新的行业发展趋势，多语种能力成为数据服务领域的核心竞争力之一，而语音语言学储备则是实现多语种拓展的重要前提。经过20年积累，公司已沉淀下深厚的语音语言学基础研究成果，并已将其运用至构建高质量的智能语音、以及多模态训练数据。在语音语言学基础研究领域，公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累，以及不断创新的发音词典构建技术和流程技术。截止报告期末，公司已经拥有超过240个语种/方言的覆盖能力，不仅包括英、法、德、意、西、日、韩等常见语种，还包括东南亚、一带一路等国家地区的罕见小语种，尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时，公司已积累下近140个多语种的发音词典，覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种，累计词条数超过1,200万条，可支撑构建高质量的智能语音、以及多模态训练数据，是公司的主要竞争壁垒及核心技术之一。
　　4.数据安全及合规能力优势
　　海天瑞声自成立之初即把数据安全、数据合规视为生命线，公司在多年的数据风险识别和管理实践中，已经形成了较为成熟的安全、合规管理体系。资质方面，公司拥有ISO27001信息安全管理体系认证、ISO27701隐私信息管理体系认证、国家信息系统安全等级保护三级备案、北京市规划和自然资源委员会行政许可乙级测绘资质等。行业参与方面，公司入选中共中央网络安全和信息化委员会办公室“人工智能企业典型应用案例”，相关业务和数据安全实践受到《人民日报》等权威媒体报道和关注。公司为中国信通院数据安全推进计划成员单位，董事兼总经理李科连续入选该计划数安智库专家，其所参与、领导的公司数据安全工作，受到《北京日报》等权威媒体报道。此外，公司积极参与行业发展，入选国家标准《信息技术人工智能术语》核心参编单位、《人工智能数据标注平台技术要求和测试方法》核心参编单位，数据安全能力获得认可并产生广泛、积极的行业影响。
　　(二)报告期内发生的导致公司核心竞争力受到严重影响的事件、影响分析及应对措施
　　(三)核心技术与研发进展
　　1、核心技术及其先进性以及报告期内的变化情况
　　（1）基础研究层面，报告期内，公司持续在智能语音、计算机视觉、自然语言进行技术拓展，同时在多模态文旅大模型、数字人算法、智能驾驶、大模型训练数据清洗与自动化标注等垂直领域取得显著进展。多模态文旅大模型主要包括：文旅场景的语音合成大模型、文旅场景视觉大模型、文旅场景的LLM大模型训练与微调，并完成主流国产算法的模型推理适配工作。数字人算法主要包括：图片数字人算法、视频数字人算法的研发和部署，以及3D数字人前沿算法的调研与实践；智能驾驶主要聚焦在以下领域的算法研发：4D点云重建与2D厘米级自动化映射、预刷红绿灯算法、亿级点云地面检测算法、通用3D目标检测模型升级等；在大模型训练数据清洗与自动化标注研发领域内，研发老挝语OCR与语料自动化清洗算法，并在项目中取得良好效果；针对语音大模型训练数据，完成语音数据自动化清洗pipeline的升级，融合10+种模型算法对多种类型的数据进行自动化清洗与标注；针对LLM大模型训练数据，完成题库、ITN/TN等多种语料清洗pipeline搭建与优化。
　　（2）在平台工具层面进展如下：
　　智能语音平台：声优工厂平台形成规模化声优资源池，覆盖中、英、日、韩4大语系36种音色标签。通过性别校验等算法模型，大幅提升试音通过率，且单条试音审核时长压缩10倍以上；自研流程引擎让项目平均周期缩减一半。公司自研的多模态推荐模型，可实现候选声优的秒级反馈，匹配精准度提升至90%以上。副语言&音素边界标注平台实现全流程自动化升级，通过集成语音识别等算法模块，将标注时间缩短约一半。构建了精细化权限治理体系，该体系可适配多场景任务需求，且使跨角色协同效率提升50%以上。
　　计算机视觉平台：Bev视角点云、2D图标注平台攻克多源数据技术难关，自研时空配准引擎实现多源点云亚像素级对齐；轻量化拓扑压缩算法在保持99.5%几何精度下，通过点云压缩技术，将训练加载时间缩短80%。此外，采用风格迁移网络实现4种天气、5个时段无缝切换，兼容主流行业标准，大幅降低客户迁移成本。标注工具效率较传统提升近5倍，支持超过1,000个标注员并发作业，日均可产出50万张AI训练样本，并已在智能驾驶为代表的三大场景应用落地。
　　面向人工智能数据服务的实训平台：旨在为AI产业链提供高质量的人才培养方案，包括理论体系建设、课程学习、上机实训、课后练习、在线考试、资格认证、人才推送等重要模块。公司已基本完成整体架构设计，并形成基础理论和部分模态实战课程的课件。
　　面向人工智能数据生产的管理平台：为应对人工智能数据业务不断发展所带来的项目管理、商务管理、财务管理等诸多管理能力不断提升的需求，公司整合既有工具模块、优化现存平台，建设新一代面向人工智能数据生产的管理平台。该平台包括不少于20个重要功能模块的建设任务。公司上半年已完成包括客户管理、合同管理等重要模块的建设任务。部分能力已在公司内部落地，并支撑业务加速发展。
　　以上平台均以技术创新构建壁垒，兼具规模化能力与商业化成果，为持续增长奠定基础。
　　2、报告期内获得的研发成果
　　报告期内，公司新获得软件著作权1项。截至2025年6月30日，公司共获得专利授权41项，获得登记的软件著作权181项。
　　四、报告期内主要经营情况
　　报告期内，公司实现营业收入1.57亿元，较上年同期增长69.54%；归属于母公司所有者的净利润380.46万元，较上年同期增加813.65%；归属于母公司所有者的扣除非经常性损益的净利润为98.35万元，较上年同期增加465.94万元；经营性现金流净额-3,375.12万元，较上年同期下降315.29%。截至报告期末，公司总资产为8.17亿元，较期初增加1.03%；归属于母公司的所有者权益为7.29亿元，较期初减少1.94%。
　　五、风险因素
　　(一)核心竞争力风险
　　1.核心技术快速迭代的风险
　　由于人工智能行业整体发展较为迅速，应用领域和应用场景不断拓展，下游需求随着行业发展不断发生变化，公司进行数据开发所需的各项技术也面临着快速迭代更新的风险。如果公司无法保持对行业发展趋势的洞察能力以及对研发人才的有效组织和研发经费的经济投入，则可能导致公司在行业技术快速迭代过程中无法持续保持技术先进性和技术优势，进而对公司的客户拓展、产品创新和经营业绩造成不利影响。
　　2.核心技术人员流失风险
　　随着行业的持续发展，行业内企业之间对于高端人才的竞争日益激烈，如果公司无法持续加强核心技术人员的培养及引进并为核心技术人员提供有竞争力的激励机制和薪资待遇，则将存在核心技术人员流失的风险，公司的技术水平、研发能力也将受到不利影响。
　　3.核心技术失密风险
　　公司的数据产品和服务均以核心技术为基础。公司制定了严格的保密制度并严格执行，但上述措施仍无法完全避免公司核心技术的失密风险。如果公司相关核心技术的内控和保密机制不能得到有效执行，则可能导致公司核心技术失密的风险。
　　4.训练数据标准化产品无法实现授权销售的风险
　　公司根据对算法模型应用领域、行业发展趋势、市场需求等的评估和研判，自行设计并开发多种训练数据集标准化产品，开发完成后根据客户实际需求进行销售，授权给客户使用。在该种业务类型下，公司开发训练数据集产品，承担开发费用，并拥有训练数据集产品的知识产权。如果公司开发的训练数据集产品不能满足下游客户对训练数据的要求，则可能存在无法实现授权销售的风险，进而对公司未来的经营业绩产生不利影响。
　　5.数据安全相关风险
　　公司主要从事训练数据的研发设计、生产及销售业务，所提供的产品和服务主要以数据的形式体现。一方面，随着公司业务的快速发展和规模的持续扩张，原料数据采集与数据加工的数量持续增长；另外一方面，包括《数据安全法》、《个人信息保护法》、《生成式人工智能服务管理暂行办法》、《网络数据安全管理条例》等在内的与数据安全、个人信息保护相关的法律规章体系正逐步完善。公司如果未能按照法律规章或客户的更新要求及时调整现行业务开展方式、公司的数据安全管理体系研发升级未能跟上业务发展的需要、或客户未能遵守训练数据产品保护相关商业约定，则公司可能产生诉讼纠纷或面临生产经营不符合法律规章的要求、训练数据产品被泄露、盗版等数据安全相关风险。
　　同时，《数据出境安全评估办法》、《促进和规范数据跨境流动规定》等法律法规加强了对境内收集或产生的个人信息数据的跨境行为的规制。如果将来公司未能根据相关要求及时履行相应的程序，公司开展的属于该办法限定范围内的境外业务将受到一定程度的影响。
　　(二)经营风险
　　1.收入主要来自老客户，新客户收入占比较低的风险
　　报告期内，公司收入主要来自老客户，占比达到90.39%，新客户收入占比较低。公司正致力于维护老客户、拓展新客户，若老客户降低对公司产品、服务的采购量或公司未能维持与老客户的合作关系，则公司的经营情况将受到不利影响；若新客户拓展情况不达预期，则公司的经营情况也将受到不利影响。
　　2.新业务拓展风险
　　随着人工智能行业持续快速地增长，下游客户对高质量、多样性、大规模训练数据的需求将持续增加。公司能否紧跟下游需求变化，加深对下游行业基础技术的理解并开发出更多的业务机会，一方面受到行业发展状况、市场需求变化以及市场竞争状况等因素影响，另一方面也取决于公司对于下游众多新领域新场景的理解认知以及合作拓展能力等诸多因素。因此，公司新业务的开拓可能不及预期或者遇到其他不利因素，进而对公司未来的经营业绩产生不利影响。
　　3.采购成本上升风险
　　报告期内，公司进行采购原料数据采集、标注所支付的数据服务费占全年与主营业务相关的采购总额的比重较高，达到89.69%。随着城乡生活成本的持续提升，前述采购价格可能存在持续上升的趋势，若公司的技术发展带来的效率提升无法抵消前述采购成本上升的影响，可能会对公司的经营业绩带来一定不利影响。
　　(三)行业风险
　　1.市场竞争加剧的风险
　　公司所在的细分领域为AI基础数据服务领域。近年来，参与该行业的公司不断增多，由于整体行业较新，行业标准和法律监管仍处于规范阶段，因此整体行业目前处于高速发展且格局未定的状态，导致市场竞争加剧。公司如果不能持续有效地制定并实施业务发展规划，则将受到竞争者的挑战，从而面临市场竞争加剧而导致的经营状况下滑、市场地位下降和可能失去主要客户的风险，进而影响公司的盈利能力和发展潜力。
　　2.业务发展受下游人工智能领域发展状况影响较大的风险
　　公司主要为AI产业链上的各类机构提供算法模型开发所需的训练数据，服务于下游人工智能行业发展。公司的经营情况、业务发展与下游人工智能领域的发展状况息息相关。若未来人工智能领域景气度下降，或因技术更迭使得对训练数据的市场需求发生变动，将对公司业绩产生较大影响。
　　(四)宏观环境风险
　　1.经营业绩受税收优惠政策影响较大的风险
　　报告期内，公司享受了增值税即征即退、高新技术企业和研发费用加计扣除等一系列税收优惠，经营业绩受税收优惠政策影响较大。如果未来公司所享受的税收优惠政策出现不利变化，或者公司不再符合税收优惠的条件，则公司将无法持续享受税收优惠或存在所享受的税收优惠减少的可能性，并进而对公司未来经营业绩和现金流水平造成不利影响。
　　2.汇率波动风险
　　海天瑞声作为一家面向全球的训练数据服务商，拥有数量众多的境外客户，遍布美国、韩国、日本等各地区，报告期内公司境外收入占比为46.91%，该等收入使用外币进行结算，并受人民币汇率水平变化的影响。人民币汇率可能受到国内外政治、经济环境等因素的影响，存在波动风险，进而对公司的经营业绩产生不利影响。
　　3.中美贸易摩擦风险
　　公司产品和服务的主要出口地包括美国、日韩等国家或地区。报告期内，公司出口美国的营业收入占当期公司营业收入的比重为21.16%。公司相关境外业务始终严格遵守中国及他国法律。但国际局势瞬息万变，近年来中美贸易摩擦不断，如果中美双方出台新的贸易保护主义措施，可能会影响美国市场相关客户将数据提供给公司用于标注，减少与公司进行训练数据方面的业务合作，公司相关业务可能会受到约束，将会对公司的生产经营产生不利影响。
　　(五)其他重大风险实际控制人控制不当的风险
　　截止报告期末，贺琳直接持有公司1,213.76万股股份（占总股本的20.12%），并通过控制中毅安间接控制公司693.58万股股份（占总股本的11.50%），合计控制公司31.62%的股份，为公司实际控制人。
　　如果实际控制人利用其控制地位，通过行使表决权或其他方式对公司财务管理、人事、发展战略、经营决策等重大事项施加不利影响，其他股东的利益可能受到损害。收起▲

　　一、经营情况讨论与分析
　　2024年，受益于多模态大模型的快速发展以及“AI+”在应用端的进一步落地，全球训练数据需求快速增长。一方面，大模型语音交互需求持续攀升，公司凭借多年在语音数据方面的积累，获得以智能终端厂商、科技互联网公司等为代表的国内外科技巨头多类语音数据订单，带动大模型相关业务收入快速增加，并成为公司收入增长的核心引擎。另一方面，为更好拥抱新一轮全球化市场机遇，公司持续加大海外市场拓展力度，丰富品牌营销策略、推动销售提速，并通过建设海外交付能力完善海外供应链体系，启动海外全链条服务能力的延展，进一步带动境外业务收入显著复苏。此外，公司不断拓展智能驾驶服务能力边界，抢抓车企出... 查看全部▼

　　一、经营情况讨论与分析
　　2024年，受益于多模态大模型的快速发展以及“AI+”在应用端的进一步落地，全球训练数据需求快速增长。一方面，大模型语音交互需求持续攀升，公司凭借多年在语音数据方面的积累，获得以智能终端厂商、科技互联网公司等为代表的国内外科技巨头多类语音数据订单，带动大模型相关业务收入快速增加，并成为公司收入增长的核心引擎。另一方面，为更好拥抱新一轮全球化市场机遇，公司持续加大海外市场拓展力度，丰富品牌营销策略、推动销售提速，并通过建设海外交付能力完善海外供应链体系，启动海外全链条服务能力的延展，进一步带动境外业务收入显著复苏。此外，公司不断拓展智能驾驶服务能力边界，抢抓车企出海机遇，积极探索布局境外数据采集业务；同时继续保持有竞争力的研发投入，持续优化迭代智能驾驶数据处理相关算法研发和平台建设，以及智能化标注能力数据服务能力逐步延伸至4D数据标注、大点云分割等更复杂场景，以更好适应以BEV技术为主、稳步向OCC技术方向探索的高阶智能驾驶技术需求。受上述各项积极因素带动，公司整体营业收入实现同比增长。
　　此外，由于标准化数据集产品收入占比大幅提升，同时公司整体数据交付能力在管理能力优化、平台技术提升、供应链进一步整合和扩展等因素的共同推动下，使训练数据定制服务的毛利率也同比显著增长，共同驱动公司整体毛利率增加至66.46%。此外，应收账款减值减少导致信用减值损失同比下降。以上因素共同驱动公司全年净利润大幅增长，实现扭亏为盈。
　　报告期内，公司实现营业收入2.37亿元，较上年同期增长39.45%；归属于母公司所有者的净利润1,133.61万元，较上年同期增加4,172.13万元；归属于母公司所有者的扣除非经常性损益的净利润为497.35万元，较上年同期增加4,844.42万元；经营性现金流净额2,873.34万元，较上年同期增加5,977.96万元。截至报告期末，公司总资产为8.08亿元，归属于母公司的所有者权益为7.43亿元，分别较期初减少1.95%和4.99%。2024年公司具体经营情况如下：
　　(一)核心业务板块经营情况
　　1.训练数据全球化业务
　　2024年，受益于大模型技术的快速发展以及应用领域不断拓展，以智能终端厂商为代表的科技巨头纷纷加大多模态数据投入，全球数据服务市场持续增长。在此背景下，公司凭借多年在语言研究方面的技术积累、以及全球领先的标准化数据集产品储备，进一步赢得了境外客户信赖。与此同时，《促进和规范数据跨境流动规定》等法规出台，为数据出境提供了更为高效简明的路径。得益于行业发展以及政策环境的改善，截至报告期末，公司境外业务收入较上年同期显著增长89.53%至1.14亿元。
　　此外，为更好把握行业机遇、进一步扩大全球客户辐射范围，公司从体系搭建、市场研究、品牌升级、营销推广等多维度提升业务、客户触达及服务能力。报告期内，公司持续加强境外销售团队建设，进一步织密客户服务网络；同时，通过参与包括WebSummitQatar、ICASSP、AIEXPOTOKYO、AutosenseandInCabin、CVPR、ACL、Interspeech、SLT及NeurPS等全球知名行业及AI学术顶会，以及布局搜索广告投放、社交媒体矩阵等多类宣传渠道等方式，向全球市场展示公司先进技术实力及创新产品，提升行业影响力和美誉度。2024年公司获得由AcquisitionInternationaMagazine颁发的"BestAI-PoweredDataSoutionsCompany"奖项和Datarade颁发的"TopAITrainingDataProvider"奖项。截至报告期末，公司境外客户数量已超过260家。
　　报告期内，公司通过在新加坡投资设立控股公司的方式拓展海外首个自主可控的数据交付基地，在订单、产能两端同步实现增量覆盖，不仅有助于培育新的营收增长点，更为下一步提升海外定制化业务能力奠定基础。
　　2.大模型数据服务业务
　　伴随大模型技术的不断突破，人工智能行业被按下发展“快进键”，数据作为大模型的“燃料”，已成为模型公司打造差异化优势的战略性资源，高质量数据需求快速增加。报告期内，公司不断拓展自身大模型数据服务能力，从预训练、后训练、到指令微调、对齐、评测等全链条环节为客户提供立体支撑；同时，也逐渐从通用的基座模型的数据服务，拓展至艺术、工业、教育、医疗等多类垂直领域；服务的客户范围也已覆盖至主要大模型厂商和研究机构。报告期内，公司持续加大大模型数据方向的研发投入，增厚大模型领域的数据储备，新增开发了多类多语种、多音色、多情感、多场景的ASR和TTS语音数据集；以及服务视觉理解以及视觉生成的视觉数据集；同时，前瞻性建设了用于提升大模型推理能力的CoT数据集，通过详细的推理步骤注释，让大模型学习从问题到答案的逻辑推导过程，有效填补传统数据集缺乏推理结构的空白。与此同时，为更好理解大模型技术方向，报告期内，公司通过前瞻性研究，探索大模型数据的规模化生产方式，全面助力公司大模型业务的扩张。公司已和清华大学联合启动多语种语音大模型研发计划，该项目将基于最新的E-Branchformer、CTC-Attention技术，自研东方40语种、以及中国22方言数据清洗技术，训练了0.1B-1.7B等4个不同规模的语音大模型，模型效果达到了业界同等尺寸的领先水平。公司的算法团队联合清华大学语音与音频技术实验室充分利用公司海量高质量语音数据集储备，充分发挥各自所长，促进大模型技术在数据生产领域的更深层次的应用。
　　3.智能驾驶行业数据服务业务
　　2024年，为更好抢抓智能驾驶行业机遇，同时应对更为复杂的数据处理需求，公司加大了对高级别数据标注工具的研发力度，截至报告期末，DOTS-AD平台新增3D动静分离标注工具，BEV多图层4D车道线标注工具，并升级点云分割工具支持连续帧叠加标注和大点云分段加载、点云区域分割等核心能力，有效支撑了自动驾驶BEV和OCC主流算法演进对数据标注工具的需求。此外，公司不断优化算法中台中枢能力，开发了2D&3D融合的动静分离检测追踪算法，在点云连续帧融合产线实现提效30%以上；迭代优化点云分割算法和地面检测算法，在点云分割产线实现提效20%以上；研发3D点云预刷式跟踪技术、4D点云重建技术，均取得了20%以上的提效成果。
　　此外，为进一步支撑我国车企的国际化战略，公司在全球范围内扩展了道路采集业务，可提供包括采集方案设计、采集人员组织、车队管理、车辆改装及数据清洗与脱敏等在内的全链条服务。截至报告期末，公司采集业务已覆盖包括德国、西班牙、捷克等多个国家，为公司构建智能驾驶全球化数据服务能力奠定了基础。同时，舱内支撑DMS和OMS研发需求的采集业务也已拓展至俄罗斯、奥地利等多个欧洲国家，为众多客户出海业务提供有力数据支持。
　　(二)核心技术能力建设情况
　　2024年，按照技术+产品双轮驱动的定位，公司继续保持有竞争力的研发投入强度，不断提升技术和平台工具先进性、在大模型数据处理技术方向进行积极探索储备、巩固标准化数据集产品储备、增厚语音语言学基础研究领先性，持续巩固公司核心竞争力。报告期内，公司研发费用共计6,343.91万元，占当期营业收入的26.76%。截至报告期末，公司研发人员数量79人。
　　1.算法及平台能力建设、大模型数据处理技术持续探索储备
　　报告期内，公司持续加大基础研发投入，进一步提升人工智能基础算法、一体化数据处理平台、前沿技术研发等领域能力；在智能驾驶数据处理综合性平台上继续提升自动化能力，并落地更多面向智能驾驶数据预处理的相关算法；同时，在面向大模型预训练、后训练、微调、对齐及评测技术上持续保持技术探索、储备，推动相关领域的数据服务，并形成了一些代表性成果：
　　1.1算法
　　智能语音领域，完成Whisper推理框架升级、显存占用降低59%、推理延迟降低59%，新增ASR模型11个、语音识别算法支持语种数增至130+个，大幅提升了算法在实际项目中的降本增效能力。在计算机视觉领域，引入Detzero-track、CenterPoint、Lane-Marking-Detection、FaceFusion、roop、Utraytics、BoT-SORT等有代表性的计算机视觉框架或算法，上线3D点云目标检测多模型融合算法、4D大点云车道线检测算法、GDINO-零样本目标检测等算法，优化2D细分类视频跟踪算法、2D异形红绿灯跟踪算法、4D车道线长度动态自适应调整算法等多个智能驾驶场景下的模型，并新增超过27种不同场景的视觉类算法预处理技术。在大模型算法领域，针对公司自有知识产权的语音数据集，设计通用的数据清洗、模型训练、模型评测框架，已完成数据清洗pipeine搭建，并初步清洗出通用格式的语音数据数十万小时，同时完成语音大模型训练所需要的算力集群搭建、算法框架研发、模型训练pipeine搭建、并完成东方语种语音大模型的训练、微调、评测等。针对视觉大模型应用领域，构建起基于特征向量的去重技术、美学评分模型、图文生成模型等多个基础能力，并在项目中投入应用，取得了良好的降本效果。
　　1.2平台
　　公司在训练数据生产与管理的一体化平台建设方向精耕细作，展现了一系列创新成果，具体可归结为以下核心维度：
　　（1）重点推进以数据为核心的一体化平台体系建设，通过集中研发DataX数据中台，优化整合原有数据存储、数据可视化和数据流转等功能，全面提升一体化数据处理平台的处理过程柔性管理能力，数据处理管道新增可视化编排工具，集成20+新型算子，实现了十余类核心预处理算法模型自动化对接、数据切片、数据加工处理管道的快速搭建与灵活编排，以及数据处理算子集成与统一管理，共计近60个功能点。
　　（2）实现贯穿数据采标、模型训练、模型效果展示全生命周期管理：重点优化多源多模态非结构化与结构化数据的标准化与一致性管理，以及点云与图像类算法模型对比与模型评测支撑能力。深度集成预处理算法库，算法评测体系扩展至15+量化指标，支持多模型对比测试与算法结果可视化展示，扩展模型版本效果量化对比展示及分析能力等超60个功能点，大幅提升公司对训练数据的一站式全生命周期管理能力，形成从数据管理到模型迭代的完整算法增强闭环。
　　（3）积极投入人工智能数据运营平台的全链路智能化体系革新，重点建设数据共建共享机制、全面升级多模态AI标注算法矩阵、有效优化分级流通合规保障体系等核心功能，创新研发自动化标注工具集群，搭建覆盖开源开放、成员共建、可信空间的三级数据生态，形成覆盖文本、语音、图像、视频的智能化处理矩阵。同时，逐步建设形成从资质认证、脱敏加密到合规审计的全流程安全管控体系，强化跨平台数据流动追溯与多角色协同能力，构筑起集数据汇聚、生产、治理、流通、应用于一体的智能化基础设施平台，推动数据要素市场基础设施向智能化、合规化、生态化方向加速演进。
　　通过上述投入，截至报告期末，公司共获得专利授权41项，获得登记的软件著作权180项。同时，公司实质性地提升了自身的数据全生命周期管理与运营能力、算法能力、工程化数据研发及生产能力，形成了更为合理、高效的人机协同智能化解决方案，持续降低训练数据开发成本，以AI赋能训练数据开发，以训练数据驱动AI产业发展。
　　2.标准化数据集产品
　　标准化数据集产品，是公司区别于众多竞争对手以定制化服务为主的特有商业模式，也是公司核心竞争力之一，标准化产品是公司基于未来行业需求的研判，在市场需求出现之前，预先开发的数据集，具有即用即取的特点，可帮助客户大幅缩短模型研发周期并有效降低数据投入成本。同时，由于产品本身的知识产权由公司享有，具有一次性研发生产、可重复多次销售的特点，因此可更好帮助公司实现未来可持续性销售、以及毛利空间提升。
　　因此，为更好适应行业发展需求，公司2024年在产品研发方面持续投入，用于开发覆盖智能语音、计算机视觉以及自然语言等传统深度学习以及大模型领域的相关数据集产品。截止报告期末，公司新增研发超150个训练数据集产品，自有知识产权的训练数据产品储备超过1,700个，尤其在多语种及多音色语音数据集和发音词典、动作捕捉等多模态数据集、以及多语种OCR和手写体数据集等方面积累了更丰富的标准化产品资源，并建成包括“大语言模型中文对话预训练数据集”、“语音大模型（声音复刻、歌曲）预训练及微调数据集”、“视觉大模型（图像-文本）预训练及微调数据集”等在内的多领域大模型数据集。
　　截止报告期末，公司已向下游客户提供了累计超过9,500次/个定制或标准化训练数据集，并已应用于个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等22类创新应用领域，赋能人工智能技术与实体经济的深度融合。
　　3.语音语言学能力
　　随着全球化扩张成为头部AI企业收入增长的重要引擎，多语种数据的作用和价值更加凸显。为更好满足客户多语种拓展需求，公司持续保持语音语言学研究力度，在语音语言学基础研究方面，公司不断丰富合作语言学家团队资源，成员遍布世界各地的学校及研究机构，在语音语言学领域具备丰富经验和技术储备。截止报告期末，公司已经拥有超过205个语种/方言的覆盖能力，不仅包括含英、法、德、意、西、日、韩等常见语种，还包括东南亚、一带一路等国家地区的罕见小语种，尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时，公司建立了成熟的发音词典构建流程，公司已积累下近140个多语种的发音词典，覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种，累计词条数超过1,200万条，可支撑构建高质量的智能语音、以及多模态训练数据，是公司的主要竞争壁垒及核心技术之一。
　　(三)其他综合能力建设情况
　　1.数据安全及合规
　　2024年，中央和地方出台了一系列有关数据要素、数字经济的法律法规和政策，同时，《促进和规范数据跨境流动规定》等法规出台，都对企业的数据安全水准和能力提出了更高要求，也为企业在数据要素、人工智能等领域的发展提供了新的机遇。
　　公司一直以来非常重视数据安全管理以及相关能力的提升，并将其作为把握新发展机遇所必须练好的“基本功”。2024年，公司在数据安全方面取得了多项工作成果。公司“AIGC训练数据业务的综合合规管理机制”案例荣获中国互联网协会首届“金灵光杯”中国互联网创新大赛企业合规赛道优秀奖。公司积极参与行业发展，提出立法建议、参与行业调研，数据安全能力获得广泛认可。
　　公司也一直坚持统筹安全与发展并重的原则，在守住安全合规底线的前提下积极拓展包括数据跨境流通在内的数据要素业务。
　　2.供应链体系
　　2024年，在AI大模型技术快速迭代的驱动下，公司战略布局医疗、金融、法律、艺术等垂直领域，深度整合产学研资源，通过与各行业的专业机构及专家的合作成功构建了覆盖诊断、智能投顾、合规风控、数字版权等细分场景的供应链资源池，不仅提升了供应链体系的响应敏捷度与行业适配性，更通过知识图谱与区块链技术的融合应用，实现了跨领域资源的智能匹配与全流程可信溯源，显著增强了供应链生态的多样性与专业壁垒。
　　在战略供应商生态构建方面，公司深度践行“共生共赢”理念，与战略供应商建立了长期稳定的合作关系，加强了与供应商的风险共担机制，共同应对市场波动和不确定性。
　　公司也进一步优化了供应链网络，特别是在海外一手资源群体的扩展方面取得了重要进展。通过建设大型数据基地及精细化管理资源池，供应链的多样性和稳定性得到了显著提升，为实现可持续性产能扩张和成本优化奠定了坚实基础。
　　在供应链管理体系建设方面，通过建立更细致的成本核算模型和流程监控节点，实现了对供应链各环节成本和效率的精准把控。同时，全面升级线上管理系统，实现了订单处理、资源配置和结算审批的一体化和实时化。
　　3.人力资源
　　报告期内，公司完成销售、生产、研发体系的绩效管理机制优化，并对内部反馈机制及奖金核算机制进行迭代，以期增强绩效牵引力实现更加公平和富于激励性的管理效果。上半年公司组织多种类专项培训及人才发展项目，在大模型领域的探索与应用进行广泛深入的内部交流，组织销售、生产、职能等多体系的软技能培训，对应届高潜毕业生、新锐力量、中坚力量、中高层管理人员采取不同的梯队建设规划，以保障人才队伍的不断夯实。文化建设方面，强化高度敬业和持续创新文化，进行榜样之星等多样化的文化倡导和活动辐射，打造更加尊重信赖和追求卓越的组织基因。同时在人才引进方面，启动海外人才招募、研发专项人才和高潜毕业生吸引计划，引入多名欧美同业专家、优质研发人员、及卓越背景应届毕业生，充实销售、研发及项目交付队伍的人才密度，发展健康、可持续、多元化的人才队伍。
　　
　　二、报告期内公司所从事的主要业务、经营模式、行业情况及研发情况说明
　　(一)主要业务、主要产品或服务情况
　　1.主要业务情况
　　公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工，最终形成可供AI算法模型训练使用的专业数据集，通过软件形式向客户交付。
　　自2005年成立以来，公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展，公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业，并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音（语音识别、语音合成等）、计算机视觉、自然语言等多个核心领域，全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。
　　公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等国内外客户的认可，应用于其研发的个人助手、智能音箱、语音导航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量超过1,050家，覆盖了科技互联网、社交、IoT、智能驾驶、大模型等领域的主流企业，以及政企、教育科研机构。
　　2.主要产品及服务情况
　　2.1主要产品及服务按业务类型分类
　　公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域，广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外，公司还提供与训练数据相关的应用服务。
　　（1）智能语音
　　人工智能在语音领域的应用技术主要包括语音识别、语音合成等。
　　语音识别（AutomaticSpeechRecognition，ASR）是让机器能够“听懂”人类语音的技术，它能使机器自动将语音信号转换为对应的文本信息。
　　语音合成（TexttoSpeech，TTS）是让机器能够“说出”人类语音的技术，它使机器能将文字信息转化为流畅的语音“朗读”出来，相当于给机器安上了人工嘴巴。
　　以日常生活中的情景为例，语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换为文字，实现了软件“听懂”语音并“听写”出文字的效果；而地图、导航软件则运用语音合成技术，实现了软件“发声说话”的效果，为用户提供即时语音导航。
　　公司通过设计（设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等）、采集（定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频）、加工（对音频文件进行切分、标注各类声音特征，形成带时间戳和特征标签的文本和标注文件等）、质检（对数据集进行质量检测，如音字一致性、标注准确率检查等）等训练数据集生产环节；或者针对客户提供的原料音频文件执行加工、质检工作，最终形成客户所需的智能语音训练数据集。
　　（2）计算机视觉
　　计算机视觉（ComputerVision，CV）是使机器具备“看”的功能的技术，它使得智能驾驶、智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。
　　以日常生活中的情景为例，在汽车的自动驾驶功能中，计算机视觉技术使得汽车能够“看见”并识别行车过程中的各种行人、路况场景，为后续作出相应的反应奠定基础；在机场、车站安检中，计算机视觉技术使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。
　　公司通过设计训练数据集结构、采集（如定义合适的人脸、动作、场景作为采集对象，组织被采集人按照要求拍摄照片、录制视频等）、加工（对图像、视频文件进行打点、拉框、分割标注等）、质检（对数据集进行质量检测，如检验图片、视频文件格式是否正确，检查光照环境、物体种类的数量是否达标，打点标框的准确率是否符合要求等）；或者对客户提供的图像、视频文件执行加工、质检工作，最终形成客户所需的计算机视觉训练数据集。
　　（3）自然语言处理
　　自然语言处理（NaturaLanguageProcessing，NLP）是使机器能够像人一样理解语言意图的技术。
　　以日常生活中的情景为例，寄送快递时使用的“智能填写”功能即运用了自然语言处理技术，在输入框中填入整段联系信息，软件应用能够理解语义，并从中识别及提取“收件人”、“联系方式”、“地址信息”等所需信息，完成自动填写；智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术，使得程序、机器能够读懂人类语言的真正意图，并相应做出反应、提供服务等。
　　公司通过设计训练数据集结构、采集（收集或编写自然语言文本、对话等数据信息）、加工（对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等）、质检（对数据集进行质量检测，如检验文本、词性或者语义的标注结果是否准确等）；或者对客户提供的自然语言文本执行加工、质检工作，最终形成客户所需的自然语言训练数据集。
　　（4）训练数据相关的应用服务
　　公司开放基于多年行业经验打磨的数据处理工具集及平台，提供包括公有云访问、私有化部署及SaaS化服务的多种能力，满足产业链上各类企业对于数据处理工具及平台能力的需求。
　　公司基于自身生产的训练数据提供算法相关的模型训练服务、模型评测服务及模型应用服务，运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定应用场景的专属算法模型，提高AI技术应用效果。
　　前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。
　　成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。
　　2.2主要产品或服务的终端应用场景
　　公司提供的高质量、大规模、结构化的训练数据，为算法模型的训练拓展提供了可靠的训练素材，助力AI技术实现实践应用及商业化落地，赋能AI技术与实体经济深度融合。公司提供的训练数据广泛应用于众多主流AI产品及终端应用的训练过程中，覆盖了个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等多种应用场景。
　　(二)主要经营模式
　　1.盈利模式
　　与主要产品及服务类型对应，公司的盈利模式主要包括以下三类：
　　（1）定制服务：公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下，公司享有服务费收入，不享有最终生成的训练数据的知识产权，不可将此类业务生产的训练数据向其他客户重复销售。
　　（2）标准化产品：公司开发自有知识产权的训练数据集产品，通过销售训练数据集产品的使用授权许可，获取让渡资产使用权收入。此类训练数据集一经开发完成，可多次销售并获取授权许可收入。
　　（3）训练数据相关的应用服务：公司基于积累的训练数据和多年行业经验提供数据处理工具集及平台服务、算法相关的模型训练、模型评测及模型应用服务，通常以软件授权或软硬件一体化形式交付平台产品、算法模型拓展、开发成果等，获取让渡资产使用权收入和技术服务等收入。
　　2.生产或服务模式
　　（1）训练数据集生产模式
　　公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。
　　公司的训练数据生产过程主要包括四个环节：设计（训练数据集结构设计）、采集（获取原料数据）、加工（数据标注）及质检（各环节数据质量、加工质量检测）。
　　（2）训练数据相关的应用服务模式
　　公司开放基于多年行业经验打磨的数据处理工具集及平台，提供包括公有云访问、私有化部署及SaaS化服务的多种能力，满足产业链上各类企业对于数据处理工具及平台能力的需求。
　　公司基于其生产的训练数据提供算法模型相关的训练、评测及应用服务，助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定应用场景（例如特定行业、特定口音等）的专属算法模型，提高AI技术应用效果。
　　以某大型科技公司客户项目为例，客户研发了特定语音识别算法模型，需要根据算法模型的实际场景（如法院庭审场景）开发落地应用。公司承担了部分落地应用拓展相关的开发工作，围绕客户的算法模型和接口开发，最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。
　　3.采购模式
　　按照采购的内容及主体划分，公司的采购包括：
　　数据服务采购：公司在数据采集、加工环节中，向人力资源服务等类型的公司等供应商采购的，非核心技术环节的原料数据采集、标注服务。
　　岗位服务采购：主要针对临时性的、不设长期岗位的业务领域的外包采购，如保洁、临时招聘服务、少量实习生招聘等。
　　其他采购：（1）训练数据生产所需的资产，主要包括软、硬件设备及其他需求物品采购；（2）日常运营所需的资产及物品，如办公用房、车辆、办公家具、计算机设备等；（3）日常专项服务采购等，主要包括审计服务、会议服务、差旅服务等。
　　上述原料数据采集、加工环节所涉及的数据服务采购，为公司最主要的采购类别，由集采中心负责；各部门岗位服务采购由人力资源部负责；其余日常运营相关的资产物品采购、专项服务采购等非业务采购由集采中心负责。财务中心负责参与采购供应商的遴选、监督与管理，并对采购费用进行核算及结算。
　　经过多年的发展，公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度，设立有完善的采购流程和体系，并与主要的供应商形成了良好稳定的长期合作关系。
　　4.营销模式
　　公司采用直接对接并服务客户的直销模式进行营销，符合行业通行惯例。公司以高质量的训练数据集及相关服务吸引客户，并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、参与学术会议和行业展会新产品发布、搭建并持续升级公司官方网站和建立自媒体矩阵等方式提升品牌知名度、开拓新客户，后续再通过商务谈判、招投标等形式获取具体业务机会。
　　(三)所处行业情况
　　1、行业的发展阶段、基本特点、主要技术门槛
　　1.1行业的发展阶段、基本特点
　　（1）政策、技术、应用协同共振，全球AI产业迈入高速发展新阶段
　　当前，全球人工智能产业正迎来历史性发展拐点，政策、技术与应用的三重共振推动行业进入高速增长通道。中、美、欧三大经济体持续加码AI布局：中国通过《新一代人工智能发展规划》和《"十四五"数字经济发展规划》等构建了涵盖技术研发、资源建设和标准制定的全链条政策体系；美国则依托《人工智能行政令》和星际之门计划（Stargate）等，持续巩固其在人工智能基础设施领域的领先优势；欧盟以《人工智能大陆行动计划》为纲领，配套《数字欧洲计划（2025-2027年工作方案》专项资金，重点培育AI与高性能计算融合创新。技术层面，人工智能也正在经历革命性突破，DeepSeekR1等开源模型通过性能提升与成本优化的双重突破，显著降低了技术应用门槛；多模态大模型（如Sora、GPT-4o）也在不断拓展AI能力边界，实现全模态互动能力。这种技术平权运动正在加速AI向千行百业渗透，大模型已逐步开始向金融、医疗、制造等核心领域进行新一轮的赋能，智能风控、AI辅助诊断、智能制造等应用场景不断丰富，推动各行业效率提升和模式创新。全球AI产业也将在上述政策引导、技术迭代与商业落地的正向循环下，迎来前所未有的发展机遇，加速向规模化、价值化阶段迈进。
　　根据国际数据公司（IDC）的数据，2024年全球人工智能(AI)IT总投资规模为3,158亿美元，预计在2028年增至8,159亿美元，年复合增长率(CAGR)为32.9%。
　　中国作为全球科技大国，也深度受益AI技术发展。根据艾瑞咨询的数据，2024至2029年中国AI产业将保持32.1%的年均复合增长率，在2029年突破1万亿的市场规模。
　　（2）训练数据作为AI发展和演进“燃料”的作用更加凸显，并逐渐成为大模型竞赛中的重要决定性要素
　　在AI产业链中，算法、算力和数据共同构成技术发展的三大核心要素。过去十多年，人工智能产业以算法为核心，通过深度学习算法的不断创新，推动人工智能产业的快速发展。但未来，当更多先进算法趋于开源，算法的差异化壁垒逐渐消除；此外，以DeepSeek为代表的算法架构创新和工程优化，带来了训练以及推理成本的大幅下降，这也意味着算力将不再是制约AI发展的核心因素。在此背景下，训练数据的重要性被进一步放大，成为未来AI发展的关键驱动因素。数据的质量、规模和精准性将直接决定模型能力的上限，高质量的训练数据不仅能显著提升模型的推断可靠性，还能有效减少幻觉和错误信息的产生，成为模型落地效果的关键。因此，高质量数据需求将呈现快速增长趋势。
　　根据Cogniytica数据统计显示，预计2027年全球AI训练数据市场规模将增长到220亿美元，2021-2027年复合增长率达32%。
　　中国作为全球人工智能产业增速最快的国家之一，相关数据需求也在快速增长。根据艾瑞咨询的数据，2024年中国人工智能基础数据服务市场规模为58亿元，2028年规模将达到170亿元，年复合增长率为30.84%。
　　（3）数据要素市场蓬勃发展，数据行业迎来更为广阔的发展机遇
　　党的二十届三中全会对加快构建促进数字经济发展体制和机制，完善数据要素市场制度规则等作出部署，为中国数据要素市场化改革发展指明了方向。2023年国家数据局成立以来，我国坚持推进数据要素市场化配置改革“一条主线”，统筹数字中国、数字经济、数字社会“三个建设”的工作思路，推动数据工作更好服务高质量发展。同时，探索完善数据基础制度体系，加快推进数据基础设施建设，提升数据资源开发和利用水平。国家数据局联合多部门制定《“数据要素×”三年行动计划（2024—2026年）》《关于促进数据产业高质量发展的指导意见》《国家数据基础设施建设指引》《关于促进数据标注产业高质量发展的实施意见》等一系列数据产业发展指导意见，体现国家高度重视数据产业高质量发展，《关于促进数据产业高质量发展的指导意见》指明了数据技术和产业重点发展方向；《关于促进数据标注产业高质量发展的实施意见》明确提出培育壮大数据标注产业对于提升数据供给质量，推动人工智能创新发展具有重要支撑作用。
　　全国各地数据要素市场化配置改革也在加速推进。例如，北京市制定2024数据工作要点，在探索和实践数据基础制度先行示范区、人工智能数据训练基地的基础上，提出“一区三中心”的建设总体思路，开展“高端数据标注基地”建设，不断完善数据基础制度，激发数据要素活力。2024年国家公布了7个数据标注基地试点城市，数据标注规模再创新高，数据标注总规模达17282TB，相当于中国国家图书馆数字资源总量的6倍左右。其中，成都市发展改革委印发《2024年成都市数字经济发展工作要点》，成都市大数据集团探索精准安全的公共数据开发运营新模式，搭建“成都市公共数据运营服务平台”，保障不同市场主体平等获取数据要素，实现数据要素配置效益最大化、效率最优化。2024年长沙市政府印发《长沙市关于推进国家数据标注基地建设的工作方案》，同时配套出台《长沙市关于推进国家数据标注基地建设若干政策（试行）》，从聚焦加快培育标注产业、支持技术创新攻关、加强专业人才培育、促进数据服务赋能等四大方面推出了14条产业政策，加大扶持力度。沈阳市推动数据要素市场化配置改革，探索数据交易服务机制，实施《沈阳市公共数据授权运营管理办法（试行）》，开展公共数据授权运营探索实践。其他地方政府也非常关注高质量数据集和数据标注产业的发展。例如，呼和浩特市政府印发《关于构建数据基础制度更好发挥数据要素作用的实施方案》，加快构建数据制度，激活数据要素潜能，更好发挥数据要素作用，增强经济发展新动能。打造内蒙古数据要素产业园，创建数据标注基地。
　　总体来看，随着“人工智能+”和“数据要素×”等国家战略行动计划的实施，全国各地均在加速推进数据要素市场化配置改革，未来将以高质量数据集建设，夯实人工智能数据基石，推动数字经济高质量发展为目标，围绕数据的汇聚、治理、标注、运营、评测、开发利用以及流通交易全流程，将产生包括数据汇聚、数据治理、数据标注、数据运营、数据评测、数据应用、数据流通、可信数据空间、数据标注基地运营等在内的新业态、新模式，将成为我国数字经济发展的新增长极。
　　（4）训练数据领域的未来发展趋势
　　随着DeepSeek、GPT-4o等成为全球范围内的现象级应用，以及以手机、具身智能为代表的AI终端的快速推出，人工智能迎来了新的发展机遇，其背后的大模型技术也正在带来相关数据需求的变化和增长。
　　a.多模态大模型正成为人工智能发展的新趋势，多模态数据需求显著上升
　　当前，大模型正经历从单模态到多模态的范式转变。多模态技术的本质在于跨模态信息融合，即通过协同处理文本、图像、音频、视频等不同形式的数据，使AI具备更接近人类的全维度认知能力。这种演进不仅显著提升了模型在跨模态任务中的鲁棒性，更解锁了诸如视觉问答、跨模态生成、智能语音交互等复杂场景的应用潜力。
　　以视觉问答为例，系统需同时解析图像中的视觉元素和文本问题的语义信息，并通过模态对齐与知识推理生成准确回答。这一过程的实现，依赖于海量高质量的图文对数据。数据服务商需构建覆盖多样化场景的问答对，通过模拟真实世界的视觉推理逻辑，训练AI建立视觉-语言联合表征能力。而在语音合成领域，要实现富有表现力的拟人化发声，仅有时序对齐的文本-语音数据远远不够，还需引入情感标签、语调标记、韵律特征等细粒度标注，让AI精确捕捉人类语言中的情感起伏和表达风格。
　　实践证明，数据质量与多样性是多模态AI发展的决定性因素：一方面，优质数据定义了模型的能力上限；另一方面，数据分布的广度直接关系到技术落地的普适性。未来，随着多模态数据生态的持续完善，AI的感知与认知能力有望实现新的跨越。
　　b.大模型发展正在从"规模驱动"向"推理驱动"转型，高质量思维链（CoT）数据成为提升大模型复杂推理能力的关键突破口
　　随着DeepSeekR1的推出，思维链技术（ChainofThought,CoT）迅速成为AI领域的研究热点。这项技术通过引导模型模拟人类逐步推理的过程，显著提升了其在逻辑推理、数学计算及复杂问答等任务中的表现。
　　过往几年，大语言模型（LLM）的发展主要遵循ScaingLaw（规模定律），即通过扩大模型参数量和训练数据规模来提升性能。然而，随着知识积累的边际效益逐渐降低，仅单纯依赖规模的增长已难以实现质的飞跃。于是，让AI像人类一样进行深度、有序的“慢思考”，成为突破现有认知能力瓶颈的关键方向。以数学问题为例，传统LLM往往直接输出最终答案，而省略中间推理过程，导致错误率居高不下。相比之下，具备CoT能力的模型会分步骤解析问题，先理解题意，再梳理已知条件，逐步推导计算，并最终验证结果的合理性。这种显式推理机制不仅大幅提高了模型的准确性，还使其决策过程更加透明，便于开发者理解和优化。
　　然而，思维链能力高度依赖高质量的CoT数据——即包含详细推理步骤的问答对。这类数据由于专业性强、标注难度高，目前仍属于稀缺资源。具体而言，优质的CoT数据需要领域专家进行人工构建，不仅要确保问题本身的复杂性，还需对解题过程中的每个逻辑进行严格验证，这种双重门槛使得数据生产周期往往长达普通标注任务的数倍。当前即便是最前沿的合成数据技术，在生成具有严密因果关系的多步推理时，仍会有相当概率出现逻辑断层，这也使得高阶人工标注目前仍是不可替代的重要数据来源。
　　c.从通用到垂直，高质量行业数据需求显著提升
　　以DeepSeek为代表的开源大模型，以其高性能、低成本，以及允许全球用户无限制商用等特点，进一步加速了AI应用的普及，激发了应用层的创新活力，使AI逐渐从通用大模型向更广泛的应用场景和行业领域拓展，AI不再局限于作为回答通用问题的智能助手，而是能够针对特定行业/场景提供解决方案，或者协助执行各类复杂任务的超级助理（AIAgent）。例如，在医疗领域，AI可以作为影像科医生辅助诊断；在法律领域，AI可以担任法律顾问提供专业咨询；同时，AIAgent也能够独立完成点外卖、制定行程、预订机票等日常任务。
　　AI不仅在传统行业与生活场景中展现出独特价值，在智能终端领域，同样掀起了革新的浪潮。例如，AI在智能手机上的应用，可以帮助用户通过文字快速创作专业级摄影大片；当海量照片让整理相册成为难题时，可以快速通过文字描述定位对应图像，实现即时快速检索。在交互层面，AI赋能的语音助手也有质的飞跃。如今的语音助手不再是简单的指令执行者，它们能理解各种不同语种、不同场景下，复杂的语义和情感，并用不同的音色情感与用户进行交互。
　　与以往通用数据处理需求不同，垂向领域的数据处理更加注重专业性。例如，传统的自然语言处理只包括基本的文本处理工作，例如，分词、词性、正则化等标注需求，这些任务无需标注人员具有特定的行业知识；相对地，开发专门领域，例如医疗大模型，则要求标注人员不仅具备扎实的医疗专业知识，还要能够熟练使用医疗术语进行专业场景下的表达，使医疗模型能够理解和生成专业的医疗内容。这种专业化的需求也对数据服务商提出了更高的要求，数据服务商不仅要对行业有深刻的理解，以设计出符合行业需求的数据解决方案，还需要具备更丰富的专家库储备，以提供高质量的数据标注服务以及相关专业咨询服务。
　　d.具身智能浪潮来袭，数据供给瓶颈亟待突破
　　具身智能作为通向通用人工智能（AGI）的关键路径与终极载体，正引领着AI发展的下一波浪潮。与传统大模型不同，具身智能的核心在于构建能够与物理世界深度交互的智能体。这不仅需要突破性的多模态感知技术（包括视觉、听觉等），更重要的是要具备基于环境感知的自主决策与执行能力。实现这一目标的关键在于海量的物理世界交互数据，目前行业主要依赖四种数据来源，机器人遥操（通过人工远程操控获取真实场景下的操作数据）、动作捕捉（记录人类在特定环境中的行为模式）、虚拟合成（利用仿真环境生成训练数据）和互联网开源数据集（整合现有的公开机器人数据）等。其中，虚拟合成技术虽解决了初期数据短缺问题，但由于"仿真差距"的存在，其数据质量往往难以满足高精度训练需求。而开源数据集则面临着数据规模有限（通常仅百万级）、采集条件单一等挑战，无法支撑复杂场景下（需要千万级数据）的模型训练需求。当前，在具身智能蓬勃发展的大背景下，高质量的数据供给短缺问题愈发凸显，具身智能的训练数据市场呈现出巨大的供需缺口，需求旺盛且潜力巨大。
　　e.国家法律法规密集落地，对数据安全及合规提出更高要求
　　近年来，数字经济规模快速扩张，数据作为数字经济时代核心生产要素，重要性更加凸显，但数据不同于传统生产要素，其中可能涉及个人隐私以及国家安全的重要信息，因此，为更好保障数字经济长期稳定的可持续发展，建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年，国家陆续出台包括《数据安全法》、《个人信息保护法》、《网络数据安全管理条例》等主流法律法规，为解决数据安全问题、净化行业快速发展中的不良乱象提供了切实可行的法律依据。
　　未来，随着AI技术不断革新，应用行业以及场景不断增加，各行业、各领域数据安全规范逐渐落地将成为趋势，对于以数据生产为主营业务的数据服务企业，数据安全及合规能力将成为数据服务能力的核心评价维度，成熟的安全合规管理体系将成为重要评价标准，能持续跟踪法律环境变化，积极响应监管政策，牢牢把握发展与安全并重的原则的企业将具有更强的市场竞争力。
　　1.2行业的主要技术门槛
　　随着AI技术不断演进、产业应用不断丰富，训练数据的市场需求呈现体量、难度、复杂性、合规性持续上升的趋势，数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力、算法辅助数据生产能力、以及数据合规管理能力，这使得行业的技术门槛持续提升，具体体现为：
　　（1）在训练数据研发、生产全流程中的算法全面介入
　　随着AI技术应用落地的规模化效应凸显，客户对于数据规模和处理效率的要求不断提升，数据服务商须在研发、生产流程中全面引入算法以实现高效、合理的人机协作模式，进而实现降本增效的目标。一般而言，在训练数据研发、生产全流程中融入算法技术，可用于训练数据集的设计及训练数据生产的各个环节，例如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低对人员的依赖（既有人员数量的降低、也有对人员标注能力要求的降低），并构建训练数据设计、加工相关的核心技术；也可用于检查训练数据集对算法模型的训练效果，进而保障训练数据集质量。
　　（2）平台工具链功能及适配性要求持续提升
　　当前，客户侧的数据采集、标注需求范围在逐渐拓宽，数据采集与标注需满足的AI应用场景比以往明显更加广泛、复杂，这就对数据服务商的平台工具能力提出了更高要求，平台上处理大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化程度如何等等这些因素都决定了平台的适配性和能力如何，并最终决定了数据处理的质量、效率、成本。
　　（3）语音语言学基础研究方面须有深厚积累
　　伴随语音技术进一步发展落地、并向各行各业和更多垂直场景不断渗透，同时受到中国企业出海需求、国外企业区域拓展需求两方面的支撑，客户在多语种、多音色、音素集、发音规则、发音词典等方面的要求在不断抬升，这意味着只有那些在语音语言学基础研究方面投入更多、拥有深厚积累的数据服务商才能满足客户在这方面的多元化需求。
　　因此，市场上仅有极少数企业通过长期自主研发的方式能够达到上述核心技术门槛，成为有能力向不同客户群体提供综合、高效、合规的数据产品及服务的供应商。
　　2、公司所处的行业地位分析及其变化情况
　　作为行业的头部阵营企业，海天瑞声在经营情况、技术实力、以及以数据安全为代表的其他综合能力方面都展示出明显优势，并具有较强国际竞争力。近年来公司紧跟AI技术发展趋势，尤
　　其关注在客户资源、技术实力、产品/服务等方面的竞争优势，树立国内领先基础数据服务商的品牌形象，以巩固公司的行业领先地位。
　　3、报告期内新技术、新产业、新业态、新模式的发展情况和未来发展趋势
　　（1）DeepSeek带火CoT技术，多领域CoT数据需求集中涌现
　　伴随DeepSeekR1的火爆出圈，其背后的思维链（CoT）技术正在成为AI领域的新焦点。该技术通过模拟人类"慢思考"认知模式，将复杂问题拆解为逻辑严密的推理链条，使AI系统在数学推导、专业决策等场景中准确率大幅提升。
　　而构建优质的CoT能力体系，需要以结构化思维数据工程为核心基础。通过在训练数据中引入包含中间推理步骤的示例，引导模型学习如何逐步进行推理，并在生成回答时模仿这种推理过程。例如，在数学领域，融入分步证明过程的CoT数据，可以使模型掌握从问题解析、公式推导到结论验证的完整认知闭环，使数学问题解决能力大幅提升；在医疗影像诊断领域，借助CoT数据训练的AI模型可基于影像特征给出逐步推理过程，提高诊断准确性和可解释性。因此，在大模型向应用/垂直领域拓展时，高质量的多领域CoT数据需求将快速增加，并成为推动AI技术发展的关键因素。
　　（2）DeepSeek加速AI应用拓展，垂向领域数据需求快速增加，标注难度不断提升
　　以DeepSeek为代表的开源大模型，凭借高性能、低成本和无限制商用等特点，加速了AI应用的普及。该技术民主化浪潮推动行业从"暴力堆参数"的通用模型竞赛，转向面向医疗、金融、制造等领域的深度价值挖掘，催生出行业数据处理需求的指数级增长。与通用类数据处理不同，行业数据处理难度更大、更加注重专业性，对数据服务商的综合能力也提出了更高的要求。一方面，数据服务商需具备行业knowhow，以设计出符合行业需求的数据解决方案；另一方面，随着模型向更专业化和精细化方向发展，丰富的高质量的垂类专家资源也至关重要，目前数据服务公司会在高校密集地区建立数据标注基地，以获取更广泛的高质量的数据标注资源。
　　（3）具身智能的训练数据市场呈现出巨大的供需缺口，需求旺盛且潜力巨大
　　具身智能作为实现通用人工智能（AGI）的关键路径与终极载体，正在受到更多的关注。国家层面，工信部等七部门联合印发《关于推动未来产业创新发展的实施意见》，将具身智能纳入未来制造、未来信息等六大战略方向。地方层面，北京、深圳、广州、上海等城市已出台专项行动计划，通过资金以及政策支持，深入推动具身智能产业发展。具身智能需要机器人在复杂的真实世界中实现自主感知、学习和适应，而该能力的构建则依赖大量的高质量的数据。目前，业内主要包含四种数据获取方式，分别是遥操作技术收集的真机数据、3D环境中模拟的合成数据、动作捕捉获取的人类动作数据、以及从互联网收集的非结构化视频或图像数据。
　　然而，具身智能若想达到更佳的训练效果，尤其是在泛化能力提升方面（即让机器人能够在陌生环境下自主识别和完成任务），仍需要海量的（约数十亿级别）来自“真实物理环境”的动态交互数据进行训练，而非简单的合成数据或互联网获取的数据。但目前，由于真实世界数据获取成本高、时间长，数据体量远无法支持通用机器人的发展。因此，目前具身智能的训练数据市场正面临巨大的供需缺口，需求旺盛，未来增长潜力巨大。
　　（4）数字经济发展催生新型数据服务模式
　　发展数字经济将成为我国经济“弯道超车”以及挖掘经济内生增长的重要战略举措。国家在数字经济建设方面决心极为坚定，通过《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》、《数字中国建设整体布局规划》等政策文件的密集发布以及组建成立国家数据局等方式，进一步统筹并加速落地数字经济发展战略，而数据要素作为深化数字经济发展的核心引擎，也将迎来新的发展机遇。未来，围绕数据确权、汇聚、处理、利用和流通等环节将会产生巨大的增量市场空间，催生出围绕公共数据以及行业数据开发的新型数据服务需求，以及以基地建设、数据平台开发运营、数据交易为代表的新业态、新模式。
　　(四)核心技术与研发进展
　　1、核心技术及其先进性以及报告期内的变化情况
　　公司高度重视并坚持科技创新，通过持续的研发投入积累形成了12项核心技术，覆盖基础研究、平台工具、训练数据生产三个层次，应用于训练数据生产的设计、采集、加工、质检全流程之中；按照从底层自下而上的顺序对上述三个层次的核心技术情况介绍如下：
　　上述核心技术构成了公司生产经营的基础，通过上述核心技术的成果转化，公司形成了基于核心技术的训练数据相关产品和服务。具体所示，其中5项核心技术具备较高技术壁垒：
　　（1）基础研究层面，报告期内，公司持续在智能语音、计算机视觉、自然语言、以及包括智能驾驶、大模型为代表的垂直领域进行技术拓展，并有多项核心技术取得显著进展。例如，在基础算法研究方面，新增数十个基础模型，包括巴什基尔语、卡纳达语、林加拉语等多个ASR语音识别模型、语音无监督数据自动清洗模型、2D-3D融合连续帧交通目标检测模型、3D点云地面自适应检测模型、4D车道线长度动态自适应调整算法、图片美学评分模型等众多模型；同时完成了多个现有模型的优化升级，3D点云目标检测算法准确率提升10%以上、3D点云跟踪算法准确率提升20%以上；在大模型算法与应用研发领域内，探索语音大模型所需要的无监督训练数据自动清洗技术、视觉大模型所需要的图文对数据标注技术在数据自动化处理领域内的应用，并利用LLM大模型完成中文发音预测算法升级，准确率提升20%以上；设计并搭建语音大模型训练框架，完成覆盖40+东方语种的语音识别模型的训练、微调及评测工作，在多项指标中获得SOTA。
　　（2）平台工具层面，持续提升了标注平台对智能驾驶领域前沿算法所需的数据标注服务支撑能力。实现了千万级大规模点云语义分割的技术难点突破与落地，完成了多项4D标注相关平台能力升级，并重点优化了点云语义分割和2D-3D融合连续帧点云标注平台的能力，创新性地设计并实现了点云动静态目标物多帧协同标注套件，大幅提升标注效率。重构了包括副语言标注、打点标注、音素边界标注等在内的多项标注流程，实现了高精度实时语音流线上化处理与可视化渲染，进一步扩展了平台多模态数据融合标注工具能力。
　　（3）训练数据生产层面，重点建设了高性能多源、多维度实时大数据分析系统，实现项目管理数据的交互式智能探查与分析，提升数据透明度，优化了数据同步技术与实时采集质控技术的自动检测与错误报告机制，扩展了算法在实时交互式标注与质检中的应用场景，增强了对多语种、多模态数据支持，进一步提升公司训练数据生产的精细化、智能化管理。
　　以上技术突破均将对更广泛人工智能数据服务产生积极影响。报告期内，公司新申请软件著作权8项。具体见第三节“管理层讨论与分析”二、（四）“核心技术与研发进展”之“报告期内获得的知识产权列表”。
　　2、报告期内获得的研发成果
　　报告期内，公司新申请发明专利5项并均获受理，获得发明专利授权4项；新申请软件著作权8并均获受理，获得登记的软件著作权7项，均为原始取得。截至2024年12月31日，公司共获得专利授权41项，获得登记的软件著作权180项。
　　3、研发投入情况表
　　4、在研项目情况
　　情况说明
　　根据业务发展需要和技术升级要求，部分项目预计总投资规模相较2024年半年度报告有所调整。
　　5、研发人员情况
　　6、其他说明
　　
　　三、报告期内核心竞争力分析
　　(一)核心竞争力分析
　　1.研发优势
　　公司拥有同行业具有竞争力的综合研发实力，截至报告期末，公司研发团队规模为79人，研发能力全面覆盖平台工具开发、算法研究、产品设计等多条主线。公司核心研发人员均曾服务于全球顶尖科技企业或毕业于名校，组成了公司坚实的研发领导核心力量。同时，多年来，公司积累了较为完备的综合性、一体化数据处理平台及工具体系，覆盖智能语音、计算机视觉、自然语言等全业态领域，可服务于市面上绝大多数数据处理场景需求，包括但不限于智能驾驶、智能家居、个人助手、内容生成等。公司还设置了专门的产品研发部门及AI+研发部门，可前瞻性挖掘和布局新兴市场需求，抢占市场先机。此外，基于公司在训练数据领域多年积累下的大量、多元化数据以及数据处理经验，通过算法平台团队与数据业务团队无缝衔接，公司可更好完成预识别算法性能提升，实现少量数据注入->算法训练->标注员反馈->模型生成->处理大量数据的自闭环体系，助力公司做大规模、提升效率、降低成本。同时，20年数据行业的从业经验积累，使得公司具备较强的数据生产工程化能力，可助力公司大幅缩短数据研发及生产周期，为公司抢占市场提供了有力支撑。上述因素共同驱动公司构建较高的行业技术壁垒。
　　2.产品优势
　　通常来说，标准化数据集产品具有可即时获取、价格相对优惠等特点，因此市场需求旺盛。但由于标准化数据集产品是先于客户需求形成，需要数据服务商具备较强的市场趋势前瞻能力、以及财务实力进行提前投入，因此行业中具备标准化数据集产品规模化生产能力的服务商较为有限，该方向具备较高竞争壁垒。
　　对于公司而言，标准化训练数据集产品的知识产权由公司享有，具有一次性研发生产、可重复多次销售的特点，可显著助力公司毛利水平提升，实现训练数据产品的规模化效应，因此也是公司区别于众多竞争对手的一个优势亮点。
　　公司基于20年数据服务经验、以及对客户需求的深刻理解，持续开拓标准化数据集，自有知识产权的训练数据产品储备超过1,700个，全面覆盖智能语音、计算机视觉、自然语言等多条业务线。
　　3.语音语言学能力优势
　　随着境外客户全球化扩张以及境内客户出海成为新的行业发展趋势，多语种能力成为数据服务领域的核心竞争力之一，而语音语言学储备则是实现多语种拓展的重要前提。经过多年积累，公司已沉淀下深厚的语音语言学基础研究成果，并已将其运用至构建高质量的智能语音、以及多模态训练数据。在语音语言学基础研究领域，公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累，以及不断创新的发音词典构建技术和流程技术。截止报告期末，公司已经拥有超过205个语种/方言的覆盖能力，不仅包括含英、法、德、意、西、日、韩等常见语种，还包括东南亚、一带一路等国家地区的罕见小语种，尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时，公司已积累下近140个多语种的发音词典，覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种，累计词条数超过1,200万条，可支撑构建高质量的智能语音、以及多模态训练数据，是公司的主要竞争壁垒及核心技术之一。
　　4.数据安全及合规能力优势
　　海天瑞声自成立之初即把数据安全、数据合规视为生命线，公司在多年的数据风险识别和管理实践中，已经形成了较为成熟的安全、合规管理体系。资质方面，公司拥有ISO27001信息安全管理体系认证、ISO27701隐私信息管理体系认证、国家信息系统安全等级保护三级备案、北京市规划和自然资源委员会行政许可乙级测绘资质等。行业参与方面，公司入选中共中央网络安全和信息化委员会办公室“人工智能企业典型应用案例”，相关业务和数据安全实践受到《人民日报》等权威媒体报道和关注。公司为中国信通院数据安全推进计划成员单位，董事兼总经理李科连续入选该计划数安智库专家，其所参与、领导的公司数据安全工作，受到《北京日报》等权威媒体报道。此外，公司积极参与行业发展，入选国家标准《信息技术人工智能术语》核心参编单位、《人工智能数据标注平台技术要求和测试方法》核心参编单位，数据安全能力获得认可并产生广泛、积极的行业影响。
　　(二)报告期内发生的导致公司核心竞争力受到严重影响的事件、影响分析及应对措施
　　
　　四、风险因素
　　(一)尚未盈利的风险
　　(二)业绩大幅下滑或亏损的风险
　　(三)核心竞争力风险
　　1.核心技术快速迭代的风险
　　由于人工智能行业整体发展较为迅速，应用领域和应用场景不断拓展，下游需求随着行业发展不断发生变化，公司进行数据开发所需的各项技术也面临着快速迭代更新的风险。如果公司无法保持对行业发展趋势的洞察能力以及对研发人才的有效组织和研发经费的经济投入，则可能导致公司在行业技术快速迭代过程中无法持续保持技术先进性和技术优势，进而对公司的客户拓展、产品创新和经营业绩造成不利影响。
　　2.核心技术人员流失风险
　　随着行业的持续发展，行业内企业之间对于高端人才的竞争日益激烈，如果公司无法持续加强核心技术人员的培养及引进并为核心技术人员提供有竞争力的激励机制和薪资待遇，则将存在核心技术人员流失的风险，公司的技术水平、研发能力也将受到不利影响。
　　3.核心技术失密风险
　　公司的数据产品和服务均以核心技术为基础。公司制定了严格的保密制度并严格执行，但上述措施仍无法完全避免公司核心技术的失密风险。如果公司相关核心技术的内控和保密机制不能得到有效执行，则可能导致公司核心技术失密的风险。
　　4.训练数据标准化产品无法实现授权销售的风险
　　公司根据对算法模型应用领域、行业发展趋势、市场需求等的评估和研判，自行设计并开发多种训练数据集标准化产品，开发完成后根据客户实际需求进行销售，授权给客户使用。在该种业务类型下，公司开发训练数据集产品，承担开发费用，并拥有训练数据集产品的知识产权。如果公司开发的训练数据集产品不能满足下游客户对训练数据的要求，则可能存在无法实现授权销售的风险，进而对公司未来的经营业绩产生不利影响。
　　5.数据安全相关风险
　　公司主要从事训练数据的研发设计、生产及销售业务，所提供的产品和服务主要以数据的形式体现。一方面，随着公司业务的快速发展和规模的持续扩张，原料数据采集与数据加工的数量持续增长；另外一方面，包括《数据安全法》、《个人信息保护法》、《生成式人工智能服务管理暂行办法》、《网络数据安全管理条例》等在内的与数据安全、个人信息保护相关的法律规章体系正逐步完善。公司如果未能按照法律规章或客户的更新要求及时调整现行业务开展方式、公司的数据安全管理体系研发升级未能跟上业务发展的需要、或客户未能遵守训练数据产品保护相关商业约定，则公司可能产生诉讼纠纷或面临生产经营不符合法律规章的要求、训练数据产品被泄露、盗版等数据安全相关风险。
　　同时，《数据出境安全评估办法》、《促进和规范数据跨境流动规定》等法律法规加强了对境内收集或产生的个人信息数据的跨境行为的规制。如果将来公司未能根据相关要求及时履行相应的程序，公司开展的属于该办法限定范围内的境外业务将受到一定程度的影响。
　　(四)经营风险
　　1.收入主要来自老客户，新客户收入占比较低的风险
　　报告期内，公司收入主要来自老客户、占比达到85.24%，新客户收入占比较低。公司正致力于维护老客户、拓展新客户，若老客户降低对公司产品、服务的采购量或公司未能维持与老客户的合作关系，则公司的经营情况将受到不利影响；若新客户拓展情况不达预期，则公司的经营情况也将受到不利影响。
　　2.新业务拓展风险
　　随着人工智能行业持续快速地增长，下游客户对高质量、结构化、大规模训练数据的需求将持续增加。公司能否紧跟下游需求变化，加深对下游行业基础技术的理解并开发出更多的业务机会，一方面受到行业发展状况、市场需求变化以及市场竞争状况等因素影响，另一方面也取决于公司对于下游众多新领域新场景的理解认知以及合作拓展能力等诸多因素。因此，公司新业务的开拓可能不及预期或者遇到其他不利因素，进而对公司未来的经营业绩产生不利影响。
　　3.采购成本上升风险
　　报告期内，公司进行采购原料数据采集、标注所支付的数据服务费占全年与主营业务相关的采购总额的比重较高，达到80.45%。随着城乡生活成本的持续提升，前述采购价格可能存在持续上升的趋势，若公司的技术发展带来的效率提升无法抵消前述采购成本上升的影响，可能会对公司的经营业绩带来一定不利影响。
　　(五)财务风险
　　(六)行业风险
　　1.市场竞争加剧的风险
　　公司所在的细分领域为AI基础数据服务领域。近年来，参与该行业的公司不断增多，由于整体行业较新，行业标准和法律监管仍处于规范阶段，因此整体行业目前处于高速发展且格局未定的状态，导致市场竞争加剧。公司如果不能持续有效地制定并实施业务发展规划，则将受到竞争者的挑战，从而面临市场竞争加剧而导致的经营状况下滑、市场地位下降和可能失去主要客户的风险，进而影响公司的盈利能力和发展潜力。
　　2.业务发展受下游人工智能领域发展状况影响较大的风险
　　公司主要为AI产业链上的各类机构提供算法模型开发所需的训练数据，服务于下游人工智能行业发展。公司的经营情况、业务发展与下游人工智能领域的发展状况息息相关。若未来人工智能领域景气度下降，或因技术更迭使得对训练数据的市场需求发生变动，将对公司业绩产生较大影响。
　　(七)宏观环境风险
　　1.经营业绩受税收优惠政策影响较大的风险
　　报告期内，公司享受了增值税即征即退、高新技术企业和研发费用加计扣除等一系列税收优惠，经营业绩受税收优惠政策影响较大。如果未来公司所享受的税收优惠政策出现不利变化，或者公司不再符合税收优惠的条件，则公司将无法持续享受税收优惠或存在所享受的税收优惠减少的可能性，并进而对公司未来经营业绩和现金流水平造成不利影响。
　　2.汇率波动风险
　　海天瑞声作为一家面向全球的训练数据服务商，拥有数量众多的境外客户，遍布美国、韩国、日本等各地区，报告期内公司境外收入占比为47.94%，该等收入使用外币进行结算，并受人民币汇率水平变化的影响。人民币汇率可能受到国内外政治、经济环境等因素的影响，存在波动风险，进而对公司的经营业绩产生不利影响。
　　3.中美贸易摩擦风险
　　公司产品和服务的主要出口地包括美国、日韩等国家或地区。报告期内，公司出口美国的营业收入占当期公司营业收入的比重为32.86%。公司相关境外业务始终严格遵守中国及他国法律。但国际局势瞬息万变，近年来中美贸易摩擦不断，如果中美双方出台新的贸易保护主义措施，可能会影响美国市场相关客户将数据提供给公司用于标注，减少与公司进行训练数据方面的业务合作，公司相关业务可能会受到约束，将会对公司的生产经营产生不利影响。
　　(八)存托凭证相关风险
　　(九)其他重大风险
　　实际控制人控制不当的风险
　　截止报告期末，贺琳直接持有公司1,213.76万股股份（占总股本的20.12%），并通过控制中瑞安间接控制公司693.58万股股份（占总股本的11.50%），合计控制公司31.62%的股份，为公司实际控制人。
　　如果实际控制人利用其控制地位，通过行使表决权或其他方式对公司财务管理、人事、发展战略、经营决策等重大事项施加不利影响，其他股东的利益可能受到损害。
　　
　　五、报告期内主要经营情况
　　报告期内，公司实现业务收入2.37亿元，较上年同期增加39.45%；实现归属于母公司所有者净利润1,133.61万元，较上年同期增加4,172.13万元；扣非后归母净利润497.35万元，较上年同期增加4,844.42万元。截至报告期末，公司总资产为8.08亿元，归属于母公的所有者权益为7.43亿元，分别较上年末减少1.95%和4.99%。
　　
　　六、公司关于公司未来发展的讨论与分析
　　(一)行业格局和趋势
　　(二)公司发展战略
　　2025年，公司将在保障基础数据业务稳健发展的同时，寻求新的业绩增长点。首先，公司将以全球化战略扩张为核心，通过全球化营销体系搭建、升级，进一步深化全球化发展策略，持续扩大公司的全球卡位优势。同时，公司将继续聚焦大模型赛道，重点投入多语种语音和视觉数据集，完善CoT推理数据体系。同时布局具身智能新兴赛道，填补真实场景数据空白。随着"AI+"战略推进，公司将加速扩充金融、医疗等垂直领域数据资源，把握大模型行业落地机遇，持续巩固市场领先地位。此外，公司也将持续探索以数据要素为代表的高增长业务领域，基于过往数据服务能力，通过前沿市场跟踪，不断拓展服务边界，探索潜在增量市场空间。
　　(三)经营计划
　　2025年，公司将围绕既定战略，继续发扬二次创业精神，坚守“构筑智能世界数据基石”使命，不断提升核心能力，优化用户体验，促使业务长期健康稳定发展。2025年公司具体经营计划如下：
　　1、夯实传统业务，探索新兴业务
　　（1）全球化业务
　　伴随Sora、GPT-4o、DeepSeek等陆续推出，AI产业蓬勃发展，全球AI驶入加速发展轨道。为更好把握国际市场需求，公司将推出一项更为全面的出海战略，将涵盖海外供应链体系建设、海外本土销售团队扩张、以及市场推广等各方面，全面加速全球市场的拓展。
　　公司将借助新设海外交付体系，弥补海外服务能力短板，扩张海外定制服务业务；同时，将在科技巨头聚集的北美地区扩充高素质海外销售团队，并择机在欧洲、日韩等地增设本土力量，以提高客户体验和满意度；此外，也将通过积极参与国际学术会议来拓展客户和渠道。展望未来，公司将不断提升交付、销售和市场的综合实力，全力支持国际化战略的进一步执行，争取在海外市场实现新的飞跃。
　　（2）大模型数据业务
　　大模型技术是AI发展的核心推动力量，已成为公司的核心增长引擎之一。2025年，公司将重点投入大模型领域，持续更新以多语种语音、以及通用场景、特定领域的视觉为代表的多模态数据集产品，更好服务大模型语音交互和视觉理解、视觉生成等需求；同时，积极扩展CoT数据集储备，在K12、大学专业课程、理科竞赛、代码等领域构建权威专家题库和详尽解题流程，助力大模型适用各领域的复杂推理任务。另一方面，具身智能作为AGI终极载体，已驶入快速发展轨道，但高质量真实场景的具身智能数据仍存在大量缺口，公司将尝试布局该类新兴领域，从数据角度助力产业发展。同时，伴随DeepSeek带来的大模型性能和成本的革命，大模型已初步具备赋能千行的百业的基础，“AI+”继续成为国家重要战略，由此，垂类数据处理需求将呈现快速增长趋势，公司将积极扩张专业领域标注资源储备，抢抓大模型行业落地机遇。
　　（3）新兴业务探索—数据要素业务
　　数据已成为数字经济时代最重要的生产要素之一，随着世界各国的数字经济战略实施，数据要素这一战略资源备受重视，也被称为二十一世纪的“新能源”。2025年，公司将紧跟国家数据要素领域的政策指引，基于过往业务能力持续探索数据要素市场培育过程中的新业务、新模式，围绕数据的汇聚、生产加工、开发利用以及流通交易等各环节，探索包括和当地政府共建高质量数据集（公共数据、行业数据）、建设数据可信空间（提供数据处理平台、运营平台、基于高质量数据的模型训练）、数据标注基地运营、中小企业数据治理服务；同时，公司也将基于DeepSeek等开源模型以及自身的数据服务能力，开发行业智能体解决方案，切实将公司的数据要素能力赋能给政企客户，助力国家数字经济的高质量发展。
　　2、聚焦主业，进行全方位核心能力建设
　　（1）核心技术
　　2025年，公司将继续秉承技术+产品双轮驱动的核心理念，围绕智能语音、计算机视觉、自然语言等基础业务领域、以及重点服务以大模型为主的新兴技术方向的数据需求，在数据管理平台建设、语音大模型前沿技术探索、业务线平台升级、新语言研究、以及多语种多模态数据布局等方面取得实质性成果，加强技术能力护城河，助力公司不断向实现训练数据生产智能化、规模化方向迈进，确保公司核心竞争力不断提升。
　　（2）数据安全
　　近年来，随着《数据安全法》、《个人信息保护法》、《网络数据安全管理条例》、《数据出境安全评估办法》、《促进和规范数据跨境流动规定》等法律法规快速落地实施，公司所处行业的法律环境正在快速趋严，在此背景下，数据安全、个人信息保护已成为行业客户选择数据服务商时的重要考量因素以及新的行业壁垒。2025年，公司将继续加大数据安全及合规能力体系建设，通过完善内部制度流程建设、根据业务发展方向提前进行资质布局、广泛参与行业交流、不断提升企业数据安全及合规技术和机制等方式，提升应对更高标准、更严格的数据监管要求的能力，提高整体数据安全保障水平，将之逐步打造成为核心竞争力之一，更好地为公司数据业务发展和数据要素市场开拓提供保障和助力。
　　（3）供应链
　　2025年，公司将继续推进供应链管理的智能化和自动化。实时监控供应链运行状态，提前识别并应对风险。在数据管理方面，完善数据可视化平台，新增实时数据展示模块以优化用户体验，并加强数据安全管理，确保数据的保密性、完整性和可用性。
　　在供应链优化与创新方面，持续推进供应商多元化战略，扩大供应商的地理分布和行业覆盖，深化与供应商的协同合作；加大海外资源池建设投入，优化海外资源布局，提升全球供应链的竞争力。同时，加强供应链韧性建设，完善风险管理体系，提高应对突发事件的能力。
　　在人才培养与团队建设方面，加大供应链人才的培养和引进力度，提升员工数字化技能，鼓励团队协作与创新，为供应链建设提供坚实的人才支持。
　　（4）市场营销
　　2025年，为更好支撑全球化发展战略，公司将持续加大全球市场营销体系建设，进一步升级品牌战略工程。公司将继续增加品牌营销投入，在持续拓展社交平台、直播平台、搜索引擎等多渠道营销的同时，积极参与海内外顶级AI会议，持续提升公司品牌认知度以及客群辐射范围。公司将加大境外本土营销团队建设，通过进一步织密客户服务网络，提升客户服务体验。在国内，公司将持续为各领域合作伙伴提供专业的新型高质量AI数据解决方案，提升客户服务满意度，同时通过开源语音大模型Dophin不断提升公司技术影响力。
　　（5）人力资源
　　在人工智能行业瞬息万变高速发展的大背景下，公司应对市场变化、保持领先地位、突破业务和技术创新的动力来自于组织和人才的高质量发展，人力资源工作以业务中长期发展目标的实现为核心导向，在2025年将着力部署如下关键动作：
　　-全力丰富高中基层人才密度，建设充沛健康持久的人才梯队，尤其以人工智能和训练数据领域的创新人才吸引招募为最高优先级，辅以各层梯队的人才能力建设，全力支持公司核心战略的部署；
　　-高效监控人工成本的投入产出，通过人效的提升，确保经营目标的有效实现；
　　-优化销售、生产、研发等多体系的绩效和薪酬管理机制，辅以员工持股等中长期激励方式，更为有效的牵引员工与公司一起实现业务目标。收起▲

　　一、报告期内公司所属行业及主营业务情况说明　　（一）所属行业情况　　1.行业的发展阶段、基本特点、主要技术门槛　　1.1行业的发展阶段、基本特点　　（1）在数字经济发展以及大模型技术的共同驱动下，全球AI产业进入新一轮加速发展期　　当前，新一轮科技革命和产业变革深入发展，数字化转型成为大势所趋，世界主要国家均高度重视发展数字经济，纷纷出台战略规划，重塑数字时代的国际竞争新格局。人工智能作为数字经济发展的底层核心技术之一，正在发挥更加重要的作用。例如，随着数字经济发展的不断深入，数据体量以及复杂度均不断提升，为更好解决产业数字化中数据提取、处理、分析等工作，将会产生更多样化的人工智能需求，人... 查看全部▼

　　一、报告期内公司所属行业及主营业务情况说明
　　（一）所属行业情况
　　1.行业的发展阶段、基本特点、主要技术门槛
　　1.1行业的发展阶段、基本特点
　　（1）在数字经济发展以及大模型技术的共同驱动下，全球AI产业进入新一轮加速发展期
　　当前，新一轮科技革命和产业变革深入发展，数字化转型成为大势所趋，世界主要国家均高度重视发展数字经济，纷纷出台战略规划，重塑数字时代的国际竞争新格局。人工智能作为数字经济发展的底层核心技术之一，正在发挥更加重要的作用。例如，随着数字经济发展的不断深入，数据体量以及复杂度均不断提升，为更好解决产业数字化中数据提取、处理、分析等工作，将会产生更多样化的人工智能需求，人工智能支出也将成为支持企业数字化转型支出的主力因素之一。此外，大模型在去年以来的现象级智能化表现引发行业强烈关注。可以预见，人工智能行业将在大模型技术的推动下进入新一轮产业高速发展期。
　　未来，受益于数字经济政策和大模型技术的双重驱动，人工智能将具备更强的产业融合能力，并将深刻影响千行百业的运行规则，以及人们的生活方式，人工智能产业的发展将随之进入快车道。
　　根据国际数据公司（IDC）的数据，2022年全球人工智能(AI)IT总投资规模为1,324.9亿美元，预计在2027年增至5,124.2亿美元，年复合增长率(CAGR)为31.1%。
　　在市场需求拉动和国家政策的支持引导下，当前我国人工智能产业加速发展，已形成基础底层设施、中层技术以及上层应用的完备的产业链生态，联合推动中国人工智能产业实现规模增长。
　　根据艾瑞咨询的数据显示，2023年中国人工智能产业规模达2,137亿元，预计2028年市场规模将达到8,110亿元，年复合增长率为32.9%。
　　（2）训练数据作为AI发展和演进“燃料”的作用更加凸显，并逐渐成为大模型竞赛中的重要决定性要素
　　在AI产业链中，算法、算力和数据共同构成技术发展的三大核心要素。算法模型从技术理论到应用实践的落地过程依赖于大量的训练数据。训练数据越多、越完整、质量越高，模型推断的结论越可靠。过去十多年，人工智能产业以算法为核心，通过深度学习算法的不断创新，推动人工智能产业的快速发展。但未来，当算法发展趋于开源、算力能力大幅提升及人工智能模型从技术理论应用到更多的垂直场景，想要更快更好提升人工智能能力，数据将发挥更重要的作用。
　　根据Cognilytica数据统计显示，2021年全球AI训练数据市场需求约为42亿美元，并预计到2027年这一需求将增长到220亿美元，2021-2027年复合增长率达32%。
　　中国作为全球人工智能产业增速最快的国家之一，相关数据需求也在快速增长。根据艾瑞咨询的数据，2023年中国人工智能基础数据服务市场规模为45亿元，2028年规模将达到170亿元，年复合增长率为30.4%。
　　（3）数据要素市场蓬勃发展，数据行业迎来更为广阔的发展机遇
　　党的二十届三中全会对加快构建促进数字经济发展体制和机制，完善数据要素市场制度规则等作出部署，为中国数据要素市场化改革发展指明了方向。2023年国家数据局成立以来，我国坚持推进数据要素市场化配置改革“一条主线”，统筹数字中国、数字经济、数字社会“三个建设”的工作思路，推动数据工作更好服务高质量发展。同时，探索完善数据基础制度体系，加快推进数据基础设施建设，提升数据资源开发和利用水平。国家数据局联合多部门印发“《“数据要素×”三年行动计划“（2024—2026年）》，同时印发了“《数字中国建设2024年工作要点清单》、《数字经济2024年工作要点》，制定《关于深化智慧城市发展“推进城市全域数字化转型的指导意见》和《数字经济促进共同富裕实施方案》，发布《数字中国发展报告（2023年）》。
　　全国各地数据要素市场化配置改革也在加速推进。例如，北京市制定2024数据工作要点，在探索和实践数据基础制度先行示范区、人工智能数据训练基地的基础上，提出“一区三中心”的建设总体思路，完善数据基础制度，激发数据要素活力。沈阳市推动数据要素市场化配置改革，探索数据交易服务机制，实施《沈阳市公共数据授权运营管理办法（试行）》，开展公共数据授权运营探索实践。成都市大数据集团探索精准安全的公共数据开发运营新模式，搭建“成都市公共数据运营服务平台”，保障不同市场主体平等获取数据要素，实现数据要素配置效益最大化、效率最优化。广州市出台了《关于更好发挥数据要素作用推动广州高质量发展的实施意见》等文件，通过企业创新实践和举措，有效推动了数据资源向数据资产转化。
　　总体来看，随着“人工智能+”和“数据要素×”等国家战略行动计划的实施，全国各地均在加速推进数据要素市场化配置改革，未来围绕数据的汇聚、生产加工、开发利用以及流通交易，将产生大量需求，将为数据行业开拓新的增长空间。未来，数据产业将成为数字经济高质量发展的新引擎，预示着一个以数据为关键要素的新时代的到来。
　　（4）训练数据领域的未来发展更为可期
　　随着ChatGPT、Gemini、Sora等成为全球范围内的现象级应用，人工智能迎来了新的发展机遇，其背后的大模型技术也正在带来相关数据需求的变化和增长。
　　a.大模型范式下，数据需求体量指数级增长
　　相比于传统深度学习，大模型参数量更大，能够更充分捕捉数据之间的复杂关联，具备更强的学习能力，类比于人脑内的神经元和突触之间连接和信息传递机制变得更为活跃，使得“脑力/智商”骤增，具备学习和理解海量复杂数据的能力，因此，大模型通常会被喂给海量数据以充分发挥“大脑”优势。传统深度学习技术路线下，训练一个专有小模型大约需要GB级数据，而训练一个大模型通常需要TB到PB级数据。
　　此外，数据需求的体量还在持续增长。模型的训练效果由模型参数、训练数据量以及计算资源共同决定，在参数和算力供给不变的情况下，提升训练数据量，可以有效提高模型的训练效果。这一结论也持续在各大模型上得到验证，例如，2024年上半年字节跳动发布的语音生成大模型Seed-TTS，其生成的语音和真人相似性极高，甚至可以模拟人类的停顿、吞字等发音习惯。产品研发人员表示，该模型之所以具备较强的复刻效果，除了模型参数上的调整，一个很重要的因素就是加大了数据使用量，之前业界所使用的语音合成数据在成千至上万小时，而Seed-TTS所用的数据量级远大于之前。
　　b.大模型技术的发展催生出新型数据处理需求
　　大模型和深度学习模型在学习和训练方式的区别，导致大模型范式下的训练数据与传统深度学习训练数据处理方式存在显著差异：
　　（1）数据处理由感知转向认知:传统深度学习更加强调事实性标注（具有单一标准答案），而大模型往往需要标注人员进行联想和创作（强调发散思维）。以计算机视觉标注为例，过往面对一张景观图片，标注人员只需标注出哪个是山、哪个是湖，而现在则需要对图片进行更丰富的多种维度描述，以帮助模型理解图片含义。
　　（2）数据处理环节进一步延展：传统的深度学习模式下，由于数据来源大部分为定向采集，数据采集前已经过专家设计，因此除部分质量较差的数据，剩余数据均可直接送往进行标注，清洗等预处理需求较低；相对而言，大模型由于原料数据规模庞大，数据中存在大量重复、偏见以及错误信息，往往需对数据进行专业化清洗，以提升数据质量并减少大模型幻觉（即生成与现实不符或无意义的内容）的发生概率。此外，相比于传统模型的训练模式，大模型往往会使用强化学习的方式来对基础模型进行特定领域或特定方向上的优化迭代，使得模型能够输出更符合人类认知和表达习惯的答案，因此，衍生出RLHF数据评分、Prompt改写、创作等强化学习阶段数据需求。
　　（3）更加注重智能化标注：相较于传统深度学习，大模型训练数据体量呈指数级增长，传统人工为主的标注方式无法满足大模型数据处理量大、数据质量要求高等数据处理需求，因此，大模型数据服务将更加依赖算法的参与，需要通过提高算法能力及参与度来提升数据处理的智能化、自动化水平，实现高质高效的数据供给。
　　c.人工智能技术加速向产业渗透，带动垂直行业数据需求的显著提升
　　随着算法技术的持续进步，人工智能在模拟人类的感知与认知方面达到了前所未有的水平。技术的飞跃不仅巩固了AI作为跨行业赋能工具的地位，还加快了其在各个领域的应用步伐。目前，人工智能正在迅速融入包括金融、医疗、法律等在内的多个垂直领域，推动相关行业的创新和转型。
　　与以往通用数据处理需求不同，垂向领域的数据处理更加注重专业性。例如，传统的自然语言处理任务只包括基本的文本处理工作，例如，分词、词性、情感、正则化等标注需求，这些任务无需标注人员具有特定的行业知识；相对地，开发专门针对医疗领域的自然语言处理模型，则要求标注人员不仅具备扎实的医疗专业知识，还要能够熟练使用专业的医疗术语进行文本的表达和创作，从而使医疗模型能够理解和生成专业的医疗内容。这种专业化的需求也对数据服务商提出了更高的要求，数据服务商不仅要对行业有深刻的理解，以设计出符合行业需求的数据解决方案，还需要具备更丰富的专家库储备，以提供高质量的数据标注服务以及相关专业咨询服务。
　　d.多模态技术发展驱动多模态数据需求快速增长
　　根据艾瑞研究报告，相比单一模态的大模型，多模态大模型能够提供更自然的人机交互方式，具备更全面和准确的认知能力，并在不同情境下表现出更高的鲁棒性，从而赋能更丰富和全面的AI应用。因此，多模态技术已成为诸多大模型厂商的研发重点，同时也将驱动多模态数据需求占比的持续提升。过往，以文本为主要代表的单模态大模型预训练数据主要来源为公开数据、开源数据等可公开获取的数据。进入多模态时代后，可公开获取的多模态数据（例如，语音数据、视频数据等）在质量上，往往很难满足模型训练需求。例如，以文生图、文生视频为应用场景的大模型为例，当前公开能获取的数据往往是图片和简单的关键词的匹配，而缺乏对图片中物理关系的详细描述，但后者恰恰是决定了这些多模态生成大模型是否能够准确理解和描述物理世界的关键因素。此外，多模态数据种类更为庞杂，数据清洗、分类以及标注难度指数级提升，数据处理工作具有更强的专业性。例如，Stability“AI在训练其视觉大模型SVD（“Stable“Video“Diffusion）时，使用了一个包含1.5亿个剪辑视频的数据集。为了筛选适合训练的高质量数据，需要从海量视频数据中检测每个视频中的镜头和转场，并且需要分析每个镜头中的运动信息，为每个镜头提供对应的文字以及美学效果描述。因此，多模态数据处理过程更加复杂和耗时，模型厂商更倾向于将相关数据需求释放给专业的第三方数据服务商。未来，具备多模态数据服务能力，以及多模态数据集储备的企业将获得更多市场机会。
　　e.人工智能企业全球化布局加速，多语种能力成为数据服务商全球拓展的核心支撑之一
　　共建“一带一路”的倡议面世十多年来，国家“一带一路”战略深入推进，国内一批具有较强创新能力和过硬技术实力的企业，纷纷踏出国门，积极拓展海外市场，通过不断扩大企业出海战略版图，获得高速发展机会。另一方面，境外头部企业也继续践行“全球化”战略，搭乘全球出海的快车。
　　随着境内、外企业的全球化扩张成为确定性趋势，多语种能力作为支撑企业顺利出海的核心要素之一，重要意义更加凸显。未来，多语种训练数据将对客户侧在语音助手、智能汽车、智能家居、智能客服、机器人、多语种OCR等各领域产品/应用的全球化推广将起到积极作用。因此，随着各类客户群体扩张步伐加速，多语种需求也将快速增长，具有强大语言研究能力的数据服务企业将获得更多商业机会。
　　f.国家法律法规密集落地，对数据安全及合规提出更高要求
　　近年来，数字经济规模快速扩张，数据作为数字经济时代核心生产要素，重要性更加凸显，但数据不同于传统生产要素，其中可能涉及关乎个人权益的个人信息以及关乎国家安全的重要数据，因此，为更好保障数字经济长期稳定的可持续发展，建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年来，国家陆续出台包括《数据安全法》、《个人信息保护法》等主流法律法规，以及《促进和规范数据跨境流动规定》等具体规范，为加强数据安全保障、净化行业快速发展中的不良乱象提供了切实可行的法律依据。
　　未来，随着AI技术不断革新，应用行业以及场景不断增加，各行业、各领域数据安全规范逐渐落地将成为趋势，对于以数据生产为主营业务的数据服务企业，数据安全及合规能力将成为数据服务能力的核心评价维度，成熟的安全合规管理体系将成为重要评价标准，能持续跟踪法律环境变化，积极响应监管政策，牢牢把握发展与安全并重的原则的企业将具有更强的市场竞争力。
　　1.2行业的主要技术门槛
　　随着AI技术不断演进、产业应用不断丰富，训练数据的市场需求呈现体量、难度、复杂性持续上升的趋势，数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设
　　计能力、丰富的语言覆盖能力及场景采集能力、算法辅助数据生产能力等，这使得行业的技术门槛持续提升，具体体现为：
　　（1）在训练数据研发、生产全流程中的算法全面介入
　　随着AI技术的不断演进以及应用场景的不断拓展，客户对于数据质量和处理效率的要求不断提升，数据服务商须在数据设计、生产中引入算法以实现高效的人机协作，进而实现降本增效的目标。一般而言，算法技术可用于训练数据集的设计及训练数据生产的各个环节，例如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低人员依赖，并构建训练数据设计、加工相关的核心技术；也可用于检查训练数据集对算法模型的训练效果，进而保障训练数据集质量。
　　（2）平台工具链功能及适配性要求持续提升
　　当前，客户侧的数据采集、标注需求范围在逐渐拓宽，数据采集与标注需满足的AI应用场景比以往明显更加广泛、复杂，这就对数据服务商的平台工具能力提出了更高要求，平台上处理过多大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化程度如何等这些因素都决定了平台的适配性和能力，并最终决定了数据处理的质量、效率、成本。
　　（3）语音语言学基础研究方面须有深厚积累
　　伴随语音技术进一步成熟、并向更多行业和垂直场景进行渗透，同时受到中国企业出海、国外企业区域拓展等需求支撑，客户在多语种、多音色、音素集、发音规则、发音词典等方面的需求在不断抬升。而多语种数据生产依赖大量的语音语言学基础研究，投入更多、拥有深厚积累的数据服务商才能满足客户在这方面的多元化需求。
　　目前，市场上仅有极少数企业通过长期自主研发的方式能够达到上述核心技术门槛，成为有能力向不同客户群体提供综合、高质量、高效的数据产品及服务的供应商。
　　2.公司所处的行业地位分析及其变化情况
　　作为行业的头部阵营企业，海天瑞声在经营情况、技术实力、以及以数据安全为代表的其他综合能力方面都展示出明显优势，并具有较强国际竞争力。近年来公司紧跟AI技术发展趋势，尤其关注在客户资源、技术实力、产品/服务等方面的竞争优势，树立国内领先基础数据服务商的品牌形象，以巩固公司的行业领先地位。
　　（二）主营业务情况说明
　　公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工，最终形成可供AI算法模型训练使用的专业数据集，通过软件形式向客户交付。
　　自2005年成立以来，公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展，公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业，并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音（语音识别、语音合成等）、计算机视觉、自然语言等多个核心领域，全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。
　　公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等国内外客户的认可，应用于其研发的个人助手、智能音箱、语音导航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量超过1,000家，覆盖了科技互联网、社交、IoT、智能驾驶、智慧金融等领域的主流企业，教育科研机构以及部分政企机构。
　　（三）主要产品及服务情况
　　1.主要产品及服务按业务类型分类
　　公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域，广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外，公司还提供与训练数据相关的应用服务。
　　（1）智能语音
　　人工智能在语音领域的应用技术主要包括语音识别、语音合成等。
　　语音识别（Automatic Speech Recognition，ASR）是让机器能够“听懂”人类语音的技术，它能使机器自动将语音信号转换为对应的文本信息。
　　语音合成（Text to Speech，TTS）是让机器能够“说出”人类语音的技术，它使机器能将文字信息转化为流畅的语音“朗读”出来，相当于给机器安上了人工嘴巴。
　　以日常生活中的情景为例，语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换为文字，实现了软件“听懂”语音并“听写”出文字的效果；而地图、导航软件则运用语音合成技术，实现了软件“发声说话”的效果，为用户提供即时语音导航。
　　公司通过设计（设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等）、采集（定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频）、加工（对音频文件进行切分、标注各类声音特征，形成带时间戳和特征标签的文本和标注文件等）、质检（对数据集进行质量检测，如音字一致性、标注准确率检查等）等训练数据集生产环节；或者针对客户提供的原料音频文件执行加工、质检工作，最终形成客户所需的智能语音训练数据集。
　　（2）计算机视觉
　　计算机视觉（Computer Vision，CV）是使机器具备“看”的功能的技术，它使得智能驾驶、智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。
　　以日常生活中的情景为例，在汽车的自动驾驶功能中，计算机视觉技术使得汽车能够“看见”并识别行车过程中的各种行人、路况场景，为后续作出相应的反应奠定基础；在机场、车站安检中，计算机视觉技术使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。
　　公司通过设计训练数据集结构、采集（如定义合适的人脸、动作、场景作为采集对象，组织被采集人按照要求拍摄照片、录制视频等）、加工（对图像、视频文件进行打点、拉框、分割标注等）、质检（对数据集进行质量检测，如检验图片、视频文件格式是否正确，检查光照环境、物体种类的数量是否达标，打点标框的准确率是否符合要求等）；或者对客户提供的图像、视频文件执行加工、质检工作，最终形成客户所需的计算机视觉训练数据集。
　　（3）自然语言处理
　　自然语言处理（Natural Language Processing，NLP）是以机器能够像人一样理解语言意图的技术。
　　以日常生活中的情景为例，寄送快递时使用的“智能填写”功能即运用了自然语言处理技术，在输入框中填入整段联系信息，软件应用能够理解语义，并从中识别及提取“收件人”、“联系方式”、“地址信息”等所需信息，完成自动填写；智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术，使得程序、机器能够读懂人类语言的真正意图，并相应做出反应、提供服务等。
　　公司通过设计训练数据集结构、采集（收集或编写自然语言文本、对话等数据信息）、加工（对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等）、质检（对数据集进行质量检测，如检验文本、词性或者语义的标注结果是否准确等）；或者对客户提供的自然语言文本执行加工、质检工作，最终形成客户所需的自然语言训练数据集。
　　（4）训练数据相关的应用服务
　　公司基于自身生产的训练数据提供算法模型相关的训练服务，运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定应用场景的专属算法模型，提高AI技术应用效果。
　　前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。
　　成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。以智能语音训练数据集为例，成品训练数据集包含原始采集形成的音频文件、与音频文件对应的带有时间戳的标注文件，训练数据集相关的设计文档、训练数据集说明，发音词典，数据集参数信息文件等。
　　2.主要产品或服务的终端应用场景
　　公司提供的高质量、大规模、结构化的训练数据，为算法模型的训练拓展提供了可靠的训练素材，助力AI技术实现实践应用及商业化落地，赋能AI技术与实体经济深度融合。公司提供的训练数据广泛应用于众多主流AI产品及终端应用的训练过程中，覆盖了个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等多种应用场景。
　　（四）主要经营模式
　　1.盈利模式
　　与主要产品及服务类型对应，公司的盈利模式主要包括以下三类：
　　（1）定制服务：公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下，公司享有服务费收入，不享有最终生成的训练数据的知识产权，不可将此类业务生产的训练数据向其他客户重复销售。
　　（2）标准化产品：公司开发自有知识产权的训练数据集产品，通过销售训练数据集产品的使用授权许可，获取让渡资产使用权收入。此类训练数据集一经开发完成，可多次销售并获取授权许可收入。
　　（3）训练数据相关的应用服务：公司基于生产的训练数据提供算法模型相关的模型拓展及训练服务，通常以软件授权或软硬件一体化形式交付算法模型拓展、开发成果，获取让渡资产使用权收入和技术服务收入，以及少量硬件销售收入。
　　2.生产或服务模式
　　（1）训练数据集生产模式
　　公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。
　　公司的训练数据生产过程主要包括四个环节：设计（训练数据集结构设计）、采集（获取原料数据）、加工（数据标注）及质检（各环节数据质量、加工质量检测）。
　　（2）训练数据相关的应用服务模式
　　公司基于其生产的训练数据提供算法模型相关训练服务，助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定行业和口音的专属算法模型，提高AI技术应用效果。
　　以某大型科技公司客户项目为例，客户研发了特定语音识别算法模型，需要根据算法模型的实际场景（如法院庭审场景）开发落地应用。公司承担了部分落地应用拓展相关的开发工作，围绕客户的算法模型和接口开发，最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。
　　3.采购模式
　　按照采购的内容及主体划分，公司的采购包括：
　　数据服务采购：公司在数据采集、加工环节中，向人力资源服务等类型的公司等供应商采购的，非核心技术环节的原料数据采集、标注服务。
　　岗位服务采购：主要针对临时性的、不设长期岗位的业务领域的外包采购，如保洁、临时招聘服务、少量实习生招聘等。
　　其他采购：（1）训练数据生产所需的资产，主要包括软、硬件设备及其他需求物品采购；（2）日常运营所需的资产及物品，如办公用房、车辆、办公家具、计算机设备等；（3）日常专项服务采购等，主要包括审计服务、会议服务、差旅服务等。
　　上述原料数据采集、加工环节所涉及的数据服务采购，为公司最主要的采购类别，由集采中心负责；各部门岗位服务采购由人力资源部负责；其余日常运营相关的资产物品采购、专项服务采购等非业务采购由集采中心负责。财务中心负责参与采购供应商的遴选、监督与管理，并对采购费用进行核算及结算。
　　经过多年的发展，公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度，设立有完善的采购流程和体系，并与主要的供应商形成了良好稳定的长期合作关系。
　　4.营销模式
　　公司采用直接对接并服务客户的直销模式进行营销，符合行业通行惯例。公司以高质量的训练数据集及相关服务吸引客户，并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、参与学术会议和行业展会新产品发布、搭建并持续升级公司官方网站和建立自媒体矩阵等方式提升品牌知名度、开拓新客户，后续再通过商务谈判、招投标等形式获取具体业务机会。
　　二、核心技术与研发进展
　　1.核心技术及其先进性以及报告期内的变化情况
　　公司高度重视并坚持科技创新，通过持续的研发投入积累形成了12项核心技术，覆盖基础研究、平台工具、训练数据生产三个层次，应用于训练数据生产的设计、采集、加工、质检全流程之中。
　　上述核心技术构成了公司生产经营的基础，通过上述核心技术的成果转化，公司形成了基于核心技术的训练数据相关产品和服务。其中5项核心技术具备较高技术壁垒：
　　（1）基础研究层面，报告期内，公司持续在智能语音、计算机视觉、自然语言、以及包括智能驾驶为代表的垂直领域进行技术拓展，并有多项核心技术取得显著进展。例如，在基础算法研究方面，新增数十个基础模型，包括巴什基尔语、卡纳达语、林加拉语等多个ASR语音识别模型、语音无监督数据自动清洗模型、2D-3D融合连续帧交通目标检测模型、3D点云地面自适应检测模型、图片美学评分模型等众多模型；同时完成了多个现有模型的优化升级，3D点云目标检测算法准确率提升10%以上、3D点云跟踪算法准确率提升20%以上；大模型算法与应用研发领域内，探索语音大模型所需要的无监督训练数据自动清洗技术、视觉大模型所需要的图文对数据标注技术在数据自动化处理领域内的应用，并利用LLM大模型完成中文发音预测算法升级，准确率提升20%以上。
　　（2）平台工具层面，持续提升了标注平台对智能驾驶领域前沿算法所需的数据标注服务支撑能力。实现了千万级大规模点云语义分割的技术难点突破与落地，完成了多项4D标注相关平台能力升级，并重点优化了点云语义分割和2D-3D融合连续帧点云标注平台的能力，创新性地设计并实现了点云动静态目标物多帧协同标注套件，大幅提升标注效率。重构了包括副语言标注、打点标注、音素边界标注等在内的多项标注流程，实现了高精度实时语音流线上化处理与可视化渲染，进一步扩展了平台多模态数据融合标注工具能力。
　　（3）训练数据生产层面，重点建设了高性能多源、多维度实时大数据分析系统，实现项目管理数据的交互式智能探查与分析，提升数据透明度，优化了数据同步技术与实时采集质控技术的自动检测与错误报告机制，扩展了算法在实时交互式标注与质检中的应用场景，增强了对多语种、多模态数据支持，进一步提升公司训练数据生产的精细化、智能化管理。
　　以上技术突破均将对更广泛人工智能数据服务产生积极影响。报告期内，公司新申请软件著作权5项。具体见第三节“管理层讨论与分析”二、“核心技术与研发进展”之“报告期内获得的知识产权列表”。
　　2.报告期内获得的研发成果
　　报告期内，公司新申请软件著作权5项。截至2024年6月30日，公司共获得专利授权37项，获得登记的软件著作权173项。
　　3.研发投入情况表
　　4.在研项目情况
　　5.研发人员情况
　　6.其他说明

　　二、经营情况的讨论与分析
　　2024年上半年，受益于大模型技术的快速革新以及各国政策的持续推动，全球人工智能产业驶入加速发展轨道，国内外科技巨头持续加大人工智能领域投入，受此带动，相关训练数据需求快速增长。为更好拥抱新一轮市场机遇，公司持续加大全球市场投放力度，通过品牌升级、营销推广等多元化战略积极拓宽海外市场空间，带动境外业务收入强力复苏。此外，公司不断拓展智能驾驶服务能力边界，抢抓车企出海机遇，积极探索布局境外数据采集业务；同时继续保持有竞争力的研发投入，持续优化迭代智能驾驶数据处理平台以及智能化标注能力，以更好适应以BEV技术为主、稳步向OCC技术方向探索的高阶智能驾驶技术需求。与此同时，受益于多模态技术的发展，大模型业务板块收入快速提升，成为继智能驾驶业务后公司又一重要的增长引擎。受上述各项积极因素带动，公司整体营业收入实现同比增长。
　　此外，由于标准化数据集产品收入占比大幅提升，同时公司整体数据交付能力在管理能力、平台技术提升、供应链进一步整合和扩展等因素的共同推动下，使训练数据定制服务的毛利率也同比显著增长，共同驱动公司整体毛利率增加至70.34%。同时，在研发投入方面，为积极应对产业需求的新兴变化，公司继续在大模型数据领域进行研发投入，但随着首发募投项目的结项，公司在传统深度学习数据集建设等方向已达到阶段性成熟状态，整体研发投入强度呈现自然回落；同时，在销售及管理投入方面为进一步提升整体运营效率，公司进行了资源的合理配置和流程优化，使得销售费用以及管理费用有效降低，以上因素共同驱动公司上半年净利润大幅增长，实现扭亏为盈。
　　报告期内，公司实现营业收入9,242.64万元，较上年同期增长24.13%；归属于母公司所有者的净利润41.64万元，较上年同期增加1,765.78万元；归属于母公司所有者的扣除非经常性损益的净利润为-367.58万元，较上年同期增加1,942.87万元；经营性现金流净额1,567.69万
　　元，较上年同期增加3,955.06万元。截至报告期末，公司总资产为7.88亿元，归属于母公司的所有者权益为7.53亿元，分别较期初减少4.45%和3.70%。2024年上半年公司具体经营情况如下：
　　(一)核心业务板块经营情况
　　1.训练数据全球化业务
　　2024年上半年，受益于大模型技术的快速发展以及应用领域不断拓展，以智能终端厂商为代表的科技巨头纷纷加大多模态数据投入，全球数据服务市场持续增长。在此背景下，公司凭借多年来在语言研究以及自然语言方面的技术积累、以及全球领先的标准化数据集储备，进一步赢得了境外客户信赖。与此同时，《促进和规范数据跨境流动规定》等法规出台，为数据出境提供了更为高效简明的路径。截至报告期末，得益于行业发展以及政策环境的改善，公司境外业务收入较上年同期显著增长50.00%至4,369.53万元。
　　此外，为更好把握行业机遇、进一步扩大全球客户辐射范围，公司从体系搭建、市场研究、品牌升级、营销推广等多维度提升业务、客户触达及服务能力。报告期内，公司持续加强境外销售团队建设，进一步织密客户服务网络；同时，通过参与包括Web Summit Qatar、ICASSP、AI EXPO TOKYO、Autosense and InCabin及CVPR等全球知名行业及学术顶会，以及布局搜索广告投放、社交媒体矩阵等多类宣传渠道等方式，向全球市场展示公司先进技术实力及创新产品，提升行业影响力和美誉度。2024年上半年，公司全新发布海外官网，全面升级官网服务模式，通过搭建marketplace，便捷用户目标服务/产品的选择，有效提升新客户拓展以及订单转化率。截至报告期末，公司境外客户数量已超过250家。
　　2.智能驾驶行业数据服务业务
　　新能源汽车已成为国家发展新质生产力的重要抓手。政府工作报告中明确提出要巩固和扩大智能网联新能源汽车产业的领先优势，并在后续通过持续的立法支持、政策引导和投资激励等一系列措施，加速推进智能网联汽车的技术发展和商业化应用，推动行业进入新一轮的加速发展期。同时，从消费者角度，越来越多的购车客户更关注汽车的智能化水平。根据相关消费者调研结果，乘用车的智能化水平是影响购车的第二大因素，仅次于价格。
　　2024年上半年，为更好抢抓智能驾驶行业机遇，同时应对更为复杂的数据处理需求，公司加大了对高级别数据标注工具的研发力度，截至报告期末，DOTS-AD平台新增3D动静分离标注工具，BEV多图层4D车道线标注工具，并升级点云分割工具支持连续帧叠加标注和4D分段加载等核心能力，有效支撑了自动驾驶BEV和OCC主流算法演进对数据标注工具的需求。此外，公司不断优化算法中台中枢能力，开发了2D-3D融合的动静分离检测追踪算法，在点云连续帧融合产线实现提效30%以上，迭代优化点云分割算法和地面检测算法，在点云分割产线实现提效20%以上。
　　此外，为进一步支撑我国车企的国际化战略，公司在全球范围内扩展了道路采集业务，可提供包括采集方案设计、采集人员组织、车队管理、车辆改装及数据清洗与脱敏等在内的全链条服务。截至报告期末，公司采集业务已覆盖包括德国、西班牙、捷克等多个国家，为公司构建智能驾驶全球化数据服务能力奠定了基础。
　　3.大模型数据业务
　　随着大模型技术的持续突破，人工智能行业迈入加速发展期。数据作为驱动技术进步和构筑竞争壁垒的关键要素，价值更加凸显，相关数据需求快速增长。报告期内，公司通过大模型数据集产品及定制数据服务，服务客户从预训练、后期预训练、至指令微调、对齐、评测等全链条，服务范围已逐步覆盖至主要大模型厂商和研究机构。
　　报告期内，公司持续加大大模型数据方向的研发投入，增厚大模型领域的数据储备，已完成并持续建设包括“大语言模型中文对话预训练数据集”、“语音大模型（声音复刻、歌曲）微调数据集”、“语音大模型（多语种）预训练及微调数据集”、“视觉大模型（图像-文本）预训练及微调数据集”、“视觉大模型（视频-文本）预训练及微调数据集”等在内的多领域大模型数据集。同时，针对大模型在特定行业的应用需求，公司重点开发了医疗、金融、法律、艺术等垂直领域的标注资源，形成垂直领域专家库，为公司提供高质量行业数据服务奠定坚实基础。
　　与此同时，为更好理解大模型技术方向，报告期内，公司通过前瞻性研究，探索大模型数据的规模化生产方式，全面助力公司大模型业务的扩张。公司已和清华大学联合启动多语种语音大模型研发计划，该项目将基于最新的语音大模型框架技术，自研多语种数据清洗技术，训练多个不同规模的语音大模型，有效提升多语种语音数据处理的效率和准确性。公司的算法团队联合清华大学语音与音频技术实验室充分利用公司海量高质量语音数据集储备（超过200个语种/方言，近30万小时自有知识产权的语音数据集），充分发挥各自所长，促进大模型技术在数据生产领域的更深层次的应用。
　　(二)核心技术能力建设情况
　　2024年上半年，按照技术+产品双轮驱动的定位，公司继续保持有竞争力的研发投入强度，不断提升技术和平台工具先进性、在大模型数据处理技术方向进行积极探索储备、巩固标准化数据集产品储备、增厚语音语言学基础研究领先性，持续巩固公司核心竞争力。报告期内，公司研发费用共计2,667.32万元，占当期营业收入的28.86%。截至报告期末，公司研发人员数量65人。
　　1.算法及平台能力建设、大模型数据处理技术探索储备
　　报告期内，公司持续加大基础研发投入，进一步提升人工智能基础算法、一体化数据处理平台、前沿技术研发等领域能力；在智能驾驶数据处理综合性平台上继续提升平台能力，并落地更多面向智能驾驶数据预处理的相关算法；同时，在面向大模型预训练、微调、对齐及评测技术上持续保持技术探索、储备，推动相关领域的数据服务，并形成了一些代表性成果：
　　1.1算法
　　智能语音领域，完成Whisper推理框架升级、显存占用降低59%、推理延迟降低59%，新增ASR模型11个、语音识别算法支持语种数增至130+个，大幅提升了算法在实际项目中的降本增效能力。在计算机视觉领域，引入Detzero-track、23DFusion-if、centpoint、Lane-Marking-Detection、facefusion等有代表性的计算机视觉框架或算法，上线3D点云目标检测多模型融合算法、4D大点云车道线检测算法、GDINO-零样本目标检测等算法，优化2D细分类视频跟踪算法、2D异形红绿灯跟踪算法、4D车道线长度动态自适应调整算法等多个智能驾驶场景下的模型，并新增超过27种不同场景的视觉类算法预处理技术。在大模型算法领域，针对公司自有知识产权的语音数据集，设计通用的数据清洗、模型训练、模型评测框架，已完成数据清洗pipeline搭建，并初步清洗出通用格式的语音数据数十万小时，同时完成语音大模型训练所需要的算力集群搭建、算法框架研发、模型训练pipeline搭建等。针对视觉大模型应用领域，搭建了美学评分模型与图文生成模型相结合的自动标注算法，已在项目中应用，并取得了良好的降本效果。
　　1.2平台
　　公司在训练数据生产与管理的一体化平台建设方向精耕细作，展现了一系列里创新成果，具体可归结为以下核心维度：
　　（1）重点推进以数据为核心的一体化平台体系建设，全面提升一体化数据处理平台数据处理过程柔性管理能力，实现了十余类核心预处理算法模型自动化对接、数据切片、数据加工处理管道的快速搭建与灵活编排，以及数据处理算子集成与统一管理，共计超40个功能点。
　　（2）实现贯穿数据采标、模型训练、模型效果展示全生命周期管理：重点优化多源多模态非结构化与结构化数据的标准化与一致性管理，以及点云与图像类算法模型对比与模型评测支撑能力。扩展了算法结果评测指标维度，提升算法结果可视化展示能力等超40个功能点，大幅提升公司对训练数据的一站式全生命周期管理能力。
　　（3）持续优化一体化数据处理平台的智能化工作流程革新，实现数据采集质控设置精细化调优，多语种多模态算法灵活扩展，自动化处理效果精准探查，跨平台系统集成与数据流动生态建设，以及人员管理与协作机制创新等共计超200个功能点，助力公司业务向智能化、工程化、平台化迈进。
　　通过上述投入，截至报告期末，公司共获得专利授权37项，获得登记的软件著作权173项。同时，公司实质性地提升了自身的算法能力、工程化数据研发及生产能力，形成了更为合理、高效的人机协同智能化解决方案，持续降低训练数据开发成本，以AI赋能训练数据开发，以训练数据赋能AI产业发展。
　　2.标准化数据集产品
　　标准化数据集产品，是公司区别于众多竞争对手以定制化服务为主的特有商业模式，也是公司核心竞争力之一，标准化产品不仅可以更好服务于客户需求，同时由于产品本身的知识产权由公司享有，具有一次性研发生产、可重复多次销售的特点，因此可更好帮助公司实现未来可持续性销售、以及毛利空间提升。
　　为更好缩短AI产品研发周期以及降低研发成本，购入标准化数据集产品并完成模型训练的
　　客户需求持续存在。为更好适应新的行业发展趋势，公司2024年上半年在产品研发方面持续投入，用于开发覆盖智能语音、计算机视觉以及自然语言等传统深度学习以及大模型领域的相关数据集产品。截止报告期末，公司新增研发超100个训练数据集产品，自有知识产权的训练数据产品储备超过1,650个，尤其在多语种及多音色语音数据集和发音词典、动作捕捉等多模态数据集、以及多语种OCR和手写体数据集等方面积累了更丰富的标准化产品资源，并建成包括“大语言模型中文对话预训练数据集”、“语音大模型（声音复刻、歌曲）预训练及微调数据集”、“视觉大模型（图像-文本）预训练及微调数据集”等在内的多领域大模型数据集。
　　截止报告期末，公司已向下游客户提供了累计超过8,000次/个定制或标准化训练数据集，可覆盖生活交流、客服、家居、行车、办公、普通环境、噪声等多种特定场景中的语言现象和视觉呈现，构建成独具特色的训练数据资源及服务能力集群，并已应用于个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等22类创新应用领域，赋能人工智能技术与实体经济的深度融合。
　　3.语音语言学能力
　　随着全球化扩张、通用AGI成为头部企业收入持续增长的重要引擎，多语种数据的作用和价值更加凸显。为更好满足客户多语种拓展需求，公司持续保持语音语言学研究力度，在语音语言学基础研究方面，公司不断丰富合作语言学家团队资源，成员遍布世界各地的学校及研究机构，在语音语言学领域具备丰富经验和技术储备。截止报告期末，公司已经拥有超过205个语种/方言的覆盖能力，不仅包括含英、法、德、意、西、日、韩等常见语种，还包括东南亚、一带一路等国家地区的罕见小语种，尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时，公司建立了成熟的发音词典构建流程，公司已积累下超过130个多语种的发音词典，覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种，累计词条数超过1,200万条，可支撑构建高质量的智能语音、以及多模态训练数据，是公司的主要竞争壁垒及核心技术之一。
　　(三)其他综合能力建设情况
　　1.数据安全及合规
　　2024年上半年，中央和地方出台了一系列有关数据要素、数字经济的法律法规和政策，同时，《促进和规范数据跨境流动规定》等法规出台，都对企业的数据安全水准和能力提出了更高要求，也为企业在数据要素、人工智能等领域的发展提供了新的机遇。
　　公司一直以来非常重视数据安全管理以及相关能力的提升，并将其作为把握新发展机遇所必须练好的“基本功”。2024年上半年，公司在数据安全方面取得了多项工作成果。公司“AIGC训练数据业务的综合合规管理机制”案例荣获中国互联网协会首届“金灵光杯”中国互联网创新大赛企业合规赛道优秀奖。公司积极参与行业发展，提出立法建议、参与行业调研，数据安全能力获得广泛认可。
　　公司也一直坚持统筹安全与发展并重的原则，在守住安全合规底线的前提下积极拓展包括数据跨境流通在内的数据要素业务。
　　2.供应链体系
　　2024年上半年，基于大模型需求的影响，公司重点开发了医疗、金融、法律、艺术等垂直领域的资源，通过与这些领域的专业机构及专家合作，增强了公司的供应链资源池，满足了特定领域的需求，提高了供应链的多样性和专业性。
　　除此之外，公司重点培养和发展战略供应商，与其建立了长期稳定的合作关系，加强了与供应商的风险共担机制，共同应对市场波动和不确定性。
　　公司也进一步优化了供应链网络，特别是在海外一手资源群体的扩展方面取得了重要进展。通过建设大型数据基地及精细化管理资源池，供应链的多样性和稳定性得到了显著提升，为实现可持续性产能扩张和成本优化奠定了坚实基础。
　　在供应链管理体系建设方面，通过建立更细致的成本核算模型和流程监控节点，实现了对供应链各环节成本和效率的精准把控。同时，全面升级线上管理系统，实现了订单处理、资源配置和结算审批的一体化和实时化。
　　3.人力资源
　　报告期内，公司完成销售、生产、研发体系的绩效管理机制优化，并对内部反馈机制及奖金核算机制进行迭代，以期增强绩效牵引力实现更加公平和富于激励性的管理效果。上半年公司组织多种类专项培训及人才发展项目，在大模型领域的探索与应用进行广泛深入的内部交流，组织销售、生产、职能等多体系的软技能培训，对应届高潜毕业生、新锐力量、中坚力量、中高层管理人员采取不同的梯队建设规划，以保障人才队伍的不断夯实。文化建设方面，强化高度敬业和持续创新文化，进行榜样之星等多样化的文化倡导和活动辐射，打造更加尊重信赖和追求卓越的组织基因。同时在人才引进方面，启动海外人才招募、研发专项人才和高潜毕业生吸引计划，引入多名欧美同业专家、优质研发人员、及卓越背景应届毕业生，充实销售、研发及项目交付队伍的人才密度，发展健康、可持续、多元化的人才队伍。

　　三、风险因素
　　（一）核心竞争力风险
　　1.核心技术快速迭代的风险
　　由于人工智能行业整体发展较为迅速，应用领域和应用场景不断拓展，下游需求随着行业发展不断发生变化，公司进行数据开发所需的各项技术也面临着快速迭代更新的风险。如果公司无法保持对行业发展趋势的洞察能力以及对研发人才的有效组织和研发经费的经济投入，则可能导致公司在行业技术快速迭代过程中无法持续保持技术先进性和技术优势，进而对公司的客户拓展、产品创新和经营业绩造成不利影响。
　　2.核心技术人员流失风险
　　随着行业的持续发展，行业内企业之间对于高端人才的竞争日益激烈，如果公司无法持续加强核心技术人员的培养及引进并为核心技术人员提供有竞争力的激励机制和薪资待遇，则将存在核心技术人员流失的风险，公司的技术水平、研发能力也将受到不利影响。
　　3.核心技术失密风险
　　公司的数据产品和服务均以核心技术为基础。公司制定了严格的保密制度并严格执行，但上述措施仍无法完全避免公司核心技术的失密风险。如果公司相关核心技术的内控和保密机制不能得到有效执行，则可能导致公司核心技术失密的风险。
　　4.训练数据标准化产品无法实现授权销售的风险
　　公司根据对算法模型应用领域、行业发展趋势、市场需求等的评估和研判，自行设计并开发多种训练数据集标准化产品，开发完成后根据客户实际需求进行销售，授权给客户使用。在该种业务类型下，公司开发训练数据集产品，承担开发费用，并拥有训练数据集产品的知识产权。如果公司开发的训练数据集产品不能满足下游客户对训练数据的要求，则可能存在无法实现授权销售的风险，进而对公司未来的经营业绩产生不利影响。
　　5.数据安全相关风险
　　公司主要从事训练数据的研发设计、生产及销售业务，所提供的产品和服务主要以数据的形式体现。一方面，随着公司业务的快速发展和规模的持续扩张，原料数据采集与数据加工的数量持续增长；另一方面，包括《数据安全法》、《个人信息保护法》等在内的与数据安全、个人信息保护相关的法律规章体系逐步完善。如果将来公司未能根据法律规章的更新要求及时调整现行业务开展方式、公司的数据安全管理体系研发升级未能跟上业务发展的需要、或客户未能遵守训练数据产品保护相关商业约定，则公司可能面临生产经营不符合法律规章的要求、训练数据产品被泄露、盗版等数据安全相关风险或可能产生诉讼纠纷，进而给公司的经营带来不利影响。
　　（二）经营风险
　　1.收入主要来自老客户，新客户收入占比较低的风险
　　报告期内，公司收入主要来自老客户、占比达到91.54%，新客户收入占比较低。公司正致力于维护老客户、拓展新客户，若老客户降低对公司产品、服务的采购量或公司未能维持与老客户的合作关系，则公司的经营情况将受到不利影响；若新客户拓展情况不达预期，则公司的经营情况也将受到不利影响。
　　2.新业务拓展风险
　　随着人工智能行业持续快速地增长，下游客户对高质量、结构化、大规模训练数据的需求将持续增加。公司能否紧跟下游需求变化，加深对下游行业基础技术的理解并开发出更多的业务机会，一方面受到行业发展状况、市场需求变化以及市场竞争状况等因素影响，另一方面也取决于公司对于下游众多新领域新场景的理解认知以及合作拓展能力等诸多因素。因此，公司新业务的开拓可能不及预期或者遇到其他不利因素，进而对公司未来的经营业绩产生不利影响。
　　3.采购成本上升风险
　　报告期内，公司进行采购原料数据采集、标注所支付的数据服务费占全年与主营业务相关的采购总额的比重较高，达到76.10%。随着城乡生活成本的持续提升，前述采购价格可能存在持续上升的趋势，若公司的技术发展带来的效率提升无法抵消前述采购成本上升的影响，可能会对公司的经营业绩带来一定不利影响。
　　（三）行业风险
　　1.市场竞争加剧的风险
　　公司所在的细分领域为AI基础数据服务领域。近年来，参与该行业的公司不断增多，由于整体行业较新，行业标准和法律监管仍处于规范阶段，因此整体行业目前处于高速发展且格局未定的状态，导致市场竞争加剧。公司如果不能持续有效地制定并实施业务发展规划，则将受到竞争者的挑战，从而面临市场竞争加剧而导致的经营状况下滑、市场地位下降和可能失去主要客户的风险，进而影响公司的盈利能力和发展潜力。
　　2.业务发展受下游人工智能领域发展状况影响较大的风险
　　公司主要为AI产业链上的各类机构提供算法模型开发所需的训练数据，服务于下游人工智能行业发展。公司的经营情况、业务发展与下游人工智能领域的发展状况息息相关。若未来人工智能领域景气度下降，或因技术更迭使得对训练数据的市场需求发生变动，将对公司业绩产生较大影响。
　　（四）宏观环境风险
　　1.经营业绩受税收优惠政策影响较大的风险
　　报告期内，公司享受了增值税即征即退、高新技术企业和研发费用加计扣除等一系列税收优惠，经营业绩受税收优惠政策影响较大。如果未来公司所享受的税收优惠政策出现不利变化，或者公司不再符合税收优惠的条件，则公司将无法持续享受税收优惠或存在所享受的税收优惠减少的可能性，并进而对公司未来经营业绩和现金流水平造成不利影响。
　　2.汇率波动风险
　　海天瑞声作为一家面向全球的训练数据服务商，拥有数量众多的境外客户，遍布美国、韩国、日本等各地区，报告期内公司境外收入占比为47.28%，该等收入使用外币进行结算，并受人民币汇率水平变化的影响。人民币汇率可能受到国内外政治、经济环境等因素的影响，存在波动风险，进而对公司的经营业绩产生不利影响。
　　3.中美贸易摩擦风险
　　公司产品和服务的主要出口地包括美国、日韩等国家或地区。报告期内，公司出口美国的营业收入占当期公司营业收入的比重为24.38%。公司相关境外业务始终严格遵守中国及他国法律。但国际局势瞬息万变，近年来中美贸易摩擦不断，如果中美双方出台新的贸易保护主义措施，可能会影响美国市场相关客户将数据提供给公司用于标注，减少与公司进行训练数据方面的业务合作，公司相关业务可能会受到约束，将会对公司的生产经营产生不利影响。
　　（五）其他重大风险
　　1.实际控制人控制不当的风险
　　截止报告期末，贺琳直接持有公司1,213.76万股股份（占总股本的20.12%），并通过控制中瑞安间接控制公司693.58万股股份（占总股本的11.50%），合计控制公司31.62%的股份，为公司实际控制人。
　　如果实际控制人利用其控制地位，通过行使表决权或其他方式对公司财务管理、人事、发展战略、经营决策等重大事项施加不利影响，其他股东的利益可能受到损害。

　　四、报告期内核心竞争力分析
　　(一)核心竞争力分析
　　1.研发优势
　　公司拥有同行业具有竞争力的综合研发实力，截至报告期末，公司研发团队规模为65人，研发能力全面覆盖平台工具开发、算法研究、产品设计等多条主线。公司核心研发人员均曾服务于全球顶尖科技企业或毕业于名校，组成了公司坚实的研发领导核心力量。同时，多年来，公司积累了较为完备的综合性、一体化数据处理平台及工具体系，覆盖智能语音、计算机视觉、自然语言等全业态领域，可服务于市面上绝大多数数据处理场景需求，包括但不限于智能驾驶、智能家居、个人助手、内容生成等。公司还设置了专门的产品研发部门及AI+研发部门，可前瞻性挖掘和布局新兴市场需求，抢占市场先机。此外，基于公司在训练数据领域多年积累下的大量、多元化数据以及数据处理经验，通过算法平台团队与数据业务团队无缝衔接，公司可更好完成预识别算法性能提升，实现少量数据注入->算法训练->标注员反馈->模型生成->处理大量数据的自闭环体系，助力公司做大规模、提升效率、降低成本。同时，近20年数据行业的从业经验积累，使得公司具备较强的数据生产工程化能力，可助力公司大幅缩短数据研发及生产周期，为公司抢占市场提供了有力支撑。上述因素共同驱动公司构建较高的行业技术壁垒。
　　2.产品优势
　　通常来说，标准化数据集产品具有可即时获取、价格相对优惠等特点，因此市场需求旺盛。但由于标准化数据集产品是先于客户需求形成，需要数据服务商具备较强的市场趋势前瞻能力、以及财务实力进行提前投入，因此行业中具备标准化数据集产品规模化生产能力的服务商较为有限，该方向具备较高竞争壁垒。
　　对于公司而言，标准化训练数据集产品的知识产权由公司享有，具有一次性研发生产、可重复多次销售的特点，可显著助力公司毛利水平提升，实现训练数据产品的规模化效应，因此也是公司区别于众多竞争对手的一个优势亮点。
　　公司基于近20年数据服务经验、以及对客户需求的深刻理解，持续开拓标准化数据集，自有知识产权的训练数据产品储备超过1,650个，全面覆盖智能语音、计算机视觉、自然语言等多条业务线。
　　3.语音语言学能力优势
　　随着境外客户全球化扩张以及境内客户出海成为新的行业发展趋势，多语种能力成为数据服务领域的核心竞争力之一，而语音语言学储备则是实现多语种拓展的重要前提。经过多年积累，公司已沉淀下深厚的语音语言学基础研究成果，并已将其运用至构建高质量的智能语音、以及多模态训练数据。在语音语言学基础研究领域，公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累，以及不断创新的发音词典构建技术和流程技术。截止报告期末，公司已经拥有超过205个语种/方言的覆盖能力，不仅包括含英、法、德、意、西、日、韩等常见语种，还包括东南亚、一带一路等国家地区的罕见小语种，尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时，公司已积累下超过130个多语种的发音词典，覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种，累计词条数超过1,200万条，可支撑构建高质量的智能语音、以及多模态训练数据，是公司的主要竞争壁垒及核心技术之一。
　　4.数据安全及合规能力优势
　　海天瑞声自成立之初即把数据安全、数据合规视为生命线，公司在多年的数据风险识别和管理实践中，已经形成了较为成熟的安全、合规管理体系。资质方面，公司拥有ISO27001信息安全管理体系认证、ISO27701隐私信息管理体系认证、国家信息系统安全等级保护三级备案、北京市规划和自然资源委员会行政许可乙级测绘资质等。行业参与方面，公司入选中共中央网络安全和信息化委员会办公室“人工智能企业典型应用案例”，相关业务和数据安全实践受到《人民日报》等权威媒体报道和关注。公司参加北京市经济和信息化局组织的企业首席数据官素养能力培训，董事长贺琳成为北京市首批首席数据官。公司为中国信通院数据安全推进计划成员单位，董事兼副总经理李科连续入选该计划数安智库专家；其所参与、领导的公司数据安全工作，受到《北京日报》等权威媒体报道。此外，公司积极参与行业发展，入选国家标准《信息技术人工智能术语》核心参编单位、《人工智能数据标注平台技术要求和测试方法》核心参编单位，数据安全能力获得认可并产生广泛、积极的行业影响。收起▲