换肤

主营介绍

  • 主营业务:

    AI训练数据的研发设计、生产及销售业务。

  • 产品类型:

    智能语音、计算机视觉、自然语言、训练数据相关的应用服务

  • 产品名称:

    语音识别 、 语音合成 、 计算机视觉训练数据集 、 自然语言处理 、 数据文档 、 说明文档 、 技术文档

  • 经营范围:

    一般项目:技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广;软件开发;软件销售;计算机软硬件及辅助设备零售;计算机软硬件及辅助设备批发;货物进出口;技术进出口;非居住房地产租赁。(除依法须经批准的项目外,凭营业执照依法自主开展经营活动)许可项目:第二类增值电信业务;互联网信息服务。(依法须经批准的项目,经相关部门批准后方可开展经营活动,具体经营项目以相关部门批准文件或许可证件为准)(不得从事国家和本市产业政策禁止和限制类项目的经营活动。)

运营业务数据

最新公告日期:2023-04-25 
业务名称 2022-12-31 2020-12-31 2019-12-31 2018-12-31 2017-12-31
业务收入:智能驾驶业(元) 4174.51万 - - - -
语音识别采集产量(小时) - 3.30万 2.73万 1.99万 -
语音识别采集销量(小时) - 19.90万 13.64万 11.56万 -
语音合成产量(小时) - 428.00 15.00 15.00 -
语音合成销量(小时) - 1029.00 274.00 96.00 -
合计产量(小时) - 3.34万 2.73万 1.99万 -
合计销量(小时) - 20.00万 13.67万 11.57万 -
计算机视觉销量(库) - 172.00 213.00 185.00 -
自然语言销量(库) - 247.00 225.00 250.00 -
智能语音数据库产品产量(小时) - - - 1.98万 1.44万
智能语音数据库产品销量(小时) - - - 11.57万 6.85万

主营构成分析

报告期
报告期

加载中...

营业收入 X

单位(%) 单位(万元)
业务名称 营业收入(元) 收入比例 营业成本(元) 成本比例 主营利润(元) 利润比例 毛利率
加载中...
注:通常在中报、年报时披露 

主要客户及供应商

您对此栏目的评价: 有用 没用 提建议
前5大客户:共销售了5679.58万元,占营业收入的33.41%
  • 客户1
  • 客户2
  • 客户3
  • 客户4
  • 客户5
  • 其他
客户名称 销售额(元) 占比
客户1
1254.04万 7.38%
客户2
1214.90万 7.15%
客户3
1213.58万 7.14%
客户4
1095.57万 6.44%
客户5
901.49万 5.30%
前5大供应商:共采购了3170.34万元,占总采购额的32.84%
  • 供应商1
  • 供应商2
  • 供应商3
  • 供应商4
  • 供应商5
  • 其他
供应商名称 采购额(元) 占比
供应商1
1075.79万 11.14%
供应商2
742.26万 7.69%
供应商3
575.50万 5.96%
供应商4
435.13万 4.51%
供应商5
341.66万 3.54%
前5大客户:共销售了1.18亿元,占营业收入的44.89%
  • 客户1
  • 客户2
  • 客户3
  • 客户4
  • 客户5
  • 其他
客户名称 销售额(元) 占比
客户1
2805.77万 10.67%
客户2
2753.70万 10.47%
客户3
2588.84万 9.85%
客户4
1849.67万 7.04%
客户5
1802.93万 6.86%
前5大供应商:共采购了7434.49万元,占总采购额的56.88%
  • 供应商1
  • 供应商2
  • 供应商3
  • 供应商4
  • 供应商5
  • 其他
供应商名称 采购额(元) 占比
供应商1
4147.01万 31.73%
供应商2
1580.09万 12.09%
供应商3
777.55万 5.95%
供应商4
516.61万 3.95%
供应商5
413.23万 3.16%
前5大客户:共销售了8571.94万元,占营业收入的41.52%
  • 客户1
  • 客户2
  • 客户3
  • 客户4
  • 客户5
  • 其他
客户名称 销售额(元) 占比
客户1
2339.01万 11.33%
客户2
2293.76万 11.11%
客户3
1830.03万 8.86%
客户4
1055.44万 5.11%
客户5
1053.70万 5.10%
前5大供应商:共采购了8387.29万元,占总采购额的75.94%
  • 供应商1
  • 供应商2
  • 供应商3
  • 供应商4
  • 供应商5
  • 其他
供应商名称 采购额(元) 占比
供应商1
5381.83万 48.73%
供应商2
1780.98万 16.12%
供应商3
441.78万 4.00%
供应商4
406.02万 3.68%
供应商5
376.68万 3.41%
前5大客户:共销售了1.17亿元,占营业收入的50.24%
  • 微软
  • 阿里巴巴
  • 腾讯
  • 三星
  • 字节跳动
  • 其他
客户名称 销售额(元) 占比
微软
4332.18万 18.56%
阿里巴巴
3030.38万 12.99%
腾讯
1830.75万 7.84%
三星
1383.66万 5.93%
字节跳动
1149.06万 4.92%
前5大供应商:共采购了6972.22万元,占总采购额的77.25%
  • 善世(广东)企业服务外包有限公司与共青城
  • 北京博睿驰信人力资源有限公司与恩泽尔商贸
  • 李宏
  • 北京冠华英才国际经济技术有限公司
  • Voices.com Inc
  • 其他
供应商名称 采购额(元) 占比
善世(广东)企业服务外包有限公司与共青城
4403.16万 48.78%
北京博睿驰信人力资源有限公司与恩泽尔商贸
1592.40万 17.64%
李宏
494.44万 5.48%
北京冠华英才国际经济技术有限公司
252.39万 2.80%
Voices.com Inc
229.83万 2.55%
前5大客户:共销售了1.28亿元,占营业收入的53.88%
  • 三星
  • 微软
  • 阿里巴巴
  • 亚马逊
  • 腾讯
  • 其他
客户名称 销售额(元) 占比
三星
4762.06万 20.05%
微软
2876.20万 12.11%
阿里巴巴
2208.26万 9.30%
亚马逊
1492.98万 6.28%
腾讯
1459.31万 6.14%
前5大供应商:共采购了5713.36万元,占总采购额的74.77%
  • 芜湖善慧人力资源服务有限公司与善世(广东
  • 北京博睿驰信人力资源有限公司与恩泽尔商贸
  • 李宏
  • 北京冠华英才国际经济技术有限公司
  • 赵峻
  • 其他
供应商名称 采购额(元) 占比
芜湖善慧人力资源服务有限公司与善世(广东
3153.41万 41.27%
北京博睿驰信人力资源有限公司与恩泽尔商贸
1573.46万 20.59%
李宏
428.89万 5.61%
北京冠华英才国际经济技术有限公司
388.90万 5.09%
赵峻
168.70万 2.21%

董事会经营评述

  一、经营情况讨论与分析
  2023年是挑战与机遇并存交织的一年,一方面全球宏观经济波动明显,上半年部分国外科技企业进行阶段性裁员、业务方向及研发节奏周期性调整,导致其AI研发预算出现阶段性收缩,同时叠加2023年上半年数据出境相关法规落地实施的阶段性影响,公司境外收入同比大幅下滑;境内业务方面,虽然宏观稳经济政策已初见成效,但国内仍面临复杂严峻的内外部环境考验,部分境内客户对集中性研发投入仍持谨慎态度,基础数据服务领域客户预算及需求释放出现阶段性减缓,叠加行业内竞争加剧,综合导致境内收入同比下滑。但一方面,受益于大模型技术突破以及我国数据要素领域的不断拓展开放,人工智能产业迎来新一轮发展... 查看全部▼

  一、经营情况讨论与分析
  2023年是挑战与机遇并存交织的一年,一方面全球宏观经济波动明显,上半年部分国外科技企业进行阶段性裁员、业务方向及研发节奏周期性调整,导致其AI研发预算出现阶段性收缩,同时叠加2023年上半年数据出境相关法规落地实施的阶段性影响,公司境外收入同比大幅下滑;境内业务方面,虽然宏观稳经济政策已初见成效,但国内仍面临复杂严峻的内外部环境考验,部分境内客户对集中性研发投入仍持谨慎态度,基础数据服务领域客户预算及需求释放出现阶段性减缓,叠加行业内竞争加剧,综合导致境内收入同比下滑。但一方面,受益于大模型技术突破以及我国数据要素领域的不断拓展开放,人工智能产业迎来新一轮发展期。面对挑战与机遇,公司保持战略定力,进行稳健地开拓布局,在境外业务方面,面对上半年海外客户需求释放放缓以及数据出境相关政策的阶段性影响,公司积极应对,一方面通过加大境外销售团队建设,以及营销体系布局升级等方式,增强客户触达的广度与深度,另一方面,通过积极筹备申报、完成首笔数据出境安全评估,并主动参与数据跨境流动试点等方式,全力推进全球市场业务正常运行;在以智能驾驶为代表的新兴垂直领域,继续保持有竞争力的研发投入,通过打造具有前瞻性服务能力的数据处理平台,不断提升行业技术领先地位,以上相关举措的有效实施驱动公司自二季度以来单季度收入较过去两年平均水平呈现下滑趋势收窄态势。同时,公司在大模型、数据要素等新兴领域开展前瞻性研究、布局,探索公司潜在增长曲线,并形成早期收入,为公司长期健康发展奠定基础。此外,为配合整体战略发展及业务拓展目标,公司在营销体系建设等方面加大投入,使得销售费用同期较大幅度增长。与此同时,计提坏账金额阶段性增加、持有外币资产增值幅度较同期下降等因素,导致信用减值损失以及财务费用同比增长。以上因素共同导致2023年度归属于母公司所有者的净利润、归属于母公司所有者的扣除非经常性损益的净利润显著下滑并且出现亏损。
  报告期内,公司实现营业收入17,001.10万元,较上年同期下降35.33%;归属于母公司所有者的净利润-3,038.52万元,较上年同期减少203.16%;归属于母公司所有者的扣除非经常性损益的净利润为-4,347.07万元,较上年同期减少528.32%;经营性现金流净额-3,104.62万元,较上年同期下降201.26%。截至报告期末,公司总资产为82,450.71万元,归属于母公司的所有者权益为78,229.40万元,分别较期初减少5.98%和5.69%。2023年公司具体经营情况如下:
  (一)核心业务板块经营情况
  1.训练数据全球化业务
  2023年,为更好应对境外市场挑战,公司从市场研究、品牌升级、体系搭建、营销推广等多维度提升业务及客户触达、服务能力。报告期内,公司在前瞻性拓展多模态等数据业务的基础上,持续加强境外销售团队建设,进一步织密客户服务网络;同时,通过参与包括AIEXPOTOKYO、ICASSP、CVPR、Interspeech、ACL等全球知名顶会,以及布局搜索引擎、社交媒体等多类宣传渠道等方式,向全球市场展示公司先进技术实力及前瞻性产品积累,提升行业影响力,挖掘潜在销售机会。另一方面,公司通过积极筹备申报、完成首笔数据出境安全评估;同时,公司根据国家及北京市“数据二十条”相关要求,积极参与数据要素的跨境流动试点合作,并充分利用由相关政府部门牵头建设的数字贸易港、数字贸易试验区等先行先试机制,探讨推进相关工作、全力保障全球市场业务正常运行。
  2.智能驾驶行业数据服务业务
  2023年,为更好抢抓智能驾驶发展机遇,公司全方位布局和提升智能驾驶业务核心能力,通过持续跟踪前沿技术发展动态,前瞻性布局、迭代智能驾驶数据处理能力,并于5月正式发布全新升级的智能驾驶数据处理平台DOTS-AD,旨在进一步巩固加深行业护城河。该平台在实现智能驾驶应用场景以及各类传感器全覆盖的基础上,持续拓展前沿数据处理能力,截至报告期末,已具备3D点云语义分割、BEV(鸟瞰图)、300万大点云以及4D标注等各类行业前沿数据标注能力。此外,公司不断优化算法中台中枢能力,持续整合前沿计算机视觉算法架构,新增交通目标物检测等多种智能驾驶相关模型,不断提升算法在2D、3D和4D数据生产环节的强大赋能作用。随着大模型技术的突破性发展,公司也成功引入最新SAM开源模型,并基于数据预标注实际需求,对模型进行了优化升级,有效提升了2D语义分割项目中的降本增效能力。
  此外,基于公司已经获取的乙级测绘资质,经过与客户群体的持续性共同探讨、磨合,公司已于本年度内将业务链条拓展至合规路采环节,并进一步升级完善数据解决方案,为后续本业务板块的更好发展奠定了基础。
  3.大模型数据服务业务
  大模型技术驱动人工智能产业进入新一轮加速发展期,国内外科技巨头纷纷布局以大模型为核心的通用+垂直人工智能产业,数据作为驱动大模型发展以及差异化竞争的关键要素,重要性日益凸显,数据行业迎来了新的发展时期,并同时带来了更多类型、更高质量、更大规模的增量数据需求。报告期内,公司基于过往数据服务经验以及商务资源优势,已与国内众多知名大模型厂商开展业务合作,业务范围覆盖RLHF数据评分、Prompt改写、人机多轮交互等强化学习阶段数据需求,并发布自有知识产权的首个大语言模型预训练数据集DOTS-NLP-216。与此同时,为更好抢占大模型数据服务市场,报告期内,公司通过前瞻性研究,持续探索拓展大模型相关数据服务范围以及服务能力,例如,通过研究数据清洗技术、模型评测数据集设计技术、大模型微调与应用等,进一步将数据服务拓宽范围至预训练以及模型评测阶段;同时,探索利用大模型技术,提升大模型数据的规模化生产效率,全面助力公司大模型业务的战略扩张。
  (二)核心技术能力建设情况
  2023年,按照技术+产品双轮驱动的定位,公司继续保持一定的研发投入强度,不断提升技术和平台工具先进性、在大模型数据处理技术方向进行积极探索储备、巩固标准化数据集产品储备、增厚语音语言学基础研究领先性,持续巩固公司核心竞争力。报告期内,公司研发费用共计5,849.09万元,占当期营业收入的34.40%。截至报告期末,公司研发人员数量66人。
  1.算法及平台能力建设、大模型数据处理技术探索储备
  报告期内,公司持续加大基础研发投入,进一步提升人工智能基础算法、一体化数据处理平台、前沿技术研发等领域能力;在智能驾驶数据处理综合性平台上继续提升平台能力,并落地更多面向智能驾驶数据预处理的相关算法;同时,在面向大模型预训练、微调、对齐及评测技术上持续保持技术探索、储备,推动相关领域的数据服务,并形成了一些代表性成果:
  1.1算法
  智能语音领域,完成Whisper框架接入、新增ASR模型90+个、语音识别算法支持语种数增至100+个,大幅提升了算法在实际项目中的降本增效能力。在计算机视觉领域,引入SAM、OneFormer、matteformer、23DFusion_if、Muti-Det系列等有代表性的计算机视觉框架或算法,上线鱼眼语义分割、3D-跟踪插值、23D单帧融合等算法,优化关键点检测、障碍物检测、停车位检测、通用物体分割等多个智能驾驶场景下的模型,并新增超过15种不同场景的视觉类算法预处理技术。在大模型算法领域,针对大模型预训练数据集设计与处理技术进行研究和规划,并基于研究成果开展了CommonCraw、中文书籍、代码、百科等适用于预训练阶段的数据的获取与清洗工作;同时采用chatgm、Qwen、baichuan等主流开源大模型框架进行特定应用场景的模型finetune,并在发音预测、情感分类、平行语料构建等多种项目中应用,并取得了良好的降本效果;同时开展大模型评测技术调研,完成基础框架设计,形成可行性结论。
  1.2平台
  全面提升一体化数据处理平台标注能力与自动化标注覆盖率,进一步拓展数据应用服务领域:
  (1)全面升级智能驾驶标注子平台,重点完备标注工具对重建点云场景及高精地图场景下各类型标注能力,提升长连续帧追踪标注能力、全面优化大点云语义分割处理效率、优化2D+3D融合标注、点云BEV(鸟瞰图)、Freespace场景、以及4D标注、实例网格图等标注交互体验超过100个功能点;大幅提升智能驾驶相关数据标注效率;
  (2)持续升级一体化数据处理平台与算法训练平台无缝对接,提升涵盖语音、文本、图像、点云等各类型数据的自动预标注能力,提升实时交互式辅助标注与自动质检能力,升级平台算法灰度部署和智能调度功能等超过150个功能点,大幅提升平台自动化标注覆盖率与标注结果准确率;
  (3)升级智能语音标注子平台,新增词典提取与标注、实体词标注二期、多语种韵律标注、多音词标注、词边界标注等语音合成相关数据处理共计50多个功能点,新增中文、日语、英文的字、词级别实时音频文本强制对齐算法接入,全面升级数据中心化管理、自动化质检、自定义工作流与项目柔性管理功能,持续提升对公司多语种数据业务的支撑与标注效率和准确率的提升;
  (4)在多语种语料设计领域,更新优化多语种语料设计平台,升级多场景多类型多人多轮长语料设计支持超过60个功能点。
  通过上述投入,截至报告期末,公司已经取得35项发明专利、1项实用新型专利授权及1项外观设计专利授权,173项计算机软件著作权。同时,公司实质性地提升了自身的算法能力、工程化数据研发及生产能力,形成了更为合理、高效的人机协同智能化解决方案,持续降低训练数据开发成本,以AI赋能训练数据开发,以训练数据赋能AI产业发展。
  2.标准化数据集产品
  标准化数据集产品,是公司区别于众多竞争对手以定制化服务为主的特有商业模式,也是公司核心竞争力之一,标准化产品不仅可以更好服务于客户需求,同时由于产品本身的知识产权由公司享有,具有一次性研发生产、可重复多次销售的特点,因此可更好帮助公司实现未来可持续性销售、以及毛利空间提升。
  为更好缩短AI产品研发周期以及降低研发成本,购入标准化数据集产品并完成模型训练的客户需求持续存在。为更好适应新的行业发展趋势,公司2023年在产品研发方面的投入达到1,747.83万元,用于开发覆盖智能语音、计算机视觉以及自然语言等传统深度学习以及大模型领域的相关数据集产品。截止报告期末,公司新增研发超220个训练数据集产品,自有知识产权的训练数据产品储备超过1,550个,尤其在多语种及多音色语音数据集和发音词典、动作捕捉等多模态数据集、以及多语种OCR和手写体数据集等方面积累了更丰富的标准化产品资源,并在大语言模型预训练方向启动标准化产品的研发、储备,且已发布自有知识产权的首个大语言模型预训练数据集DOTS-NLP-216。
  截止报告期末,公司已向下游客户提供了累计约7,500次/个定制或标准化训练数据集,可覆盖生活交流、客服、家居、行车、办公、普通环境、噪声等多种特定场景中的语言现象和视觉呈现,构建成独具特色的训练数据资源及服务能力集群,并已应用于个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等22类创新应用领域,赋能人工智能技术与实体经济的深度融合。
  3.语音语言学能力
  随着全球化扩张、通用AGI成为头部企业收入持续增长的重要引擎,多语种数据的作用和价值更加凸显。为更好满足客户多语种拓展需求,公司持续保持语音语言学研究力度,在语音语言学基础研究方面,公司不断丰富合作语言学家团队资源,成员遍布世界各地的学校及研究机构,在语音语言学领域具备丰富经验和技术储备。截止2023年末,公司已经拥有超过205个语种/方言的覆盖能力,不仅包括含英、法、德、意、西、日、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时,公司建立了成熟的发音词典构建流程,公司已积累下超过130个多语种的发音词典,覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种,累计词条数超过1,200万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司的主要竞争壁垒及核心技术之一。
  (三)其他综合能力建设情况
  1.数据安全及合规
  2022年年末,《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”)正式发布,明确了包括“建立保障权益、合规使用的数据产权制度”、“建立安全可控、弹性包容的数据要素治理制度”等在内的数据基础制度建设方向。2023年上半年,中央和地方配合数据二十条出台了一系列法规、政策,同时,《生成式人工智能服务管理暂行办法》等人工智能领域法规出台,都对企业的数据安全水准和能力提出了更高要求,同时也为企业在数据要素、人工智能等领域的发展提供了新的机遇。
  公司一直以来非常重视数据安全管理以及相关能力的提升,并将其作为把握新发展机遇所必须练好的“基本功”。2023年,公司在数据安全方面取得了多项工作成果。公司副总经理李科因其贡献荣获中国信通院“数安智库”2022年度优秀专家,并继续入选该智库专家,为人工智能领域数据安全管理建言献策。公司积极参与行业发展,提出立法建议、参与行业调研,入选《人工智能数据标注平台技术要求和测试方法》核心参编单位,数据安全能力获得广泛认可,并受到《人民日报》、《北京日报》等权威媒体的报道和关注。
  公司也一直坚持统筹安全与发展并重的原则,在守住安全合规底线的前提下积极拓展包括数据跨境流通在内的数据要素业务。
  2.供应链体系
  在2023年,公司持续优化和改进供应链管理体系,通过完善精细化、线上化管理方式,进一步提升了供应链运作质量和效率,降低了成本和风险,增强了公司的核心竞争力。公司通过完善自建的技术工具平台,实现了供应链管理的自动化和智能化,提高了流程执行的准确性和效率,提升了供应链运作的质量和响应速度。通过对供应链数据的深入分析,公司能够及时发现问题和优化空间,并据此做出相应的决策,从而提升了供应链的运作效率和灵活性。公司也进一步优化了对供应商资源池的管理,实施了进一步的资源标签体系验证,有助于公司实现更精准的供应链管理,提高了成本控制能力和资源利用效率。公司持续扩展海外资源,使得海外资源在资源池占比进一步提升,增强了供应链的多样性和稳定性,为实现可持续性产能扩张和成本优化打下坚实基础。
  3.人力资源
  报告期内,公司完成了股权激励计划的首次归属,近百名员工参与其中,达到组织士气提振和有效激励效果。同时,公司通过体系化的绩效管理方式,落实销售和生产体系的绩效改革,优化薪酬结构与业绩达成的牵引作用。此外,公司通过全局的人才盘点和360°领导力评价,对公司组织和人才的资源情况进行有效梳理,并衍生出人才储备、梯队培养、能力建设的一系列规划与动作,不断优化组织效能和人才发展环境。引入多位业内优秀研发、销售、创新、交付类中高级管理人才,进一步加强技术、业务创新动力,持续提升市场敏锐度和商机拓展能力;并启动高潜毕业生招募计划,引入多名海内外名校、985/211高校优秀毕业生,充实研发及项目交付队伍的人才密度,培养可持续的组织能力。
  
  二、报告期内公司所从事的主要业务、经营模式、行业情况及研发情况说明
  (一)主要业务、主要产品或服务情况
  1.主要业务情况
  公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。
  自2005年成立以来,公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展,公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业,并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。
  公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量超过930家,覆盖了科技互联网、社交、IoT、智能驾驶、智慧金融等领域的主流企业,教育科研机构以及部分政企机构。
  2.主要产品及服务情况
  2.1主要产品及服务按业务类型分类
  公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域,广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外,公司还提供与训练数据相关的应用服务。
  (1)智能语音
  人工智能在语音领域的应用技术主要包括语音识别、语音合成等。
  语音识别(AutomaticSpeechRecognition,ASR)是让机器能够“听懂”人类语音的技术,它能使机器自动将语音信号转换为对应的文本信息。
  语音合成(TexttoSpeech,TTS)是让机器能够“说出”人类语音的技术,它使机器能将文字信息转化为流畅的语音“朗读”出来,相当于给机器安上了人工嘴巴。
  以日常生活中的情景为例,语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换为文字,实现了软件“听懂”语音并“听写”出文字的效果;而地图、导航软件则运用语音合成技术,实现了软件“发声说话”的效果,为用户提供即时语音导航。
  公司通过设计(设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等)、采集(定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频)、加工(对音频文件进行切分、标注各类声音特征,形成带时间戳和特征标签的文本和标注文件等)、质检(对数据集进行质量检测,如音字一致性、标注准确率检查等)等训练数据集生产环节;或者针对客户提供的原料音频文件执行加工、质检工作,最终形成客户所需的智能语音训练数据集。
  (2)计算机视觉
  计算机视觉(ComputerVision,CV)是使机器具备“看”的功能的技术,它使得智能驾驶、智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。
  以日常生活中的情景为例,在汽车的自动驾驶功能中,计算机视觉技术使得汽车能够“看见”并识别行车过程中的各种行人、路况场景,为后续作出相应的反应奠定基础;在机场、车站安检中,计算机视觉技术使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。
  公司通过设计训练数据集结构、采集(如定义合适的人脸、动作、场景作为采集对象,组织被采集人按照要求拍摄照片、录制视频等)、加工(对图像、视频文件进行打点、拉框、分割标注等)、质检(对数据集进行质量检测,如检验图片、视频文件格式是否正确,检查光照环境、物体种类的数量是否达标,打点标框的准确率是否符合要求等);或者对客户提供的图像、视频文件执行加工、质检工作,最终形成客户所需的计算机视觉训练数据集。
  (3)自然语言处理
  自然语言处理(NaturaLanguageProcessing,NLP)是以机器能够像人一样理解语言意图的技术。
  以日常生活中的情景为例,寄送快递时使用的“智能填写”功能即运用了自然语言处理技术,在输入框中填入整段联系信息,软件应用能够理解语义,并从中识别及提取“收件人”、“联系方式”、“地址信息”等所需信息,完成自动填写;智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术,使得程序、机器能够读懂人类语言的真正意图,并相应做出反应、提供服务等。
  公司通过设计训练数据集结构、采集(收集或编写自然语言文本、对话等数据信息)、加工(对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等)、质检(对数据集进行质量检测,如检验文本、词性或者语义的标注结果是否准确等);或者对客户提供的自然语言文本执行加工、质检工作,最终形成客户所需的自然语言训练数据集。
  (4)训练数据相关的应用服务
  公司基于自身生产的训练数据提供算法模型相关的训练服务,运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景的专属算法模型,提高AI技术应用效果。
  前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。
  成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。
  2.2主要产品或服务的终端应用场景
  公司提供的高质量、大规模、结构化的训练数据,为算法模型的训练拓展提供了可靠的训练素材,助力AI技术实现实践应用及商业化落地,赋能AI技术与实体经济深度融合。公司提供的训练数据广泛应用于众多主流AI产品及终端应用的训练过程中,覆盖了个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等多种应用场景。
  (二)主要经营模式
  1.盈利模式
  与主要产品及服务类型对应,公司的盈利模式主要包括以下三类:
  (1)定制服务:公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下,公司享有服务费收入,不享有最终生成的训练数据的知识产权,不可将此类业务生产的训练数据向其他客户重复销售。
  (2)标准化产品:公司开发自有知识产权的训练数据集产品,通过销售训练数据集产品的使用授权许可,获取让渡资产使用权收入。此类训练数据集一经开发完成,可多次销售并获取授权许可收入。
  (3)训练数据相关的应用服务:公司基于生产的训练数据提供算法模型相关的模型拓展及训练服务,通常以软件授权或软硬件一体化形式交付算法模型拓展、开发成果,获取让渡资产使用权收入和技术服务收入,以及少量硬件销售收入。
  2.生产或服务模式
  (1)训练数据集生产模式
  公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。
  公司的训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。
  (2)训练数据相关的应用服务模式
  公司基于其生产的训练数据提供算法模型相关训练服务,助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定行业和口音的专属算法模型,提高AI技术应用效果。
  以某大型科技公司客户项目为例,客户研发了特定语音识别算法模型,需要根据算法模型的实际场景(如法院庭审场景)开发落地应用。公司承担了部分落地应用拓展相关的开发工作,围绕客户的算法模型和接口开发,最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。
  3.采购模式
  按照采购的内容及主体划分,公司的采购包括:
  数据服务采购:公司在数据采集、加工环节中,向人力资源服务等类型的公司等供应商采购的,非核心技术环节的原料数据采集、标注服务。
  岗位服务采购:主要针对临时性的、不设长期岗位的业务领域的外包采购,如保洁、临时招聘服务、少量实习生招聘等。
  其他采购:(1)训练数据生产所需的资产,主要包括软、硬件设备及其他需求物品采购;(2)日常运营所需的资产及物品,如办公用房、车辆、办公家具、计算机设备等;(3)日常专项服务采购等,主要包括审计服务、会议服务、差旅服务等。
  上述原料数据采集、加工环节所涉及的数据服务采购,为公司最主要的采购类别,由集采中心负责;各部门岗位服务采购由人力资源部负责;其余日常运营相关的资产物品采购、专项服务采购等非业务采购由集采中心负责。财务中心负责参与采购供应商的遴选、监督与管理,并对采购费用进行核算及结算。
  经过多年的发展,公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度,设立有完善的采购流程和体系,并与主要的供应商形成了良好稳定的长期合作关系。
  4.营销模式
  公司采用直接对接并服务客户的直销模式进行营销,符合行业通行惯例。公司以高质量的训练数据集及相关服务吸引客户,并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、参与学术会议和行业展会新产品发布、搭建并持续升级公司官方网站和建立自媒体矩阵等方式提升品牌知名度、开拓新客户,后续再通过商务谈判、招投标等形式获取具体业务机会。
  (三)所处行业情况
  1.行业的发展阶段、基本特点、主要技术门槛
  1.1行业的发展阶段、基本特点
  (1)在数字经济发展以及大模型技术的共同驱动下,全球AI产业进入新一轮加速发展期
  当前,新一轮科技革命和产业变革深入发展,数字化转型成为大势所趋,世界主要国家均高度重视发展数字经济,纷纷出台战略规划,重塑数字时代的国际竞争新格局。人工智能作为数字经济发展的底层核心技术之一,正在发挥更加重要的作用。例如,随着数字经济发展的不断深入,数据体量以及复杂度均不断提升,为更好解决产业数字化中数据提取、处理、分析等工作,将会产生更多样化的人工智能需求,人工智能支出也将成为支持企业数字化转型支出的主力因素之一。
  根据IDC报告,全球范围内,企业在人工智能市场的投资增速将显著高于数字化转型支出((DX)和GDP增速。
  此外,大模型在去年以来的现象级智能化表现引发行业强烈关注。可以预见,人工智能行业将在大模型技术的推动下进入新一轮产业高速发展期。
  未来,受益于数字经济政策和大模型技术的双重驱动,人工智能将具备更强的产业融合能力,并将深刻影响千行百业的运行规则,以及人们的生活方式,人工智能产业的发展将随之进入快车道。
  根据国际数据公司(IDC)的数据,2021年,全球人工智能市场规模为885.7亿美元,预计2025年将达到2,218.7亿美元,年复合增长率达到26.2%。
  在市场需求拉动和国家政策的支持引导下,当前我国人工智能产业加速发展,已形成基础底层设施、中层技术以及上层应用的完备的产业链生态,一批创新活跃、特色鲜明的创新企业不断涌现,并联合推动中国人工智能产业实现规模增长。根据艾瑞咨询的数据显示,2022年中国人工智能产业规模达1,948亿元,预计2027年市场规模将达到6,122亿元,年复合增长率为25.6%,主要与智算中心建设以及大模型训练等需求拉动的AI芯片市场、无接触服务需求拉动的智能机器人及对话式AI市场等快速增长相关。有望在下游制造、交通、金融医疗等多领域不断渗透,实现大规模落地应用。
  (2)训练数据作为AI发展和演进“燃料”的作用更加凸显,并逐渐成为大模型竞赛中的重要决定性要素
  在AI产业链中,算法、算力和数据共同构成技术发展的三大核心要素。算法模型从技术理论到应用实践的落地过程依赖于大量的训练数据。训练数据越多、越完整、质量越高,模型推断的结论越可靠。过去十年,人工智能产业以算法为核心,通过深度学习算法的不断创新,推动人工智能产业的快速发展。但未来,当算法发展趋于开源、算力能力大幅提升及人工智能模型从技术理论应用到更多的垂直场景,想要更快更好提升人工智能能力,数据将发挥更重要的作用。
  尤其在大模型时代下的今天,数据正在被视为大模型落地以及竞赛中重要的决定性要素。在大模型领域,过去业界普遍认为模型参数量是模型效果增强的核心要素,模型参数越大,性能表现越好,而如今这一“参数”定律正在打破。Meta开发的新模型Lama(Large(Language(Mode(Meta(AI)证明,相比于单纯参数量提升,训练数据规模以及多样性的增强,可带来更好的模型效果提升。根据新浪财经报道,Lama-13B虽然在参数规模上相较于GPT-3(175B)小了十几倍,但由于其大幅提升了训练数据规模(Lama-13B训练数据量约为GPT-3的3倍),其表现能力在大部分指标上均超越了后者;与此同时,Lama-65B也是凭借数据规模优势,与谷歌5400亿参数的PaLM-540B在表现上旗鼓相当。
  可以看出,数据正在逐渐成为大模型时代下的重要推动力量,并产生快速增长的数据需求。根据Cogniytica数据统计显示,2021年全球AI训练数据市场需求约为42亿美元,并预计到2027年这一需求将增长到220亿美元,2021-2027年复合增长率达32%。
  中国作为全球人工智能产业增速最快的国家之一,相关数据需求也在快速增长。根据德勤数据,2022年中国人工智能基础数据服务市场规模为45亿元,2027年规模将达到130-160亿元,年复合增长率为23.6%-28.9%。
  (3)数据要素市场蓬勃发展,数据行业迎来更为广阔的发展机遇
  近年来,我国数字经济蓬勃发展,数据要素因具有基础性战略资源和关键性生产要素的双重属性,相关市场规模持续增长。尤其在《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》出台后,我国系统性布局了数据基础制度体系的(“四梁八柱”,加速了数据流通交易和数据要素市场发展,进一步推动了公共数据、企业数据、个人数据合规高效流通使用。为更好响应中央号召,北京、上海、广州、深圳、杭州等地数据政策陆续出台,逐步构建了多层次、多元化数据要素市场生态体系。
  以北京为例,《关于更好发挥数据要素作用进一步加快发展数字经济的实施意见》《北京市促进通用人工智能创新发展的若干措施》和《关于推进北京市数据专区建设的指导意见》指出,北京市要加快建设“数据基础制度先行先试示范区”(以下简称“先行先试示范区”),“支持北京经济技术开发区等开展数据基础制度先行先试,打造政策高地、可信空间和数据工场”,探索打造数据训练基地,归集高质量基础训练数据集,推动数据要素高水平开放,提升本市人工智能数据标注库规模和质量,并建设针对重大领域、重点区域或特定场景建设专题数据区域,吸纳市场主体和数据、技术、资本等多元要素参与。北京市陆续出台的多项文件旨在打破数据壁垒,推动数据融合利用,加快推动公共数据开放,促进数据要素流通,激发数字市场创新活力,释放和发展数字化生产力,打造多层级数据要素市场,成为具有竞争力和影响力的数字产业集群。按照“政府引导、市场运作、创新引领、安全可控”的原则,(“先行先试示范区”有望成为国际领先的数据要素高效流通核心枢纽。
  数据要素市场受政策推动,进入高速发展期,未来围绕数据的价值利用以及流通交易,将产生大量新增数据需求,为数据行业开拓了新的增长空间,提供了新的业务拓展机遇。未来,数据要素也将成为数据行业增长的重要推动力量。
  (4)训练数据领域的未来发展趋势
  a.大模型技术的突破和跃升,将驱动新型数据需求持续增长
  随着ChatGPT成为全球范围内的现象级应用,人工智能迎来了新的发展机遇,其背后的大模型技术也将进一步引导人工智能产业变革并带来相关数据需求的变化和增长。
  首先,和传统的深度学习模型相比,大模型的数据需求规模将呈指数级增长。传统深度学习技术路线下,训练一个专有小模型大约需要GB级数据,而训练一个大模型通常需要TB级数据。此外,大模型数据丰富程度显著增加,大模型不仅包含海量语言类、知识类信息,还包括各类垂直领域以及多模态数据,通过多样化数据的引入,大幅提升模型的通用能力以及迁移能力,并使其可服务更多的任务类型与场景。同时,数据质量会显著拉开大模型预训练阶段的效果差距。另外,相比于传统模型训练,大模型的数据需求类型也将有所转变,更多模型或将采用类强化学习模式来进行特定领域或特定方向上的优化迭代,以使得机器能够以更加接近于人类期望的方式提供答案输出。对于大模型训练而言,不仅需要持续获取大规模、多样化(多模态、多场景、多垂向)、高质量的数据,更须具备持续迭代的高质量数据清洗和标注策略,以不断提升包括预训练(Pre-training)、模型微调(Fine-tune)及奖励模型(Reward(Mode)等过程中所需数据(例如指令(instruction)类数据)的质量,确保语言类和常识性知识之外的其他垂直领域的应用场景的能力提升,为大模型精确性、通用性及泛化能力的实现奠定坚实基础。
  在以上背景下,一方面,大规模、多样化、高质量数据集重要性凸显,成为模型训练效果的核心支撑之一。另一方面,AI发展所面对的数据前沿性及工程化技术的挑战也更为显著。长期看,只有AI数据处理技术的不断拓新与发展,才能及时适应甚至超前引领大模型技术和应用的发展。
  b.多模态数据受AIGC、虚拟人等应用发展驱动,将呈现快速增长趋势
  随着AIGC技术发展,AI可在更多维度、更多场景辅助人类进行内容生产以及创作。例如,通过大模型等AIGC技术,人类仅需输入一段简单的文字指令,AI即可按照人类描述生成一幅画、一段语音或一段视频,以此帮助人类完成内容创作。想要实现上述功能,AI除了要具备理解人类文字指令的能力,还需要通过对齐不同独立模态关键特征的方式,建立文字与图、语音、视频等一一映射关系,这背后将依赖大量的多模态数据,AI需要对多模态数据进行学习,以实现跨模态的创作能力。
  此外,随着AI虚拟主播、虚拟学生、虚拟员工轮番上岗,数字人概念逐渐走入大众视野,成为人工智能的热门技术赛道。想要让虚拟数字人实现与人类的自然交互,不仅需要发音标准自然、身体动作流畅,其表情、口型与声音也要实现细节的精准匹配,而多模态技术就是打破传统人工智能单一感官局限、让各类AI能力协同使用的重要技术。通过对高质量多模态训练数据集的持续学习,AI可实现图像、视频、音频、语义文本等多维度能力的融合,使得虚拟人在行为上更接近人类。
  未来,随着以AIGC、虚拟人为代表的AI技术以及应用的不断发展,多模态数据需求将呈现加速增长趋势,具备多模态数据服务能力,以及多模态数据集储备的企业将获得更多市场机会。
  c.人工智能企业全球化布局加速,多语种能力成为企业业务拓展核心支撑
  2013年,共建“一带一路”的倡议正式面世,十年来,随着国家“一带一路”战略的深入推进,国内一批具有较强创新能力和过硬技术实力的企业,纷纷踏出国门,积极拓展海外市场,通过不断扩大企业出海战略版图,获得高速发展机会。另一方面,境外头部企业也继续践行“全球化”战略,搭乘全球出海的快车。
  随着境内、外企业的全球化扩张成为确定性趋势,多语种能力作为支撑企业顺利出海的核心要素之一,重要意义更加凸显。未来,多语种训练数据将对客户侧在语音助手、智能汽车、智能家居、智能客服、机器人、多语种OCR等各领域产品/应用的全球化推广起到积极作用。因此,随着各类客户群体扩张步伐加速,多语种需求也将快速增长,具有强大语言研究能力的数据服务企业将获得更多商业机会。
  d.人工智能技术加速向产业渗透融合,催生更多垂向领域数据需求
  随着深度学习技术的不断突破,人工智能发展已经进入2.0时代,相关训练需求正逐渐从通用基础能力建设,向更为专业的垂向场景/行业拓展。一方面,以大模型为代表的AI基础技术不断取得重大突破,AI模拟人类认知的能力飞速提升,因此从技术能力维度看,AI已具备与垂直产业融合并规模化应用的前提条件;另一方面,受国家数字经济发展战略推动,产业数字化和智能化将进一步席卷各行各业,智能化技术与传统产业的融合将成为数字经济时代的新发展趋势,并创造出巨大的蓝海空间。
  当前AI技术正在加速与各类产业融合,在汽车、金融、医疗、工业等传统行业的渗透率和应用场景不断提升,展现出可观的商业价值和巨大的发展潜力,而数据作为打通算法技术与行业需求的核心桥梁,作用更加凸显,可以说数据能力一定程度上决定了算法模型在对应产业的适用性以及实用性,成为加速AI产业化落地的关键要素。
  e.国家法律法规密集落地,对数据安全及合规提出更高要求
  近年来,数字经济规模快速扩张,数据作为数字经济时代核心生产要素,重要性更加凸显,但数据不同于传统生产要素,其中可能涉及个人隐私以及国家安全的重要信息,因此,为更好保障数字经济长期稳定的可持续发展,建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年,国家陆续出台包括《数据安全法》、《个人信息保护法》等主流法律法规,为解决数据安全问题、净化行业快速发展中的不良乱象提供了切实可行的法律依据。
  未来,随着AI技术不断革新,应用行业以及场景不断增加,各行业、各领域数据安全规范逐渐落地将成为趋势,对于以数据生产为主营业务的数据服务企业,数据安全及合规能力将成为数据服务能力的核心评价维度,成熟的安全合规管理体系将成为重要评价标准,能持续跟踪法律环境变化,积极响应监管政策,牢牢把握发展与安全并重的原则的企业将具有更强的市场竞争力。
  1.2行业的主要技术门槛
  随着AI技术不断演进、产业应用不断丰富,训练数据的市场需求呈现体量、难度、复杂性、合规性持续上升的趋势,数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力、算法辅助数据生产能力、以及数据合规管理能力,这使得行业的技术门槛持续提升,具体体现为:
  (1)在训练数据研发、生产全流程中的算法全面介入
  随着AI技术应用落地的规模化效应凸显,客户对于数据规模和处理效率的要求不断提升,数据服务商须在研发、生产流程中全面引入算法以实现高效、合理的人机协作模式,进而实现降本增效的目标。一般而言,在训练数据研发、生产全流程中融入算法技术,可用于训练数据集的设计及训练数据生产的各个环节,例如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低对人员的依赖(既有人员数量的降低、也有对人员标注能力要求的降低),并构建训练数据设计、加工相关的核心技术;也可用于检查训练数据集对算法模型的训练效果,进而保障训练数据集质量。
  (2)平台工具链功能及适配性要求持续提升
  当前,客户侧的数据采集、标注需求范围在逐渐拓宽,数据采集与标注需满足的AI应用场景比以往明显更加广泛、复杂,这就对数据服务商的平台工具能力提出了更高要求,平台上处理过多大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化程度如何等等这些因素都决定了平台的适配性和能力如何,并最终决定了数据处理的质量、效率、成本。
  (3)语音语言学基础研究方面须有深厚积累
  伴随语音技术进一步发展落地、并向各行各业和更多垂直场景不断渗透,同时受到中国企业出海需求、国外企业区域拓展需求两方面的支撑,客户在多语种、多音色、音素集、发音规则、发音词典等方面的要求在不断抬升,这意味着只有那些在语音语言学基础研究方面投入更多、拥有深厚积累的数据服务商才能满足客户在这方面的多元化需求。
  因此,市场上仅有极少数企业通过长期自主研发的方式能够达到上述核心技术门槛,成为有能力向不同客户群体提供综合、高效、合规的数据产品及服务的供应商。
  2.公司所处的行业地位分析及其变化情况
  作为行业的头部阵营企业,海天瑞声在经营情况、技术实力、以及以数据安全为代表的其他综合能力方面都展示出明显优势,并具有较强国际竞争力。近年来公司紧跟AI技术发展趋势,尤其关注在客户资源、技术实力、产品/服务等方面的竞争优势,树立国内领先基础数据服务商的品牌形象,以巩固公司的行业领先地位。
  3.报告期内新技术、新产业、新业态、新模式的发展情况和未来发展趋势
  (1)数据需求向海量、高质量、多元化方向演进,智能化水平成为数据服务商核心竞争力
  随着AI应用场景日益丰富、以及产品智能化要求的不断提升,客户在数据规模、质量、多元化等方面提出了更高的要求。以智能语音和计算机视觉领域为例,训练数据需求逐渐拓展至更多语种、更复杂场景、更多AI设备、更多音色、更多维的图像采集等维度,数据服务商除了要具备丰富的数据采、标经验,还需要拥有完善的多元化数据处理平台,同时,通过引入算法提升数据处理的质量和效率,降低成本,驱动行业向训练数据生产智能化的方向演进。
  (2)全球化发展的大背景下,多语种数据需求不断攀升
  随着国家(“一带一路”战略的进一步深入推进,我国本土头部企业纷纷走出国门,主动出海;与此同时,国外主流科技企业也在同步加速全球化布局,并呈现不断扩充、细化区域拓展策略的趋势。
  在此背景下,多语种训练数据的需求迎来新一轮增长,除中、英、法、德、意、西、日、韩等常见语种外,客户还将在诸如东南亚、一带一路沿线国家地区的罕见小语种(尤其是亚洲小语种、中东欧小语种等)方向产生新的增量需求,未来或将向更多发展中国家持续拓展。因此,多语言/语种基础研究能力、以及在语言学领域的储备将成为数据服务领域的核心竞争力。
  (3)智能驾驶领域引领数据需求拓展至更多垂直场景,对行业提出更高要求
  随着AI底层技术的持续发展创新,AI已逐渐成为具备更强理解能力和推理能力的智能技术,极大提升了其与实体产业大规模融合和应用的可能;此外,人工智能作为国家发展数字经济以及产业数字化转型的枢纽,正在获得越来越多的政策和资本支持。在技术发展与政策推动的共同作用下,人工智能技术将向更多产业以及更广泛垂向场景渗透。
  细分行业的专业知识、服务经验以及准入资质将成为衡量一家数据服务商是否具备垂直领域数据服务能力的重要考量因素。当前,以智能驾驶为代表的垂直领域已开始释放大规模训练数据需求,行业客户更加需要全栈式、闭环数据解决方案的支持,以满足智能驾驶业务的数据处理量更大、数据处理需求的迭代频次更高、合规要求更高等特点,这就要求数据服务商在专业能力(包括但不限于对于驾驶场景、车辆传感器等要素的综合理解和实施能力)、综合能力(包括但不限于数据处理平台能力、质量管控能力、需求对接能力、项目响应能力、供应链资源管理能力等)、准入资质等方面同时满足并达到较高水准方能持续为该领域客户提供高水平支撑。
  (4)数据安全与合规能力将成为数据服务领域的新竞争壁垒
  近年来,国家通过密集出台《数据安全法》、《个人信息保护法》等法律法规,加速规范数据治理体系,以保障国家数字经济的健康可持续发展。此外,随着全球化与数字经济的发展,数据在国际间的流动愈加频繁,为更好促进和规范数据跨境流动,2022年9月、2024年3月,国家先后颁布实施《数据出境安全评估办法》、《促进和规范数据跨境流动规定》,以保障数据安全、保护个人信息权益,促进数据依法有序自由流动。作为数字经济时代里的数据服务企业,公司也深刻感受数据安全正在深刻改变着行业既往规则,数据安全及合规能力已逐渐成为数据服务商的核心竞争力之一。
  在此背景下,客户在选择数据服务商时,将更加看重服务企业的数据安全及合规能力,甚至一些大型需求方在遴选数据服务商时已将此因素提升至重要级别。因此,数据服务商在此方面须紧跟国家法律法规要求的演变,相应调整、升级现行业务开展方式、数据安全及合规管理体系,及时获取合规资质(包括但不限于信息安全管理体系认证、隐私信息管理体系认证、信息系统安全等级保护备案等),结合自身业务实际,通过数据出境安全评估、个人信息出境标准合同、个人信息保护认证等方式,确保合法合规开展业务,并将自身在这方面的积累转化为竞争优势、助力业务发展。
  (5)数字经济发展催生更大增量市场空间,数据服务新业态新模式将不断涌现
  百年变局加速演化,未来一个时期,在需求收缩、供给冲击、预期转弱三重压力下,发展数字经济将成为我国经济“换道超车”以及挖掘经济内生增长的重要战略举措。国家在数字经济建设方面坚定决心,通过《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》、《数字中国建设整体布局规划》等政策文件的密集发布以及组建成立国家数据局等方式,进一步统筹并加速落地数字经济发展战略,而数据要素作为深化数字经济发展的核心引擎,也将迎来新的发展机遇。未来,围绕数据确权、处理、利用和流通等环节将会产生巨大的增量市场空间,也会同期催生出数据服务领域的新业态、以及新的数据服务模式。因此,从行业需求和发展趋势来看,具备数据安全合规能力、数据智能化处理能力、以及行业资源和know-how的企业将能更好抢占数据要素市场竞争制高点。
  (6)大模型驱动AI全面提速,助推新型数据服务需求快速增长
  放眼未来,从十年乃至更长的周期来看,我们认为人工智能大模型将对数据行业产生深远影响,并带来新的数据需求和新的数据服务模式。未来,大模型发展的数据依赖程度将逐渐加深。首先,数据的质量以及数据清洗的工程化能力会极大拉开大模型预训练阶段的效果差距。其次,预期更多模型将采用类强化学习模式来进行特定领域或特定方向上的优化迭代,以使得机器能够以更加接近于人类期望的方式提供答案输出。
  为实现上述目标,需首先建立基于提示(Prompt)的训练数据集的设计技术,通过建立不同数据集之间的异向性,尽可能提高有限数据集对于下游任务的覆盖能力。此外,也将更多依赖于数据集在基础模型反馈结果上的打分技术、迭代训练RewardMode(类奖励模型)的技术、以及噪声数据过滤技术,特别是针对专业领域的知识处理,如何组建特定领域中高端标注工程团队也将成为重要课题。因此,未来数据处理将不再局限在传统的有监督学习标注,预期将向数据规模化清洗以及类强化学习等方向演进,未来具有更强的前瞻性研发能力、数据工程化能力以及更多行业资源的公司将获得更多市场青睐。
  (四)核心技术与研发进展
  1.核心技术及其先进性以及报告期内的变化情况
  公司高度重视并坚持科技创新,通过持续的研发投入积累形成了12项核心技术,覆盖基础研究、平台工具、训练数据生产三个层次,应用于训练数据生产的设计、采集、加工、质检全流程之中;按照从底层自下而上的顺序对上述三个层次的核心技术情况介绍如下:
  上述核心技术构成了公司生产经营的基础,通过上述核心技术的成果转化,公司形成了基于核心技术的训练数据相关产品和服务。
  (1)基础研究层面,报告期内,公司持续在智能语音、计算机视觉、自然语言、以及包括智能驾驶为代表的垂直领域进行技术拓展,并有多项核心技术取得显著进展。例如,在基础算法研究方面,新增数十个基础模型,包括波兰语、斐济语、摩洛哥阿语、伊博语、索马里语等多个ASR语音识别模型、多语种长音频自动切分模型、23D融合单帧交通目标检测模型、图像与视频人脸替换模型、车辆细节检测模型等众多模型;同时完成了多个现有模型的优化升级,3D点云跟踪算法准确率提升20%以上、3D点云目标检测准确率提升50%以上;训练数据集设计技术领域内,探索大模型在语料设计和文本自动化处理领域内的应用,并利用大模型完成多语种多领域语料自动生成、多语种平行语料自动质检、中文对话数据集智能清洗与分类、情感数据自动分类与抽取等算法研究与项目赋能。
  (2)平台工具层面,得益于基础研究领域内多种算法、技术的持续支撑,在诸如大规模语音数据采集及标注平台、支撑智能驾驶数据业务的图像/视频/点云标注平台、以及大规模OCR数据采集及标注平台等方向完成重大升级,并完成包括4D点云标注、3D点云语义分割、交互式弹性框辅助标注、渐进式点云目标物智能标注、大点云标注、韵律标注、多音词标注、自定义工作流管理等技术课题的攻坚与落地,整体上实现了一体化数据处理平台覆盖领域、处理能力的升级。
  (3)训练数据生产层面,公司在多语种多模态训练数据设计技术、多模态多通道数据采集技术、数据同步技术、实时采集质控技术、数据分布式生产技术等方向形成新突破,与基础研究能力的不断增强、平台工具功能的持续提升等趋势相辅相成、互相促进、形成合力,共同推动公司的训练数据生产不断向智能化方向演进。
  以上技术突破均将对更广泛人工智能数据服务产生积极影响。报告期内,公司新申请发明专利5项并均获受理,获得发明专利授权6项;新获得的软件著作权10项,均为原始取得。具体见第三节“管理层讨论与分析”二、“核心技术与研发进展”之“报告期内获得的知识产权列表”。
  2.报告期内获得的研发成果
  报告期内,公司新申请发明专利5项并均获受理,获得发明专利授权6项;新申请并获得登记的软件著作权10项,均为原始取得。截至2023年12月31日,公司共获得专利授权37项,获得登记的软件著作权173项。
  3.研发投入情况表
  研发投入总额较上年发生重大变化的原因
  2023年,公司研发投入合计5,849.09万元,较去年同期下降37.96%。主要系报告期内,根据近几年公司的整体研发战略和投入节奏安排,公司在数据生产智能化、以及标准化数据集产品建设等方向的投入强度逐渐趋于平稳所致。在数据生产智能化投入方面,以DOTS-AD、一体化数据处理平台等为代表的智能驾驶数据、以及综合性数据处理平台的整体能力已达到阶段性的成熟状态,因此公司在该等领域的研发投入强度较去年同期有所趋缓;在标准化数据集产品建设方面,根据公司IPO募投项目建设的规划,标准化数据集的集中建设期集中于前两年,并已于2023年5月顺利结项,因此报告期内公司在该领域的投入强度较去年呈现自然回落状态。整体而言,公司继续秉承技术+产品双轮驱动的核心理念,通过持续性的研发投入确保公司整体发展战略的落地实施,并助力公司持续保持领先地位。
  4.在研项目情况
  5.研发人员情况
  6.其他说明
  
  三、报告期内核心竞争力分析
  (一)核心竞争力分析
  1.研发优势
  公司拥有同行业具有竞争力的综合研发实力,截至报告期末,公司研发团队规模为66人,研发能力全面覆盖平台工具开发、算法研究、产品设计等多条主线。公司核心研发人员均曾服务于全球顶尖科技企业或毕业于名校,组成了公司坚实的研发领导核心力量。同时,多年来,公司积累了较为完备的综合性、一体化数据处理平台及工具体系,覆盖智能语音、计算机视觉、自然语言等全业态领域,可服务于市面上绝大多数数据处理场景需求,包括但不限于智能驾驶、智能家居、个人助手、内容生成等。公司还设置了专门的产品研发部门及AI+研发部门,可前瞻性挖掘和布局新兴市场需求,抢占市场先机。此外,基于公司在训练数据领域多年积累下的大量、多元化数据以及数据处理经验,通过算法平台团队与数据业务团队无缝衔接,公司可更好完成预识别算法性能提升,实现少量数据注入->算法训练->标注员反馈->模型生成->处理大量数据的自闭环体系,助力公司做大规模、提升效率、降低成本。同时,近20年数据行业的从业经验积累,使得公司具备较强的数据生产工程化能力,可助力公司大幅缩短数据研发及生产周期,为公司抢占市场提供了有力支撑。上述因素共同驱动公司构建较高的行业技术壁垒。
  2.产品优势
  通常来说,标准化数据集产品具有可即时获取、价格相对优惠等特点,因此市场需求旺盛。但由于标准化数据集产品是先于客户需求形成,需要数据服务商具备较强的市场趋势前瞻能力、以及财务实力进行提前投入,因此行业中具备标准化数据集产品规模化生产能力的服务商较为有限,该方向具备较高竞争壁垒。
  对于公司而言,标准化训练数据集产品的知识产权由公司享有,具有一次性研发生产、可重复多次销售的特点,可显著助力公司毛利水平提升,实现训练数据产品的规模化效应,因此也是公司区别于众多竞争对手的一个优势亮点。
  公司基于近20年数据服务经验、以及对客户需求的深刻理解,持续开拓标准化数据集,自有知识产权的训练数据产品储备超过1,550个,全面覆盖智能语音、计算机视觉、自然语言等多条业务线。
  3.语音语言学能力优势
  随着境外客户全球化扩张以及境内客户出海成为新的行业发展趋势,多语种能力成为数据服务领域的核心竞争力之一,而语音语言学储备则是实现多语种拓展的重要前提。经过多年积累,公司已沉淀下深厚的语音语言学基础研究成果,并已将其运用至构建高质量的智能语音、以及多模态训练数据。在语音语言学基础研究领域,公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累,以及不断创新的发音词典构建技术和流程技术。截止报告期末,公司已经拥有超过205个语种/方言的覆盖能力,不仅包括含英、法、德、意、西、日、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时,公司已积累下超过130个多语种的发音词典,覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种,累计词条数超过1,200万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司的主要竞争壁垒及核心技术之一。
  4.数据安全及合规能力优势
  海天瑞声自成立之初即把数据安全、数据合规视为生命线,公司在多年的数据风险识别和管理实践中,已经形成了较为成熟的安全、合规管理体系。资质方面,公司拥有ISO27001信息安全管理体系认证、ISO27701隐私信息管理体系认证、国家信息系统安全等级保护三级备案、北京市规划和自然资源委员会行政许可乙级测绘资质等。行业参与方面,公司入选中共中央网络安全和信息化委员会办公室“人工智能企业典型应用案例”,相关业务和数据安全实践受到《人民日报》等权威媒体报道和关注。公司参加北京市经济和信息化局组织的企业首席数据官素养能力培训,董事长贺琳成为北京市首批首席数据官。公司为中国信通院数据安全推进计划成员单位,董事兼副总经理李科连续两年入选该计划数安智库专家;其所参与、领导的公司数据安全工作,受到《北京日报》等权威媒体报道。此外,公司积极参与行业发展,入选国家标准《信息技术人工智能术语》核心参编单位、《人工智能数据标注平台技术要求和测试方法》核心参编单位,数据安全能力获得认可并产生广泛、积极的行业影响。
  (二)报告期内发生的导致公司核心竞争力受到严重影响的事件、影响分析及应对措施
  
  四、风险因素
  (一)尚未盈利的风险
  (二)业绩大幅下滑或亏损的风险
  2023年,公司营业收入较去年同期下滑35.33%,扣非前后归母净利润均为负数。报告期内,受境外部分客户进行阶段性裁员、业务方向及研发节奏周期性调整等影响,部分客户2023年预算释放进度放缓,同时叠加2023年上半年数据出境相关法规落地实施的阶段性影响,公司境外收入同比大幅下滑。境内业务方面,虽然宏观稳经济政策已初见成效,但国内仍面临复杂严峻的内外部环境考验,部分境内客户对集中性研发投入仍持谨慎态度,基础数据服务领域客户预算及需求释放出现阶段性减缓,叠加行业内竞争加剧,综合导致境内收入同比下滑。此外,为配合整体战略发展及业务拓展目标,公司在营销体系建设等方面加大投入,使得销售费用同期较大幅度增长。与此同时,计提坏账金额阶段性增加、持有外币资产增值幅度较同期下降等因素,导致信用减值损失以及财务费用同比增长。以上因素共同导致2023年度归属于母公司所有者的净利润、归属于母公司所有者的扣除非经常性损益的净利润显著下滑并且出现亏损。上述不利因素目前已有所改善,但如果公司收入增长无法覆盖各类投入及期间费用支出,公司业绩存在下滑或亏损的风险。
  (三)核心竞争力风险
  1.核心技术快速迭代的风险
  由于人工智能行业整体发展较为迅速,应用领域和应用场景不断拓展,下游需求随着行业发展不断发生变化,公司进行数据开发所需的各项技术也面临着快速迭代更新的风险。如果公司无法保持对行业发展趋势的洞察能力以及对研发人才的有效组织和研发经费的经济投入,则可能导致公司在行业技术快速迭代过程中无法持续保持技术先进性和技术优势,进而对公司的客户拓展、产品创新和经营业绩造成不利影响。
  2.核心技术人员流失风险
  随着行业的持续发展,行业内企业之间对于高端人才的竞争日益激烈,如果公司无法持续加强核心技术人员的培养及引进并为核心技术人员提供有竞争力的激励机制和薪资待遇,则将存在核心技术人员流失的风险,公司的技术水平、研发能力也将受到不利影响。
  3.核心技术失密风险
  公司的数据产品和服务均以核心技术为基础。公司制定了严格的保密制度并严格执行,但上述措施仍无法完全避免公司核心技术的失密风险。如果公司相关核心技术的内控和保密机制不能得到有效执行,则可能导致公司核心技术失密的风险。
  4.训练数据标准化产品无法实现授权销售的风险
  公司根据对算法模型应用领域、行业发展趋势、市场需求等的评估和研判,自行设计并开发多种训练数据集标准化产品,开发完成后根据客户实际需求进行销售,授权给客户使用。在该种业务类型下,公司开发训练数据集产品,承担开发费用,并拥有训练数据集产品的知识产权。如果公司开发的训练数据集产品不能满足下游客户对训练数据的要求,则可能存在无法实现授权销售的风险,进而对公司未来的经营业绩产生不利影响。
  5.数据安全相关风险
  公司主要从事训练数据的研发设计、生产及销售业务,所提供的产品和服务主要以数据的形式体现。一方面,随着公司业务的快速发展和规模的持续扩张,原料数据采集与数据加工的数量持续增长;另外一方面,包括《数据安全法》、《个人信息保护法》、《生成式人工智能服务管理暂行办法》等在内的与数据安全、个人信息保护相关的法律规章体系正逐步完善。公司如果未能按照法律规章或客户的更新要求及时调整现行业务开展方式、公司的数据安全管理体系研发升级未能跟上业务发展的需要、或客户未能遵守训练数据产品保护相关商业约定,则公司可能产生诉讼纠纷或面临生产经营不符合法律规章的要求、训练数据产品被泄露、盗版等数据安全相关风险。
  同时,《数据出境安全评估办法》、《促进和规范数据跨境流动规定》等法律法规加强了对境内收集或产生的个人信息数据的跨境行为的规制。如果将来公司未能根据相关要求及时履行相应的程序,公司开展的属于该办法限定范围内的境外业务将受到一定程度的影响。
  (四)经营风险
  1.收入主要来自老客户,新客户收入占比较低的风险
  报告期内,公司收入主要来自老客户、占比达到80.29%,新客户收入占比较低。公司正致力于维护老客户、拓展新客户,若老客户降低对公司产品、服务的采购量或公司未能维持与老客户的合作关系,则公司的经营情况将受到不利影响;若新客户拓展情况不达预期,则公司的经营情况也将受到不利影响。
  2.新业务拓展风险
  随着人工智能行业持续快速地增长,下游客户对高质量、结构化、大规模训练数据的需求将持续增加。公司能否紧跟下游需求变化,加深对下游行业基础技术的理解并开发出更多的业务机会,一方面受到行业发展状况、市场需求变化以及市场竞争状况等因素影响,另一方面也取决于公司对于下游众多新领域新场景的理解认知以及合作拓展能力等诸多因素。因此,公司新业务的开拓可能不及预期或者遇到其他不利因素,进而对公司未来的经营业绩产生不利影响。
  3.采购成本上升风险
  报告期内,公司进行采购原料数据采集、标注所支付的数据服务费占全年与主营业务相关的采购总额的比重较高,达到75.58%。随着城乡生活成本的持续提升,前述采购价格可能存在持续上升的趋势,若公司的技术发展带来的效率提升无法抵消前述采购成本上升的影响,可能会对公司的经营业绩带来一定不利影响。
  (五)财务风险
  (六)行业风险
  1.市场竞争加剧的风险
  公司所在的细分领域为AI基础数据服务领域。近年来,参与该行业的公司不断增多,由于整体行业较新,行业标准和法律监管仍处于规范阶段,因此整体行业目前处于高速发展且格局未定的状态,导致市场竞争加剧。公司如果不能持续有效地制定并实施业务发展规划,则将受到竞争者的挑战,从而面临市场竞争加剧而导致的经营状况下滑、市场地位下降和可能失去主要客户的风险,进而影响公司的盈利能力和发展潜力。
  2.业务发展受下游人工智能领域发展状况影响较大的风险
  公司主要为AI产业链上的各类机构提供算法模型开发所需的训练数据,服务于下游人工智能行业发展。公司的经营情况、业务发展与下游人工智能领域的发展状况息息相关。若未来人工智能领域景气度下降,或因技术更迭使得对训练数据的市场需求发生变动,将对公司业绩产生较大影响。
  (七)宏观环境风险
  1.经营业绩受税收优惠政策影响较大的风险
  报告期内,公司享受了增值税即征即退、高新技术企业和研发费用加计扣除等一系列税收优惠,经营业绩受税收优惠政策影响较大。如果未来公司所享受的税收优惠政策出现不利变化,或者公司不再符合税收优惠的条件,则公司将无法持续享受税收优惠或存在所享受的税收优惠减少的可能性,并进而对公司未来经营业绩和现金流水平造成不利影响。
  2.汇率波动风险
  海天瑞声作为一家面向全球的训练数据服务商,拥有数量众多的境外客户,遍布美国、韩国、日本等各地区,报告期内公司境外收入占比为35.27%,该等收入使用外币进行结算,并受人民币汇率水平变化的影响。人民币汇率可能受到国内外政治、经济环境等因素的影响,存在波动风险,进而对公司的经营业绩产生不利影响。
  3.中美贸易摩擦风险
  公司产品和服务的主要出口地包括美国、日韩等国家或地区。报告期内,公司出口美国的营业收入占当期公司营业收入的比重为23.75%。公司相关境外业务始终严格遵守中国及他国法律。但国际局势瞬息万变,近年来中美贸易摩擦不断,如果中美双方出台新的贸易保护主义措施,可能会影响美国市场相关客户将数据提供给公司用于标注,减少与公司进行训练数据方面的业务合作,公司相关业务可能会受到约束,将会对公司的生产经营产生不利影响。
  (八)存托凭证相关风险
  (九)其他重大风险
  实际控制人控制不当的风险
  截止报告期末,贺琳直接持有公司1,213.76万股股份(占总股本的20.12%),并通过控制中瑞安间接控制公司693.58万股股份(占总股本的11.50%),合计控制公司31.62%的股份,为公司实际控制人。
  如果实际控制人利用其控制地位,通过行使表决权或其他方式对公司财务管理、人事、发展战略、经营决策等重大事项施加不利影响,其他股东的利益可能受到损害。
  
  五、报告期内主要经营情况
  报告期内,公司实现业务收入1.70亿元,较上年同期减少35.33%;实现归属于母公司所有者净利润-3,038.52万元,较上年同期降低203.16%;扣非后归母净利润-4,347.07万元,较上年同期降低528.32%。截至报告期末,公司总资产为8.25亿元,归属于母公司的所有者权益为7.82亿元,分别较上年末减少5.98%和5.69%。
  
  六、公司关于公司未来发展的讨论与分析
  (一)行业格局和趋势
  (二)公司发展战略
  2024年,公司将在保障基础数据业务稳健发展的同时,寻求新的业绩增长点。首先,公司将以全球化战略扩张为核心,通过全球化营销体系搭建、升级,进一步深化全球化发展策略,持续扩大公司的全球卡位优势。同时,公司将继续聚焦智能驾驶赛道,通过平台、算法研发以及数据安全能力的持续建设,不断将之打造成为公司核心竞争力之一,使之成为公司第二增长曲线。此外,公司也将持续探索具备高增长潜质的新兴业务领域(例如,与大模型相关数据服务领域、与国家数字经济密切相关的数据要素领域),基于过往数据服务能力,通过前沿市场跟踪,不断拓展服务边界,探索潜在增量市场空间。
  (三)经营计划
  2024年,公司将围绕既定战略,继续发扬二次创业精神,坚守“构筑智能世界数据基石”使命,不断提升核心能力,优化用户体验,促使业务长期健康稳定发展。2024年公司具体经营计划如下:
  1、夯实传统业务,探索新兴业务
  (1)全球化业务
  2023年大模型技术的兴起,在国内外形成了百模大战的格局,为人工智能领域带来了新的发展契机,全球AI行业步入一个快速成长的新里程碑。公司为了把握国际市场的需求,推出一项更为全面的出海战略,将涵盖技术创新、品牌升级、体系构建、市场推广等方面,全面加速全球市场的拓展。公司还将建立一个海外技术研发体系,紧跟全球AI的发展动态,并积极开发与海外新兴技术相适应的AI数据解决方案,以不断增强公司在国际市场的竞争力。相关举措包括成立海外事业部,扩充高素质海外销售团队,以提高客户体验和满意度;通过积极参与国际学术会议来拓展客户和渠道;深入分析现有关键客户的需求,力求在关键领域取得突破,同时积极寻找新的客户群体。展望未来,公司将不断提升研发、交付、销售和市场的综合实力,全力支持国际化战略的进一步执行,争取在海外市场实现新的飞跃。
  (2)智能驾驶业务
  公司致力于把握智能驾驶领域的发展良机,全面策划并提高自身在智能驾驶领域的核心竞争力。2024年,公司将继续以前瞻性的视角布局和升级自动驾驶数据平台DOTS-AD,以更有效地满足客户日益增长的需求;同时,我们将不断完善算法技术,提高人机交互的数据处理效率,并扩充数据处理的规模化应用,以提高整体业务效能;此外,公司会继续加强该领域的数据安全管理体系建设,确保数据处理流程的安全与合规;并进一步有效利用已获得的测绘资质,延伸数据服务范围,以提升公司智能驾驶业务的毛利水平。
  (3)新兴业务探索—大模型、数据要素
  数据已成为数字经济时代最重要的生产要素之一,随着世界各国的数字经济战略实施,数据要素这一战略资源备受重视,也被称为二十一世纪的“新能源”。为更好把握数字中国建设、数字经济发展浪潮的新机遇,公司将基于过往业务能力持续探索数据要素市场培育过程中的新业务、新模式,包括但不限于:探索围绕大模型所需数据相关服务,公共数据价值挖掘与提升、预训练大模型、开发者社区等数据服务新模式。通过前沿技术跟踪研究,开展以预训练、强化学习为代表的多元化数据获取、高阶垂向拓展等方向的数据服务能力建设,提升公司在数据行业的引领能力;此外,还将探索以数据治理、数据交易、数据处理等为核心的数据要素领域,力争将数据要素创新业务打造成为具有潜在高增长价值的新兴业务板块。
  2、聚焦主业,进行全方位核心能力建设
  (1)核心技术
  2024年,公司将继续秉承技术+产品双轮驱动的核心理念,围绕智能语音、计算机视觉、自然语言等基础业务领域、以及重点服务以大模型为主的新兴技术方向的数据需求,在数据管理平台建设、语音大模型前沿技术探索、业务线平台升级、新语言研究、以及多语种多模态数据布局等方面取得实质性成果,加强技术能力护城河,助力公司不断向实现训练数据生产智能化、规模化方向迈进,确保公司核心竞争力不断提升。
  (2)数据安全
  近年来,随着《数据安全法》、《个人信息保护法》、《数据出境安全评估办法》、《促进和规范数据跨境流动规定》等法律法规快速落地实施,公司所处行业的法律环境正在快速趋严,在此背景下,数据安全、个人信息保护已成为行业客户选择数据服务商时的重要考量因素以及新的行业壁垒。2024年,公司将继续加大数据安全及合规能力体系建设,通过完善内部制度流程建设、根据业务发展方向提前进行资质布局、广泛参与行业交流、不断提升企业数据安全及合规技术和机制等方式,提升应对更高标准、更严格的数据监管要求的能力,提高整体数据安全保障水平,将之逐步打造成为核心竞争力之一,更好地为公司数据业务发展和数据要素市场开拓提供保障和助力。
  (3)供应链
  2024年,公司将继续推进供应链管理的智能化和自动化,利用先进的技术工具平台,进一步提高流程的准确性和执行效率;完善对全流程业务数据的可视化追踪展示,加强对供应链数据的分析和利用;通过数据化的决策和管理,及时发现问题并采取有效措施,提高供应链的运作效率和风险应对能力。同时,公司将重点运用发展战略供应商、增加海外数据基地及资源池建设等手段,推动供应链的优化和创新,提高供应链的稳定性和灵活性。
  (4)市场营销
  2024年,为更好支撑全球化发展战略,公司将持续加大全球市场营销体系建设,进一步升级品牌战略工程。公司将继续增加品牌营销投入,在持续拓展社交平台、直播平台、搜索引擎等多渠道营销的同时,积极参与海内外重要学术会议,持续提升公司品牌认知度以及客群辐射范围。公司将加大境外本土营销团队建设,通过进一步织密客户服务网络,提升客户服务体验。在国内,公司将持续与合作伙伴提供专业的数据服务解决方案,提升客户服务满意度,同时通过举办产品发布会等方式拓展新客户和新业务。
  (5)人力资源
  在人工智能行业瞬息万变高速发展的大背景下,公司应对市场变化、保持领先地位、突破业务和技术创新的动力来自于组织和人才的高质量发展,人力资源工作以业务中长期发展目标的实现为核心导向,在2024年将着力部署如下关键动作:
  -全力丰富高中基层人才密度,建设充沛健康持久的人才梯队,尤其以人工智能和训练数据领域的创新人才吸引招募为最高优先级,辅以各层梯队的人才能力建设,全力支持公司核心战略的部署;
  -高效监控人工成本的投入产出,通过人效的提升,确保经营目标的有效实现;
  -优化销售、生产、研发等多体系的绩效和薪酬管理机制,辅以员工持股等中长期激励方式,更为有效的牵引员工与公司一起实现业务目标;
  -塑造适应AI高速发展时代的组织文化,推动员工的高求知欲、高敬业度和高协同性,提升组织战斗力和创新、攻坚能力,保障组织的高灵活性和成长性,适应人工智能+时代的快速变化与高速发展。 收起▲