人工智能数据资源产品和相关服务的研发与销售
数据资源定制服务、数据库产品、数据资源相关的应用服务
数据资源定制服务 、 语音识别数据库 、 语音合成数据库 、 图像资源数据库 、 视频资源数据库 、 文本资源数据库 、 词典资源数据库 、 数据资源相关的应用服务
技术开发、技术服务、技术咨询、技术转让、技术推广;销售计算机、软件;货物进出口、技术进出口;出租办公用房。(企业依法自主选择经营项目,开展经营活动;依法须经批准的项目,经相关部门批准后依批准的内容开展经营活动;不得从事本市产业政策禁止和限制类项目的经营活动。)
| 业务名称 | 2018-12-31 | 2017-12-31 | 2016-12-31 |
|---|---|---|---|
| 智能语音数据库产品产量(小时) | 1.98万 | 1.44万 | 2.29万 |
| 智能语音数据库产品销量(小时) | 11.57万 | 6.85万 | 5.11万 |
营业收入 X
| 业务名称 | 营业收入(元) | 收入比例 | 营业成本(元) | 成本比例 | 利润比例 | 毛利率 | |
|---|---|---|---|---|---|---|---|
| 按产品 | 数据资源定制服务 | 1.17亿 | 50.26% | 7156.37万 | 94.94% | 88.19% | 38.99% |
| 数据库产品 | 1.06亿 | 45.48% | - | - | - | - | |
| 数据资源相关的应用服务 | 993.77万 | 4.26% | 381.42万 | 5.06% | 11.81% | 61.62% | |
| 按地区 | 境内 | 1.50亿 | 64.14% | - | - | - | - |
| 境外 | 8368.56万 | 35.86% | - | - | - | - | |
(一)营业收入构成分析 1、营业收入构成及变动分析 报告期内,公司营业收入均来源于主营业务收入。公司营业收入的变动情况与主营业务变动一致,请参见下述分析。 2、按业务类型分类的主营业务收入分析 报告期内,公司主营业务收入主要来源于训练数据定制服务和训练数据产品,而训练数据相关的应用服务对公司的收入贡献度较低,其变动不对公司主营业务收入构成实质性影响。 (1)训练数据定制服务 报告期内,公司训练数据定制服务分别取得营业收入12,369.55万元、14,232.91万元和11,729.91万元,占主营业务收入的比例分别为64.20%、59.91%和50.26%,2019年同比增长1... 查看全部▼
(一)营业收入构成分析
1、营业收入构成及变动分析
报告期内,公司营业收入均来源于主营业务收入。公司营业收入的变动情况与主营业务变动一致,请参见下述分析。
2、按业务类型分类的主营业务收入分析
报告期内,公司主营业务收入主要来源于训练数据定制服务和训练数据产品,而训练数据相关的应用服务对公司的收入贡献度较低,其变动不对公司主营业务收入构成实质性影响。
(1)训练数据定制服务
报告期内,公司训练数据定制服务分别取得营业收入12,369.55万元、14,232.91万元和11,729.91万元,占主营业务收入的比例分别为64.20%、59.91%和50.26%,2019年同比增长15.06%,2020年同比下降17.59%。训练数据定制服务作为公司最主要的业务类型,其收入规模在2019年保持增长主要有以下原因:
第一,近年来在深度学习技术和开源平台的推动下,利用人工智能技术的创新和应用不断涌现,下游应用需求快速增长,人工智能进入了加速发展的黄金期。根据国际数据公司(IDC)的数据,2020年,全球人工智能产业规模达到501亿美元,预计2024年全球人工智能市场规模将达到1,100亿美元,年复合增长率为21.73%。随着行业整体快速发展和下游应用需求的快速增长,下游客户对于训练数据需求也日益强烈,促进了训练数据定制服务的整体增长趋势。
第二,公司基于自身在客户资源、技术实力、项目管理等方面的竞争优势,不断为下游各类人工智能客户提供贴合其算法模型训练需求的数据服务,从而稳固客户关系,树立国内领先基础数据服务商的品牌形象,持续保持其市场竞争力。报告期内,公司各年前五大客户基本保持稳定,主要为国内外大型科技公司,且前五大客户的收入占比各年均超过50%,表明公司重要客户具备良好的稳定度和集中度。由于该类大型公司对人工智能的重视程度较高,且持续加大在特定领域的布局与投入,也相应带动了公司训练数据定制服务的增长。
2020年,公司训练数据定制服务收入及占主营业务收入的比例均有所下降,主要原因是2020年全球新冠疫情持续爆发,新冠疫情防控期间原料数据现场采集、标注工作受到限制导致项目实施、产品开发、交付验收的进度均受到影响;同时由于客户停工,延迟了客户新增采购需求,导致新增合同订单增速、项目沟通及验收效率均有所降低所致。
(2)训练数据产品
报告期内,公司训练数据产品分别取得营业收入6,601.67万元、9,176.47万元和10,613.71万元,占主营业务收入的比例分别为34.27%、38.63%和45.48%,2019年和2020年分别同比增长39.00%和15.66%。2019年,训练数据产品增速较快,主要是由于公司外语种训练数据产品实现了较快增长,从下游客户及应用角度看,语言功能方面开始向外语种方向拓展,公司把握该市场变化,发挥训练数据产品资源储备优势,加大外语种训练数据产品的推广,满足市场拓展需求,提高公司训练数据产品的收入和贡献率。2020年,受新冠肺炎疫情影响,部分训练数据定制服务难以大规模开展,公司引导客户购买已有的训练数据产品,使得训练数据产品收入占主营业务收入的比例上升,达到45.48%。
训练数据定制服务与训练数据产品共同构成公司完整的训练数据服务体系。阿里巴巴、腾讯、百度、微软、三星、亚马逊等公司主要客户普遍存在同时采购训练数据定制服务与训练数据产品的情况,训练数据定制服务满足其日益增长的设备系统独特性、应用领域特殊性的需求,训练数据产品则满足其算法模型上线及功能、语种拓展需要的通用训练数据的快速采购需求。在客户自身技术和产品研发的不同阶段,发行人的训练数据定制服务和训练数据产品都可以提供针对不同需求的支持,如新产品或应用首次研发并上市(使用训练数据产品或训练数据定制服务)、持续性能提升(使用训练数据定制服务)、应用领域拓展(使用针对特定领域的训练数据产品或训练数据定制服务)、语种拓展(使用多语种训练数据产品或训练数据定制服务)等。由于人工智能行业正处于爆发式发展阶段,下游技术应用企业多种多样,上述两种训练数据需求将会长期并存。公司将在满足客户定制服务需求的同时,持续研发训练数据产品,丰富自身训练数据库资源,为下游各种不同类型的客户提供全方位的训练数据服务。
(3)训练数据相关的应用服务
报告期内,公司训练数据相关的应用服务分别取得营业收入294.55万元、346.44万元和993.77万元,占主营业务收入的比例分别为1.53%、1.46%和4.26%,2019年和2020年分别同比增长17.62%和186.85%。训练数据相关的应用服务是公司基于自身训练数据研发和技术优势所提供的增值性服务和延伸服务,收入规模较小,对公司整体业务和营业收入不构成显著影响。
3、按应用领域分类的主营业务收入分析
公司两大主要业务类型训练数据定制服务和训练数据产品覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域,广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。
报告期内,公司产品及服务的主要应用领域为智能语音,三年合计贡献训练数据定制服务和训练数据产品收入的80%以上,其中包括语音识别采集、语音识别转写和语音合成三个业务方向。同时,计算机视觉和自然语言是公司产品及服务的另两大应用领域,得益于下游人工智能行业这两大细分领域的高速发展,公司来自于这两个应用领域的训练数据定制服务和训练数据产品收入也保持整体增长趋势。
对于以上各应用领域收入变动情况的分析,可拆分为销量分析和价格分析,具体请参见下述“4、主要产品和服务的销量和价格分析”。
4、主要产品和服务的销量和价格分析
(1)智能语音领域
①训练数据定制服务
A、销量变动情况分析
报告期内,公司训练数据定制服务中,语音识别采集的销量在2019年大幅下降、2020年有所回升,语音识别转写的销量在2019年有所下降,语音合成销量保持持续增长。
a、语音识别采集
中文业务2019年销量大幅下降主要由于中文基础数据服务的市场参与者增加,价格竞争愈加激烈,市场需求一定程度被分流,导致销量降低。2020年公司采用价格调整策略,以较低报价应对市场竞争的加剧,促进了销量的增长。
外语种业务2019年销量有所下降,但相应训练数据产品的语音识别采集外语种业务销量大幅上升,两者之间在公司整体销售策略的把控下存在一定的替代关系,总体服务于下游语音识别领域向外语种拓展的市场需求。具体分析请参见后述“②训练数据产品/A、销量变动情况分析/a、语音识别采集”;2020年销量大幅下降,主要是受到境外新冠肺炎疫情持续爆发的影响,导致外语种项目的采集开展存在较大困难。
b、语音识别转写
语音识别转写销量大部分为中文销量,中文销量在2018年受个别主要客户转写需求的影响大幅增长,由于该主要客户在2018年购置的训练数据可以在一段时间内支撑其产品或应用性能迭代,因此2019年的同类中文转写需求量有所减缓,导致2019年语音识别转写总体销量下降。语音识别转写销量在2020年实现较大增长主要是由于公司为了开拓市场和维护客户关系,主动调整了报价策略所致。
c、语音合成
语音合成项目采用小规模的受过专业发音训练的发音人,通常一个项目最终选定一个发音人。采集过程中发音人录音时间长达数月、对语音质量要求高、不同发音人量级差别大,后续处理精度高,通常需要处理至音素级别,因此按小时计算的销量远低于语音识别类项目,同时单位价格远高于语音识别类项目,符合该类细分业务的业务特性。
语音合成销量逐年显著增长的主要原因是受国内外语音市场持续繁荣的影响,深度学习算法对语音合成数据量的需求增加,应用领域从标准合成到多风格多领域合成均有涉及,从手机助手、智能音箱拓展到智能客服、有声小说等。
B、价格变动情况分析
报告期内,公司智能语音类训练数据定制服务的价格变动主要受到行业市场竞争、资源稀缺程度、客户或项目的特殊要求等原因的影响。
a、语音识别采集
中文业务单价在2019年保持稳定,2020年明显下降,单价整体呈现下降趋势的主要原因是2018年以来行业快速发展使得中文数据资源日益丰富,且发行人业务相对成熟,同时市场竞争较为充分,价格竞争开始显现,因此价格相应下降所致。其中,2019年发行人在2018年调整后的中文业务价格策略上整体保持稳定,单价较为接近;2020年发行人继续采用价格调整策略应对市场竞争的加剧,同时存在部分较为简单的中文项目,采用了较低报价,也在一定程度上降低了整体单价。
外语种业务2019年和2020年单价较高,主要原因是外语种自由对话项目在2019年和2020年交付较多,在外语种业务中占比提高,自由对话类项目在采集、加工等环节较一般类项目更为复杂,因此单价较高;此外,2020年外语种业务涉及一些较难语种,如加拿大法语、美国西班牙语、阿拉伯语等,采集成本较高,相应使得单价较高。
外语种业务单价明显高于中文业务,是由于外语种资源相对稀缺,采集和加工难度均高于中文所致,具备合理性。
b、语音识别转写
报告期内,中文业务单价总体较为平稳,2020年有小幅下降,是公司为了开拓市场和维护客户关系,主动调整了报价策略所致。
2018年和2019年,外语种业务由于整体收入规模较小(2018年和2019年收入均不超过300万元,占智能语音类训练数据定制服务收入比例均不超过3%),因此易受单个项目影响。2020年,外语种业务单价上升是由于个别主要客户的项目中包含测试集数据,准确率要求较高,因此单价偏高。
外语种业务单价明显高于中文业务,是由于外语种资源相对稀缺,加工难度高于中文所致,具备合理性。
c、语音合成
由于语音合成项目的定制化程度最高,因此其不同项目之间的单价差异更明显,报告期各期平均单价的合理波动区间更大。相比语音识别项目的价格受语种影响较大,语音合成项目的价格主要取决于发音人价格和标注类型。发音人主要取决于专业性、知名程度、国籍、当地物价水平等因素,即使是同一语言,个体差异也可能较大。标注类型主要包括韵律标注、词性标注、音素边界标注等,不同的项目需要的标注类型组合不同,也会造成单价差异。
中文业务单价逐年下降,主要原因是中文语音合成技术逐渐成熟,公司开展的无需进行音素边界标注的语音合成项目比例逐年提升,同时,中文发音人的选取和录制方式也更加多样化,使部分项目无需进行发音人采集环节。该类项目成本相对较低,因此价格较低。
2018年和2019年,外语种业务单价较高,主要原因部分主要客户对外语种采集要求较高,例如对其发音人音色的代表性、发音的专业性、录音棚规格、录音过程监控等方面都提出了较高的要求。2018年至2019年,发行人根据客户需求启动了欧美多个语言的语音合成项目,此类项目需求因具备前述特征,使得项目难度和成本较高,同时价格也相应较高。2020年,外语种业务由于承接了较大比例的标注环节相对单一(例如无音素边界标注)的项目,因此价格明显下降。
②训练数据产品
A、销量变动情况分析
a、语音识别采集
中文业务2019年销量下滑的主要原因与前述训练数据定制服务的语音识别采集中文业务相似,请参见前述“①训练数据定制服务/A、销量变动情况分析/a、语音识别采集”。
外语种业务销量逐年保持较快增长,一方面是由于公司更多地将多通道采集技术运用到语音识别采集训练数据产品的开发中,该类型训练数据产品所包含的小时数量相对于单通道训练数据产品成倍增加,另一方面是由于2019年和2020年在一定程度上对训练数据定制服务的语音识别采集外语种业务形成了替代效应所致。从训练数据产品和训练数据定制服务合计的口径来看,2018-2020年合计实现销量分别为67,154小时、95,496小时和111,404小时,2019年增长42%,2020年增长17%,与下游客户产品及应用所展现的需求趋势基本一致。
公司自2019年开始的语音识别采集业务销售策略向训练数据产品有所倾斜,通过加大市场宣传与客户推广,促进客户更多的选择训练数据产品进行采购,原因在于:一方面训练数据产品价格更有竞争力,且产品由于其可反复销售的特征,经过其他客户验证的产品质量更有保障;另一方面能够发挥公司现有产品资源丰富的优势,增加利润空间,带动新产品的研发。
此外,语音识别采集训练数据产品的销量变动还受到疫情因素影响。2020年,受新冠肺炎疫情影响,训练数据定制服务难以大规模开展,公司引导客户购买已有的训练数据产品,使得语音识别采集训练数据产品销量有所增长。
b、语音合成
报告期内,语音合成训练数据产品销量逐年显著增长。
2019年公司加大客户推广,较2018年新增较多国内外客户,承接其语音合成训练数据采购需求,促进了语音合成产品的销售。2020年,受新冠肺炎疫情影响,训练数据定制服务难以大规模开展,公司引导客户购买已有的训练数据产品,使得语音合成训练数据产品销量明显增长。
B、价格变动情况分析
公司智能语音类训练数据产品的价格变动主要受到市场同类训练数据产品稀缺程度和发行人训练数据产品的具体定位及拓展方向等原因。
a、语音识别采集
报告期内,中文和外语种业务单价呈现下降趋势,主要是由于多通道训练数据产品带来的销量提升并不会同比例提升训练数据产品总体价格,因此多通道产品销售量增长,会造成产品销售单价的下降趋势。此外,中文单价持续下降,也反映了中文语音识别市场价格竞争日益激烈的趋势。
外语种业务单价明显高于中文业务,是由于国内外语种资源相对稀缺,采集和加工难度高于中文所致,具备合理性。
b、语音合成
如前述原因,语音合成项目按小时计算的产出量远低于语音识别采集项目,同时单位价格远高于语音识别采集项目。
此外,语音合成训练数据产品受到发音人定位的不同,价格变动比较明显,报告期各期平均单价的合理波动区间较大。2019年中文价格出现显著增长,是由于公司部分中文、波兰语、土耳其语等语音合成产品具备较好的市场独特性,下游客户语音合成模型研发过程中对这部分训练数据产品需求较强,因此公司议价空间较大。2020年中文价格较低,是由于当期销售情况较好的产品主要属于中文平均音色库,发音人为普通人,要求较低,使得成本偏低,相应售价较低。
(2)计算机视觉和自然语言领域
①训练数据定制服务
报告期内,计算机视觉和自然语言类训练数据定制服务的数据库销量变动幅度不大,相对保持稳定。
2020年,计算机视觉类训练数据定制服务的平均售价有所增长,是由于个别主要客户的大体量项目涉及多个国家或大量人员,难度较大,因此单价较高。
自然语言类训练数据定制服务的总销售额较小,易受单一项目影响。2019年,公司承接了部分主要客户体量相对较大的语义理解、外语种文本标注项目,项目个数虽然小幅下降,但平均售价有所提升。2020年平均售价与2019年相比有所下降,主要是由于外语种文本标注项目占比较2019年有所减少,而中文文本标注项目占比增加,因此拉低了平均售价。
②训练数据产品
报告期内,计算机视觉和自然语言类训练数据产品的销量基本稳定,销售单价随具体销售的单库不同影响,各期之间存在波动。计算机视觉类训练数据产品2019年销售单价较高是由于公司销售了体量较大、单价较高的数据库,包括人车2D图片标注数据库,用于客户在无人驾驶方面的研究,以及像素级分割标注数据库,用于物体检测等。
③细分类别销量和价格分析
A、计算机视觉领域
计算机视觉领域的三类主要细分类别为手写体、光学字符识别、行车相关视频。
a、手写体
报告期内,公司手写体业务2019年销量明显较高,主要来源于某国际消费电子产品厂商的移动设备滑行输入业务。
报告期内,公司手写体业务平均售价在2019年有所下降,2020年明显上升,主要是由于该类业务的细分类别差异及语种差异所导致的。2019年,该项业务主要涉及滑行输入数据,较传统手写输入方式的数据采集和标注难度更低,且主要语种开始从外语种转向简体中文,采集难度明显降低,因此价格也有所下降。2020年,该类业务中一部分为多地区繁体中文手写体,对被采集人年龄、性别、学历、设备使用经验等均有要求,难度较大,且为华语项目,发行人议价能力较强,因此单价较高,另一部分为外语种手写体,采集难度大、资源稀缺,因此单价较高。
b、光学字符识别
2019年,随着光学字符识别的应用场景得到了较大规模的发展,公司在该类业务方面也实现了较快拓展,销量持续增长。2020年,公司光学字符识别业务转向高复杂度和高精细度的项目,其单张图片采集和标注所需的工作量及工作时长大幅增加,使得该类业务的销量大幅降低,但同时单价大幅增长,具体情况请参见下段内容。
报告期内,公司光学字符识别业务在2018年和2019年平均售价基本保持稳定,2020年平均售价非常高,是由于业务收入70%以上来源于某大型光学字符采集项目和某财务文档采集标注项目,该类项目相较于一般光学字符识别项目环节更多,且客户指定特定采集设备拍摄,或采集内容为指定领域的实况图片、财务文档等,采集难度大,后期需标注或质检图片多项内容信息,流程复杂,因此单价非常高。
c、行车相关视频
行车相关视频业务是公司在2018年新拓展的业务类别。2019年,公司继续拓展该类业务,销量有所增长,同时由于竞争较为激烈,为保持市场占有率,平均售价有所降低。2020年,随着自动驾驶应用场景进一步发展和普及,公司判断该类业务具有较大市场空间,同时公司自身也具备开发大型训练数据库的能力,因此将相关产能集中到行车相关的训练数据产品的开发上,该产品目前尚未开发完毕并实现收入,预计涵盖5,000万目标(以十个目标为单位,即5,000,000),该策略的调整导致行车相关视频在2020年的销量有较大幅度的下降。此外,2020年该类业务中含采集环节的项目对采集场景、时段、设备均有较高要求,因此使得平均售价略有回升。
B、自然语言领域
自然语言领域的一类主要细分类别为语义理解。
报告期内,公司语义理解业务销量在2018年较高,主要是由于个别重要客户根据其业务需要采购规模较大所致;2019年,虽然个别重要客户在2019年仍保持了较高的采购规模,但由于其他客户采购规模有所减少,因此2019年销量较2018年下降;2020年,客户总体对于该类业务的需求有所降低,因此销量进一步下降。
报告期内,公司语义理解业务平均售价相对保持稳定,在2019年和2020年略高的原因是新增了医疗专业领域标注、文本编写、粤语分词、词性标注等高难度项目和外语种项目,需要相关专业的标注员进行标注,因此售价较高。
5、按区域分类的主营业务收入分析
(1)整体情况
报告期内,公司主营业务收入大部分来源于境内,分别取得境内收入13,293.77万元、11,973.75万元和14,968.83万元,占主营业务收入的比例分别为69.00%、50.40%和64.14%,2019年境内收入占比相对较低,主要系公司海外业务拓展力度加强,及外语种业务需求相对较强所致,同时也存在个别大型跨国企业客户将其采购主体变更为境外主体的原因。
同时,公司也存在一定规模的境外收入,其中以美国、韩国、日本等地区为主。报告期内,公司分别取得境外收入5,972.00万元、11,782.07万元和8,368.56万元,占主营业务收入的比例分别为31.00%、49.60%和35.86%。
(2)境外收入来源于新增客户的情况
报告期内,发行人各期境外收入均主要来源于原有客户,而非新增客户。
2018-2020年发行人境外收入整体呈现上升趋势,2020年境外收入较2019年有所下降。
①其中,2018-2019年境外收入上升的原因具体如下:
A、2018年,部分客户品牌变更采购签约主体,使得同一客户品牌贡献的境外收入上升、境内收入下降
以大客户品牌三星为例,因其自身业务经营和管理需要,其自2018年起变更其向发行人执行采购的签约主体,主要签约主体从境内主体中国三星变更为境外主体韩国三星,2018-2019年境外签约主体收入显著上升。
B、境外客户因自身业务发展需要拓展采购需求
2018-2019年,来自境外主要客户亚马逊、微软(境外签约主体)、某国际消费电子产品厂商的销售收入增长。报告期内,前述境外主要客户收入情况如下所示:
2018-2019年,亚马逊、微软销售收入增长主要是前述客户拓展其算法模型的语种/方言覆盖,加大对外语种训练数据产品需求和采购力度所致。某国际消费电子产品厂商销售收入增长主要是其对滑行输入训练数据需求持续增长所致。
C、发行人增聘了境外销售人员、加强境外业务开拓力度:发行人高度重视境外业务开拓,持续增聘境外销售人员,增强境外销售团队实力,助力公司境外业务开拓、新客户拓展。发行人注重加强与原有客户的沟通联系、稳固原定境外客户合作关系、拓展业务合作范围;增强新客户开拓和对接,储备业务合作基础。2019年至今,发行人新建立合作关系的境外客户超过50家,覆盖多家知名大型科技公司、人工智能企业及科研院所。
②2020年境外收入相比2019年有所下降,主要原因是:一方面,三星、亚马逊、IMDA等主要境外客户依据自身研发节奏,在2018年、2019年集中采购了较大规模的训练数据定制服务/训练数据产品,能够满足其在特定领域一段时间内的需求,因此2020年采购量有所回落;另一方面,部分境外客户在2020年上半年因自身业务发展需要加大了采购规模,但受境外疫情因素影响,下半年采购规模有所回落。前述两方面因素使得2020年境外收入相比2019年有所下降。
综上,2018-2019年发行人境外收入增加主要是:部分主要客户变更境内外采购签约主体;境外客户因其自身业务发展需要、算法模型的语种覆盖需求拓展、对新兴品类训练数据需求增加等因素增加训练数据采购以及发行人提升海外业务拓展力度所致。2020年境外收入相比2019年有所下降,主要是境外客户受自身研发节奏影响,需求有所变动以及境外疫情因素对客户训练数据采购带来一定影响所致。
(3)发行人海外业务拓展措施
针对海外业务拓展,发行人采取了下述措施:
①建设内部团队,增聘境外销售人员
发行人高度重视境外业务开拓,持续增聘境外销售人员,通过境外销售人员进行有规律的信息收集,获得海外市场与客户的一手信息。同时加强对境外销售人员的产品培训力度,增强境外销售团队实力,助力公司境外业务开拓、新客户拓展。
②跟进境外优质客户的训练数据需求,拓展业务增长点
在业务开展过程中,对于原有客户,发行人注重与客户的长期关系维系和持续服务,持续跟进下游客户业务的发展方向,随之布局、拓展相应的训练数据产品服务类型和应用领域,以持续满足客户需求、拓展营收增长点。
③加强在海外市场线上线下的宣传投放力度,持续针对海外客户及潜在客户进行品牌宣传
线上推广部分:发行人持续针对海外目标客户所在国家和地区进行搜索引擎广告投放,吸引新老客户的关注及问询。同时发行人还在全球知名的职场社交平台“领英”进行广告投放,提升品牌的境外知名度、美誉度。同时,发行人还会根据不同的市场活动,在海外学术论坛发布推广信息。
线下推广部分:发行人持续主动参加国际学术会议,增加展位部署,提升在海外客户市场的宣传曝光力度、吸引海外客户。例如:发行人每年都会参加全球人工智能领域的权威学术会议(如:CVPR-计算机视觉/ICASSP-综合/INTERSPEECH-智能语音等),发行人作为参展商向与会的众多人工智能产业机构进行品牌宣传并直接获客;并通过参与学术会议跟进AI技术发展中的前沿方向,以此作为后续产品服务开发拓展的重要参考。
通过采取上述措施,发行人对外持续加强针对海外市场的新增客户开拓能力、原有客户新增业务挖掘能力;对内持续提升训练数据产品服务提供能力。同时,下游AI行业的持续发展,算法模型的垂直领域、新兴语种覆盖拓展需求预期均将持续带动对相应训练数据需求的持续增长,发行人的海外业务拓展措施、境外收入均具备可持续性。
(4)当前疫情、国际形势对发行人经营状况的影响及发行人的应对措施
疫情、国际形势均属发行人业务的短期影响因素:疫情在短期之内对发行人组织原料数据现场集中采集、标注工作造成了一定影响,发行人通过引导客户采购成品训练数据集(即训练数据产品)平抑相关影响;随着我国疫情逐步稳定、各地有序复工,境内疫情影响逐步减弱;但境外疫情仍在蔓延,发行人的境外原料数据采集、标注工作开展会受到一定影响,发行人通过改善和提升工具性能,引导采集、标注人员使用线上远程采集、标注工具平抑相关影响。国际形势在现阶段对发行人所在行业无实质影响,发行人与境外各客户的商业洽谈、合作和拓展均在稳定、持续进行中。
发行人对此采取的应对措施包括:
①对于疫情:疫情影响发行人原料数据现场采集、标注工作的开展,因此也对训练数据定制服务的开展造成影响,发行人通过引导客户采购成品训练数据集、改善和提升工具性能,引导采集标注人员使用远程采集、标注工具平抑前述短期影响。
②对于国际形势:国际形势在现阶段对发行人所在行业无实质影响。为了应对国际形势未来可能造成的影响,发行人采取的措施包括:A、持续跟进服务现有境内外优质客户;B、拓展新兴优质客户(互联网领域新兴活跃企业,如字节跳动系、拼多多系、小米系、美团系客户等),持续跟进服务前述客户对训练数据的需求;C、跟进AI前沿领域发展趋势、拓展训练数据产品服务布局覆盖,整体稳固现有客户收入、拓展业务增长点。
此外,发行人已在招股意向书中针对疫情、国际形势等进行了风险提示,具体参见招股意向书“重大事项提示/三、特别风险提示/(三)中美贸易摩擦风险”及“重大事项提示/四、新型冠状病毒肺炎疫情对公司经营情况的影响”、“第四节风险因素/二、疫情风险及四、中美贸易摩擦风险”。
6、合同及订单数量与营业收入的匹配关系
报告期内,发行人执行的合同数量、合同对应的具体订单数量及对应的营业收入情况如下:
报告期各期,发行人收入的变动趋势与完成的具体订单个数变动趋势基本相符,单个完成的具体订单贡献的收入约为15-18万元,较为稳定,合同完成数量与营业收入之间具备匹配关系。
7、营业收入的季节性分布
同行业可比公司2020年各季度营业收入分布情况如下:
由上述表格可以看出,发行人作为软件和信息技术服务行业公司,与同行业可比公司在营业收入的季节性分布方面具有类似的特征,即根据下游客户的年度预算制定及结算需求的节奏,第一季度实现收入普遍较低,第四季度实现收入普遍较高,第二、三季度普遍居中。
发行人部分年度的第四季度收入及其占比较高,主要原因是部分客户的年度预算制定及结算需求和项目研发周期安排,使得其在第四季度会相对更为集中地进行验收。2018年,发行人训练数据定制服务在第四季度的收入金额及其占比较高,是由于部分主要客户的智能语音项目验收所致;2019年,发行人训练数据定制服务在第四季度的收入金额及其占比较高,是由于个别主要客户的语音合成项目验收所致,训练数据产品在第四季度的收入金额及其占比较高,是由于部分客户购买语音识别训练数据产品所致;2020年,发行人训练数据定制服务在第四季度的收入金额及其占比较高,是由于个别主要客户的语音合成项目和计算机视觉项目验收所致。
8、验收周期分析
报告期内,发行人交付训练数据定制服务和训练数据产品至客户验收的平均时长(以下简称“验收周期”)情况如下:
报告期内,发行人验收周期分别为49天、45天和45天。其中,2018年验收周期较长,一方面是由于个别重要客户验收方式变更,由客户项目组直接验收,改为客户项目组验收后提交客户内部平台,由其采购部门评价后,再由其财务部门审核,完成验收。该变更造成该个别重要客户验收周期加长,同时该客户在2018年的项目数量和收入金额均较大,拉长了发行人2018年总体的验收周期;另一方面是由于部分客户同期项目较多或项目规模较大,导致验收周期较长。扣除2018年特殊原因的影响后,报告期内发行人验收周期呈现逐年增长趋势,体现了发行人客户更高的数据质量要求及数据定制化程度对验收周期的影响,具备合理性。
报告期内,发行人验收周期较为稳定。同时。
由上表可以看出,各年第四季度验收周期与全年水平基本一致,各年末不存在验收周期异常的情形。
由于发行人交付的训练数据定制服务或训练数据产品具有一定程度的差异化,因此会存在部分项目的验收周期偏短或偏长的情形,属于正常情况。
对于在各年第四季度客户验收完成,且验收周期短于10天的项目。
对于交付和客户验收处于不同年度,且验收周期长于90天的项目。
上述项目验收周期偏短或偏长是由于项目或客户的特性所致,原因具备合理性,且营业收入占比较低,并非普遍存在的情形。
综上所述,发行人不存在通过验收时点调节收入确认时点的情形。
收起▲