测算方法
本数据参考郑攀攀、庄子银(2024)发表于《系统工程理论与实践》的研究方法,基于上市公司年报文本,结合文本分析+机器学习测度企业数字创新(DI),步骤如下:
- 构建数字创新种子词集
依据相关文献对数字创新的定义,从《中小企业数字化赋能专项行动方案》《2020 年数字化转型趋势报告》等官方文件中选取种子词,涵盖人工智能、数据挖掘、电子商务等45个核心词组。
- 机器学习扩充关键词集
利用海量财经文本训练Word2vec神经网络相似词算法,对每个种子词组提取前30个相似词,剔除重复与低频词;再由3名专业人员依据权威定义进行分类、筛选与核验,最终形成99个关键词集。
- 计算企业数字创新指标
- 抓取年报中数字创新关键词词频
- 分三类维度:
- 数字产品创新 DI_prod
- 数字流程创新 DI_proc
- 数字商业模式创新 DI_buss
- 整体数字创新 DI =(三类关键词总词频 / 年报全文总词数)× 100
数据概况
- 样本区间:2001–2023年
- 样本规模:约6.1万观测值
- 企业数量:5598家上市公司
- 数据内容:包含原始词频数据、最终计算得到的DI及分维度指标,可复现、可核验。
参考文献
郑攀攀,庄子银.知识产权司法保护专门化与企业数字创新[J].系统工程理论与实践,2024,44(05):1501-1521.
资源下载
下载价格25 元