2001–2023年上市公司企业数字创新(DI)数据

测算方法

本数据参考郑攀攀、庄子银(2024)发表于《系统工程理论与实践》的研究方法,基于上市公司年报文本,结合文本分析+机器学习测度企业数字创新(DI),步骤如下:

  1. 构建数字创新种子词集

依据相关文献对数字创新的定义,从《中小企业数字化赋能专项行动方案》《2020 年数字化转型趋势报告》等官方文件中选取种子词,涵盖人工智能、数据挖掘、电子商务等45个核心词组

  1. 机器学习扩充关键词集

利用海量财经文本训练Word2vec神经网络相似词算法,对每个种子词组提取前30个相似词,剔除重复与低频词;再由3名专业人员依据权威定义进行分类、筛选与核验,最终形成99个关键词集

  1. 计算企业数字创新指标
  • 抓取年报中数字创新关键词词频
  • 分三类维度:
    • 数字产品创新 DI_prod
    • 数字流程创新 DI_proc
    • 数字商业模式创新 DI_buss
  • 整体数字创新 DI =(三类关键词总词频 / 年报全文总词数)× 100

数据概况

  • 样本区间:2001–2023年
  • 样本规模:约6.1万观测值
  • 企业数量5598家上市公司
  • 数据内容:包含原始词频数据、最终计算得到的DI及分维度指标,可复现、可核验。

参考文献

郑攀攀,庄子银.知识产权司法保护专门化与企业数字创新[J].系统工程理论与实践,2024,44(05):1501-1521.

资源下载
下载价格25
0
没有账号?注册  忘记密码?

社交账号快速登录