上市公司创新活跃度文本指标(2008–2023)

数据说明

本数据集基于A股上市公司2008至2023年年报中的“管理层讨论与分析”(MD&A)文本,通过文本分析量化企业创新活跃程度。

  • 测算逻辑:构建含38个创新关键词的专用词典,计算关键词总词频占MD&A全文词数的比例。比例越高,表明企业年报中创新相关内容披露越充分,创新活跃度越高(同步提供总词频及其自然对数值)。
  • 样本规模:覆盖5,562家企业,共计5.05万个年度观测样本。
  • 字段内容
    • 基础信息:股票代码、公司简称、年份
    • 文本统计:全文总词数、创新关键词总词频、总词频自然对数
    • 分项词频:38个关键词独立词频(研发、开发、创新、研究、升级、转型、改革、新能源、专利、新型、创造、新材料、新技术、新兴、高新技术、知识产权、研制、变革、新品、新一代、更新、新工艺、全新、产学研、新模式、发明、迭代、革新、新业态、原创、首创、革命、推陈出新、科技攻关、新途径、独创)

方法依据

测算方法参考:谢佳松, 樊嘉诚, 林建浩. 我国上市公司创新活动的测度——基于文本分析的方法[J]. 统计研究, 2025, 42(2): 70–83.

资源下载
下载价格10
0
没有账号?注册  忘记密码?

社交账号快速登录