测度方法
本数据集严格依据周泽将等(2022)发表于《中国工业经济》的研究框架,采用三阶段文本挖掘法构建企业创新信息披露水平指标(Innovation Disclosure Index, Inno_Disc),具体流程如下:
- 种子词集构建:参考既有文献(胡楠等,2018;周泽将等,2022),确立“技术创新”“研究”“开发”“研发”“专利”“发明”等核心词汇作为初始种子词集;
- 语义扩展与关键词集生成:基于上市公司年报全文语料,运用Word2Vec词向量模型进行语义相似度计算,对种子词集进行动态扩展,形成涵盖企业创新活动的标准化关键词集合(共计385个有效关键词);
- 指标量化:计算年报中创新相关关键词总词频与全文总词数的比值,生成标准化的企业创新信息披露水平指标(Inno_Disc),数值越高表明披露程度越充分。
数据范围与构成
- 时间跨度:2000年至2023年
- 样本规模:覆盖A股市场5,591家上市公司,累计60,000余份年报文本样本
- 数据内容:
- 原始层:385个创新关键词在各年报中的频次统计表
- 衍生层:标准化计算所得Inno_Disc指标值
- 数据来源:原始文本均采集自巨潮资讯网等证监会指定信息披露平台发布的上市公司法定年度报告
参考文献
[1] 周泽将, 汪顺, 张悦. 知识产权保护与企业创新信息困境[J]. 中国工业经济, 2022(6): 136–154. DOI:10.19581/j.cnki.ciejournal.2022.06.020
[2] 胡楠, 等. 企业创新活动文本识别的关键词构建方法研究[J]. 会计研究, 2018(5): 45–52. (注:方法学基础参考)
资源下载
下载价格12 元