一、数据简介
本数据集基于中国A股上市公司2001年至2022年公开披露的年度财务报告构建,旨在通过文本分析方法量化企业层面的数据要素利用水平。本测算遵循学术研究中广泛应用的方法,通过系统分析企业年报中与核心数字技术相关的关键词出现频率,形成综合性的量化评估指标,为相关领域的研究提供可直接使用的结构化数据支持。
二、指标构建方法
本数据集的构建参照了史青春等(2023)的研究方法,具体测算过程如下:
- 关键词选取:选取了代表数据要素利用的五个关键技术维度,分别为“人工智能技术”、“区块链技术”、“云计算技术”、“大数据技术”及“大数据技术应用”。
- 词频统计:通过文本分析技术,统计上述五项关键词在每家公司每个年度财务报告中出现的总次数。
- 指标合成:将五项关键词的披露次数进行加总,得到初始的“企业数据要素利用水平”指标。该数值越高,表明企业在年报中披露与数据要素相关技术和应用的频率越高,从而间接反映了其在数据要素方面的关注度和投入水平。
- 数据处理:为消除极端值影响,同时提供了对初始指标进行缩尾处理后的“数据要素利用水平-缩尾后”指标,以增强数据的稳健性。
三、数据详情
- 数据范围:中国A股上市公司
- 时间跨度:2001年 – 2022年
- 观测数量:55,591条公司-年度观测值
- 核心指标:
- 公司标识:
股票代码、年份、股票简称 - 分类信息:
行业名称、行业代码、行政区划代码 - 核心指标:
数据要素利用水平(原始词频和)、数据要素利用水平-缩尾后(经缩尾处理) - 分项指标:
人工智能技术、大数据技术、云计算技术、区块链技术、数字技术运用(各分项关键词词频)
- 公司标识:
四、参考文献
本数据集的构建理念与方法主要基于以下核心文献:
史青春, 牛悦, 徐慧. 企业数据要素利用水平影响投资效率机理研究——利用数据要素激活冗余资源的中介作用[J]. 中央财经大学学报, 2023(11): 105-115.
五、数据来源
所有测算数据均提取自上市公司公开披露的年度财务报告。
资源下载
下载价格12 元