上市公司大数据应用关键词频测算及程序文件(2000-2024年)

大数据应用是指依托海量(Volume)、高速(Velocity)、多样(Variety)、低价值密度(Value)、真实性(Veracity)的“5V”特征数据资源,运用云计算、人工智能、机器学习、自然语言处理等前沿技术,开展数据采集、清洗、存储、建模、分析及可视化呈现的全流程技术体系与实践范式,其核心价值在于通过数据驱动实现决策优化、流程重构、风险预警及价值创造。

本研究借鉴张叶青等(2021)的文本挖掘与指数构建方法,以中国A股上市公司2000-2024年年度报告为核心数据源,基于Python自然语言处理工具包构建大数据应用关键词词频测算体系,进而生成大数据应用指数。研究提供“未缩尾未剔除异常样本”“已缩尾未剔除异常样本”“已缩尾且剔除金融行业及ST/PT样本”三个版本的面板数据及对应的Stata程序文件(dofile),为公司金融、技术创新等领域的实证研究提供可靠的数据支撑。

一、数据概况

  • 数据名称:上市公司大数据应用关键词频测算及程序文件(2000-2024年)
  • 研究区间:2000年至2024年
  • 样本范围:中国沪深A股上市公司
  • 数据形态:平衡面板数据,配套Excel、Stata(.dta)及程序文件(.do)格式
  • 数据提供方:ACADCN数研慧通

二、核心指标体系

指标类别具体指标指标说明
样本标识指标证券代码(stkcd)、证券简称、年份(year)用于样本匹配与时间维度识别,stkcd采用证监会标准6位编码
核心研究指标大数据应用指数、大数据相关关键词词频词频为年报中目标关键词出现频次,指数为词频的对数化处理结果
截面特征指标行业代码、行业名称、所属省份及代码、所属城市及代码行业分类采用证监会2012年行业分类标准,地理编码采用国家统计局行政编码
关键词池大数据、海量数据、数据中心、信息资产、数据化、算力基于技术演进及政策文件筛选,经LDA主题模型验证的核心关键词集合

三、指数构建方法

为避免词频为0时对数运算无意义的问题,本研究采用对数转换法构建大数据应用指数,具体公式如下:

大数据应用指数 = ln(大数据相关关键词词频 + 1)

其中,关键词词频通过Jieba分词工具结合自定义词典进行提取,经停用词过滤、同义词合并等预处理步骤后,采用词频统计法计算得出;缩尾处理采用1%分位的缩尾(Winsorize)方法,异常样本剔除标准为金融行业(证监会行业分类代码J)及特殊处理样本(ST/PT)。

四、参考文献

张叶青,陆瑶,李乐芸. 大数据应用对中国企业市场价值的影响——来自中国上市公司年报文本分析的证据[J]. 经济研究,2021, 56(12): 42-59.

资源下载
下载价格20
0
没有账号?注册  忘记密码?

社交账号快速登录