上市公司年报作为资本市场核心信息披露载体,其文本内容深度蕴含企业管理层的战略态度与市场预期导向。通过专业文本情感分析技术,可量化提取年报语言中的积极 / 消极倾向,为投资者提供非结构化信息解读的关键补充视角,助力决策科学性提升。
本数据全面覆盖 4815 家上市公司 2010-2024 年的年报文本,依托自然语言处理(NLP)技术精准提取情感相关词汇,最终形成 5 万 + 条高质量面板数据,包含正负面词汇数量、句子数、总词汇数等多维度核心指标,完整呈现企业年报情感语调特征。
一、数据介绍
- 数据名称:上市公司年报情感语调数据
- 数据范围:A 股上市公司
- 数据年份:2010-2024 年(15 年完整时间序列)
- 数据格式:面板数据,Excel 格式(便于统计分析与建模)
- 数据来源:ACADCN 数研慧通
二、数据指标
| 字段名称 | 字段说明 |
|---|---|
| Symbol | 股票代码(交易所标准编码) |
| stkcd | 公司唯一识别代码 |
| year | 数据年份 |
| ShortName | 公司简称 |
| IndustryCode | 行业分类代码(统一行业划分标准) |
| IndustryName | 行业名称 |
| 正面词汇数量 | 年报文本中积极倾向词汇的统计数量 |
| 负面词汇数量 | 年报文本中消极倾向词汇的统计数量 |
| 总词汇数量 | 年报文本的词汇总量 |
| 句子数量 | 年报文本的句子总数 |
| 文字数量 | 年报文本的字符总数(含标点符号) |
| 情感语调 1 | 正面词汇数 / 总词汇数(积极词汇占比指标) |
| 情感语调 2 | (正面词汇数 – 负面词汇数) / (正面词汇数 + 负面词汇数)(净情感倾向指标) |
三、计算方式
本数据核心指标参考《财经研究》期刊钟凯等(2021)的权威研究方法,基于文本情感分析理论构建双维度情感语调指标,确保数据科学性与学术可比性:
- 情感语调 1 = 正面词汇数 / 总词汇数(反映年报整体积极词汇的占比水平,直观体现语言积极程度)
- 情感语调 2 =(正面词汇数 − 负面词汇数)/(正面词汇数 + 负面词汇数)(量化净情感倾向,取值范围为 [-1,1],越接近 1 表示情感越积极,越接近 – 1 表示情感越消极)
资源下载
下载价格10 元