测算方法
本数据库严格依据瞿茜、郭俊聪与王越(2024)发表于《南开经济研究》的实证框架构建,采用文本计量学方法系统解析地方政府工作报告文本。选取“创新”“创造”“研发”“科学”“科研”“科技”“专利”“技术”八类核心关键词,通过标准化词频统计生成量化指标,客观表征地方政府对创新议题的政策关注强度。该指标为探究区域创新政策导向对经济增长竞争格局与协同发展机制的影响提供严谨的实证依据。
数据范围与处理流程
数据库涵盖2003至2025年间全国290余个地级行政单位,形成包含5760个观测值的高质量平衡面板。数据内容包含原始词频统计结果及标准化处理后的分析指标。处理流程如下:
- 文本预处理:基于Python环境,采用jieba中文分词工具对工作报告全文进行精细化分词,并依据哈尔滨工业大学标准停用词表实施文本清洗;
- 数据整合与标准化:运用Stata软件完成词频归一化、时序对齐及面板结构构建,确保跨区域与跨年度数据的可比性与一致性;
- 质量控制:经多轮逻辑校验与完整性核查,保障数据在学术研究中的可靠性与适用性。
学术依据
瞿茜、郭俊聪、王越:《区域经济增长的竞争与协同——基于对经济增长率的分解》,《南开经济研究》2024年第3期,第141–160页。