P01:金融数据获取、管理与初步分析
前言
本项目完成了A股市场10只股票的数据获取、清洗、存储与分析工作。

封面图来源:Unsplash(Photo by Carlos Muza)
项目概述
本电子书记录了金融数据分析与建模课程作业的完整流程,涵盖:
- 数据获取:使用akshare获取10只A股股票、市场指数、宏观经济指标和财务指标数据
- 数据清洗:完成缺失值处理、日期格式统一、重复值删除、离群值标注等清洗工作
- 数据存储:同时使用CSV和Parquet格式存储数据
- 描述性统计:计算年化收益率、波动率、偏度、峰度、最大回撤等统计量
- 可视化分析:绘制归一化价格走势图、收益率分布图、相关系数热力图等
- CAPM回归:估计各股票的Beta系数,分析周期性/防御性行业特征
- 宏观分析:分析CPI对股票收益率的影响
股票列表
| 代码 | 名称 | 行业 | 选股理由 |
|---|---|---|---|
| 600036 | 招商银行 | 银行 | 股份制银行龙头,零售业务领先 |
| 601398 | 工商银行 | 银行 | 国有大行代表,市值最大 |
| 002594 | 比亚迪 | 汽车 | 新能源汽车领军企业 |
| 600104 | 上汽集团 | 汽车 | 传统汽车制造龙头 |
| 000002 | 万科A | 房地产 | 房地产开发龙头企业 |
| 600519 | 贵州茅台 | 白酒 | 白酒行业龙头,高端消费代表 |
| 000858 | 五粮液 | 白酒 | 浓香型白酒龙头 |
| 601857 | 中国石油 | 能源 | 能源行业龙头,油气开采 |
| 000063 | 中兴通讯 | 通讯 | 通信设备龙头企业 |
| 002352 | 顺丰控股 | 物流 | 快递物流龙头企业 |
提示选股原则
- 覆盖7个行业:银行、汽车、房地产、白酒、能源、通讯、物流
- 每个行业1-2只股票
- 优先选择行业龙头,代表性强、流动性好
数据来源
| 数据类型 | 数据源 | 说明 |
|---|---|---|
| 股票行情 | akshare | 后复权日度行情,2020-01-01至今 |
| 市场指数 | akshare | 沪深300(基准)、中证500(补充) |
| 宏观指标 | akshare | CPI同比增速、M2同比增速 |
| 财务指标 | akshare | ROE、净利润率 |
主要发现
收益率表现
- 最佳:比亚迪年化收益30.31%,新能源汽车行业高景气
- 最差:万科A年化收益-17.99%,房地产行业下行压力大
- 最稳:工商银行波动率10.23%,回撤仅-14.39%
CAPM分析
- 周期性股票(β>1):比亚迪、五粮液、中兴通讯
- 防御性股票(β<0.5):工商银行、中国石油
- 显著Alpha:仅比亚迪的Alpha在统计上显著
宏观敏感性
- CPI对银行、能源行业有显著负向影响
- CPI对物流行业有正向影响
- 白酒行业对宏观指标敏感度最低
GitHub仓库
项目代码:https://github.com/1197325514-cyber/dshw-p02
如何使用本书
- 点击左侧目录导航浏览各章节
- 使用搜索功能查找特定内容
- 代码块可点击”显示代码”展开查看
- 图表可右键保存
作者:林川胜 | 学号:25210071 | 课程:金融数据分析与建模