6 总结与结论
6.1 项目回顾
本项目完成了A股市场10只股票的数据获取、清洗、存储与分析工作,涵盖以下环节:
6.1.1 数据获取
| 数据类型 | 数量 | 来源 | 时间范围 |
|---|---|---|---|
| 股票行情 | 10只 | akshare | 2020-01-01至今 |
| 市场指数 | 2只 | akshare | 同上 |
| 宏观指标 | 2项 | akshare | 月度数据 |
| 财务指标 | 2类 | akshare | 年度数据 |
6.1.2 数据清洗
完成了缺失值处理、日期格式统一、重复值删除、离群值标注等清洗工作:
| 清洗步骤 | 结果 |
|---|---|
| 缺失值检测 | 无缺失值,数据质量良好 |
| 日期格式统一 | 已转换为datetime64格式 |
| 重复值处理 | 无重复记录 |
| 离群值标注 | 已添加is_extreme列 |
| 宽表长表转换 | 已完成互转 |
| 多表合并 | 已合并为综合数据集 |
6.1.3 数据存储
同时使用CSV和Parquet格式存储数据:
| 格式 | 文件大小 | 优势 |
|---|---|---|
| CSV | 1656.0 KB | 通用性强 |
| Parquet | 693.2 KB | 体积小58%,类型安全 |
6.1.4 描述性统计
计算了年化收益率、年化波动率、偏度、峰度、最大回撤等统计量:
提示关键发现
- 收益最高:比亚迪(30.31%),新能源行业高景气
- 收益最低:万科A(-17.99%),房地产行业下行
- 波动最小:工商银行(10.23%),防御性最强
- 回撤最小:工商银行(-14.39%),抗风险能力强
6.1.5 可视化分析
绘制了7张专业图表:
| 图表 | 内容 |
|---|---|
| 图1 | 归一化收盘价走势图 |
| 图2 | 日收益率分布图 |
| 图3 | 相关系数热力图 |
| 图4 | CPI与股市关系图 |
| 图5 | ROE跨公司对比 |
| 图5b | ROE年度趋势图 |
| 图6 | Beta系数点图 |
| 图7 | CPI对个股月度收益率影响(Gamma) |
6.1.6 CAPM回归
估计了10只股票的Beta系数:
| 类型 | 股票 | Beta范围 |
|---|---|---|
| 周期性(β>1) | 比亚迪、五粮液、中兴通讯 | 1.16-1.28 |
| 防御性(β≤1) | 其他7只股票 | 0.16-0.97 |
6.1.7 宏观分析
分析了CPI对股票收益率的影响:
| 敏感方向 | 股票 | Gamma |
|---|---|---|
| 负向显著 | 工商银行、中国石油 | -0.0065 ~ -0.0092 |
| 正向显著 | 顺丰控股 | +0.0173 |
6.2 主要结论
6.2.1 行业特征
| 行业 | 风险特征 | 投资建议 |
|---|---|---|
| 银行 | 低β、低波动、低回撤 | 防御性配置,稳健收益 |
| 汽车 | 高β、高波动 | 牛市配置,风险较高 |
| 白酒 | β适中,收益稳健 | 长期配置,消费龙头 |
| 房地产 | 收益为负,回撤大 | 谨慎配置,关注政策 |
| 能源 | 低β,受外部因素影响 | 分散化配置 |
| 通讯 | 中高β | 牛市配置,关注5G |
| 物流 | β适中,CPI正向敏感 | 经济景气期配置 |
6.2.2 投资启示
注意投资策略建议
1. 分散化投资
跨行业配置可以有效分散风险: - 建议配置:银行(防御)+ 白酒(消费)+ 能源(周期) - 避免同行业过度集中
2. 周期把握
- 牛市配置:比亚迪、五粮液、中兴通讯等周期性股票
- 熊市配置:工商银行、中国石油等防御性股票
3. 风险控制
- 关注最大回撤,设置止损点
- 低R²股票具有更好的分散化价值
- 注意宏观环境变化
4. 长期视角
- 龙头股长期表现更优
- 关注行业趋势而非短期波动
- 结合估值分析做决策
6.2.3 方法论总结
| 环节 | 工具/方法 | 要点 |
|---|---|---|
| 数据获取 | akshare | 免费易用,适合学术研究 |
| 数据清洗 | pandas | 规范流程是质量基础 |
| 数据存储 | CSV + Parquet | Parquet适合大数据场景 |
| 描述统计 | numpy, scipy | 多维度刻画风险收益 |
| 可视化 | matplotlib, seaborn | 专业图表提升分析质量 |
| 回归分析 | statsmodels | CAPM是分析系统风险的有效工具 |
6.3 局限性与展望
6.3.1 局限性
警告分析局限
- 样本有限:仅10只股票,代表性有限
- 时间范围:仅5年数据,未能覆盖完整经济周期
- 模型简单:仅使用单因子CAPM模型
- 宏观分析:仅分析了CPI一个宏观指标
- 交易成本:未考虑交易成本和流动性
6.3.2 未来展望
| 方向 | 可能的改进 |
|---|---|
| 扩展样本 | 增加更多股票和行业覆盖 |
| 多因子模型 | 引入Fama-French三因子、五因子模型 |
| 宏观分析 | 引入更多宏观经济变量 |
| 机器学习 | 尝试机器学习方法预测收益 |
| 风险模型 | 构建更完善的风险管理模型 |
| 回测分析 | 进行策略回测验证 |
6.4 附录
6.4.1 代码仓库
完整代码请访问:https://github.com/1197325514-cyber/dshw-p02
6.4.2 在线电子书
Quarto电子书:https://1197325514-cyber.github.io/dshw-p02/
6.4.3 参考资料
- akshare官方文档:https://akshare.akfamily.xyz/
- pandas官方文档:https://pandas.pydata.org/
- statsmodels官方文档:https://www.statsmodels.org/
- Quarto官方文档:https://quarto.org/
6.4.4 运行环境
| 软件 | 版本 |
|---|---|
| Python | 3.11+ |
| akshare | 1.10.0+ |
| pandas | 2.0.0+ |
| numpy | 1.24.0+ |
| matplotlib | 3.7.0+ |
| seaborn | 0.12.0+ |
| statsmodels | 0.14.0+ |
作者:林川胜 | 学号:25210071 | 课程:金融数据分析与建模 | 日期:2026年4月