6  总结与结论

6.1 项目回顾

本项目完成了A股市场10只股票的数据获取、清洗、存储与分析工作,涵盖以下环节:

6.1.1 数据获取

数据类型 数量 来源 时间范围
股票行情 10只 akshare 2020-01-01至今
市场指数 2只 akshare 同上
宏观指标 2项 akshare 月度数据
财务指标 2类 akshare 年度数据

6.1.2 数据清洗

完成了缺失值处理、日期格式统一、重复值删除、离群值标注等清洗工作:

清洗步骤 结果
缺失值检测 无缺失值,数据质量良好
日期格式统一 已转换为datetime64格式
重复值处理 无重复记录
离群值标注 已添加is_extreme列
宽表长表转换 已完成互转
多表合并 已合并为综合数据集

6.1.3 数据存储

同时使用CSV和Parquet格式存储数据:

格式 文件大小 优势
CSV 1656.0 KB 通用性强
Parquet 693.2 KB 体积小58%,类型安全

6.1.4 描述性统计

计算了年化收益率、年化波动率、偏度、峰度、最大回撤等统计量:

提示关键发现
  • 收益最高:比亚迪(30.31%),新能源行业高景气
  • 收益最低:万科A(-17.99%),房地产行业下行
  • 波动最小:工商银行(10.23%),防御性最强
  • 回撤最小:工商银行(-14.39%),抗风险能力强

6.1.5 可视化分析

绘制了7张专业图表:

图表 内容
图1 归一化收盘价走势图
图2 日收益率分布图
图3 相关系数热力图
图4 CPI与股市关系图
图5 ROE跨公司对比
图5b ROE年度趋势图
图6 Beta系数点图
图7 CPI对个股月度收益率影响(Gamma)

6.1.6 CAPM回归

估计了10只股票的Beta系数:

类型 股票 Beta范围
周期性(β>1) 比亚迪、五粮液、中兴通讯 1.16-1.28
防御性(β≤1) 其他7只股票 0.16-0.97

6.1.7 宏观分析

分析了CPI对股票收益率的影响:

敏感方向 股票 Gamma
负向显著 工商银行、中国石油 -0.0065 ~ -0.0092
正向显著 顺丰控股 +0.0173

6.2 主要结论

6.2.1 行业特征

行业 风险特征 投资建议
银行 低β、低波动、低回撤 防御性配置,稳健收益
汽车 高β、高波动 牛市配置,风险较高
白酒 β适中,收益稳健 长期配置,消费龙头
房地产 收益为负,回撤大 谨慎配置,关注政策
能源 低β,受外部因素影响 分散化配置
通讯 中高β 牛市配置,关注5G
物流 β适中,CPI正向敏感 经济景气期配置

6.2.2 投资启示

注意投资策略建议

1. 分散化投资

跨行业配置可以有效分散风险: - 建议配置:银行(防御)+ 白酒(消费)+ 能源(周期) - 避免同行业过度集中

2. 周期把握

  • 牛市配置:比亚迪、五粮液、中兴通讯等周期性股票
  • 熊市配置:工商银行、中国石油等防御性股票

3. 风险控制

  • 关注最大回撤,设置止损点
  • 低R²股票具有更好的分散化价值
  • 注意宏观环境变化

4. 长期视角

  • 龙头股长期表现更优
  • 关注行业趋势而非短期波动
  • 结合估值分析做决策

6.2.3 方法论总结

环节 工具/方法 要点
数据获取 akshare 免费易用,适合学术研究
数据清洗 pandas 规范流程是质量基础
数据存储 CSV + Parquet Parquet适合大数据场景
描述统计 numpy, scipy 多维度刻画风险收益
可视化 matplotlib, seaborn 专业图表提升分析质量
回归分析 statsmodels CAPM是分析系统风险的有效工具

6.3 局限性与展望

6.3.1 局限性

警告分析局限
  1. 样本有限:仅10只股票,代表性有限
  2. 时间范围:仅5年数据,未能覆盖完整经济周期
  3. 模型简单:仅使用单因子CAPM模型
  4. 宏观分析:仅分析了CPI一个宏观指标
  5. 交易成本:未考虑交易成本和流动性

6.3.2 未来展望

方向 可能的改进
扩展样本 增加更多股票和行业覆盖
多因子模型 引入Fama-French三因子、五因子模型
宏观分析 引入更多宏观经济变量
机器学习 尝试机器学习方法预测收益
风险模型 构建更完善的风险管理模型
回测分析 进行策略回测验证

6.4 附录

6.4.1 代码仓库

完整代码请访问:https://github.com/1197325514-cyber/dshw-p02

6.4.2 在线电子书

Quarto电子书:https://1197325514-cyber.github.io/dshw-p02/

6.4.3 参考资料

  • akshare官方文档:https://akshare.akfamily.xyz/
  • pandas官方文档:https://pandas.pydata.org/
  • statsmodels官方文档:https://www.statsmodels.org/
  • Quarto官方文档:https://quarto.org/

6.4.4 运行环境

软件 版本
Python 3.11+
akshare 1.10.0+
pandas 2.0.0+
numpy 1.24.0+
matplotlib 3.7.0+
seaborn 0.12.0+
statsmodels 0.14.0+

作者:林川胜 | 学号:25210071 | 课程:金融数据分析与建模 | 日期:2026年4月