Python数据科学手册([美]JakeVanderPlas)

书: https://pan.baidu.com/s/1hMg-9fMkkzntAfHoLymQMA?pwd=2tx9
笔记如下:

  1. IPython与Jupyter Notebook
  • IPython魔法命令(%timeit%matplotlib inline
  • Jupyter交互式数据探索(Markdown注释+代码执行)
  1. NumPy高效数组
  • 向量化操作替代循环(arr[arr > 0]布尔索引)
  • 广播机制实现数组运算(不同形状数组自动对齐)
  1. Pandas数据处理
  • DataFrame核心操作:groupby聚合、pivot_table透视
  • 时间序列处理:resample重采样、rolling移动窗口
  1. Matplotlib可视化
  • 面向对象API(fig, ax = plt.subplots()
  • 多子图布局(plt.GridSpec复杂排版)
  1. Seaborn统计绘图
  • 分布可视化:distplotjointplot
  • 分类数据:boxplotviolinplot
  1. Scikit-learn机器学习
  • 统一API模式:fit()/predict()
  • 管道工具(Pipeline组合预处理+模型)
  1. 文本数据处理
  • 词袋模型(CountVectorizer
  • TF-IDF加权(TfidfVectorizer
  1. 特征工程方法
  • 分箱离散化(pd.cut
  • 特征交叉(PolynomialFeatures
  1. 无监督学习
  • K-Means聚类(KMeans
  • 流形学习(Isomap降维)
  1. 模型评估技术
    • 学习曲线诊断过拟合
    • 混淆矩阵可视化(ConfusionMatrixDisplay
  2. 高效内存管理
    • 分类数据类型(category减少内存)
    • 分块处理大文件(pd.read_csv(chunksize=1000)
  3. 时间序列分析
    • 滞后特征构建(shift()
    • ARIMA模型(statsmodels库)
  4. 缺失值处理策略
    • 多重插补(IterativeImputer
    • 缺失模式标记(MissingIndicator
  5. 模型持久化
    • joblib保存训练好的模型
    • PMML格式跨平台导出
  6. 并行计算
    • joblib.Parallel加速交叉验证
    • Dask处理超出内存的数据集
  7. 交互可视化
    • Plotly动态图表
    • Altair声明式语法
  8. 数据库交互
    • SQL查询→DataFrame(pd.read_sql
    • 内存数据库(sqlite3+Pandas)
  9. 正则表达式应用
    • str.extract()提取结构化信息
    • 文本清洗(str.replace+正则)
  10. 高性能计算技巧
    • NumPy的einsum张量运算
    • Numba加速自定义函数
  11. 完整案例流程
    • 从原始数据到部署模型的端到端示例
    • 包括数据获取→清洗→建模→可视化全链条

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注