Skip to content

技术 | 资源免费共享站

互联网技术

Python数据科学手册([美]JakeVanderPlas)

Posted by

–

2025年8月17日

书: https://pan.baidu.com/s/1hMg-9fMkkzntAfHoLymQMA?pwd=2tx9
笔记如下：

IPython与Jupyter Notebook

IPython魔法命令（%timeit、%matplotlib inline）
Jupyter交互式数据探索（Markdown注释+代码执行）

NumPy高效数组

向量化操作替代循环（arr[arr > 0]布尔索引）
广播机制实现数组运算（不同形状数组自动对齐）

Pandas数据处理

DataFrame核心操作：groupby聚合、pivot_table透视
时间序列处理：resample重采样、rolling移动窗口

Matplotlib可视化

面向对象API（fig, ax = plt.subplots()）
多子图布局（plt.GridSpec复杂排版）

Seaborn统计绘图

分布可视化：distplot、jointplot
分类数据：boxplot、violinplot

Scikit-learn机器学习

统一API模式：fit()/predict()
管道工具（Pipeline组合预处理+模型）

文本数据处理

词袋模型（CountVectorizer）
TF-IDF加权（TfidfVectorizer）

特征工程方法

分箱离散化（pd.cut）
特征交叉（PolynomialFeatures）

无监督学习

K-Means聚类（KMeans）
流形学习（Isomap降维）

模型评估技术
- 学习曲线诊断过拟合
- 混淆矩阵可视化（ConfusionMatrixDisplay）
高效内存管理
- 分类数据类型（category减少内存）
- 分块处理大文件（pd.read_csv(chunksize=1000)）
时间序列分析
- 滞后特征构建（shift()）
- ARIMA模型（statsmodels库）
缺失值处理策略
- 多重插补（IterativeImputer）
- 缺失模式标记（MissingIndicator）
模型持久化
- joblib保存训练好的模型
- PMML格式跨平台导出
并行计算
- joblib.Parallel加速交叉验证
- Dask处理超出内存的数据集
交互可视化
- Plotly动态图表
- Altair声明式语法
数据库交互
- SQL查询→DataFrame（pd.read_sql）
- 内存数据库（sqlite3+Pandas）
正则表达式应用
- str.extract()提取结构化信息
- 文本清洗（str.replace+正则）
高性能计算技巧
- NumPy的einsum张量运算
- Numba加速自定义函数
完整案例流程
- 从原始数据到部署模型的端到端示例
- 包括数据获取→清洗→建模→可视化全链条

Post Views: 364

张锦全

发表回复取消回复

Category Name

考研资料

（2025）考研英语（一）历年真题详解及复习指南：冲刺版 (新东方大学事业部)

by

张锦全

2025年12月29日
考研资料

2026考研西医临床医学综合能力历年真题(上册) (贺银成)

by

张锦全

2025年12月29日
考研资料

2026考研西医临床医学综合能力历年真题(下册) (贺银成)

by

张锦全

2025年12月29日

Recent Posts