
书: https://pan.baidu.com/s/1hMg-9fMkkzntAfHoLymQMA?pwd=2tx9
笔记如下:
- IPython与Jupyter Notebook
- IPython魔法命令(
%timeit
、%matplotlib inline
) - Jupyter交互式数据探索(Markdown注释+代码执行)
- NumPy高效数组
- 向量化操作替代循环(
arr[arr > 0]
布尔索引) - 广播机制实现数组运算(不同形状数组自动对齐)
- Pandas数据处理
DataFrame
核心操作:groupby
聚合、pivot_table
透视- 时间序列处理:
resample
重采样、rolling
移动窗口
- Matplotlib可视化
- 面向对象API(
fig, ax = plt.subplots()
) - 多子图布局(
plt.GridSpec
复杂排版)
- Seaborn统计绘图
- 分布可视化:
distplot
、jointplot
- 分类数据:
boxplot
、violinplot
- Scikit-learn机器学习
- 统一API模式:
fit()
/predict()
- 管道工具(
Pipeline
组合预处理+模型)
- 文本数据处理
- 词袋模型(
CountVectorizer
) - TF-IDF加权(
TfidfVectorizer
)
- 特征工程方法
- 分箱离散化(
pd.cut
) - 特征交叉(
PolynomialFeatures
)
- 无监督学习
- K-Means聚类(
KMeans
) - 流形学习(
Isomap
降维)
- 模型评估技术
- 学习曲线诊断过拟合
- 混淆矩阵可视化(
ConfusionMatrixDisplay
)
- 高效内存管理
- 分类数据类型(
category
减少内存) - 分块处理大文件(
pd.read_csv(chunksize=1000)
)
- 分类数据类型(
- 时间序列分析
- 滞后特征构建(
shift()
) - ARIMA模型(
statsmodels
库)
- 滞后特征构建(
- 缺失值处理策略
- 多重插补(
IterativeImputer
) - 缺失模式标记(
MissingIndicator
)
- 多重插补(
- 模型持久化
joblib
保存训练好的模型- PMML格式跨平台导出
- 并行计算
joblib.Parallel
加速交叉验证- Dask处理超出内存的数据集
- 交互可视化
- Plotly动态图表
- Altair声明式语法
- 数据库交互
- SQL查询→DataFrame(
pd.read_sql
) - 内存数据库(
sqlite3
+Pandas)
- SQL查询→DataFrame(
- 正则表达式应用
str.extract()
提取结构化信息- 文本清洗(
str.replace
+正则)
- 高性能计算技巧
- NumPy的
einsum
张量运算 - Numba加速自定义函数
- NumPy的
- 完整案例流程
- 从原始数据到部署模型的端到端示例
- 包括数据获取→清洗→建模→可视化全链条