
书: https://pan.baidu.com/s/1hMg-9fMkkzntAfHoLymQMA?pwd=2tx9
笔记如下:
- 机器学习基础概念
- 监督学习(分类/回归)与无监督学习(聚类/降维)的区别
- 训练集/测试集划分与交叉验证(cross-validation)
- Python机器学习生态
- 核心库:NumPy(数值计算)、Pandas(数据处理)、Matplotlib/Seaborn(可视化)
- Scikit-learn(算法实现)、TensorFlow/PyTorch(深度学习)
- 数据预处理技巧
- 缺失值处理:
SimpleImputer
填充均值/中位数 - 特征缩放:
StandardScaler
标准化、MinMaxScaler
归一化 - 分类变量编码:
OneHotEncoder
独热编码
- 特征工程方法
- 特征选择:
SelectKBest
基于统计检验 - PCA主成分分析降维
- 文本特征提取:
CountVectorizer
词袋模型
- 监督学习算法实践
- 线性回归:
LinearRegression
拟合连续值 - 逻辑回归:
LogisticRegression
解决二分类问题 - 决策树:
DecisionTreeClassifier
的可解释性
- 集成学习提升效果
- 随机森林:
RandomForestClassifier
抗过拟合 - XGBoost:
XGBClassifier
处理不平衡数据 - VotingClassifier多模型投票
- 模型评估指标
- 分类:准确率/精确率/召回率/F1值
- 回归:MSE均方误差、R²系数
- ROC曲线与AUC面积
- 聚类分析实战
- K-Means:
KMeans
实现客户分群 - 轮廓系数评估聚类效果
- DBSCAN处理非球形分布
- 神经网络入门
- 使用Keras构建全连接网络
- 激活函数(ReLU/Sigmoid)选择
- 批标准化(BatchNorm)加速训练
- 图像分类案例
- CNN卷积神经网络处理MNIST数据集
- 数据增强(ImageDataGenerator)
- 迁移学习(VGG16特征提取)
- 文本分类实战
- 词嵌入(Word2Vec/GloVe)
- LSTM处理序列数据
- 情感分析完整流程
- 模型部署应用
- Flask构建预测API接口
- ONNX格式跨平台部署
- 模型持久化(joblib保存)
- 自动化机器学习
- TPOT自动选择最优模型
- Auto-sklearn自动调参
- H2O.ai自动化流程
- 异常检测技术
- Isolation Forest隔离森林算法
- 局部离群因子(LOF)
- 自编码器(Autoencoder)重构误差
- 推荐系统实现
- 协同过滤(Surprise库)
- 矩阵分解(SVD算法)
- 基于内容的推荐
- 时间序列预测
- ARIMA模型建模
- Prophet处理季节性数据
- LSTM预测股价趋势
- 强化学习入门
- OpenAI Gym环境搭建
- Q-Learning算法原理
- DQN玩CartPole游戏
- 模型解释方法
- SHAP值分析特征重要性
- LIME局部可解释性
- 决策树可视化
- 工业级优化技巧
- 类别不平衡处理(SMOTE过采样)
- 超参数搜索(GridSearchCV)
- 模型蒸馏(Knowledge Distillation)
- 完整项目实战
- 从数据清洗到模型部署全流程
- 信用卡欺诈检测系统
- 新闻分类平台构建