
书: https://pan.baidu.com/s/1xhc2t938Uhd6HLI6pHjlVg?pwd=77ya
笔记如下:
1. 基础架构与核心问题
- 搜索系统三要素:查询理解(Query Understanding)、文档检索(Document Retrieval)、结果排序(Ranking)。
- 推荐系统核心目标:在信息过载环境下,精准匹配用户兴趣与内容(User-Item Matching)。
- 搜索与推荐的差异:搜索强调查询的明确意图,推荐依赖隐式用户行为挖掘。
2. 经典算法与模型
- 检索模型演进:从布尔模型、向量空间模型(TF-IDF)到概率模型(BM25)。
- 排序学习(Learning to Rank):Pointwise(回归)、Pairwise(排序对)、Listwise(全局优化)三类方法。
- 协同过滤(CF):基于用户(User-CF)和基于物品(Item-CF)是推荐系统的基石算法。
- 矩阵分解(MF):通过隐语义模型(如SVD++)解决数据稀疏性问题。
- 深度学习应用:Wide & Deep、DeepFM等模型融合低阶与高阶特征交互。
3. 关键技术挑战
- 冷启动问题:新用户/物品的解决方案包括基于内容(Content-Based)、迁移学习或引入社交信息。
- 长尾分布问题:通过召回多样性策略(如MAB多臂赌博机)平衡热门与小众内容。
- 实时性要求:流式计算(如Flink)处理用户实时行为,更新模型特征。
- 可解释性:通过SHAP、LIME等工具增强推荐结果的透明度,提升用户信任。
4. 前沿技术与实践
- 图神经网络(GNN):处理用户-物品交互的拓扑关系(如PinSage算法)。
- 强化学习(RL):通过动态奖励机制优化长期用户体验(如YouTube的RL排序)。
- 多模态搜索:结合文本、图像、视频的跨模态检索(如CLIP模型)。
- 因果推理应用:区分相关性(Correlation)与因果性(Causation),避免推荐偏差。
5. 工程落地与评估
- AB测试框架:关键指标包括CTR(点击率)、停留时长、转化率等。
- 召回与排序分层:召回层(粗筛千万级候选)→排序层(精排Top-N)→重排(业务规则干预)。
- 负采样策略:曝光未点击样本≠真实负样本,需结合随机采样与重要性加权。
- 系统健壮性:对抗攻击(如刷单行为)的检测与防御机制。