智能搜索和推荐系统原理、算法与应用(刘宇)

书: https://pan.baidu.com/s/1xhc2t938Uhd6HLI6pHjlVg?pwd=77ya
笔记如下：

1. 基础架构与核心问题

搜索系统三要素：查询理解（Query Understanding）、文档检索（Document Retrieval）、结果排序（Ranking）。
推荐系统核心目标：在信息过载环境下，精准匹配用户兴趣与内容（User-Item Matching）。
搜索与推荐的差异：搜索强调查询的明确意图，推荐依赖隐式用户行为挖掘。

2. 经典算法与模型

检索模型演进：从布尔模型、向量空间模型（TF-IDF）到概率模型（BM25）。
排序学习（Learning to Rank）：Pointwise（回归）、Pairwise（排序对）、Listwise（全局优化）三类方法。
协同过滤（CF）：基于用户（User-CF）和基于物品（Item-CF）是推荐系统的基石算法。
矩阵分解（MF）：通过隐语义模型（如SVD++）解决数据稀疏性问题。
深度学习应用：Wide & Deep、DeepFM等模型融合低阶与高阶特征交互。

3. 关键技术挑战

冷启动问题：新用户/物品的解决方案包括基于内容（Content-Based）、迁移学习或引入社交信息。
长尾分布问题：通过召回多样性策略（如MAB多臂赌博机）平衡热门与小众内容。
实时性要求：流式计算（如Flink）处理用户实时行为，更新模型特征。
可解释性：通过SHAP、LIME等工具增强推荐结果的透明度，提升用户信任。

4. 前沿技术与实践

图神经网络（GNN）：处理用户-物品交互的拓扑关系（如PinSage算法）。
强化学习（RL）：通过动态奖励机制优化长期用户体验（如YouTube的RL排序）。
多模态搜索：结合文本、图像、视频的跨模态检索（如CLIP模型）。
因果推理应用：区分相关性（Correlation）与因果性（Causation），避免推荐偏差。

5. 工程落地与评估

AB测试框架：关键指标包括CTR（点击率）、停留时长、转化率等。
召回与排序分层：召回层（粗筛千万级候选）→排序层（精排Top-N）→重排（业务规则干预）。
负采样策略：曝光未点击样本≠真实负样本，需结合随机采样与重要性加权。
系统健壮性：对抗攻击（如刷单行为）的检测与防御机制。

Post Views: 312

发表评论取消回复