Spark机器学习.第2版([印]拉结帝普•杜瓦[印]曼普利特•辛格•古特拉南非]尼克•彭特里思)

书: https://pan.baidu.com/s/1LWWovU7IScpiddLrDhjl1w?pwd=pc5n
笔记如下:

  1. Spark简介:Apache Spark是一个快速、通用的分布式计算引擎,支持内存计算和容错机制。
  2. RDD(弹性分布式数据集):不可变分布式数据集合,支持并行操作(如mapfilterreduce)。
  3. DataFrame与Dataset:结构化API,提供优化执行(如df.select("column").filter("value > 0"))。
  4. MLlib简介:Spark的机器学习库,提供分类、回归、聚类、推荐等算法。
  5. 特征提取TokenizerStopWordsRemoverTF-IDF等工具处理文本数据。
  6. 特征转换StringIndexerOneHotEncoderVectorAssembler等转换非数值特征。
  7. 标准化与归一化StandardScalerMinMaxScaler调整特征尺度。
  8. 分类算法:逻辑回归(LogisticRegression)、决策树(DecisionTreeClassifier)、随机森林(RandomForestClassifier)。
  9. 回归算法:线性回归(LinearRegression)、梯度提升树(GBTRegressor)。
  10. 聚类算法:K-Means(KMeans)、高斯混合模型(GaussianMixture)。
  11. 推荐系统:协同过滤(ALS)用于用户-商品推荐。
  12. 模型评估BinaryClassificationEvaluator(AUC)、RegressionEvaluator(RMSE)等评估指标。
  13. 交叉验证CrossValidator结合ParamGridBuilder调优超参数。
  14. 流水线(Pipeline):串联多个转换器和估计器(如Pipeline(stages=[tokenizer, hashingTF, lr]))。
  15. 模型保存与加载model.save("path")Model.load("path")持久化模型。
  16. 流式机器学习StreamingLinearRegression等算法处理实时数据流。
  17. 图计算(GraphX)PageRankConnectedComponents等图算法支持。
  18. 分布式深度学习:与TensorFlow、Keras集成(如Elephas库)。
  19. 性能优化:缓存RDD(persist())、调整分区数(repartition())提升计算效率。
  20. Spark与大数据生态:集成Hadoop、Hive、Kafka等工具构建端到端ML流程。

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注