
书: https://pan.baidu.com/s/1LWWovU7IScpiddLrDhjl1w?pwd=pc5n
笔记如下:
- Spark简介:Apache Spark是一个快速、通用的分布式计算引擎,支持内存计算和容错机制。
- RDD(弹性分布式数据集):不可变分布式数据集合,支持并行操作(如
map
、filter
、reduce
)。 - DataFrame与Dataset:结构化API,提供优化执行(如
df.select("column").filter("value > 0")
)。 - MLlib简介:Spark的机器学习库,提供分类、回归、聚类、推荐等算法。
- 特征提取:
Tokenizer
、StopWordsRemover
、TF-IDF
等工具处理文本数据。 - 特征转换:
StringIndexer
、OneHotEncoder
、VectorAssembler
等转换非数值特征。 - 标准化与归一化:
StandardScaler
、MinMaxScaler
调整特征尺度。 - 分类算法:逻辑回归(
LogisticRegression
)、决策树(DecisionTreeClassifier
)、随机森林(RandomForestClassifier
)。 - 回归算法:线性回归(
LinearRegression
)、梯度提升树(GBTRegressor
)。 - 聚类算法:K-Means(
KMeans
)、高斯混合模型(GaussianMixture
)。 - 推荐系统:协同过滤(
ALS
)用于用户-商品推荐。 - 模型评估:
BinaryClassificationEvaluator
(AUC)、RegressionEvaluator
(RMSE)等评估指标。 - 交叉验证:
CrossValidator
结合ParamGridBuilder
调优超参数。 - 流水线(Pipeline):串联多个转换器和估计器(如
Pipeline(stages=[tokenizer, hashingTF, lr])
)。 - 模型保存与加载:
model.save("path")
和Model.load("path")
持久化模型。 - 流式机器学习:
StreamingLinearRegression
等算法处理实时数据流。 - 图计算(GraphX):
PageRank
、ConnectedComponents
等图算法支持。 - 分布式深度学习:与TensorFlow、Keras集成(如
Elephas
库)。 - 性能优化:缓存RDD(
persist()
)、调整分区数(repartition()
)提升计算效率。 - Spark与大数据生态:集成Hadoop、Hive、Kafka等工具构建端到端ML流程。