What is this course about?
前半部分是计算,后半是存储。怎么处理海量数据而不卡死,怎么保存海量数据而不撑爆。
核心前提:MapReduce的核心分工
先明确Map/Reduce的核心逻辑,所有分布式算法都是基于这个分工设计:
- Map函数:「分片处理」—— 把大规模数据拆成小分片,每个分片独立计算局部结果(无数据依赖);
- Reduce函数:「聚合归约」—— 把所有Map的局部结果汇总,计算全局最终结果;
- 迭代型算法(K-Means/PageRank):多轮MapReduce循环,直到结果收敛(对应你代码里的
while run_next)。
2025/5/11大约 6 分钟
