标签: Storage | Yu's Blog

CSCI4180 Introduction to Cloud Computing and Storage

What is this course about?

前半部分是计算，后半是存储。怎么处理海量数据而不卡死，怎么保存海量数据而不撑爆。

核心前提：MapReduce的核心分工

先明确Map/Reduce的核心逻辑，所有分布式算法都是基于这个分工设计：

Map函数：「分片处理」—— 把大规模数据拆成小分片，每个分片独立计算局部结果（无数据依赖）；
Reduce函数：「聚合归约」—— 把所有Map的局部结果汇总，计算全局最终结果；
迭代型算法（K-Means/PageRank）：多轮MapReduce循环，直到结果收敛（对应你代码里的while run_next）。

Dale2025/5/11大约 6 分钟