Map和Reduce在Hadoop与Python中有何异同？

hadoop是一个大数据处理平台，也是一个集群，能够对海量数据进行存储和运算。mapreduce是hadoop众多组件当中的一个。hadoop作为一个分布式系统，可以将不同的机器设备连接起来进行存储，也就是人们常说的hdfs，这也是hadoop的一个构成部分；而hadoop的另一个构成部分就是mapreduce了，前者负责数据的存储，而后者负责数据的运算，而且可以在mapreduce上进行编程开发。
在hadoop架构中，mapreduce可以分为两个阶段，第一阶段为map阶段，第二阶段为reduce阶段；map把调入文件进行切分，映射到不同节点；之后，就是reduce发生作用，reduce有些类似于合并同类项，对切分好的数据进行约化，既能起到汇总的效果，还可对数据起到精简整理的作用，从而达到分布式计算的效果。
hadoop是开源框架，所以可以通过编程用mapreduce分析数据，需要调用函数可以由用户或开发者自由选择。
python中的map和hadoop中的map本质是一样的，选择一种python的开源框架同样可以搭建一个简单的分布式系统，也可以通过map对数据文件进行切分，但过程和hadoop中的map是完全不一样的，可以说是两种不同的框架。我们在学习的时候可以进行类比来加深理解即可。
在python当中，严格的讲并不存在真正意义上的reduce。python有丰富的库类，可调用各种函数或其他语言编写的模块对数据进行处理，例如做描述统计的平均数、标准差、方差，推断统计的线性回归、数据透视、假设检验等。在python当中，这些可以称为聚合分组运算。下面以其中的groupby为例，来进行简要的说明。
首先来看看下面这个非常简单的表格型数据集（以dataframe的形式）：
>>> import pandas as pd>>> df = pd.dataframe({'key1':['a', 'a', 'b', 'b', 'a'],... 'key2':['one', 'two', 'one', 'two', 'one'],... 'data1':np.random.randn(5),... 'data2':np.random.randn(5)})>>> df data1 data2 key1 key20 -0.410673 0.519378 a one1 -2.120793 0.199074 a two2 0.642216 -0.143671 b one3 0.975133 -0.592994 b two4 -1.017495 -0.530459 a one
假设你想要按key1进行分组，并计算data1列的平均值，我们可以访问data1，并根据key1调用groupby：
>>> grouped = df['data1'].groupby(df['key1'])>>>grouped
变量grouped是一个groupby对象，它实际上还没有进行任何计算，只是含有一些有关分组键df['key1']的中间数据而已，然后我们可以调用groupby的mean方法来计算分组平均值：
>>> grouped.mean()key1a -1.182987b 0.808674dtype: float64
可见，python和hadoop中的reduce的不同在于python需要根据key进行分组，用户根据需要调用相应函数；而hadoop的reduce过程要更加灵活，既可以通过编程的方法来实现，也可以直接用hive进行sql操作。

Map和Reduce在Hadoop与Python中有何异同？

VIP推荐