spark简单例子-创新互联
一、统计指定索引的每个值有多少个:
var textFile = sc.textFile("/xxxx_orgn/p1_day=20170609/*.txt");
var pairRdd=textFile.filter(x=>x.split("\\|",-1).length>68).map{x=>val data=x.split("\\|",-1)(67); (data,1)}
var result=pairRdd.reduceByKey((sum,x)=>sum+x)
result.collect.foreach(println)
二、统计数据列数
var textFile = sc.textFile("/xxxx_orgn/p1_day=20170609/*.txt");
var pairRdd=textFile.map{x=>val data=x.split("\\|",-1).length; (data,1)}
var result=pairRdd.reduceByKey((sum,x)=>sum+x)
result.collect.foreach(println)
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
当前标题:spark简单例子-创新互联
文章源于:http://ybzwz.com/article/gggps.html