当前位置:  编程技术>java/j2ee

hadoop实现grep示例分享

    来源: 互联网  发布时间:2014-11-05

    本文导语:  hadoop做的一个简单grep程序,可从文档中提取包含某些字符串的行 代码如下:/* * 一个简单grep程序,可从文档中提取包含莫些字符串的行 */ public class grep extends Configured  implements Tool{  public static  class grepMap extends Mapper{  public...

hadoop做的一个简单grep程序,可从文档中提取包含某些字符串的行

代码如下:

/*
 * 一个简单grep程序,可从文档中提取包含莫些字符串的行
 */

public class grep extends Configured  implements Tool{

 public static  class grepMap extends Mapper{

  public void map(LongWritable line,Text value,Context context) throws IOException, InterruptedException{
   //通过Configuration获取参数
   String str = context.getConfiguration().get("grep");
   if(value.toString().contains(str)){
    context.write(value, NullWritable.get());
   }
  }
 }
 @Override
 public int run(String[] args) throws Exception {

  if(args.length!=3){
   System.out.println("ERROR");
   System.exit(1);
  }

  Configuration configuration = getConf();
  //传递参数
  configuration.set("grep", args[2]);
  Job job = new Job(configuration,"grep");

  job.setJarByClass(grep.class);
  job.setMapperClass(grepMap.class);
  job.setNumReduceTasks(0);

  job.setMapOutputKeyClass(Text.class);
  job.setOutputValueClass(NullWritable.class);

  Path in = new Path(args[0]);
  Path out = new Path(args[1]);
  FileSystem fileSystem = out.getFileSystem(configuration);
  if(fileSystem.exists(out))
   fileSystem.delete(out, true);

  FileInputFormat.addInputPath(job, in);
  FileOutputFormat.setOutputPath(job, out);

  System.exit(job.waitForCompletion(true)?0:1);
  return 0;
 }


    
 
 
 
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • Hadoop 2.1.0-beta 版发布
  • Hadoop开发插件 Hadoop Studio
  • Apache Hadoop 项目主页及介绍
  • Hadoop部署管理和扩展 Serengeti
  • Hadoop 2.0.5-alpha版发布
  • Spring Hadoop
  • Apache hadoop当前各个版本说明
  • Hadoop标准化安装工具 Cloudera
  • 安装hadoop时出现内存不够及其它一些常见的hadoop错误解决办法
  • Hadoop日志聚合器 White Elephant
  • hadoop 1.2.1 总体介绍
  • Hadoop的Jython封装 Happy
  • Hadoop介绍及最新稳定版Hadoop 2.4.1下载地址及单节点安装
  • Hadoop集群监控工具 HTools
  • 基于Hadoop的数据挖掘框架
  • Hadoop和数据库数据迁移工具 Sqoop
  • Hadoop框架及各部分组件介绍
  • Hadoop 开发工具 Apache HDT
  • Hadoop 1.2.1 单节点安装(Single Node Setup)步骤
  • 分布式系统基础架构 Hadoop
  • Hadoop 2.0.4-alpha 版发布
  • hadoop-clusternet


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3