- 浏览: 186905 次
文章分类
最新评论
利用sequenceFile打包多个小文件,MapFile是sequenceFile的排序形式,程序如下:
public class testSequenceFile { public static void main(String[] args) throws IOException{ Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); FileStatus[] files = fs.listStatus(new Path(args[0])); Text key = new Text(); Text value = new Text(); SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, new Path(args[1]),key.getClass() , value.getClass()); InputStream in = null; byte[] buffer = null; for(int i=0;i<files.length;i++){ key.set(files[i].getPath().getName()); in = fs.open(files[i].getPath()); buffer = new byte[(int) files[i].getLen()]; IOUtils.readFully(in, buffer, 0, buffer.length); value.set(buffer); IOUtils.closeStream(in); System.out.println(key.toString()+"\n"+value.toString()); writer.append(key, value); } IOUtils.closeStream(writer); } }
这里需要注意的是sequenceFile是二进制文件,cat more less 之类的命令都不能以文本形式显示顺序文件的内容,需要用到fs命令的-text选项,该选项可以查看文件的代码,检测出文件的类型并适当的转化成文本,如下图“
KeXie@KeXie-PC ~/hadoop-0.20.2 $ hadoop fs -cat soutput SEQorg.apache.hadoop.io.Textorg.apache.hadoop.io.Text*org.apache.hadoop.io.compress.DefaultCodec▒A▒=▒▒=U▒2▒,a.txtx▒▒▒L▒,*▒▒,,M▒▒▒▒<▒A#b.txtx▒▒L▒H▒▒▒y▒\▒▒▒y▒\@6n:c.txtx▒▒+*▒▒,,M▒▒▒▒%▒▒ KeXie@KeXie-PC ~/hadoop-0.20.2 $ hadoop fs -text soutput a.txt xie chen liang quan b.txt chen chen wen an wen c.txt mo an an
发表评论
-
多表join的一个优化思路
2012-11-20 11:24 1405big table:streamed small table: ... -
好的网站
2012-09-20 22:17 7431. http://www.cnblogs.com/luche ... -
Hadoop 任务流程
2012-09-07 16:18 777简单的来说分为四个阶段:InputFormat/MapTask ... -
Hadoop关于最大map reducer数目
2012-08-14 20:53 916mapred-site.xml文件: <prop ... -
java.io.IOException:Typemismatch in key from map:expected org.apache.hadoop.io
2012-08-14 20:53 1413解决办法: jo ... -
HDFS 输入文件避免切分
2012-08-14 20:52 1082自定义InputFormat的子类,并把重载方法 ... -
Hadoop 开启debug信息
2012-08-14 20:51 3950运行hadoop程序时,有时候你会使用一些System. ... -
Hadoop 关于0.95/1.75 * (number of nodes)误解
2012-08-14 20:51 938reduce任务槽,即集群能够同时运行的redu ... -
MapReduce ReadingList
2012-08-09 12:22 6611. http://www.aicit.org/jcit/gl ... -
"hadoop fs 和hadoop dfs的区别"
2012-05-30 15:27 1874粗略的讲,fs是个比较抽象的层面,在分布式环境中,fs就是df ... -
Hadoop 自动清除日志
2012-05-29 18:02 889hadoop集群跑了很多的任务后 在hadoop.log ... -
DistributedCache FileNotFoundException
2012-05-26 18:02 940此时注意两种文件路径表示形式,一个在HDFS中。一一个是本地文 ... -
Cygwin 不支持native lib 不支持使用native lib 提供的压缩
2012-05-25 13:33 1104弄了一个上午hadoop的压缩,一直报错NullPointer ... -
Hadoop 在Window下搭建 守护进程启动问题
2012-05-23 15:27 776hadoop version “0.20.2” java ... -
Cygwin ssh Connection closed by ::1
2012-05-17 21:09 1103在Win7下Cygwin中,使用sshlocalhost命令, ... -
Eclipse:Run on Hadoop 没有反应
2012-05-10 20:11 846hadoop-0.20.2下自带的eclise插件没有用,需要 ... -
Hadoop 自定义计数器
2012-04-22 09:04 1449public static class mapper e ... -
MapReduce : 新版API 自定义InputFormat 把整个文件作为一条记录处理
2012-04-10 21:47 2255自定义InputFormat 新版API 把真个文件当成 ... -
MapReduce : Combiner的使用(以平均数为例) 并结合in-mapper design pattern 实例
2012-04-10 18:51 4286没有使用Combiner 和 in-mapper des ... -
Hadoop NameNode backup
2012-03-24 18:12 815NameNode: <property> ...
相关推荐
为了比较在相同的Hadoop分布式环境下这四种技术处理大量小文件时的性能,选用了典型的数据集,利用词频统计程序,来比较四种小文件处理技术的性能差异。实验研究表明,在不同需求下处理大量小文件的时候,选用适当的...
第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件...
hadoop处理海小文件的一种改进方法的文章,可供参考。
hadoop3.3.0-winutils所有bin文件,亲测有效
Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷。...通过分析得出多个小文件整合为一个数据片split有助于改善Hadoop处理小文件性能。
Hadoop关于处理大量小文件的问题和解决方法.docx
winutils.exe是在window系统上安装hadoop时所需要的winutils文件,内附多个版本,支持 hadoop-2.6.3 hadoop-2.6.4 hadoop-2.7.1 hadoop-2.8.0-RC3 hadoop-2.8.1 hadoop-2.8.3 hadoop-3.0.0 已通过本人对 Hadoop-...
基于 Hadoop 的海量小文件处理技术研究 ,主要工作包括两个方面: 1) 基于多层索引的小文件读写策略的研究与实现。本文根据 Hadoop 平台现 有小文件处理的思想,对海量小文件进行合并然后建立索引。其中索引结构的设...
hadoop/etc/hadoop/6个文件 core-site.xml hadoop-env.sh hdfs-site.xml mapred-site.xml yarn-env.sh yarn-site.xml
hadoop的dll文件 hadoop.zip
hadoop2.8.2 的四个配置参数文件,基出centos6.5安装的hadoop,四个配置文件分别是:hdfs-site.xml, mapred-site.xml, core-site.xml, yarn-site.xml,
该文件含有在windows中配置hadoop很重要的两个文件,下载后解压能电脑位数解压相应的文件,并把winutils.exe和hadoop.dll放到相应的位置
Hadoop HA 集群搭建所需要的配置文件:core-site,hdfs-site,mapred-site,yarn-site四个xml文件和一个slaves文件
利用hadoop集群处理分析日志文件
第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式...
Hadoop分布式文件系统的模型分析,Hadoop 分布式文件系统是遵循Google 文件系统原理进行开发和实现的,受到了业界极大关注,并 已被广泛应用。 鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从 Hadoop ...
十分详细的Hadoop虚拟集群的搭建,手把手教,从安装虚拟机到集群搭建完成每一步手把手教,包教包会。
hadoop的默认配置文件,下载记得关注我哦
搭建hadoop集群的全部配置文件,全在里面了,跟我的文章配合起来用
hadoop-2.6.0单机模式配置文件,利用该配置可以成功启动Hadoop