小文件问题
Hadoop提供了两种容器专门用来解决小文件问题:SequenceFile
和MapFile
。
SequenceFile
SequenceFile
是一种二进制文件,它直接将<key, value>
键值对序列化到文件中。通过它对小文件进行合并,将文件名作为key
,文件内容作为value
序列化到合并的大文件中(但合并后的文件需要遍历才能查看每个小文件的内容)。
原创大约 9 分钟
Hadoop提供了两种容器专门用来解决小文件问题:SequenceFile
和MapFile
。
SequenceFile
是一种二进制文件,它直接将<key, value>
键值对序列化到文件中。通过它对小文件进行合并,将文件名作为key
,文件内容作为value
序列化到合并的大文件中(但合并后的文件需要遍历才能查看每个小文件的内容)。
查看文件列表。
> hdfs dfs -ls hdfs://172.16.185.176:9000/
# 或者
> hdfs dfs -ls /
> hdfs dfs -ls [-R] /