将之前mapreduce生成的文件作为新一次mapreduce的输入文件，怎么划分字段

比如我第一次mapreduce执行完生成一个输出文件，内容只有一行，为hellohadoop，其中hello是key，hadoop是value。然后我一个新的mapred... 比如我第一次mapreduce执行完生成一个输出文件，内容只有一行，为hello hadoop，其中hello是key，hadoop是value。然后我一个新的mapreduce程序的输入文件就是该文件，我要将hello hadoop划分为两个字段，让str1 = hello， str2 = hadoop，需要怎么写。如果我把他作为普通文本来操作，会出现如下错误：
java.lang.Exception: java.lang.StringIndexOutOfBoundsException: String index out of range: 28
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354)
Caused by: java.lang.StringIndexOutOfBoundsException: String index out of range: 28
是不是因为不能把mapreduce的输出文件作为普通文本文件处理？展开

 我来答

2个回答

#热议# 应届生在签三方时要注意什么？

龙佐天下
推荐于2016-01-05 · TA获得超过1567个赞

知道小有建树答主

回答量：1379

采纳率：60%

帮助的人：1255万

我也去答题访问个人页

关注

展开全部

你第一个job应该使用的是TextOutputFormat，所以输出默认是key-value形式的文本文档，当作为输入之后默认是使用TextOutputFormat，读入的key是每行的偏移量而非上一个job输出时的key，这是需要显示设置第二个job的输入格式为KeyValueInputFormat。

追问

多谢！我第二个程序的输入形式用的还是TextInputFormat，然后判断\t来截取字段，可以通过了。如果按照你说的用KeyValueInputFormat，需要怎么写代码，main里面需要怎么更改

追答

使用KeyValueInputFormat不需要修改什么，只需要设置job的inputformat格式为KeyValueInputFormat
即可，你可以试试

本回答被提问者采纳

已赞过 已踩过<

评论收起

殷和军斯乔
2020-07-07 · TA获得超过1126个赞

知道小有建树答主

回答量：1937

采纳率：100%

帮助的人：11万

我也去答题访问个人页

关注

展开全部

part-r-0000这个文件时存放在hdfs上的，并非本地文件系统，所以你当然找不到了，你只能通过hdfs的命令查看，或者使用插件。
hdfs的文件虽然底层也是存放在本地文件系统的，但是你是没法显式查看的，跟数据库一样的。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

将之前mapreduce生成的文件作为新一次mapreduce的输入文件，怎么划分字段

其他类似问题

为你推荐：