Hive和Spark当中对小文件的处理

 我来答

1个回答

#合辑# 面试问优缺点怎么回答最加分？

天罗网17
2022-06-28 · TA获得超过6200个赞

知道小有建树答主

回答量：306

采纳率：100%

帮助的人：73.7万

我也去答题访问个人页

关注

展开全部

数仓面试高频考点：
【在Hive中如何解析小文件过多问题，指定的是：处理表中数据时，有很多小文件】

如果没有显示表的统计信息，执行如下命令，再次查看表信息
ANALYZE TABLE db_hive.emp COMPUTE STATISTICS;

| Table Parameters: | NULL | NULL |
| | COLUMN_STATS_ACCURATE | {"BASIC_STATS":"true"} |
| | bucketing_version | 2 |
| | numFiles | 1 |
| | numRows | 14 |
| | rawDataSize | 643 |
| | totalSize | 656 |
| | transient_lastDdlTime | 1655113125 |
| | NULL | NULL |

第一种,将小文件合并成一个大文件
第二种,使用SparkContext中提供： wholeTextFiles 方法，专门读取小文件数据。
将每个文件作为一条KV存储在RDD中， K：文件名的绝对路径，V：文件的内容
用于解决小文件的问题，可以将多个小文件变成多个KV，自由指定分区个数

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

Hive和Spark当中对小文件的处理

其他类似问题

为你推荐：