kettle中做查询时，遇到大数据时怎么处理

 我来答

1个回答

#热议# 海关有哪些禁运商品？查到后怎么办？

就烦条0o
2016-05-29 · 知道合伙人软件行家

就烦条0o
知道合伙人软件行家

采纳数：33315 获赞数：46492

从事多年系统运维，喜欢编写各种小程序和脚本。

向TA提问私信TA

关注

展开全部

在kettle常常有处理从一个源数据中做转换.做转换的时候, 需要去查另一个数据库.

这种问题遇到数据小时候还好办. 但是数据魇时候就麻烦来了.
下面针对三种情况做具体情况的选择办法
1. 当需要转换的数据特别大的时候, 例如: 10W条以上.或者100W条以上时.

上图中,hadoop数据导入,导入的数据如果够多,例如100W条以上,其中一个字段需要查询数据库中查询,而这个字段的类型并不多,例如只有10个类
型或者数据库中就只有这10个类型.那么,可以走线路2, 并且线路2中的 "使用缓存"
可以打勾,也可以不打.当然你这个源里的数据太多,打上当然最好了.因为省得再去你的数据库里再查.
但是当源里的数据类型还是只有10个类型,但是你的数据库里面存了有10000条记录时,怎么办?
有两种解决办法:
1).线路2:并且查询节点中的 "使用缓存" 不能打勾.
2).线路1,并在"带条件的结果查询供流查询使用" 这个结点中,用一个SQL,过滤一下数据,然后尽可能地把那里包括的这些记录查出来.这样在流里的比对时.也很快很多.必竟是在内存里做运算了

2. 查另一个数据库的数据量大时,而你的源数据不大.

最好的选择是
线路1,并在"带条件的结果查询供流查询使用" 这个结点中,用一个SQL,过滤一下数据,然后尽可能地把那里包括的这些记录查出来.这样在流里的比对时.也很快很多.必竟是在内存里做运算了

3. 当两个数据源都非常大时(最不想遇到的)
这种情况是最不想遇到的办法
一种选择:
1).线路2中的 "使用缓存" 打勾.

本回答由网友推荐

已赞过 已踩过<

评论收起

ZESTRON
2024-09-04 广告

在Dr. O.K. Wack Chemie GmbH，我们高度重视ZESTRON的表界面分析技术。该技术通过深入研究材料表面与界面的性质，为提升产品质量与可靠性提供了有力支持。ZESTRON的表界面分析不仅涵盖了相变化、化学反应、吸附与解吸... 点击进入详情页

本回答由ZESTRON提供

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

一款颜值和功能都很打的SSH工具

AI解答，让你的疑问得到即时解答AI智能提示，让每一个命令都无需猜测完全自定义布局，满足个性化需求图表化实时监控，清晰掌握系统状态

Pentaho【Kettle企业商用版】原厂促销中

企业商用版加强了调度、安全、高可用、高扩展、AI算法、BI分析等高级功能。加之原厂兜底服务保障，在构筑湖仓、IoT、AI、治理等平台过程中获得广泛应用

www.hitachi-solutions.cn广告

kettle中做查询时，遇到大数据时怎么处理

您可能关注的内容

其他类似问题

为你推荐：