两张千万级数据表关联是hash join两个TAF最快吗

 我来答
匿名用户
2017-01-16
展开全部
两张千万级数据表关联是hash join两个TAF最快
举一个简单的例子来说明SQL Server 中hash join的算法.
例如有两张表, 每张表都有10000行的记录, 假设做join的两个字段都是从1到10000的序数.
如果要做hashjoin, 那么首先对其中的一个表上的列进行hash运算, 将生成相同值的列放在一个桶里.
为了简单起见, 假定这里的hash运算就是模100, 那么这些行经过hash运算后, 会生成100组数据,也就是100个桶. 每个桶中都是100条除100后余数相同的记录.
然后对另一个表中的join列做相同的hash运算, 根据得到的余数,放入对应的桶里.
于是得到的结果就是100个hash桶中, 每个桶中都有200条记录, 分别来自两个表.
然后在桶内,再做nested loop join, 这样一个桶中最多做100*100次的比对, 100个桶最多做1,000,000次的比对.
而如果一开始就用nested loop join, 则最多需要做10000*10000次, 也就是100,000,000次. 两种算法就比对的次数来说,相差了100倍, 差异是很明显的.
另外在多cpu的服务器上, hashjoin可以并行的执行,而nestedloop join 通常只能串行的执行,这就使执行时间的差异更加明显.
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式