udaf可以用python写吗

 我来答
城南明月羿当年
推荐于2016-06-18 · 知道合伙人生活技巧行家
城南明月羿当年
知道合伙人生活技巧行家
采纳数:24666 获赞数:123229
计算机爱好者

向TA提问 私信TA
展开全部
Java来实现Hive的写法

package jsl.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public final class DomainRoot extends UDF {
public Text evaluate(Text s) {
if (s == null) {return null;}
String tmp = s.toString();
tmp = this.getDomainRoot(tmp);
return new Text(tmp);
}

private String getDomainRoot(String domain) {
throw NoneImplementException("xxxx");
}
}

如果Java的UDF需要当成常用的,不用每次add可以注册到Hive中,
ql/src/java/org/apache/hadoop/hive/ql/exec/FunctionRegistry.java中加入
registerUDF("domain_root", UDFParseUrl.class, false);并重新编译hive即可

下面来说说重点,通过Streaming用Python来写处理。
关于Streaming的基础内容:

约束:首先必须add file到hive中(当python中引用了其他如自己写的模块时,也需要一并add进去)
其次非常不幸,在单独的一个查询中,不能够使用UDAF的函数如sum()
再次不得为中间结果数据使用cluster by或distribute by

注意:对于优化查询,使用cluster by或distribute by 和sort by一起非常重要
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式