在python 环境下，使用结巴分词，自动导入文本，分词，提取关键词.脚本大侠给个 150

使用结巴分词，自动导入文本，分词，提取关键词.的脚本... 使用结巴分词，自动导入文本，分词，提取关键词.的脚本展开

 我来答

4个回答

#热议# 应届生在签三方时要注意什么？

无敌小绵羊啊
2018-01-03

知道答主

回答量：1

采纳率：0%

帮助的人：914

我也去答题访问个人页

关注

展开全部

# -*- coding: utf-8 -*-
import jieba
import jieba.posseg as pseg
import jieba.analyse
#jieba.load_userdict('userdict.txt')#jieba默认有一个dict.txt词库，但可以根据自己需要加入自己的词条

str1 = "训练一个可进行N维分类的网络的常用方法是使用多项式逻辑回归"
str2 = "可以尝试修改网络架构来准确的复制全连接模型"
str3 = "模型的目标函数是求交叉熵损失和所有权重衰减项的和，loss()函数的返回值就是这个值"

seg_list = jieba.cut(str1,cut_all =True) #全模式
print("/".join(seg_list))
result = pseg.cut(str1)
result2 = jieba.cut(str2) #精准模式
result3 = jieba.analyse.extract_tags(str3,4) #关键词提取
result4 = jieba.cut_for_search(str3) #搜索引擎模式

for w in result:
print(w.word,w.flag)
print(" ".join(result2))
print(" ".join(result3))
print(" ".join(result4))

已赞过 已踩过<

评论收起

lpe234
2017-08-14 · TA获得超过2778个赞

知道小有建树答主

回答量：1250

采纳率：50%

帮助的人：562万

我也去答题访问个人页

关注

展开全部

# -*- coding: UTF-8 -*-

import jieba

__author__ = 'lpe234'


seg_list = jieba.cut("我来到北京天安门", cut_all=True)
print ','.join(seg_list)

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/sv/cbmmknss3zx9rg7s3wsqgdsc0000gn/T/jieba.cache
我,来到,北京,天安,天安门
Loading model cost 0.433 seconds.
Prefix dict has been built succesfully.

Process finished with exit code 0

已赞过 已踩过<

评论收起

上外培训中心点
2013-08-21

知道答主

回答量：36

采纳率：0%

帮助的人：14.6万

我也去答题访问个人页

关注

展开全部

这个是要监控敏感词吗？？？

已赞过 已踩过<

评论收起

好好学习der
2013-08-12 · TA获得超过3908个赞

知道小有建树答主

回答量：1816

采纳率：0%

帮助的人：1283万

我也去答题访问个人页

关注

展开全部

Python代码 
#encoding=utf-8   
import jieba   
  
seg_list = jieba.cut("我来到北京清华大学",cut_all=True)   
print "Full Mode:", "/ ".join(seg_list) #全模式   
  
seg_list = jieba.cut("我来到北京清华大学",cut_all=False)   
print "Default Mode:", "/ ".join(seg_list) #默认模式   
  
seg_list = jieba.cut("他来到了网易杭研大厦")   
print ", ".join(seg_list)

#encoding=utf-8  
import jieba  
  
seg_list = jieba.cut("我来到北京清华大学",cut_all=True)  
print "Full Mode:", "/ ".join(seg_list) #全模式  
  
seg_list = jieba.cut("我来到北京清华大学",cut_all=False)  
print "Default Mode:", "/ ".join(seg_list) #默认模式  
  
seg_list = jieba.cut("他来到了网易杭研大厦")  
print ", ".join(seg_list)

输出

Full Mode: 我/ 来/ 来到/ 到/ 北/ 北京/ 京/ 清/ 清华/ 清华大学/ 华/ 华大/ 大/ 大学/ 学   
  
Default Mode: 我/ 来到/ 北京/ 清华大学   
  
他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

更多追问追答
追问

哥们啊 。是自动导入文本，比如 2M的文本，不是一个一个的来啊。
他的脚本
追答

#encoding=utf-8
import sys
sys.path.append("../")
import jieba
jieba.load_userdict("userdict.txt")  #自定义的字典
import jieba.posseg as pseg

test_sent = "李小福是创新办主任也是云计算方面的专家;"
test_sent += "例如我输入一个带“韩玉赏鉴”的标题，在自定义词库中也增加了此词为N类型"
words = jieba.cut(test_sent)
for w in words:
    print w

result = pseg.cut(test_sent)

for w in result:
    print w.word, "/", w.flag, ", ",  

print "\n========"

terms = jieba.cut('easy_install is great')
for t in terms:
    print t
print '-------------------------'
terms = jieba.cut('python 的正则表达式是好用的')
for t in terms:
    print t
追问

可能我描述的不清晰：
导入 需要分析的文本-》分词-》提取关键词-》输入文本。的自动脚本

再加上 上面的 语句 执行是提示错误.也不知道错哪了
追答

后来的这个是单独的测试代码
你需要弄一个userdict.txt过去
另外这代码是py2的
追问

能远程指导下部

还是错误  用的是27的

已赞过 已踩过<

评论收起

2条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

在python 环境下，使用结巴分词，自动导入文本，分词，提取关键词.脚本 大侠给个 150

其他类似问题

为你推荐：

在python 环境下，使用结巴分词，自动导入文本，分词，提取关键词.脚本大侠给个 150