NLP文本分类学习系列(二)

 我来答
会哭的礼物17
2022-06-15 · TA获得超过1.2万个赞
知道大有可为答主
回答量:6598
采纳率:100%
帮助的人:38.7万
展开全部

答1:文本长度平均为872个字符,最小的有64个,最长的有7125个,大部分在1000以下。

在数据集中标签的对应的关系如下:{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13}
答2:由此可见,“体育”、“股票” 占比最高,“科技”、“娱乐”次之,类别分布不是很均衡。

答3:最多的字符,平均30次/篇,高频的字符很可能是标点或停用词,需要过滤。

本章作业

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式