文本分析研究方法有哪些?

 我来答
生活类答题小能手
高能答主

2021-05-12 · 专注生活类答题,解决生活问题
生活类答题小能手
采纳数:1645 获赞数:295647

向TA提问 私信TA
展开全部

1、“新批评”法

“新批评”的方法很基础,但也很实用,即从文本中“细读”出那些语言的非日常化运用,如“反讽”、“张力”等。“细读”现在已成为包括各种文本分析在内的一个基本功。“新批评”对诗与短篇小说等文本的分析,非常有用,但对于长篇小说就有些不知从何处下嘴了,只有结合叙述学的分析才容易提纲挈领。

2、符号学分析法

符号学其实是个相当宽泛的概念,我这里仅指最为经典也最常用的符号学分析方法,也就是格雷马斯的方法,主要包括矩阵分析和施动者分析等。当然,罗兰·巴特、托多罗夫等人还有其他的许多方法,但原理基本上都是一样的。所谓“结构主义”的分析方法,基本上也就是这些方法。

3、叙述学分析法

主要是故事分析(包括故事序列分析,故事类型分析等等),与叙述视角分析(包括叙述者的人称、位置、可信度;叙述者的声音、叙述的速度等)。当然,叙述学也同样关注人物的话语分析,看他说的话是直接引语还是间接引语,亦或是自由间接引语。

因为叙述学、符号学等都是建立在语言学基础上的,所以分析一篇小说就犹如分析一个句子,人物相当于主语,人物的行动相当于谓语,而人物的品质则相当于定语或状语。

4、解构主义法

解构主义的方法,代表人物是法国人德里达和美国人德·曼。解构主义的一个基本原则就是从文本的边缘进入,从而颠覆掉整个文本的通常意义。俗话说:千里之堤,溃于蚁穴,解构主义者就像那个颠覆了千里之堤的大蚂蚁。


5、互文、对话理论分析

此方法起源于巴赫金,成熟于托多罗夫、克里斯特娃、热奈特等。

结构主义一直视文本为相对封闭的系统,从而忽视了现实和社会的因素,而传统批评又只看到了社会忽略了文本,各有弊端。互文、对话理论的出现则很好地解决了这一问题,因为文本与现实社会之间被视为是互为文本的,是对话关系的,于是社会的因素与文本的规则都被分析到了。

6、文本社会学方法

这是一种综合性的分析方法,是将结构主义等形式主义的方法与社会学方法结合起来的产物,而且与西方马克思主义也关系密切。

SPSSAU
2024-02-01 · 百度认证:SPSSAU官方账号,优质教育领域创作者
SPSSAU
SPSSAU,也称"在线SPSS",一款网页版数据科学算法平台系统,提供"拖拽点一下"的极致体验和智能化分析结果。
向TA提问
展开全部

一、什么是文本分析?

作为一种新兴的基于定性研究的量化分析方法,文本分析法能够揭示文本的变化与特征,为经典问题的研究提供了新思路。

文本分析应用于多个领域,比如在旅游业中,可以通过文本分析去研究旅游形象感知情况,比如在经济学中,可以通过文本分析进行研究目前保险政策等等,以及还有其它领域都会应用到文本分析。

二、文本分析常见研究步骤

文本分析的常见步骤有五步,包括数据搜集、分词、数据清洗、特征提取以及建模和其它分析具体如下图:

  • 数据搜集
    文本分析的第一步需要进行数据搜集,获取文本数据的方式一般包括网络平台、媒体平台、新闻、知网、论坛等等。

  • 分词
    计算机会将我们导入的字符串进行分词划分便于后续的分析。

  • 数据清洗
    在文本分析的过程中,首先需要对文本进行预处理,预处理是非常重要的一步,它直接影响后续分析的准确性和可靠性。标点符号和停用词的去除是预处理的常见操作,可以有效地去除文本中的无关信息,提高分析效率。同时,对文本进行分词、去除停用词等操作,也有助于提取出更准确的关键词和主题。除此之外还会通过关键词词频,分布等等进行剖析文本的主题,以及有些研究者还会通过分析情感词去了解文本的情感倾向。

  • 特征提取
    数据清洗后进行特征提取,比如可以使用可视化板块里的tf-idf,其是常用的特征提取方法,它考虑了词汇在文本中的重要性和在语料库中的普遍性。TF-IDF值越高,表示该词汇在文本中的重要性越高,以及还有其它方法。

  • 后续分析

  • 利用文本数据进行后续分析,比如可视化图形展示、主题分析,聚类等等,下个模块会有说明。

三、SPSSAU如何操作?

文本分析的操作演示:通过SPSSAU主系统左侧仪表盘点击‘文本分析模块’进入。

进入文本分析模块后,研究者可以自行选择上传数据,包括粘贴文本进行上传或者上传txt/excel文件等(大小限制5m内)。如下图所示:

然后就可以根据自己的需求进行选择分析方法,进行分析:

四、文本分析都能干什么?

文本分析的应用有很多,以SPSSAU为例,其可以进行文本可视化(词云分析)、文本情感分析、文本聚类分析、社会网络关系图、LDA主题分析语义分析等等。

文本可视化

文本分析模块中,最重要和最基础的为展示分词结果,通常是使用词云进行展示。在‘词云分析等’中,SPSSAU提供四种功能,分别是词云分析、自定义词云、词定位和tf-idf。

  • 词云分析
    词云图直观展示住建很2023年12月共41条新闻内容的关键词信息,住户、城市、发展、建设等均是关键信息。默认是展示前100个高频关键词,可自主设置该数字。也可修改词云风格和下载该词云图。

自定义词云
如果对词云分析不满意,也可以使用自定义词云,研究者可将整理好的信息,包括关键词和其词频,直接粘贴(或者自主编辑)在表格中,然后就会出现相应的词云图。

词定位
通过词定位可以观察到某个词,具体出现在那些行中,可通过行号进行查看。

  • tf-idf

  • 文本分析中,tf-idf是个重要的指标,其反映某关键词在整份数据中的重要性程度,当tf-idf越高时,其重要性越高。其与词频的意义不尽相同,词频是指出现次数,而tf-idf更加关注于关键词的重要性程度。其中:tf-idf = tf * idf;其中tf:tf = n / N,其中n为某关键词的词频,N为整份数据关键词词频总和,N是个固定值,当n即词频越高时tf越高,说明该关键词越重要;idf = log(D/(1+d)),log是取对数,D为数据的行数,d为数据中某个词在多少行中出现过。D为固定值,d值越大即到处出现时idf反而越小,d值越小即并非到处出现时idf反而越高,idf越高代表某关键词重要性越高。

文本情感分析

目前,主流的文本情感分析方法可分为基于情感词典、机器学习和深度学习三类。基于情感词典的方法是传统的情感分析方法,它利用情感词典中的情感极性计算目标语句的情感值。尽管基于词典的分析方法实现简单,但其也有缺点,其准确率在很大程度上依赖于构建词典的质量,并且构建情感词典需要耗费大量人力物力,对新词的适应能力也较差。

文本分析模块中,SPSSAU共提供两种方式的情感分析,分别是按词情感分析和按行情感分析。按词情感分析是指针对提取的关键词进行情感分析,并且进行可视化展示;按行情感分析是指针对分析的原始数据以‘行’为单位进行情感分析,并且可下载具体的情感得分值信息等。

文本聚类

文本聚类即:将需要分析的关键词进行聚类分析,并且进行可视化展示,SPSSAU共提供两种文本聚类方式,分别是按词聚类和按行聚类。

社会网络关系图

社会网络关系图展示关键词之间的关系情况,此处的关系是指‘共词矩阵’,即两个关键词同时出现的频数情况,将‘共词矩阵’信息使用可视化方式进行呈现出来。

共词矩阵:主要用于表示关键词之间的关联强度。它是一个由行和列组成的矩阵,通过矩阵中的元素来表示关键词之间的关联程度。在共词矩阵中,元素的值越大,说明两个关键词之间的关联性越强,即它们共同出现的频率越高。

社会网络关系图:社会网络关系图在文本分析中的应用主要是为了揭示文本中各个实体之间的关联关系。这种关系图可以帮助我们更好地理解文本的主题和内容,发现文本中的隐藏信息和模式。

LDA主题分析

主题模型是指用来统计一系列文档中出现的主题个数的一种统计模型,LDA可以通过无监督的学习方法发现文本中隐含的主题信息。LDA将主题当成是文档内容的浓缩,所以我们可以通过LDA将大规模的语料库中的信息生成文档,生成的文档可以看作是由许多主题构成的,构成主题的每一个词汇又都是无序的,从而达到降低文档维数的效果,大大降低了问题的复杂性,同时也具有语义上的特征。SPSSAU结果如下(气泡大小表示该主题的重要性情况,以及条形的长度表示该主题时该词的权重大小情况):

新词发现

无法被词典识别到的,新词发现时涉及到两个关键指标,分别是:信息熵和互信息。信息熵越大即意味着某词越容易与其它词组合在一起形成一个词语,信息熵越小即意味着某词越不容易与其它词组合在一起。

停用词/情感词

停用词:停用词是指在文本中出现频率较高但对文本主题和内容贡献较小的词,停用词的去除可以提高分析效率和精度;

情感词:情感词是指表达情感或情感倾向的词,情感词的识别和分析可以帮助我们更好地理解文本的情感内涵;

本回答被网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式