英汉讲笑话的异同分析
2个回答
展开全部
一、中英文分词方式不同
分词是中英文NLP差异最广为人知的一点。我们都知道英文的单词之间天然存在空格来分隔,因此在进行英文文本处理时,可以非常容易的通过空格来切分单词。例如英文句子:
DataGrand is a Chinese company
可轻松切分为DataGrand / is / a / Chinese / company (文本用/表示词汇分隔符)。
中文在每句话中间是不存在分隔符的,而是由一串连续的汉字顺序连接构成了句子。现代汉语里表达意思的基本语素是词而不是字。例如“自然”,拆为“自”和“然”都不能单独表意,两个字合并组成的词才能有准确的意义,对应英文单词是Nature。因此在我们使用计算机技术对中文进行自动语义分析时,通常首要操作就是中文分词(Chinese Word Segmentation)。中文分词是指按人理解汉语的方式,将连续的汉字串切分为能单独表义的词汇。例如中文句子:
“达观数据是一家中国公司。”
让计算机来处理,第一步需要切分为“达观数据/是/一家/中国/公司”这样的词串的形式,然后再进行后续的理解和处理。
如何正确的根据语义完成中文切分是一个挑战性的任务,一旦切词发生失误,会导致后续的文本处理产生连锁问题,给正确理解语义带来障碍。为了快速准确的切分好中文,学术界迄今有超过50年的研究,提出了很多方法。中文切词常见方法里既有经典的机械切分法(如正向/逆向最大匹配,双向最大匹配等),也有效果更好一些的统计切分方法(如隐马尔可夫HMM,条件随机场CRF),以及近年来兴起的采用深度神经网络的RNN,LSTM等方法。
由于汉语语法本身极为灵活,导致歧义语义时常发生,给正确完成中文分词带来了很多障碍。如例句“严守一把手机关了”所示,按照语义理解,正确切分方式为“严守一/把/手机/关了”,而算法有误时容易切分为“严守/一把/手机/关了”。
更困难的是,有些时候两种切词方法意思都对,例如“乒乓球拍卖了”,切分为“乒乓/球拍/卖了”和“乒乓球/拍卖/了”本身都可行,必须要依赖更多上下文来选择当前正确的切分方法。类似的还有“南京市长江大桥”、“吉林省长春药店”等等。如果把“市长”“省长”等切出来,整句话的理解就偏差很多了。常见歧义类型包括交叉歧义(Cross Ambiguity)和组合歧义(Combination Ambiguity)等,在语义消岐方面近年不断有国内外学者提出新的解决思路,来解决汉藏语系的这个特定问题。
此处顺便一提,和中文类似,日文句子内部同样缺乏天然的分隔符,因此日文也同样存在分词需求。日文受汉语语法的影响很深,但同时又受表音语法的影响,明治时代还曾兴起过废汉字兴拼音的运动,行文上汉字和假名混杂,好比中英文混血儿。业内比较知名的日文分词器有MeCab,其算法内核是条件随机场CRF。事实上,如果将MeCab的内部训练语料由日文更换为中文后,也同样可以用于切分中文。
随着深度学习技术近年来在NLP领域成功的应用,一些seq2seq学习过程可以不再使用分词,而是直接将字作为输入序列,让神经网络自动学习其中的特征,这在一些端到端的应用中(如自动摘要、机器翻译、文本分类等)确实省略了中文分词这一步骤,但是一方面还有很多的NLP应用离不开分词的结果,如关键词提取、命名实体识别、搜索引擎等;另一方面切分所得的词汇也可以和单字一起作为特征输入,用以增强效果。因此分词仍然是工程界进行中文处理时的一项重要技术。
二、英文语素和中文偏旁的使用
英文单词的提取虽然比中文简单的多,通过空格就能完整的获取单词,但英文特有的现象是单词存在丰富的变形变换。为了应对这些复杂的变换,英文NLP相比中文存在一些独特的处理步骤,我们称为词形还原(Lemmatization)和词干提取(Stemming)。
词形还原是因为英文单词有丰富的单复数、主被动、时态变换(共16种)等情况,在语义理解时需要将单词“恢复”到原始的形态从而让计算机更方便的进行后续处理。例如“does,done,doing,do,did”这些单词,需要通过词性还原统一恢复为“do”这个词,方便后续计算机进行语义分析。类似的:“potatoes,cities,children,teeth”这些名词,需要通过Lemmatization转为“potato,city,child,tooth”这些基本形态;同样“were,beginning,driven”等要转为“are,begin,drive”。
请注意词形还原通常还需要配合词性标注(pos-tag)一起来进行,以确保还原准确度,避免歧义发生。因为英文中存在一些多义词的情况,例如calves就是个多义词,即可以作为calf(名词,牛犊)的复数形式,也可以是calve(动词,生育小牛)的第三人称单数。所以词形还原也有两种选择,需要按实际所表示的词性来挑选合适的还原方法。
分词是中英文NLP差异最广为人知的一点。我们都知道英文的单词之间天然存在空格来分隔,因此在进行英文文本处理时,可以非常容易的通过空格来切分单词。例如英文句子:
DataGrand is a Chinese company
可轻松切分为DataGrand / is / a / Chinese / company (文本用/表示词汇分隔符)。
中文在每句话中间是不存在分隔符的,而是由一串连续的汉字顺序连接构成了句子。现代汉语里表达意思的基本语素是词而不是字。例如“自然”,拆为“自”和“然”都不能单独表意,两个字合并组成的词才能有准确的意义,对应英文单词是Nature。因此在我们使用计算机技术对中文进行自动语义分析时,通常首要操作就是中文分词(Chinese Word Segmentation)。中文分词是指按人理解汉语的方式,将连续的汉字串切分为能单独表义的词汇。例如中文句子:
“达观数据是一家中国公司。”
让计算机来处理,第一步需要切分为“达观数据/是/一家/中国/公司”这样的词串的形式,然后再进行后续的理解和处理。
如何正确的根据语义完成中文切分是一个挑战性的任务,一旦切词发生失误,会导致后续的文本处理产生连锁问题,给正确理解语义带来障碍。为了快速准确的切分好中文,学术界迄今有超过50年的研究,提出了很多方法。中文切词常见方法里既有经典的机械切分法(如正向/逆向最大匹配,双向最大匹配等),也有效果更好一些的统计切分方法(如隐马尔可夫HMM,条件随机场CRF),以及近年来兴起的采用深度神经网络的RNN,LSTM等方法。
由于汉语语法本身极为灵活,导致歧义语义时常发生,给正确完成中文分词带来了很多障碍。如例句“严守一把手机关了”所示,按照语义理解,正确切分方式为“严守一/把/手机/关了”,而算法有误时容易切分为“严守/一把/手机/关了”。
更困难的是,有些时候两种切词方法意思都对,例如“乒乓球拍卖了”,切分为“乒乓/球拍/卖了”和“乒乓球/拍卖/了”本身都可行,必须要依赖更多上下文来选择当前正确的切分方法。类似的还有“南京市长江大桥”、“吉林省长春药店”等等。如果把“市长”“省长”等切出来,整句话的理解就偏差很多了。常见歧义类型包括交叉歧义(Cross Ambiguity)和组合歧义(Combination Ambiguity)等,在语义消岐方面近年不断有国内外学者提出新的解决思路,来解决汉藏语系的这个特定问题。
此处顺便一提,和中文类似,日文句子内部同样缺乏天然的分隔符,因此日文也同样存在分词需求。日文受汉语语法的影响很深,但同时又受表音语法的影响,明治时代还曾兴起过废汉字兴拼音的运动,行文上汉字和假名混杂,好比中英文混血儿。业内比较知名的日文分词器有MeCab,其算法内核是条件随机场CRF。事实上,如果将MeCab的内部训练语料由日文更换为中文后,也同样可以用于切分中文。
随着深度学习技术近年来在NLP领域成功的应用,一些seq2seq学习过程可以不再使用分词,而是直接将字作为输入序列,让神经网络自动学习其中的特征,这在一些端到端的应用中(如自动摘要、机器翻译、文本分类等)确实省略了中文分词这一步骤,但是一方面还有很多的NLP应用离不开分词的结果,如关键词提取、命名实体识别、搜索引擎等;另一方面切分所得的词汇也可以和单字一起作为特征输入,用以增强效果。因此分词仍然是工程界进行中文处理时的一项重要技术。
二、英文语素和中文偏旁的使用
英文单词的提取虽然比中文简单的多,通过空格就能完整的获取单词,但英文特有的现象是单词存在丰富的变形变换。为了应对这些复杂的变换,英文NLP相比中文存在一些独特的处理步骤,我们称为词形还原(Lemmatization)和词干提取(Stemming)。
词形还原是因为英文单词有丰富的单复数、主被动、时态变换(共16种)等情况,在语义理解时需要将单词“恢复”到原始的形态从而让计算机更方便的进行后续处理。例如“does,done,doing,do,did”这些单词,需要通过词性还原统一恢复为“do”这个词,方便后续计算机进行语义分析。类似的:“potatoes,cities,children,teeth”这些名词,需要通过Lemmatization转为“potato,city,child,tooth”这些基本形态;同样“were,beginning,driven”等要转为“are,begin,drive”。
请注意词形还原通常还需要配合词性标注(pos-tag)一起来进行,以确保还原准确度,避免歧义发生。因为英文中存在一些多义词的情况,例如calves就是个多义词,即可以作为calf(名词,牛犊)的复数形式,也可以是calve(动词,生育小牛)的第三人称单数。所以词形还原也有两种选择,需要按实际所表示的词性来挑选合适的还原方法。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询