中文分词技术及应用
中文分词技术及应用
中文分词算法有5大类:
1、 基于词典的方法
2、基于统计的方法
3、基于规则的方法
4、基于字标注的方法
5、基于人工智能的技术(基于理解)的方法
中文分词目前有4个瓶颈:
1、分词歧义
2、未登陆词识别
3、分词粒度问题(表达相同意思的同一字串,在语料中存在不同的切分方式)
4、错别字与谐音字规范化
中文分词有5大评价标准:
1、分词正确率
2、切分速度
3、功能完备性
4、易扩展性与可维护性
中文信息处理包括3个层次:
1、词法分析(中文分词是第一步,词性标注)
2、句法分析:对输入的文本句子进行分析以得到句子的句法结构的处理过程,句法分析的输出结果常作为语义分析的输入。
2.1、短语结构句法分析:识别处句子中的短语结果以及短语间的层次句法关系
2.2、依存句法分析:识别句子中词汇与词汇之间的相互依存关系,属于浅层句法分析
2.3、深层文法句法分析:利用深层文法,如词汇化树邻接文法、词汇功能文法、组合范畴文法等,对句子进行深层句法分析。
3、语义分析:理解句子表达的真实语义
3.1、语义角色标注:属于浅层语义分析技术
1、基于词典的方法:字符串匹配,机器分词方法
原理:按照一定策略将待分析的汉字穿与一个“大词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。
1.1、按照扫描方向的不同:正向匹配&逆向匹配
1.2、按照长度的不同:最大匹配&最小匹配
1.3、按照是否与词性标注过程相结合:单纯分词方法&分词与标注相结合
1.1.1、基于字符串匹配方法:正向最大匹配算法(MM)
步骤:
1、从左向右取切分汉字句的m个字符串作为匹配字段,m为大机器词典中最长词条数
2、查找大机器词典并进行匹配,若匹配成功,则将这个匹配字段作为一个词切分出来,否则,则将这个匹配字段的最后一个词去掉,剩下的字符串继续匹配字段,直到以上过程切分到所有词为止。
优点:简单,易于实现
缺点:匹配速度慢,存在歧义切分问题,缺乏自学习的智能性。
2、基于统计的分词(无字典分词)
主要思想是:上下文中,相邻的字同时出现的次数越多,就越可能构成一个词。可以对训练文本中相邻出现的频度进行统计,计算他们之间的互现信息。互现信息体系了汉字之间结合的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字组可能构成一个词。该方法又称无字典分词。
主要统计模型有:N 元文法模型、隐马尔科夫模型等
在实际应用中一般将其与基于词典的分词方法结合起来使用,即可以发挥分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
2.1、N-gram模型
N-gram模型思想:第n个词的出现只![在这里插入图片描述](htt
与前面n-1个词相关,整句的概率就是各个词出现概率的乘积。
2.2、隐马尔科夫模型
原理:根据观测者序列找到真正的隐藏状态值序列
中文分词的应用:
3、具体应用
中文分词是大部分下游应用的基础,小到POS词性标注、NER命名实体识别,大到自动分类、自动摘要、语音模型、自动摘要、搜索引擎、机器翻译、语音合成等。
以下具体阐述:中文分词在搜索引擎中的应用:
搜索引擎针对用户提交查询的关键词串进行查询处理后,根据用户的关键词串用各种匹配方法进行分词。
搜索引擎的查询处理:
1、首先到数据库里搜索相关信息
2、若用户提交的字符串不超过3个汉字,则直接去数据库索引
3、分词:若超过4个字符串,则用分隔符把用户提交的字符串分割成N个子字符串查询
4、检索用户提供的字符串里有无重复词汇,若有则去掉,默认为一个词汇,检索用户提交的字符串是否有字母和数字,若有则把字母与数字当作一个词