中文分词技术解析-百姓标王

中文分词技术及应用

4 篇文章 0 订阅
			中文分词技术及应用

中文分词算法有5大类:
1、 基于词典的方法
2、基于统计的方法
3、基于规则的方法
4、基于字标注的方法
5、基于人工智能的技术(基于理解)的方法
中文分词目前有4个瓶颈:
1、分词歧义
2、未登陆词识别
3、分词粒度问题(表达相同意思的同一字串,在语料中存在不同的切分方式)
4、错别字与谐音字规范化
中文分词有5大评价标准:
1、分词正确率
2、切分速度
3、功能完备性
4、易扩展性与可维护性
中文信息处理包括3个层次:
1、词法分析(中文分词是第一步,词性标注)
2、句法分析:对输入的文本句子进行分析以得到句子的句法结构的处理过程,句法分析的输出结果常作为语义分析的输入。
2.1、短语结构句法分析:识别处句子中的短语结果以及短语间的层次句法关系
2.2、依存句法分析:识别句子中词汇与词汇之间的相互依存关系,属于浅层句法分析
2.3、深层文法句法分析:利用深层文法,如词汇化树邻接文法、词汇功能文法、组合范畴文法等,对句子进行深层句法分析。
3、语义分析:理解句子表达的真实语义
3.1、语义角色标注:属于浅层语义分析技术
在这里插入图片描述

1、基于词典的方法:字符串匹配,机器分词方法
原理:按照一定策略将待分析的汉字穿与一个“大词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。
1.1、按照扫描方向的不同:正向匹配&逆向匹配
1.2、按照长度的不同:最大匹配&最小匹配
1.3、按照是否与词性标注过程相结合:单纯分词方法&分词与标注相结合
1.1.1、基于字符串匹配方法:正向最大匹配算法(MM)
步骤:
1、从左向右取切分汉字句的m个字符串作为匹配字段,m为大机器词典中最长词条数
2、查找大机器词典并进行匹配,若匹配成功,则将这个匹配字段作为一个词切分出来,否则,则将这个匹配字段的最后一个词去掉,剩下的字符串继续匹配字段,直到以上过程切分到所有词为止。
优点:简单,易于实现
缺点:匹配速度慢,存在歧义切分问题,缺乏自学习的智能性。
2、基于统计的分词(无字典分词)
主要思想是:上下文中,相邻的字同时出现的次数越多,就越可能构成一个词。可以对训练文本中相邻出现的频度进行统计,计算他们之间的互现信息。互现信息体系了汉字之间结合的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字组可能构成一个词。该方法又称无字典分词。
主要统计模型有:N 元文法模型、隐马尔科夫模型等
在实际应用中一般将其与基于词典的分词方法结合起来使用,即可以发挥分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
2.1、N-gram模型
N-gram模型思想:第n个词的出现只![在这里插入图片描述](htt
与前面n-1个词相关,整句的概率就是各个词出现概率的乘积。
2.2、隐马尔科夫模型
原理:根据观测者序列找到真正的隐藏状态值序列
中文分词的应用:在这里插入图片描述

3、具体应用
中文分词是大部分下游应用的基础,小到POS词性标注、NER命名实体识别,大到自动分类、自动摘要、语音模型、自动摘要、搜索引擎、机器翻译、语音合成等。
以下具体阐述:中文分词在搜索引擎中的应用:
搜索引擎针对用户提交查询的关键词串进行查询处理后,根据用户的关键词串用各种匹配方法进行分词。
搜索引擎的查询处理:
1、首先到数据库里搜索相关信息
2、若用户提交的字符串不超过3个汉字,则直接去数据库索引
3、分词:若超过4个字符串,则用分隔符把用户提交的字符串分割成N个子字符串查询
4、检索用户提供的字符串里有无重复词汇,若有则去掉,默认为一个词汇,检索用户提交的字符串是否有字母和数字,若有则把字母与数字当作一个词

doulinxi115413 CSDN认证博客专家 CSDN认证企业博客
码龄7年 暂无认证
11
原创
25万+
周排名
101万+
总排名
9万+
访问
等级
1078
积分
23
粉丝
24
获赞
7
评论
145
收藏
私信

分层聚类(hierarchical clustering)

weixin_67169397: 在Hierarchical clustering 里为什么不简单地用两个 cluster 的中心点的距离作为这两个 cluster 的 linkage?

  • Pandas语法大全

    东方初白: 良心作者

  • 神经网络简单实例

    xl00000: 若用神经网络预测某有机物的沸点,那个y值应该怎么设置 必须要弄成0 或1 吗

  • k-fold cross validation(k-折叠交叉验证),python pandas (ix & iloc &loc) 的区别

    AmorFatiall 回复 一一狗熊的尾巴: [code=python] Traceback (most recent call last): 再请教一个问题,请问如下报错是怎么回事呢? File "D:/pycharm/tyd-data-analysis/titanic.py", line 183, in <module> for train, test in kf: TypeError: 'KFold' object is not iterable 代码: kf = KFold(n_splits=3, shuffle=False, random_state=1) predictions = [] for train, test in kf: train_target = titanic["Survived"].iloc[train] full_test_predictions = [] [/code]

  • k-fold cross validation(k-折叠交叉验证),python pandas (ix & iloc &loc) 的区别

    一一狗熊的尾巴 回复 AmorFatiall: 好像最新的不需要写n_folds了 直接上数字

  • 目录

    machain_learning
    10篇
  • deep_learning
    6篇
  • Python基础
    10篇
  • matplotlib
    2篇
  • tensorflow
    5篇
  • numpy
    2篇
  • pandas
    1篇
  • nlp
    4篇
  • 数据结构
    1篇
  • 工作资料
  • 数据分析
    1篇
  • Mysql
    6篇
  • 校招
  • hadoop
    3篇
  • 毕业论文
  • 为什么被折叠? 到【灌水乐园】发言
    前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值

    相关内容推荐

    茂名关键词seo排名机电关键词排名搜狗关键词刷排名 s衡阳关键词排名哪家好邢台seo优化关键词排名甘肃推广关键词排名优化策略毕节关键词排名优化百度关键词冷门排名关键词seo排名推广价格安徽省马鞍山市百度关键词排名河南平台关键词搜索排名花卉关键词排名深圳关键词排名点击今日头条关键词是怎么排名的焦作百度关键词搜索排名费用刷关键词排名软件哪个好用流量宝刷关键词排名乌鲁木齐抖音关键词排名下拉关键词排名需火星推荐莱芜关键词排名方案黄山网搜关键词排名优化选哪家谷歌关键词排名 德国拼多多关键词排名7至10好吗莆田关键词优化排名镇远网站关键词排名价格安阳平台长尾关键词排名技巧百度关键词地区排名广东关键词排名没有了索关键词排名进入云速捷抖音搜索关键词怎么排名靠前关键词排名app排行专业关键词排名报价企业关键词排名主要做什么的关键词优化零金手指排名贰拾威海市关键词seo排名优化安阳新站关键词排名优化软件长治推广关键词排名南宁关键词排名提升济源seo关键词排名哪家好关键词排名查询 店铺关键词出价排名多少位合适相城关键词排名费用关键词怎样在百度排名公众号关键词排名怎么查询竞价推广排名主要有关键词的淘宝关键词是按什么排名的市南区关键词seo排名优化西瓜标题关键词排名亳州关键词排名优化技巧网页关键词排名下降的苏州行业关键词排名推广方法抖音视频关键词搜索排名置顶北京关键词排名网站商品关键词排名是什么python排名关键词关键词排名有哪些因素鹤壁网站关键词点击排名技术一对一关键词排名经验关键词排名z候坡三测4自建站关键词搜索排名谷歌关键词排名 德国淘宝图和提升关键词排名关键词排名提升盟迸灬云速捷全自动关键词排名优化在线关键词排名建议下拉关键词排名首选30火星新站seo关键词排名系统关键词竞价排名的特点和不足河南平台关键词排名优化厂家竞争力大的关键词排名湖南搜狗关键词点击排名山西域名关键词排名查询关键词排名怎么做有效果关键词排名提升品牌易速达辽源关键词排名有哪些安徽网站关键词优化排名抖音关键词搜索排名查询刷关键词排名亲测云速捷选择查不同网站关键词排名的工具老卖家提升关键词排名关键词排名提升工作室怎么提高竞价关键词排名提高关键词的自然排名公司电话淘宝关键词 排名淘宝搜索关键词排名找不到肇庆市关键词seo排名优化茂名seo关键词排名优化杭州关键词排名公司台州关键词优化排名关键词快速排名全靠它易速达化关键词排名深度云速 捷沈阳关键词排名seo优化b2b关键词排名算法阿里巴巴怎么推广关键词排名怎么查我关键词在百度的排名潍坊潍城关键词优化排名哪家好怎么看淘宝类目关键词排名淄博关键词排名哪家公司好淄博360关键词排名昆明关键词网络推广快速排名关键词排名哪家比较好蚌埠关键词快速排名直通车关键词排名位置哪个好卫浴关键词排名公司刷关键词排名万金手指下拉三甘肃省关键词快速排名关键词排名嘉兴关键词搜索浏览器排名手机端搜索关键词排名化工关键词排名入门安阳关键词排名怎么收费毕节seo优化关键词排名朔州移动端关键词排名怎么搜索闲鱼关键词排名怎样淘宝关键词排名28个关键词排名技巧神马pc关键词排名软件价格仁怀市关键词搜索排名特定日期关键词排名怎么查珠海关键词排名推广哪家好关键词排名点击使用金手指广东网页关键词排名屯昌县关键词快速排名系统泰州姜堰关键词排名优化关键词竞价的排名和扣费怎么算深圳市关键词排名平台上万关键词排名优化价格关键词快速排名使用金苹果怎么查百度关键词搜索排名淘宝怎么做宝贝关键词排名郫都区关键词搜索推广公司排名上海关键词排名渠道宝贝的关键词排名靠前德江网站关键词排名公司拼多多关键词排名怎么刷江津百度关键词排名百色关键词排名快速提升关键词点击丨金手指排名15石景山关键词seo排名优化潍城关键词优化排名服务百度关键词竞价排名公司部分关键词排名突然下降很多辽宁价格低的seo关键词排名西藏自治区稳定关键词排名河南长尾关键词排名公司烟台百度关键词排名怎么做关键词排名厩问云速捷13关键词排名点击相信乐云下拉镇江百度关键词排名推广深圳辰硕关键词排名推广关键词实时排名 s关键词没有排名怎么回事关键词排名点击艾金苹果专业焦作新站关键词搜索排名费用临漳县关键词seo排名优化天门关键词排名优化淘宝每天关键词排名怎么查快速刷关键词排名 sit关键词排名薇星lb0179江西seo优化教程关键词排名商城关键词排名新乡整站关键词自然排名代理肇庆关键词排名培训南阳新站关键词排名技术查看京东关键词的排名忻州关键词排名推广山东网络关键词排名没有排名的关键词怎样优化2020年教育行业关键词排名济源排名快关键词推广公司沈河好的关键词排名刷关键词排名金苹果出词快关键词排名英文翻译黑龙江省关键词排名莱芜关键词排名优化贵港关键词优化排名用关键词如何查看宝贝排名关键词快速排名铣云速捷独尊快速关键词排名葡云速捷声名生意参谋怎么查询关键词排名php抓取关键词排名关键词优化氺金手指排名壹陆江西标题关键词排名关键词排名优化佳选火星下拉哈密关键词快速排名软件关键词排名查询采用火14星许昌网站关键词自然排名关键词网站排名采用火14星会泽县关键词seo排名优化莱芜关键词排名方案关键词排名seo软件刷关键词排名筛选地区有用吗亚马逊如何查看关键词排名呢竞价排名关键词匹配关键词外推代发排名山东品牌关键词排名七天上线海口批量关键词快速排名光明关键词排名优化服务商刷关键词排名 在线宙斯厉害安徽关键词排名 软件

    合作伙伴

    百姓标王

    龙岗网络公司
    深圳网站优化
    龙岗网站建设
    坪山网站建设
    百度标王推广
    天下网标王
    SEO优化按天计费
    SEO按天计费系统