您当前的位置：首页 > php

PHP中文分词代码 v1.0 UTF-8

2021-01-21 17:55:23 35资源网(www.35d.net)

php

下载本资源原文网址：http://www.daima.org/php/php6811.html
PHP中文分词代码使用居于unicode的词库，使用反向匹配模式分词，理论上兼容编码更广泛，并且对utf-8编码尤为方便。由于PhpanAlysis是无组件的系统，因此速度会比有组件的稍慢，不过在大量分词中，由于边分词边完成词库载入，因此内容越多，反而会觉得速度越快，这是正常现象，对于支持PHP-APC的服务器，本程序支持对词典进行缓存，这样做之后理论的速度并不慢于那些带组件的分词程序了。
分词系统是基于字符串匹配的分词方法，这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下：
　　 1）正向最大匹配法（由左到右的方向）；
　　 2）逆向最大匹配法（由右到左的方向）；
　　 3）最少切分（使每一句中切出的词数最小）。
　　还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。
　　一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。

下载地址：	[ 下载地址1 ] 消耗积分:0分 [ 下载地址2 ] 消耗积分:0分 [ 下载地址3 ] 消耗积分:0分
网盘密码	（密码：）

TOPMV 顶好影音php智能建站系统 v1.3

think仓储管理系统 PHP源码 v1.1.2 build20111121

赞助

相关代码

无相关信息

最新代码

栏目热门

Tags: 微信小程序源码源码下载 HTML5游戏 92Game 整站源码 PHP 商业版帝国CMS cms 完整版网站源码织梦模板织梦 wordpress插件下载最新 html5源码微信小程序源码帝国CMS内核带后台微信公众号 DEDECMS HTML5 完整源码微信自动采集完整版源码 ecshop 源代码 Thinkphp dede织梦模板 PHP+MYSQL 小程序小程序源码 DESTOON6.0 搜客淘宝客淘宝客更新包合集带手机版整站手机版完整运营版游戏 92 92kaifa 完整商业版源码管理系统 dedecms模板织梦CMS内核带数据电影网站系统多城市生成静态免费下载一键安装版系统源码多多淘宝客同步包

资源大全_资源下载网站：www.35d.net 本站资源仅限研究学习使用，如需商用请联系版权方，本站事务联系QQ：939804642