SEO财富网 -- 通过SEO财富网最实际的解决你的网站赚钱问题 | SEO创富大本营 | 让你的网站合理的在各大搜索引擎中获得较好的排名
seo创富培训
首页
SEO精华
SEO新闻
SEO基础
SEO大学堂
SEO策略
搜索引擎
作弊大全
流量攻略
建站策划
网站运营
VIP论坛
当前的位置是:百度优化栏目 -.- SEO财富资料显示
  • 百度分词算法-中文分词

  • 发布时间:2007-10-12 -.- 发布人:本站编辑

  •  

    先,讲讲百度的分词时机或者条件问题,不是所有的字符串百度都会切割的

    简单说来,如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大于4个中文字符的时候,百度的分词程序才把这个字符串肢解掉。
     
    怎么证明呢?我们向百度提交“百度搜索排名优化”,看看返回结果中标为红字的地方,不难看出来,查询已经被切割成两个单词了,说明分词程序已经开工了,如果是比4个中文字符更长的字符串,那分词程序就更不客气了,一定大卸八块而后快。

    下面我们看看百度是采取的何种分词算法,现在分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。这里就不展开说了。但是要记住一点的是:判断一个分词系统好不好,关键看两点,一个是消除歧义能力;一个是词典未登录词的识别比如人名,地名,机构名等。

    那么百度用的是什么方法?我的判断是用双向最大匹配算法。至于怎么推理得出的,以后有时间再讲。