当前位置:首页 > 上海SEO交流 » 正文:上海SEO小松谈百度分词算法是什么?他是怎么工作的呢?

上海SEO小松谈百度分词算法是什么?他是怎么工作的呢?

58 人参与  2018年03月09日  分类 : 上海SEO交流     评论     

百度分词算法技术是百度根据网民所提交的查询内容、短语、字词,然后进行各种方案处理,和词库对比匹配而得到的一些词语的技术算法。分词是把字与字所连接的句子或者短语进行分割成各个相互独立、词义、语义完整正确的单词,换句话说,这些单词是最小的、可以独立存在、有它的意义的语言成分。而其中的知识库就是计算机的自己语言词典、句法规则、和有关的词和句子的语义、语境、语用。中文信息处理需要以词为基本单位,即设计句法、语义(检索、翻译、文摘、校队等处理)。把汉字转成词、短语后,才可以使用句法分析、语句理解、自动文摘、自动分类和机器翻译等文本处理方法成为可行性。分词是机器语言学的基础。

百度分词算法框图(百度经验)

百度分词算法框图(百度经验)

百度分词的4个原理:

1、基于理解

这种也称为傻瓜式匹配,当所要查询到词大于等于4个词时才会触发分词处理。比如检索“网站优化”就会进行分词处理,而搜索“分享课”是不会进行分词的。

2、基于统计

在搜索某个特殊单子或者词时,在搜索结果列表中百度会把一些相关的词也设置成红色,这些词时根据它的统计而得到的结果。例如您进行搜索“学”字的时候,百度也会把“学习”进行设置红色突显出来。同理,一些热门电影词,搜索人多了,百度就会把它当作一个关键词。这就是基于统计进行分词的。

对学习也设置为红色

对学习也设置为红色

3、基于字符串匹配

这个方法也称为最大切词法,匹配词的长短最大、最小。 

对于最大匹配就是一直匹配直到没有什么可以匹配的,最小匹配是是匹配到词后就停止匹配,在从另一个词开始匹配。这个可以进行测试的,我们可以把它看做一个黑盒子,我们不知道里面什么结构,装有什么东西,但是可以通过输入一些关键词进行查询,收集整理它的输出结果而判断它的分词算法依据。

正向与反向

正向匹配:对一个词进行从前往后匹配;反向匹配:从一个词的后面开始匹配。

4、基于专有词库

这类是对海量网民的查询词语进行统计分析得到的,比如一些小说电影人物名,电影名称,电视剧名称等。

那么除了百度,还有什么分词工具呢:

1、ICTCLAS:

全球最受欢迎的汉语分词系统

2、HTTPCWS:

基于HTTP协议的开源中文分词系统

3、SCWS:

简易中文分词系统

4、PhpanAlysis:

PHP无组件分词系统

5、MMSEG4J:

采用mmseg4j+solr的中文分词包

6、盘古分词:

开源中英文分词组件

7、IKAnalyzer:

开源的轻量级中文分词工具包

本文地址:http://seoxss.com/mu/s62.html

相关阅读

带你分析影响网站排名的因素,玩会seo网站优化

揭开seo网站优化中常被忽略的关键词排名上不去的罪魁祸首

上海SEO小松干货分享:学习网站优化需要掌握什么呢?

<< 上一篇 下一篇 >>

上海SEO小松网站优化

近期热门

热门标签

最新文章