营销分享 > 技术分享 >

数据预处理包含哪些内容?

在掌握seo这门技术前,要先了解搜索引擎优化技术的原理。其中包括对数据的预处理,数据预处理与爬行抓取一样也是在后台系统中提前完成的,大致内容包含关键词提取、删除停用词和分词技术。今天将会重点介绍分词技术。
分词的方法有两种:基于字符串匹配的分词方法和基于统计的分词方法。




基于字符串匹配的分词方法


按匹配方向的不同,可分为正向匹配、逆向匹配和最少切词。这三种方法可以混合使用,即正向最大匹配、逆向最大匹配、正向最小匹配和逆向最小匹配。


①正向最大匹配

假设字典中最长的词语字数为m,先根据标点符号及特征词将句子切分为短语,取短语的前m个字,在字典中查找是否存在这个词,如果存在,就输出这个词,并以短语中删除这个词。

如果不存在,就删除这m个字的最后一个字。然后检剩下的是否为单字,若是则输出此字并将此字从短语中删除,若否则继续判断字典中是否存在这个词,如此反复循环,直到输出一个词,此后继续取剩余短语的前m个字反复循环。

这样就可以将一个短语分成词语的组合了。


②逆向最大匹配

逆向最大匹配是从句子结尾处进行分词的方法。

逆向最大匹配技术最大的一个作用是消歧。例如,“吕令建周末去了汤河口镇钓鱼”,按照正向最大匹配结果为:吕/令建/去了汤/河口镇/鱼,显然产生了岐义,汤河口镇是一个地名,没有被正确地切分。

采用逆向最大匹配的技术可以修正这个错误。例如,一个分词节点大小为8,“去了汤河口镇钓鱼”中显然“去了”被分出来,剩下“汤河口镇钓鱼”,歧义就被消除了。


③正向最小匹配/逆向最小匹配

这两种方式一般很少使用,但在实际使用中逆向匹配的精准度要高于正向匹配。


上一篇:搜索引擎的数据预处理是如何进行的?
下一篇:数据预处理技术是如何分词的?   

推荐文章

     

久格科技(深圳)有限公司.版权所有 粤ICP备16061052号

备案查询地址: beian.miit.gov.cn

      

我们的服务

系统产品

营销分享

联系我们

扫一扫关注我们

久格科技(深圳)有限公司.版权所有 粤ICP备16061052号

网站地图