杭州(zhōu)SEO专用徐少辉要说的是(shì):网页查重算法(fǎ),也就是搜索(suǒ)引擎是(shì)怎么检(jiǎn)查(chá)两(liǎng)个网(wǎng)页的相似性的?这(zhè)应该是大家应该比较关心的问题吧(ba),因为这有助于让你的“伪(wěi)原创”更(gèng)像一个“原创(chuàng)”
首先我跟大(dà)家讲有名(míng)的I—MATCH算法(fǎ)。
我们在比(bǐ)较两件事物的(de)相似性(xìng)时,往往都会(huì)拿能均衡的(de)反应这事物本质的东西来比较,就像(xiàng)比(bǐ)赛时,要去除一个最高分(fèn)和最低分,然后再变算(suàn)总(zǒng)分一样~~
I—MATCH算(suàn)法基(jī)于(yú)的依据是(shì),在文挡中,特别高频的词和特别低频(pín)的词无法反应这(zhè)一个文挡的真实内(nèi)容,所以在(zài)比较之前,先将文挡(dǎng)中(zhōng)高频词和低频词去掉(注(zhù)意:这里(lǐ)的(de)高(gāo)频和低频指的是文(wén)档频(pín)率,并非关(guān)键(jiàn)词在你(nǐ)网页中的密度!)
我们来看一(yī)个例(lì)子(zǐ):
这里(lǐ)有两段网页文字:
1.中国足球队在(zài)米卢的率(lǜ)领下首次获得世界杯(bēi)决赛阶段(duàn)的比(bǐ)赛资格(gé),新浪体育播(bō)报(bào) 。
2.米卢率领中(zhōng)国足球队员(yuán)首次杀入世界杯决赛阶(jiē)段,搜狐体育播报。(嘿嘿,看到这两(liǎng)句(jù)很(hěn)熟吧?)
文档(一(yī))中(zhōng)去掉高频:中国,在,的,获得,比赛(sài),资格,新浪,体(tǐ)育,播报
去掉低频:米卢
则剩下中频词有(yǒu):足球队,率领,首次,世界(jiè)杯,决(jué)赛,阶段(duàn)
文档(二)中去掉高频:中国,搜狐,体育,播报
去掉低频(pín):米卢,杀入
则剩下中频词有:率领,足球队,首次,世界杯(bēi),决赛 ,阶段
看到了吧(ba)?剩(shèng)下的,两者是一(yī)模(mó)一样 这就是相似(sì)性的(de)存在(zài)
呵呵,其实这个(gè)例子很早就有过的。。
综(zōng)上(shàng)所述:搜索引(yǐn)擎(qíng)要(yào)检测相似性,主要就是要分(fèn)词和词频的比(bǐ)较!!
|