您的位置:首页 >>网安文摘 >>技术文摘 >>seo >> 文章内容

复制内容网页是怎样形成的

Google
 
[ 信息来源: ] [ 发布时间:2007-03-14 ]
复制内容网页是怎样形成的

复制网页(或者叫重复内容网页)指的是两个或多个网页内容相同,或非常相似。

西部网安

一般来说,搜索引擎不喜欢复制内容网页,他们会尽量判断哪一个是原始版本,然后把其他的复制网页

忽略不计。 westsafe.net

有两点值得注意:

1)复制网页的判断并没有一个比例。比如说一个网页上有60%或80%的内容和其他网页相同,就被列为

网安官方站

复制网页,如果真有一个比例那就简单多了。

2)复制网页并不会带来惩罚。搜索引擎会丢掉其他的复制网页,但不会惩罚搜索引擎认为的原始出处。

不过这就有可能对真正原始出处产生惩罚。比如搜索引擎判断错误,把原始出处当成复制的,而把复制

西部网安

的当成原始出处。 你复制的文字来自西部网安

复制内容网页的出现一般有这些可能性:

1)网址规范化问题所产生的。

westsafe.net

2)代理商和零售商的网站经常从产品生产商的网站上抄下产品信息。这倒没什么不对,一般产品生产商

也都同意,但是绝大部分代理商,零售商,批发商都会直接copy,而不做改动。所以这些电子商务网站 westsafe.net

上充斥着大量复制内容网页。 网安官方站

3)打印版本。很多网站提供更适于打印的版本,如果没有用robots.txt文件,那么这些打印版本网页就

可能会变成复制网页。

4)网页内容由RSS生成。有很多网站,尤其是新闻类网站,都是用其他网站的RSS feed来生成网站内容

网安官方站

的,这些内容在原始出处和很多其他网站上都已经出现了。

网安官方站

5)电子商务网站使用Session ID。搜索引擎蜘蛛在不同时间访问网页的时候,被给了不同的Session ID

,但实际上网页内容是一样的。不过由于Session ID的参数不同,就被当成了不同的网页。 网安官方站

6)网页实质内容太少。每个网页上都不可避免的有通用的部分,比如导航条,版权声明等等。如果网页

westsafe.net

的正文部分太少,数量还抵不上这些通用部分,就有可能被认为是复制内容网页。

7)文章抄袭转载等。有的时候是其他人抄袭了你的网站内容,有的时候是善意的转载,有的时候是作者 西部网安

自愿的向不同的网站发送文章,这些都有可能造成复制内容网页。 网安官方站

8)镜象网站。镜象网站曾经很流行,当一个网站太忙太慢的时候,用户可以通过替代镜象来看内容或下

载,这也有造成复制内容网页的风险。 westsafe.net

9)产品或服务类型之间区别比较小。比如有的网站把自己的产品或服务按地区进行分类,但实际上提供

给每个地区的产品或服务都是一样的。在这些按地区分类的网页上,只是把地名改了改,其他内容全都 西部网安

一样。 westsafe.net

作者: Zac


声明:西部网安刊登此文章是为了传递更多信息,文章内容仅供参考,转载请注明出处。   
 
    ·在线评论

评论列表

用户名: 新注册) 密码: 匿名评论

赞助展示链接
精彩图片
赛车版无间道 极品飞车12真人游戏截图 赛车版无间道 极品飞车12真人游
第十二代《极品飞车:卧底》(Need for Speed Undercover)是EA Black B
奥林巴斯E-520样张:美女花木衣世 奥林巴斯E-520样张:美女花木衣
奥林巴斯E-520是一款外形小巧、携带方便的数码单反相机,更是一款非常
全球最轻播放器之一 Cube D7美女图赏 全球最轻播放器之一 Cube D7美女
DCube D7十分小巧,其三围是59.53311mm ,重25克。受制机身的限制,D7
黑丝袜的诱惑 性感美女演绎台电T50+ 黑丝袜的诱惑 性感美女演绎台电T
台电T50+在前作的基础上加入了TV-OUT电视输出功能,采用WQVGA多点触摸
周杰伦大名远洋 成中国入选W3C规范第一人 周杰伦大名远洋 成中国入选W3C规
2008年8月29日,W3C的Web IDL工作草案正式发布,令人惊奇的是在规范说

版权所有 西部网安 Copyright(C) 2005-2008 All Rights Reserved.陕ICP备05009754号