在网站中查找重复内容

在网站中查找重复内容

当实现顶级搜索引擎排名在谷歌中,如果你对你很重要,你会希望确保你的网站不会出现重复内容的问题。下面是一些识别的方法重复内容以及如何防止它稀释你网站的主题。

重复内容–博客

博客是一个很好的分享信息和与网站访问者互动的方式。某些特征网络博客能否在同一内容内自动生成多个网页,造成问题重复内容。分类页面、trackback URL、归档和RSS提要等内容都是在WordPress等博客程序中自动创建的,应该尽快处理。

为了防止博客的这些特定区域出现重复内容,您可以简单地告诉搜索引擎不要为服务器中重复内容所在的特定目录编制索引。请记住,通常情况下,您无法在服务器上找到这些目录,它们可能会通过调用数据库动态生成。

在robots.txt文件中添加以下内容以防止WordPress创建重复的内容:

  • 不允许:/category/
  • 不允许:/trackback/
  • 不允许:/ /

上面列出的禁止函数告诉谷歌它们不能在这些文件夹中索引任何页面。这为您提供了在文件夹级别控制谷歌在您的网站中索引和不索引的能力。如果你不希望有特定的文件索引,你也需要在页面级别使用元机器人标记。

重复内容-内容管理系统

一个CMS是将副本添加到网站的最方便的方法之一,每次需要更改时无需网页设计师。它们易于使用和构建,因此几乎任何人都可以轻松开始实施过程,而无需大量培训或有关系统的信息。

通常这些内容管理系统创建重复的内容,试图为访问者提供不同版本的页面。其中两个最大的罪魁祸首是:

  • 打印机友好版本
  • 可下载版本(Word文档/PDF文件)

在你的网站上有打印友好的版本和多种格式的版本绝对没有什么错,但是,它们对搜索引擎没有任何好处;因此,最好在Robots.txt文件中禁止它们。下面是一个例子,你可以阻止谷歌索引这些类型的重复页面:

  • 不允许:/printer-friendly/
  • 不允许:/pdf/
  • 不允许:/word/

请记住,上面显示的所有示例都只是示例。您需要找到这些文件夹的正确位置,并在robots.txt文件中进行必要的修改。

如果您希望检查您的更改如何影响您的网站,您可以使用中提供的工具谷歌网站管理员控制台它允许您查看哪些文件夹可以被Googlebot索引。

关于Robots.txt文件的最后一点注意事项。请不要将以下内容放入robots.txt文件中:

  • 禁止:/

本质上,这意味着不允许根文件夹中的所有内容…。事实上,我们有一些人无法在搜索引擎中为他们的任何页面编制索引,却发现这个调用在robots.txt文件中。

我相信主要的搜索引擎已经修改了他们阅读上述呼吁的方式,这意味着不允许“什么都不做”,但我不建议冒这个险。

好运!