防止网站中的某些部分被网络垃圾滥用

2021 年 5 月 26 日,星期三

作为网站所有者,您可能会提供一些供用户互动的渠道,例如论坛、留言板、社交媒体平台、文件上传工具、托管服务或内部搜索服务。这些服务允许用户创建账号,以便在您的网站上发布内容、上传文件或执行搜索。遗憾的是,垃圾内容发布者通常会利用这些类型的服务来生成数百个垃圾网页,这类网页对网络的价值很小或毫无价值。根据 Google 网站站长指南中规定的原则,Google 可能会因此对受影响的网页采取人工处置措施。下面是一些示例:

被滥用的论坛/留言板 被滥用的文件上传工具(包含垃圾 PDF 文件) 被滥用的托管服务 被滥用的内部搜索结果

此类垃圾内容可能会给您的网站和用户造成多种危害:

  • 网站某些板块中的劣质内容可能会对网站的整体排名产生影响。
  • 垃圾内容可能会将用户导向垃圾甚至有害的内容(例如包含恶意软件或钓鱼式攻击的网站),这可能会降低您网站的声誉。
  • 您网站上的无关内容导致的意外流量可能会拖慢网站速度并增加托管费用。
  • 如果网页上充斥着第三方生成的网络垃圾,Google 可能会将相应网页从搜索结果中移除或降低其排名,以保证搜索结果的质量。

本博文介绍了一些提示,可以协助防止垃圾内容发布者滥用您的网站。

禁止自动创建账号

当用户在您的网站上创建账号时,请考虑使用 Google 的人机识别系统服务或类似的验证工具(例如:SecurimageJcaptcha),仅允许真人提交内容,防止自动脚本在您网站的公开平台上创建账号和生成内容。

在新用户注册时要求其验证电子邮件地址的真实性,也有助于避免很多网络垃圾机器人自动创建账号。此外,您还可以设置过滤器来屏蔽可疑电子邮件地址或来自您不信任的电子邮件服务的地址。

开启审核功能

您可以考虑启用评论和个人资料创建审核功能,要求用户具有一定的信誉才能发布链接。如果可能,更改您的设置,禁止匿名发帖,并要求新用户发布的帖子需要经过批准才能公开显示。

监控网站是否存在垃圾内容并解决任何问题

Search Console 中注册并验证您的网站所有权。如需了解 Google 是否检测到任何问题,请参阅“安全问题”报告“人工处置措施”报告。您也可以查看“消息”面板以了解详情。

Search Console 中有关网站充斥第三方网络垃圾的消息

此外,建议不定期在 Google 搜索中输入 site: 运算符,并搭配与您网站的主题不相关的商业或成人关键字,检查网站是否存在异常内容或垃圾内容。例如,搜索 [site:your-domain-name viagra] 或 [site:your-domain-name watch online],检测您的网站上是否有不相关的内容,尤其是以下内容:

  • 偏离上下文的文字或偏离主题的链接(例如“免费影片下载”或“在线观看”),其唯一目的在于宣传第三方网站/服务
  • 自动生成(而非由真实用户撰写)的乱码或文字
  • 内部搜索结果,其中用户查询似乎偏离了主题,目的在于宣传第三方网站/服务

留意您的网络服务器日志文件中是否突然出现流量高峰,尤其是对于新创建的网页。 例如,查找关键字为网址格式且与您网站完全无关的网址。如需找出潜在的高流量问题网址,请使用 Google Analytics 中的“网页”报告

使用各种垃圾字词(例如:在线播放或下载、成人、赌博、制药相关的字词)阻止明显不当的内容发布到您的平台上。内置功能或插件可以为您删除这些内容或将其标记为网络垃圾。

Google 快讯是实现此目的的另一个出色工具。您可以根据您不希望在自己网站上出现的商业或成人关键字创建一个 [site:your-domain-name spammy-keywords] 快讯。Google 快讯还是一个用于检测被黑网页的强大工具。

识别并终止垃圾账号

留意网络服务器日志中的用户注册情况,并发现常见的垃圾内容模式,例如:

  • 在很短时间内填写大量注册表单。
  • 从相同 IP 地址范围发送的请求数。
  • 在注册过程中使用异常的用户代理。
  • 在注册过程中使用无意义的用户名或提交其他无意义的值。例如,听起来不像真实人名并链接到不相关网站的商业用户名(如“免费电影下载”之类的名称)。

不让 Google 搜索显示或跟踪不受信任的内容

如果您的网站允许用户创建个人资料页、论坛帖子或网站等内容,您可以选择不让 Google 搜索显示或跟踪新内容或不受信任的内容,以此减少发布网络垃圾的滥用行为。

例如,您可以使用 noindex 元标准禁止 Google 访问不受信任的网页。示例如下:

<html>
  <head>
    <meta name="googlebot" content="noindex">
  </head>
</html>

或者,您也可以使用 robots.txt 标准临时屏蔽网页。例如:

Disallow: /guestbook/

您还可以使用 rel="ugc"rel="nofollow" 将评论和论坛帖子等用户生成的内容 (UGC) 的链接标记为 UGC。 这有助于您向 Google 说明自己与链接页之间的关系,并请求 Google 不要跟踪该链接。

将您的开放平台内容整合到集中的文件路径或目录中

通过自动化脚本或软件,垃圾内容发布者可以在短时间内在您的网站上生成大量垃圾网页。其中部分内容可能会托管在片段化文件路径或目录中,从而导致网站所有者无法有效地检测和清理网络垃圾。示例如下:

example.com/best-online-pharma-buy-red-viagra-online
example.com/free-watch-online-2021-full-movie

此外,建议您将用户生成的内容整合到一个集中的文件路径或目录中,使内容维护和网络垃圾检测变得更轻松。例如,建议使用以下文件路径:

example.com/user-generated-content-dir-name/example01.html
example.com/user-generated-content-dir-name/example02.html

确保您的网站软件为最新版本,并使用自动化系统保护您的网站

您务必要花些时间确保您的软件为最新版本,特别要留意重要的安全更新。垃圾内容发布者可能会利用较旧版本的博客、公告板和其他内容管理系统中存在的安全问题。

此外,一些综合性防网络垃圾系统(如 Akismet)包含可用于众多博客和论坛系统的插件,这些插件不仅易于安装,而且可帮助您搞定大部分处理垃圾网站的工作。 我们还提供了适用于某些平台的可信且众所周知的安全插件,有助于确保网站安全,并且也许能尽早发现滥用行为。

请根据您网站的情况,参阅我们的文档了解详情:

如果您需要任何帮助,也可以访问我们的搜索中心帮助社区