使用浏览器内抓取来完成工具无法完成的任务

apusammi · 发表于 2023-8-26 15:15:26

尽管许多 SEO 工具无法检查完全渲染的 DOM，但这并不意味着作为个人 SEO 的您必须错过。即使不利用无头浏览器，Chrome 也可以通过一点点 JavaScript 变成一台抓取机器。我在“如何抓取网络上的每个页面”一文中详细讨论了这一点。使用一点 jQuery，您可以有效地选择页面中的任何内容并将其打印到 JavaScript 控制台，然后将其导出到您喜欢的任何结构的文件中。

通过这种方式进行抓取可以让您跳过许多让网站相信您是真实用户所需的编码，例如必须在服务器端进行的身份验证和 cookie 管理。当然，这种抓取方式适合一次性使用，而不是围绕它构建软件。

ArtooJS是一个书签，用于支持浏览器内抓取和自动抓取一系列页面并将结果以 JSON 格式保存到文件中。

一个功能更齐全的解决方案是 Chrome 扩展WebScraper.io。它不需要任何代码，并且使整个过程只需点击即可。

如何从技术背景处理内容和链接
过去几年，SEO 所做的大部分工作已经转向为更多链接创建更多内容。我不知道目前在有关如何扩展内容或建立更多链接的讨论中添加任何内容是否有价值，但我怀疑现有链接和内容存在一些机会，而这些机会并不是许多人最关心的。

谷歌首先关注实体
Google 员工最近宣布，他们在审查查询时首先查看实体。实体是 Google 在其系统中对专有名词的表示，用于区分人、地点和事物，并告知他们对自然语言的理解。在演讲的这一点上，如果人们有实体战略，我请举手。我已经做过十几次演讲了，但只有两个人举手。

比尔·斯拉夫斯基 (Bill Slawski) 是该主题最重要的最新邮件数据库思想领袖，因此我将尊重他的智慧并鼓励您阅读：

谷歌如何进行实体识别
SEO 和新的搜索结果
与网站和相关实体的实体关联
我还鼓励您使用自然语言处理工具，例如AlchemyAPI或MonkeyLearn。更好的是，使用 Google 自己的自然语言处理 API来提取实体。标准关键字研究和实体策略之间的区别在于，您的实体策略需要根据现有内容构建。因此，在识别实体时，您需要首先进行关键字研究，然后通过实体提取工具运行这些着陆页以查看它们如何排列。您还需要通过相同的实体提取 API 运行竞争对手的登陆页面，以确定这些关键字的目标实体。

		自动登录	找回密码
密码			立即注册