如何在Google Sheets中使用Web Scraping?

如何在 Google 表格中使用网页抓取?

您可以使用 Google 表格提取元数据吗?了解如何在不使用高级工具的情况下轻松将基本结构化数据导入 Google 表格!

每个 SEO 专业人士,或者只是希望增加其网站在搜索结果中的位置的人,可能一直在寻找一种有效的方法来获取有关页面的特定信息

此信息通常包括标题、元描述或 H1 标题。

到目前为止,该过程涉及使用为此目的创建的专用工具,或者使用浏览器中可用的编程工具简单地检查页面代码。然而,最近事实证明,对于那些想要自动获取数据但没有时间学习 Web 开发的人来说,Google 表格是一个很好的解决方案。

让我们看看如何在 Google 表格中使用网页抓取!

什么是 IMPORTXML?

IMPORTXML 是 Google 表格中提供的功能,可用于提取特定的网站数据。谷歌支持表示,该功能使用户能够导入各种类型的结构化数据,例如:

  • XML
  • HTML
  • CSV
  • 硅通孔
  • RSS
  • 原子 XML

简而言之,使用 IMPORTXML 函数将允许您从选定的网页中检索任何结构化数据,即使您不会编程语言!

如何使用此功能获取数据?

使用函数本身非常简单,只需要提供两个值即可。第一个是指向要从中提取数据的页面的精确链接。第二个是查询,它决定应该提取什么类型的数据看看下面的例子:

=IMPORTXML(“https://en.wikipedia.org/wiki/Moon_landing”, “//title”)

该功能区分可以提取的各种类型的数据,但是,最常见的部分包括:

SEO Title – 为此,您需要输入:  //title

给定子页面的元描述 – //meta[@name=’description’]/@content

页面上的 H1 标题 – 要检索它们,请使用查询://h1

页面上的链接 – 要检索它们,请使用查询: //@href

如何在谷歌表格示例中使用网络抓取

在 Google 表格等工具中正确使用 IMPORTXML 可以帮助您减少必须手动完成的工作量,因为它可以自动执行许多任务。

值得注意的是,数据是实时下载的,所以当页面上的任何元素发生变化时,电子表格也会被修改,您会看到更新的信息。该功能要复杂得多,但今天我们决定仅提及其最受欢迎的功能。

借助具有功能和其他公式的正确准备的电子表格,即使您不了解 Python 等编程语言,您也可以创建专业工具。

推荐阅读
Scroll to Top

联系我们

=