近年来,谷歌极大地扩展了其搜索结果的交付方式,旨在直接在搜索页面上解答用户查询,用户无需点击进入外部网站。这些信息是谷歌通过网络抓取或从合作伙伴处收集而来。同时,谷歌还增加了对自有产品(如 YouTube、谷歌图片、谷歌地图、谷歌航班等)结果的展示,以及大量“相关”搜索查询,引导用户在谷歌最有价值的产品——搜索中不断深入。我们将这些在搜索结果中以框形式呈现、且在视觉上与传统排名结果有所区别(尽管界限正变得模糊)的结果类型称为“模块”。
我们设计了一项实验,以衡量这些谷歌自创及自引搜索结果的数量和位置,并将其与其他类型的结果和链接进行比较。特别地,我们希望将这些结果与指向非谷歌自有网站的结果和链接进行对比。在本文中,我们将搜索结果中指向外部内容的部分统称为“非谷歌”。
由于目前没有公开的、随机的谷歌搜索查询样本,我们基于2019年11月至2020年1月期间谷歌趋势中出现的所有话题,创建了一个包含15,269次搜索的样本。我们使用了谷歌对搜索词的划分方式,并通过iPhone X的移动模拟器在谷歌搜索中运行了每一个词根。
我们随后采用了一种新颖的技术来衡量谷歌在搜索结果首页为不同类型结果和链接分配的空间大小。
网页测定法: 该方法受生物学实验室中通过靶向染色来识别和测量细胞成分方法的启发。我们将此技术重新构想并应用于网页分析。
具体实现上,我们将每个搜索结果页面的HTML回传至移动模拟器,使用Selenium根据xpath路径选取每个元素。通过Selenium,我们获取了元素的可见性、位置、长度和宽度等关键空间元数据。利用这些空间元数据,我们能够计算出每个结果在首屏及整个首页所占的面积。
我们将搜索结果分为四类:广告、AMP、谷歌和非谷歌。分类是本项目面临的最大挑战,因为目前对于何为“谷歌”结果或“非谷歌”结果并无公认的定义。
<a>标签中的“data-amp”属性来识别AMP内容。AMP内容由外部网站创建,但从谷歌服务器交付,且必须符合谷歌的技术规范。混合处理: 对于包含混合链接的模块(如知识面板),我们根据链接的归属分别计算其可点击区域。对于精选摘要等包含无链接文本的模块,我们将不可点击的文本计为谷歌,因为该模块及其文本是由谷歌创建和选择的。
我们通过这种技术分析发现,谷歌自有结果在搜索结果首屏占据主导地位。
我们还测量了用户滚动到各种搜索结果前需要经过的距离。在样本中,用户有75%的概率需要滚动越过首屏才能到达第一个传统结果(“非谷歌”的子集)。
我们承认研究方法存在局限性,包括:
通过我们的技术分析,结论显示谷歌正将其自创及自引结果放置在搜索结果页面的最优位置。谷歌对搜索市场的垄断地位,使得这些技术选择和页面布局决策对依赖谷歌流量的网站所有者产生巨大的潜在影响。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。