您是否需要搜索搜索引擎结果却不知从何下手?在本指南中,我们将介绍从一些最常用的搜索引擎中搜索结果的难易程度。
搜索引擎 已经存在了相当长的一段时间。在我们今天所知的互联网发展初期,内容和网站都要少得多,少了数千倍。上世纪 90 年代初,只有少数几个网站存在,其中大多数只包含文字和一些图片。1993 年,第一个 搜索引擎阿奇 出生。
从那时起,许多新引擎应运而生,它们也发生了很大变化。曾经简单的文本搜索界面,如今已成为最复杂的编码。对于普通用户来说,搜索引擎就是根据输入参数提供搜索结果的东西,但实际上,它几乎就是一个人工智能,能够提供更多的功能。
就像搜索引擎一样、 搜索数据 已经存在了相当长的一段时间。与搜索引擎不同的是,刮削技术自出现以来已经有了很大的发展。
过去,人们通过复制和粘贴数据,手动从网站上抓取数据。随着数据量的不断增加,爬取的过程也变得越来越复杂,于是爬虫工具应运而生。
自 1993 年发布 JumpStation 以来、 网络清除器 它们的数量已大大增加。如今,网上有数以百计的铲运机,它们比二十多年前的铲运机功能更多,能力更强。
将搜索引擎和搜刮工具结合起来并不是大多数人都会发现的事情,但它比大多数人想象的要常见得多。那么,你可能会问:为什么有人要从搜索引擎中进行搜刮?当然是为了抓取数据。
从搜索引擎中抓取内容并不意味着使用软件就能获得所有内容。从谷歌抓取所有内容也许可行,但可能需要数年才能完成。您可以这样想:您可以从字典中获取所有内容,但这样做需要花费太多时间,而且从字典中获取的大部分内容对您的需求来说都是无用的。
相反,在对搜索引擎进行搜刮时,首先需要使用关键字进行搜索,然后再进行搜刮。这样做更好的原因是,当你进行搜索时,搜索引擎会以你可以使用的方式组织显示的数据。例如,我们使用关键字 "scraping "在谷歌上搜索,得到的结果是"约 36,000,000 条结果(0.46 秒)"。试想一下,我们有大约 3,600 万个结果,其中包括链接、元描述等,而这些都是我们可以利用的。
搜索引擎与爬取网站不同,可能不像听起来那么容易。当然,从本质上讲,你需要一个搜索器,但有几件事需要注意。随着搜索引擎的发展,其防止滥用的保护措施也在不断完善。搜索引擎是用来找东西的,而不是用来抓取一切可以抓取的东西,但这并不意味着你不能这样做。
搜索搜索引擎需要什么?
要想成功爬取,你需要两样东西: 爬虫 和 代理.
爬虫
这是一个显而易见的问题,但不得不提。要注意选择哪种搜索器,因为并非所有的搜索器都能从搜索引擎中搜索。 ScrapeBox, 网峰检查器和 扫描专家 能从搜索引擎中抓取数据的爬取工具屈指可数。
代理
无论你是在搜索网站还是搜索引擎,代理都是完成工作的关键。在搜索时,您每秒都会发出成千上万次请求,如果您从一个 IP 地址(比如您的家庭 IP)发出这些请求,那么在您获得有用的东西之前,您早就会被封禁了。
解决方案--使用代理。
代理服务器的主要优点是你的家庭 IP 地址保持匿名,但还有另一个优点。使用代理服务器时,每次可以发出多个请求,而且每次请求都会返回更多数据。
理想情况下,您需要获得 轮换居民代理因为它们是人们的家庭 IP 地址,更有可能起作用。数据中心代理通常已被大多数服务器标记为代理,所以你可能会一无所获。住宅代理的缺点是价格不便宜。说到代理服务器,您有很多选择。您有 Bright Data (原名Luminati), Smartproxy, Shifter, StormProxies等等。
预防措施
有两点需要注意:超时和会话。
超时
超时是指搜索器在提出新请求前等待的时间。超时时间设得太短肯定会被禁用,因为没有人能在一秒钟内完成搜索并复制链接。在这种情况下,建议使用较高的数字。不利的一面是搜索时间会更长,因此应尽量选择中间值。
会话
会话数是提出请求和抓取数据的 "虚拟搜刮器 "的数量。会话数越多越好,因为每秒钟都能获得更多数据,但会话数过多也会引起搜索引擎的警惕,可能会出现事与愿违的情况。尽量不要过度使用。
我们的建议是一开始先慢慢来。设置一个较高的超时时间,可能是 20-30 秒,然后从那里开始。另外,不要一开始就设置数百个会话,先设置几个会话,然后逐渐增加会话,并开始降低超时时间。到了一定程度,你就会达到极限,并开始 将您的 IP 地址列入黑名单这不是你想要的结果。许多提供商依赖于这些 IP 地址,并向客户承诺它们可以正常工作,但如果你的许多 IP 地址被禁用,你可能需要向提供商做很多解释。
最好的办法是慢慢开始,然后逐渐增加。这可能需要更多的时间,但这样一来,即使有 IP 被列入黑名单,也会很少,而且还能获得所需的结果。
什么是最佳搜索引擎?
有的有,有的没有。搜索引擎会采取一些措施防止你的网站被搜刮,但有些搜索引擎比其他搜索引擎更容易被搜刮。互联网上有很多搜索引擎,因此我们只介绍最常用的几种。
我们将从最流行也是最难搜索的搜索引擎开始。作为最流行的搜索引擎,它也是最先进的搜索引擎,因此在尝试从它那里搜索数据时会遇到很多障碍。
谷歌在向其提出申请时非常严格,因此经常会遇到爬取的麻烦。即使在我进行大量搜索研究时,我也经常 获取验证码 大约 15-20 次搜索之后,这取决于我搜索的速度。在这种情况下,谷歌就会认为我是一个机器人,并标记我的 IP 地址,而且每次我再进行搜索时都会抛出一个验证码。
搜刮也是如此。在 Google 标记你之前,你几乎做不了几页,你的搜刮生涯就会停止。手动搜索时,你的 IP 地址会被标记,但你只需解决几个验证码就没事了。在搜刮时,被标记的 IP 地址可能会被禁用甚至列入黑名单,这取决于搜刮者的持久性。
由于比 Google 历史更悠久,大多数人可能会认为他们在爬取方面有更高的标准和更好的保护。其实不然。
雅虎是一个比谷歌更容易搜刮的搜刮工具,但远非最简单的。如果您在雅虎网站上过度搜索,您还会收到验证码,但与谷歌的验证码不同,雅虎的验证码是出了名的问题。普通用户在正常搜索时都会遇到大量问题,因此您可以想象在搜刮时问题会有多严重。
如果调整得当,你可以从雅虎搜索到很多信息,但这需要一些时间。
我们来看看最容易搜索的搜索引擎。与其他两个搜索引擎相比,微软的必应仍处于诞生初期,但这并不是你可以轻松搜索它的原因。真正的原因不得而知,说实话,也没人在乎。缺乏保护的最可能原因是微软希望有人使用它,即使是用于搜刮,我们也不会抱怨。
为了向你展示必应搜索是多么容易,这里有一个例子--只需在搜索器设置中稍加修整,你就可以轻松获得几百万个结果,而必应不会眨一下眼睛。而 Google 则会在几百个结果之后将你踢出。
必应是搜刮的天堂,很多人也是出于同样的原因从它那里搜刮,但如果你想得到准确的好结果,谷歌是你的不二之选。
其他搜索引擎
谷歌、雅虎和必应并不是唯一可以搜索的搜索引擎。从技术上讲,你可以在任何搜索引擎上搜刮;唯一的区别在于搜索结果的质量和搜索引擎开发人员采取的安全措施。
实际上,并没有多少人在搜索引擎上搜索,比如 Yandex, 百度, DuckDuckGo或 Ask。对这些网站进行过搜刮(可能是为了进行研究)的用户报告说,它们并不是最难被搜刮的网站,但也不是最容易被搜刮的网站。考虑到这一点,我会把它们和雅虎放在同一个篮子里。
结论
每个搜索引擎都可以被搜索。它们之间的区别在于对你来说有多容易。
谷歌可能会以最佳方式提供和组织结果,而必应则会让你不问任何问题地整天搜刮。无论您打算从哪个搜索引擎抓取数据,都要确保对您的搜刮器进行微调,并对设置进行微修改,以便在最短时间内获得最佳结果。其他搜索引擎大多介于两者之间。