互联网搜索引擎的分类可分为分层搜索引擎,目录,混合搜索引擎和元搜索引擎。
搜索引擎是一种旨在在万维网上查找信息的软件系统。他们使用关键字搜索与这些单词相关的文档,然后按照与要搜索的主题相关的顺序对结果进行排名。
互联网搜索引擎试图提取其用户所需的信息;由于互联网上有大量的数据库,因此这是可能的。
它们已成为日常使用来查找信息的工具。因此,目前可以很容易地使用Google,AOL,Yahoo和Bing等搜索引擎查找信息。
互联网上有数千种不同的搜索引擎。每个人都有不同的能力和特点。
开发的第一个搜索引擎称为Archie,用于搜索FTP文件。第一个基于文本的搜索引擎称为Veronica。
用户可以通过计算机,智能手机,平板电脑或任何其他电子设备上的浏览器访问搜索引擎。
互联网搜索引擎类型分类
1-分层搜索者(蜘蛛)
这类搜索引擎使用“蜘蛛”来搜索Internet上的网站。该爬虫会进入各个网页,拉出关键字,然后将这些页面添加到Internet搜索引擎的数据库中。
这种搜索引擎的优点是它们包含大量页面,并且易于使用。因此,用户通常会熟悉并重复使用。
另一方面,缺点包括因为它们提取了太多数据,所以很有可能拥有太多信息。
Internet上大多数流行的搜索引擎都是分层的,例如Google,Bing,Yahoo,百度和Yandex。
所有分层Internet搜索引擎都使用漫游器(蜘蛛)在搜索数据库中查找新内容并将其编入索引。
在搜索结果中显示任何网页之前,每个分层搜索引擎都遵循四个基本步骤:
滑动
搜索引擎在Internet上进行爬网以查找可用的网页。这是通过称为Spider的软件完成的。两次滑坡之间的频率可能需要几天。
索引
这是识别最能描述网页的单词和表达的过程。所标识的单词称为关键字,并将页面分配给所标识的单词。
计算相关性
搜索引擎将需求字符串中的搜索字符串与数据库的索引页进行比较。
由于不止一个页面可能包含搜索字符串,因此搜索引擎开始计算其索引中每个页面与搜索字符串的相关性。
有几种计算相关性的算法。对于诸如关键字或链接密度之类的常见因素,这些算法中的每一种算法都有不同的相对权重。
这就是每个搜索引擎为同一搜索字符串提供不同结果页的原因。
搜索引擎会不时更改其算法。
检索结果
基本上,它只是在浏览器中显示结果。搜索结果的无穷页,从最相关到最不重要。
2-目录
目录是依赖于人类活动进行搜索的搜索引擎:网页被提交到目录,并且其目录必须得到编辑团队的批准。
此过程发生如下:
1-网站所有者将其网站的简短说明以及应列出该网站的类别提交给该目录。
2-提交的网站是人工审查。然后可以将其添加到适当的类别,也可以从列表中将其拒绝。具有良好内容的网站比具有不良内容的网页更有可能被添加。
3-在搜索框中输入的关键字将与网页说明匹配。这意味着,仅考虑站点的描述就不会考虑对站点内容所做的更改。
这样做的好处是,每个页面在被包含之前都需要进行相关性和内容审查。通常情况下,结果较少意味着您可以更快地找到所需的内容。
话虽这么说,格式和布局对大多数人来说并不友好,他们可能会因不太常见的搜索而苦恼。另一个缺点是网页创建和将其包含在目录中存在延迟
一些著名的目录包括Open Dictionary Project,Internet公共图书馆和最近关闭的DMOZ。
3-混合搜索引擎
这些搜索引擎同时使用分层搜索引擎和目录来在搜索结果中列出网页。
像Google一样,大多数蜘蛛搜索引擎基本上都将分层搜索引擎用作主要机制,将人工监视用作辅助机制。
有时,用户可以选择搜索网络或目录。在其他时间,用户可能会在同一搜索中同时收到人类策划的结果和分层结果;在这种情况下,通常将人类结果列在第一位。
Google和Yahoo是属于此类别的两个主要搜索引擎,尽管越来越多的搜索引擎正在迁移到该系统。
4-元搜索引擎
这些Internet搜索引擎是那些同时搜索其他搜索引擎,然后将结果合并到一个列表中的引擎。
优点是可以获得更多结果,但是它们的相关性和质量可能会受到很大影响。
元搜索引擎的示例包括Dogpile,Metacrawler和Clusty。
参考文献
- 什么是不同类型的搜索引擎(2016年)。从webnotes.com恢复
- 搜索Internet:搜索引擎的类型。从libguides.astate.edu恢复
- 搜索引擎的类型(2008年)。从zeald.com恢复
- 搜索引擎及其类型(2015年)。从slideshare.com恢复
- 搜索引擎(2017)。从computerhope.com恢复