世界上最伟大的互联网产品,说是搜索引擎,绝对没有别的产品可以替代,尤其是伟大的先在市场占用率最高的搜索引擎,Google Search.
还有很多差一大截的,比如 Bing, Yahoo 和 YANDEX.
什么是搜索引擎
所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。
搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境。
搜索引擎干了些什么
简单的说搜索引擎从网络上爬取网页,然后对网页信息进行提取,构建正排索引,然后分析网页内容,建立倒排文件.
接下来我将依次介绍 正排索引、 倒排索引 等知识点.
正排索引
正排索引通常是
id-document 的键值对
id
name
context
eng_context
1
小明
今天吃了 3 个包子
today eating 3 baozi
2