首页 › 分类存档 › 搜索引擎

搜索引擎的工作流程

热度:

一、搜索引擎派出搜索引擎蜘蛛,按照一定的策略把网页抓回到搜索引擎服务器。

二、被抓回的网页进行链接抽离、内容处理、清除噪声、提取该页面主题文本内容等。

三、对网页的文本内容进行中文分词、去除停止词等。

四、对网页内容进行分词后判断该页面内容与已经索引的网页是否有重复,同时剔除重复页,对剩余网页进行倒排索引,然后等待用户的检索。

五、如果此时有用户进行查询,搜索引擎会先对用户所查询的关键词进行分词处理,并根据用户的地理位置和历史检索特征进行用户需求分析,以便使用地域性搜索结果和个性化搜索结果展现用户最需要的内容。

六、查找缓存中是否有该关键词的查询结果,如果有,为了最快的呈现查询结果,搜索引擎会根据当前用户的各种信息判断其真正需求,对缓存中的结果进行微调或直接呈现给用户。

七、如果用户所查询的关键词在缓存中不存在,那么就在索引库中的网页进行调取排名呈现,并将该关键词和对应的搜索结果加入到缓存中。

八、网页排名是根据用户的搜索词和搜索需求,对索引库中的网页进行相关性、重要性(链接权重分析)和用户体验的高低进行分析所得出的。用户在搜索结果中的点击和重复搜索行为,也可以告诉搜索引擎,用户对搜索结果页的使用体验。