探索垂直搜索世界:一个综合指南,列出了常用垂直型独立搜索引擎有哪些,这类平台的佼佼者,几乎都是平台内的专业人士。
这类网站各有各的特点,如:
1. 数据采集
分析数据采集后再上传到平台,目前数据采集方式主要是:
API采集+人工翻译+数据统计,其中采用了API采集方式,利用现成的工具,借助现有的数据采集技术,可以很方便地采集到准确的数据。
2. 采集接口
采集接口的使用会有很多的讲究,目前主流的采集接口如下:
API采集+人工翻译
调用接口
这些都是比较基础的采集接口,其他的采集接口不做过多介绍,这里不详细介绍,并且对数据采集的流量要求比较高。
3. 抓取后,输出给搜索引擎
与上面的常用垂直搜索引擎的不同之处,是指在采集完成后,需要加入到搜索引擎的索引库中。
不同之处在于,每个平台的需求和用户都是不一样的,他们的诉求可能是不一样的,有的平台要求采集准确,有的平台要求采集准确,有的平台要求收集准确。
搜索引擎的现状是:算法越来越智能,不懂就会出现“死水一潭”的情况,算法越来越难满足,其成果就是对数据采集的复杂程度进行了考验。
在这里,我就为大家分析一下,常见的搜索引擎采集入口有哪些:
1. 搜索引擎提供的索引框
当用户搜索某个关键词时,搜索引擎会基于搜索结果中的关键词,索引到基于关键词索引的大量搜索结果,如:intitle: 关键词 - 百度指数 - intitle: 关键词 + intitle: 网站收录 + site: 外链 + 链接 。
这些搜索结果大部分的算法都是相似的,但是搜索引擎提供的索引框更加智能化,类似于google的搜索引擎索引框,所以为了满足用户的多样化的搜索需求,也有很多企业会提供搜索框的入口。
2. 相关搜索
搜索引擎提供的索引框,也是相当重要的,比如:百度指数 - 近期热门搜索,这里也是一个搜索引擎的搜索数据,而不像google索引框,在内容页是一个完整的内容。
3. 搜索结果页面
搜索结果页面也是一个可以供我们分析的相关搜索数据,当然也有一些大型的网站会提供搜索结果页面,当然这个功能做的还是相当的多的,比如:阿里巴巴、慧聪网等等。