网站简介
一淘商品搜索是淘宝网推出的一个全新的服务体验。一淘网立足淘宝网丰富的商品基础,放眼全网的导购资讯。网站主旨是解决用户购前和购后遇到的种种问题,能够为用户提供购买决策、更快找到物美价廉的商品。丰富的商品基础,放眼全网的导购资讯。在这里,我们全程为您解决购前和购后遇到的种种问题,我们的目标是在购物的过程中助您一臂之力,帮您轻松决策、更快找到物美价廉的商品。我们的口号:一淘让购物更聪明、更实惠!
系统架构
一淘有三个数据来源:互联网、外部合作方和淘宝主站。其中,互联网数据通过crawl的方式获得,而后两者则通过feed的方式提供。
抓取系统的功能包括:网页抓取、抓取调度、域名解析、死链检测、JavaScript执行等。目前,一淘的资讯、话题、问答combo中的大部分数据都是通过抓取系统从互联网获得的。它是一淘一个重要的“原料厂”。
离线处理系统是一个功能众多、可灵活定制的Pipeline,其主要功能有:网页编码识别与转换、网页解析与内容抽取、购物相关站点发现、列表页识别、网页分类与消重、链接提取与合并、关键词提取、众多网页静态feature的提取。它是一淘的“加工厂”。
存储系统负责存储抓取系统和离线处理系统的产出,同时向这两个“厂”提供高性能、大容量的存取服务。目前我们采用的是Hadoop+HBase的体系结构,将网页、链接、图片进行了分类存放。存储系统是一淘存放原料、半成品的“核心仓库”。
在线引擎负责对一淘前端搜索请求返回查询结果,它生成索引的数据来自存储系统。在线引擎是一淘面向用户的“成品生产车间”。值得一提的是,一淘采用了阿里集团新一代的HA2引擎技术,HA2结合了开源引擎和阿里上一代引擎技术的设计优点,在支持全文检索的同时,兼备了商品搜索的各种功能。
特点
根据一淘网的内测页面,其提供“综合”、“商品”、“淘吧”、“网页”类别搜索。其中综合部分涉及的“资讯”、“问答”、“网页”等内容已经是全网搜索,“网页”搜索结果内容则是由必应搜索提供。
对于外界最关注的商品搜索内容,该测试页面目前仅提供淘宝网内商品搜索。据淘宝网内部人士称,目前该页面刚刚上线依然处于内测阶段,还会逐步完善功能。