重庆理工大学学报(自然科学)

• •    

基于Nutch爬虫的电商交易价格统计研究

阳黎明,苏理云   

  • 出版日期:2017-01-25 发布日期:2017-01-25

  • Online:2017-01-25 Published:2017-01-25

摘要: 将电商交易数据纳入价格指数架构是目前统计工作关注的焦点。应用大数据技术,将Nutch爬虫搭建在分布式集群上,构建分布式网络数据抓取系统,同时结合最新的AP聚类算法对数据进行预处理,然后对网上数据进行价格指数建模,进行价格指数试算。试算结果表明:基于分布式集群下的Nutch网络爬虫技术较好地完成了网络交易数据抓取任务。因此,计算的网上交易数据价格指数可较好地反映市场价格变化趋势。