索引号: | 679556899/2022-435287 | 发布机构: | 嘉兴国调队 |
发文日期: | 2022-08-18 | 组配分类: | 工作动态 |
嘉兴队多点突破 探索CPI网络爬虫技术 | |
发布日期:2022-08-18 14:39
信息来源:嘉兴国调队
浏览次数:
现代信息技术的蓬勃发展,为价格统计调查工作带来了全新的机遇和挑战,CPI调查逐渐由“人工采集”向“大数据采集”转变。相较于传统的CPI调查“人工采集”模式,运用网络爬虫技术采集数据能够更全面地反映市场变化趋势,提高数据的真实性和准确性。嘉兴队多点突破,探索在CPI调查中应用爬虫技术获取网上服装交易数据,通过新的价格采集手段带来新的变化。 一、打通堵点,反映价格趋势。人工采集服装类商品采价频率低,可能出现每月上报价格和全月实际成交价格在总体情况上出现偏差。目前嘉兴队试点的爬虫技术获取网络交易数据相较于人工采集更能反映价格变化趋势,一方面,可以根据不同时间段商品价格的实时变化,做到每天采集多次数据,全天候持续跟踪商品信息的变化;另一方面,数据爬取过程不受人力、时间和空间的限制,降低了采价的各项成本和难度,特别是遭遇疫情或者极端天气影响时,网络采价的优势进一步凸显。 二、解决难点,提高数据准确性。调查对象的配合程度直接关系到采集数据的质量,服装类产品在市场销售时标准性低、买卖双方信息透明度低,因此在实际采价中,经常发生调查对象不愿配合真实采价的情况,可能造成无法准确采集规格品价格。而通过爬虫技术获取所需规格品和所需时间段的交易价格,无需实地进行专门的询问式采价,减少了人为报价的差异性,提高了采集价格的准确性。 三.破解痛点,规格品数量呈“量级”提升。人工采集的规格品数量少,以服装为例,嘉兴队现有140个规格品,每月产生数据量268条。服装规格品的选择要在海量的商品中准确寻找有限的、具有代表性的规格品进行调查,难度较大。同时服装商品更替频繁,部分热销商品的销售周期往往只有几个月甚至数周,也给采价带来难度。而运用爬虫技术采集的规格品数量呈“量级”提升,嘉兴队利用爬虫技术获取服装商品的网络交易数据,按照本次试点的爬取方案,每月采集规格品1190个,产生1.4万条数据,数据量呈“量级”提升。
信息来源: 嘉兴国调队 |
|
|