采集電商平臺(tái)中的店鋪、產(chǎn)品屬性,銷量及評(píng)價(jià)信息,可用于復(fù)制爆款、潛在市場(chǎng)挖掘及輿情分析。
1、目標(biāo)網(wǎng)站:天貓商品信息,網(wǎng)址:https://www.tmall.com
①在天貓首頁(yè)輸入關(guān)鍵詞進(jìn)行檢索,對(duì)檢索結(jié)果中的店鋪實(shí)施采集;
②對(duì)店鋪信息以及店鋪內(nèi)相應(yīng)產(chǎn)品的信息實(shí)施采集。
①價(jià)格、銷量等屬性有時(shí)是在js文件中動(dòng)態(tài)加載的,在網(wǎng)頁(yè)源代碼中沒(méi)有相應(yīng)的描述,因此通過(guò)源代碼解析無(wú)法完成采集;
②頻繁訪問(wèn)頁(yè)面有時(shí)會(huì)封IP,影響采集實(shí)施。
使用火車瀏覽器的xpath采集,可以直接點(diǎn)擊提取頁(yè)面上的價(jià)格、銷量等;可以使用火車瀏覽器代理設(shè)置功能,設(shè)置代理IP模擬代理IP。
三、應(yīng)用成果
可采集商品名稱,所屬店鋪,評(píng)價(jià)信息,價(jià)格等公開(kāi)信息。