火車(chē)采集器采集速度快,適合數(shù)據(jù)的大量采集。而火車(chē)瀏覽器適合處理更加復(fù)雜的比如流程不固定的采集,同時(shí)也可以用來(lái)做營(yíng)銷(xiāo)。
1.采集原理
火車(chē)采集器使用http協(xié)議,直接抓取網(wǎng)頁(yè)源代碼,所以速度非???。采集器主要以字符串處理為主。
火車(chē)瀏覽器是通過(guò)瀏覽器下載網(wǎng)頁(yè)并進(jìn)行渲染顯示,處理速度慢,但能顯示最真實(shí)的頁(yè)面信息。
2.采集流程
火車(chē)采集器是采網(wǎng)址,采內(nèi)容,發(fā)內(nèi)容三個(gè)固定流程,操作簡(jiǎn)單,能快速處理常用大部分采集情況。
火車(chē)瀏覽器是沒(méi)有固定流程,用戶(hù)將各種流程自由組合,以達(dá)到想要的功能,更加靈活。
3.目的不同
火車(chē)采集器核心功能是采集網(wǎng)站數(shù)據(jù)發(fā)到自己網(wǎng)站,擅長(zhǎng)數(shù)據(jù)抓取處理工作。
火車(chē)瀏覽器既可以采別人數(shù)據(jù)發(fā)到自己網(wǎng)站,又可以將自己數(shù)據(jù)群發(fā)到別人網(wǎng)站,既采集又營(yíng)銷(xiāo)。
如何選擇?
1.簡(jiǎn)單的數(shù)據(jù)采集,特別是新聞文章類(lèi)的采集,使用火車(chē)采集器。
2.追求采集速度,需要大批量進(jìn)行數(shù)據(jù)采集,使用火車(chē)采集器。
3.需要登錄采集,驗(yàn)證碼識(shí)別,采集中需要判斷的,請(qǐng)使用火車(chē)瀏覽器。
4.網(wǎng)頁(yè)中內(nèi)容是通過(guò)ajax或是js加密后顯示出來(lái)的,請(qǐng)使用火車(chē)瀏覽器。
5.通過(guò)網(wǎng)頁(yè)群發(fā)或是營(yíng)銷(xiāo),網(wǎng)頁(yè)版按鍵精靈,請(qǐng)使用火車(chē)瀏覽器。
6.有些情況,還可以使用火車(chē)采集器和瀏覽器組合的方式,進(jìn)行更強(qiáng)大地采集。