QQ空間中包含很多未被百度收錄的原創(chuàng)內(nèi)容或文章,且在不斷的更新擴充,因此QQ空間是一個具有大量有價值信息的采集源。
二、具體案例
1、目標網(wǎng)站:QQ空間,網(wǎng)址為登錄賬號的QQ空間地址。
①登錄QQ空間;
②采集QQ空間的說說、文章等。
①Q(mào)Q空間需要登錄才能訪問;
②用戶發(fā)布的說說等內(nèi)容在源代碼中沒有描述。
可以使用火車瀏覽器的xpath來模擬登錄,并提取有效內(nèi)容。
可以采集到空間中的QQ號碼、QQ名稱、說說內(nèi)容、日志文章(此項需空間開放方可采集)等。