首頁 -  常見問題
爬蟲工(gōng)具抓取及導入操作文檔

該工(gōng)具旨在提供通過爬蟲工(gōng)具抓取數據後導入到GpowerCMSv8以上版本)的界面化功能操作。

1. 内容類型設計和選用

識别數據源待爬取的數據類型結構與導入目的端的GpowerCMS中(zhōng)的既有數據結構是否匹配,如不能一(yī)一(yī)對應的存儲來源數據字段,需要預先在GpowerCMS中(zhōng)創建新的内容類型,用于承載導入數據的完整數據結構(字段),如以下(xià)示例:



數據源數據結構除了文章數據既有的标題、來源、作者、發布時間等字段,參照上圖标注内容中(zhōng)還存在【1-專家姓名】【2-專家任職】【3-工(gōng)作經曆】【4-研究領域】等4個特殊字段;要将改數據結構的内容導如到目标GpowerCMS中(zhōng),需要在CMS中(zhōng)創建一(yī)個新的内容類型【專家主頁】:







配置完成基本内容字段配置後,爲該類型添加擴展字段,用于接收以上數據源中(zhōng)的字段:





完成後即準備好目的端GpowerCMS接收數據導入的相關配置操作。

2. 下(xià)載導入模闆

選擇要進行數據導入的欄目後,點擊爬蟲導入,進入數據導入頁面,如界面無對應功能聯系系統管理員(yuán)部署和提供改功能訪問地址;

此處需要注意,數據導入是以欄目爲顆粒度執行的,需核驗站點id和欄目id是否已填充,這兩個字段是作爲數據源導入目的欄目的必填項,可以判斷獲取指定内容類型的依據;

下(xià)拉選擇需要導入的文章内容類型後,點擊下(xià)載模闆;(如無特殊數據結構需求,選擇通用的文章類型即可)



下(xià)載的數據模闆是依照選定的數據類型生(shēng)成的數據字段和導入對應方式的參照,需要嚴格按照模闆約束填充數據。

3. 以八爪魚爲例描述抓取配置

數據源抓取的字段順序需與模闆待導入的字段順序保持一(yī)緻.



4. 使用八爪魚輔助工(gōng)具下(xià)載圖片資(zī)源

圖片url導入方式 選擇excel導入



如文章正文/文章圖片/相關圖片/附件/擴展屬性文件類中(zhōng)的圖片資(zī)源,應爲壓縮包内相對路徑

若要将正文内圖片導入CMS中(zhōng),需要将對應圖片的相對路徑配置在文章圖片列,多個圖片路徑可以以換行符分(fēn)隔。



八爪魚輔助下(xià)載工(gōng)具可能出現無法正确識别換行的報錯,将導入的xlsx另存爲xls即可修複。

5. 導入

注意,導入解析邏輯爲參照已下(xià)載模闆的既有字段順序讀取數據,而非識别表頭内容,故一(yī)定不要調整已下(xià)載模闆的列順序,即需要爬取文件與模闆中(zhōng)列的順序相同

數據的讀取和導入從第二行開(kāi)始(忽略表頭),完成後即可将抓取數據導入到目标GpowerCMS的指定欄目中(zhōng)。

頁面導讀