案例：故宮網絡評論的採集與預處理

來源：編輯：匿名發表時間：2024-01-04 08:59:55 熱度：15

導讀： 之前我們在講旅遊輿情數據的清洗中提到清洗數據是爲了清除非文本數據、去除指定無用的符號、無意義文本、長串數字或字母，清洗完之後要對數據進行預處理，預處理一般會按照進行分詞、去除停用詞、變形詞識別和替換...

之前我們在講旅遊輿情數據的清洗中提到清洗數據是爲了清除非文本數據、去除指定無用的符號、無意義文本、長串數字或字母，清洗完之後要對數據進行預處理，預處理一般會按照進行分詞、去除停用詞、變形詞識別和替換這些步驟對數據進行處理，以便後續的數據分析更准確。我們以故宮網絡評論的採集與預處理爲例，來了解一下數據採集和預處理的過程。

2017年2月分別選取以大衆點評爲代表的綜合性社區網站、以攜程爲代表的在线旅行社（OTA），以及以馬蜂窩爲代表的旅遊社交網站3種不同類型的旅遊在线服務網站，來採集故宮的網絡評論。採集到大衆點評論數7922條，攜程38810條，馬蜂窩 10525條。

對採集的原始數據進行了去重、去除無意義數據（廣告，無意義的超短文本）等數據清洗工作，最終獲取到故宮的有效遊客評論數19526條，其中大衆點評7922條，攜程1019條，馬蜂窩 10515條。

採用中科院計算所張華平、劉群研制的 ICTCLAS 分詞詞性標注一體化系統，分詞後共得到1066474個詞匯。採用一個較爲通用的停用詞表（含有 2825個停用詞）作初始停用詞表去停用詞；根據多次主題挖掘的實驗結果對初始停用詞表進行擴展，增加主題挖掘實驗結果中出現的對於主題分類無意義的高頻詞，如故宮、北京等。第三步，語義去重與合並。利用 Hownet 合並相同含義的詞或短語，先對預處理得到的數據集中所包含的特徵詞項進行語義分析，通過詞項相似度的計算，刪除、合並語義相似的詞項。經過上述預處理，分詞後26%的詞匯被留下。