基于增強(qiáng)語言表示模型的網(wǎng)絡(luò)新聞長文本分類的研究
摘要: 基于網(wǎng)絡(luò)實(shí)時(shí)新聞內(nèi)容數(shù)據(jù),對一份具有時(shí)效的中文長文本數(shù)據(jù)集進(jìn)行了新聞主題分類。利用年度關(guān)鍵詞增強(qiáng)的分詞方案提升分詞精度,采用一種長文本壓縮方法處理中文長文本的特殊數(shù)據(jù),具體方法為選擇關(guān)鍵句并利用TF-IDF算法提取長文本中關(guān)鍵詞,再將組合的新文本進(jìn)行詞向量訓(xùn)練。最后,采用增強(qiáng)的語言表示模型進(jìn)行新聞主題分類,并與6種機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型進(jìn)行對比評估,評價(jià)指標(biāo)為召回率、準(zhǔn)確率、精... ...
(共8頁)
開通會員,享受整站包年服務(wù)