使用TextRank演算擷取關鍵字(Using TextRank to Extract Keywords)

Ping-Lun Liao
3 min readNov 22, 2018

--

本文所提的TextRank演算法是參考 Rada MihalceaPaul Tarau 在 2004所提出的論文”TextRank: Bringing Order into Texts”,而此篇論文被引用的次數有逐年增加的趨勢:

TextRank的演算法是在已經產生有權重的圖(Weighted Graph)下進行的,如下圖:

上圖裡,線上的數字(例如 自然 <==5==> 語言 為5)是計算【自然, 語言】兩個詞再語料中共同出現的次數。假設有下面一段文字:

每天|開心|,|天天|開心|。

那所有詞window size為3之間的共現次數(去除stopwords後再計算)如下表:

然後在使用底下公式不斷地迭代。

公式參數說明:
d:阻尼係數,通常設定為0.85。
Out(Vj):連出去的節點(node)
In(Vj):連進來的節點
WS(Vi):TextRank分數
Wij:節點之間的權重

在論文”TextRank: Bringing Order into Texts”提供了收斂曲線的圖,約20次左右的迭代就會收斂了,如此就可以找出分數比較高的關鍵字了。

參考資料:
[1] TextRank — 文字探勘 — 找出關鍵字 以 八卦版標題為例

Originally published at yunlinsong.blogspot.com on November 22, 2018.

--

--

No responses yet