使用TextRank演算擷取關鍵字(Using TextRank to Extract Keywords)

3 min readNov 22, 2018

本文所提的TextRank演算法是參考 Rada Mihalcea 與 Paul Tarau 在 2004所提出的論文”TextRank: Bringing Order into Texts”，而此篇論文被引用的次數有逐年增加的趨勢：

TextRank的演算法是在已經產生有權重的圖(Weighted Graph)下進行的，如下圖：

上圖裡，線上的數字(例如 自然 <==5==> 語言 為5)是計算【自然, 語言】兩個詞再語料中共同出現的次數。假設有下面一段文字：

每天|開心|，|天天|開心|。

那所有詞window size為3之間的共現次數(去除stopwords後再計算)如下表：

然後在使用底下公式不斷地迭代。

公式參數說明：
d：阻尼係數，通常設定為0.85。
Out(Vj)：連出去的節點(node)
In(Vj)：連進來的節點
WS(Vi)：TextRank分數
Wij：節點之間的權重

在論文”TextRank: Bringing Order into Texts”提供了收斂曲線的圖，約20次左右的迭代就會收斂了，如此就可以找出分數比較高的關鍵字了。

Originally published at yunlinsong.blogspot.com on November 22, 2018.

Written by Ping-Lun Liao