Bag of visual words (BOVW)是把影像用特徵來描述
譬如說用SIFT提取特徵,之後一張影像就用這些特徵來表示,並且也只保留這些特徵,
這可以用在影像特徵的萃取與比對
一張影像可以提取出許多字彙,直接用每個字彙出現的數量來描述影像是一種方式
而應用TF-IDF (Term freq. inverse document frequency )的技術,在此描述中加上字彙的稀有程度這項因素
t = (nid/nd) log(N/ni)
nid:字彙i出現在目標影像中的次數
nd :目標影像總字數
N:總影像數
ni:含有字彙i的影像數
(nid/nd)這項表示若這張影像的字彙數越少,每個字彙的權重越高
(log(N/ni))這項表示若這字彙越稀有,則這個字彙權重越高
接著再計算影像之間的cosine distance,
ref : https://www.youtube.com/watch?v=a4cFONdc6nc
ref :https://github.com/ovysotska/in_simple_english
沒有留言:
張貼留言