鼓勵此網誌:0
尤其像資料探勘這種系統, 可能要更多的模型
才能趨近現實.
部落格觀察有三個初始的目標, 有一個在我的定
義中是用來找出部落格的關係.
而這些方法都有各自的觀點, 並不全面, 但也有
自己的方向與意義, 且各自有不同的架構, 也有一些
是用資料探勘的 Relation Analysis 關連分析來做.
目前已經做過的如下:
1. 有多少人同時提及:
這個是最早做的, 用的是 google 兩個網址的並陳,
看有那些網頁同時出現這兩個網址, 這個是很有意義,
但很快就不能用, 因為若是以現在部落格觀察的規模,
要做完一次須要 7 萬乘上 7 萬對 google 的查詢,
也就是 50 億次的查詢, 這個雖然有效, 但不合理.
2. 部落格好友與推薦:
這個是讓 Blogger 自己建立自己的關係, 經過自
己的設定然後串起來, 但這個並沒有很認真去推,
畢竟這種須要使用者來輸入的東西, 不是我想做的.
3. 部落格足跡:
這個是由部落格讀者來決定的部落格關係, 也就是
用 IP 與 Blog 用 Relation Analysis 做出來的
結果, 這個雖然是算做出來, 但介面還沒有完善,
只是已經放在部落格觀察的連結了.
4. 宅度計的麻吉度:
這個很單純的是以關鍵字八大分類屬性分數來計算
出來, 並參考分數最高的關鍵字, 來算出部落格之
間的關係.
5. 宅度計的配對度:
這參考的是包含追加分類的各類主要關鍵字的結果,
應該會比麻吉度更準一點, 但有時會讓一些分類的
關係出不來.
6. 宅度計的關係度:
雖然在 "部觀門" 的確要做出類似以搜尋的關鍵字
為主關係度, 但還沒做出來之前就先用宅度計的內
容分析來去做, 這也是宅度計中最好的計算方式了.
這個議題我從 1996 年就開始做了, 當時要算的
是個人版之間的關係, 所以花了很多時間去研究演算法.
事實上去博客來之前就有三四個計劃, 有些已經進行到
一半了, 例如一個是原本要從魅力站的資料來算電子報
的關係與推薦, 另一個就是歐茲的 "終級交友系統".
當然上面這六個也只是個開始, 像部關門的搜尋
關連分析到現在還沒開始做, 這個說不定會較有意義些,
接下來就是第 2 項是最有人的因素這點, 本來就是必
須要有活動與介面來搭配才行.
甚至應該想辦法把這些做一個統整介面, 畢竟包
含我自己在看這些結果, 我有些覺得點頭, 有些覺得
搖頭, 雖然我相信這個的 "準確度" 與價值, 但這個
計算的方向到底是不是有意義的.
就像是宅度計雖然很有價值, 但大家看前面 30
名的文章, 很多很明顯就不是寫給人看的, 人幾乎不
太能夠閱讀, 擺明就是寫給搜詢引擎看的 SEO 用的,
所以若是能夠扣掉這一層就準確多了, 但更大的問題
還是在於每一個系統都不太一樣的問題.
畢竟部落格觀察在一開始有三點目標, 有誰還記
得嗎? 尤其其中一點是: 協助讀者找到自己想要閱讀
的部落格, 做這些只是要做到這個部份而已.
當然, Data Mining 資料探勘這種系統最有趣與
最麻煩的地方就是之後的調校, 畢竟這個不是算出來
就好, 而是要有意義, 甚至是有影響或 KPI 才行,
這個過程就比做出來還更漫長了.
2008-05-12 14:46:29, 這篇有一半是 "Online"
寫的 "不是捷運日記", 所以就兩邊都貼吧.
[連結]
1. 部落格觀察的三點目標
http://blog.yam.com/genehong/article/9520697
2. [宅度計] 關係榜上線
http://lookdoor.blogspot.com/2008/05/blog-post_11.html
3. 這個站的 "有多少人同時提及"
http://look.urs.tw/join.php?BlogID=1
4. 這個站的 "部落格推薦"
http://look.urs.tw/showrelation.php?BlogID=1
5. 這個站的 "部落格足跡"
http://foot.url.com.tw/blogprofile.php?BlogID=1
6. 這個站的 "麻吉榜"
http://otaku.datamining.tw/relation.php?BlogID=1
7. 這個站的 "配對榜"
http://otaku.datamining.tw/match.php?BlogID=1
8. 這個站的 "關係榜"
http://otaku.datamining.tw/dump.php?BlogID=1
[Keywords]部落格觀察, 資料探勘, Data Mining ,
關連分析, Relation Analysis
[編按]這篇雖然前半是在離線時寫的, 但也有一半是
"Online"寫的 "不是捷運日記", 所以就兩邊
都貼吧.
**********************************************
*前
2008-05-11 14:11:24, 現在經過北投站.
*後
2008-05-12 14:46:29, 這篇有一半是 "Online"
寫的 "不是捷運日記", 所以就兩邊都貼吧.




































