[QOTD]很多關係必須要定義出二元資料關係, 才能夠
用不同的維度與關係, 展開更有趣的可能性.

*1
【我的學習】
我現在理論上已經有不少工作是跟 Data Mining
資料探勘有相當的關係了, 其中的發展史應該是:
1993 如何從 News (NNTP) 自動化的文摘系統
1995 接到一個 Search Engine 的開發案
1996 一個 Agent 能夠幫你去圖書館找書的論文
1997 如何幫人找到合適的個人版去讀
1998 下午茶邀約系統的構想
1999 SheSay 桌面版
終級交友系統的構思
2000 你今天過得如何計劃
2001 戀愛事務所的完成
2002 進入博客來, 踏入真的專業
2003 博客來 CIA 專案
博客來相關選購開始
2004 博客來搜尋改版
開發模擬預測系統
博客來好友推薦系統雛型完成
2005 花蝶推薦系統與新書系統
MyZilla Project Start
2006 銷售預測
心情日記開始
【工作/SNS分析的困難點】
而在 2004 年底時, 遇到曹新南, 我們開始討論
是否有較好的演算法能夠幫人尋找工作與方向, 但我
們就發現一個很嚴重的問題:
1. 雖然工作是可以很結構化的篩選與搜尋, 但事實
上這結構會因為設計不良造成很大的問題.
2. 還有在選擇者與被選擇者, 對這結構化的資料定
義認知有很大差距.
3. 加上即使相同的公司, 部門, 職位, 也會因人而
異有很大的差別.
【資料探勘的可能性】
所以跟上面所說的資料探勘方法與模型, 完全不
一樣, 但慢慢的因為語意網路 (Sementic Web) 的發
展, 原本當時的問題可以繞路解決:
1. 完全不用結構的篩選, 去用相似度來做比較, 例
如用特定最佳對像去尋找相似度.
2. 用人把職位與內容做關連性延伸, 而放棄篩選的
全有全無, 變成結構因人的關聯而產生關聯.
3. 把人與公司的尋找與方向, 而做為一個延伸, 將
行為特徵做為媒合的方法, 建立多重的關係.
4. 把原本的單一度的 人<=> 事, 延伸成四度的
人 <=> 事 <=> 人 <=> 事 來做發散與收斂, 甚
至是更多度的二元關係式.
5. 而這邊可以設計很多兩度的組合做為展開元素,
如 人 <=> 事 <=> 人 或相反的連結, 基於不同
來原來做配對.
*2
【比較表】

【二元關係的可能性】
一個 SNS 或 "找工作" 的網站, 很容易把二元
關係定位在人與工作, 事實上真正的二元是所有關係
的可能性, 例如學經歷與能力, 個性等, 都是個建立
關係的另一個元素.
且把這樣關係的元素當成是條件來篩選, 更是另
一個茫點, 因為關係本來存在各式各樣的可能性, 且
強弱更是較難去量化估計的情型下, 全有全無是有問
題的.
就像是交友網站, 很容易假設人與人是個關係,
此時就變成一元的關係, 此時關係就很難進一步定義
與延伸, 此時一定要有另一元的產生來建立關係的差
異性, 這樣就比較去精確.
當然從建立 Community, Circle, Friends 或
Contacts 等, 都也是一種建立關係的方式, 但本來
就應該更多元的建立關係, 但無論如何一定要是不同
的兩元關係, 這樣資料比較容易擴展.
但真正要挑戰的事, 既然釐清了兩元關係後, 維
度的多少變成真正的挑戰, 因為任何可能的二元關係,
可能是每一元都是上百萬, 且關係是上千萬個.
因此隨便一個二維的展開, 就是要算百萬乘上千
萬的計算, 這樣就是 10^13 等級的運算, 若沒有收
斂直接算到三維展開, 就是 10^20 的展開.
博客來與花蝶新書推薦, 都是單純的一維搜尋,
關連選購這種計算就是二維的 10^13 等級的關係計
算了, 而薦購更是 10^20 等級的三維展開, 且之後
我嘗試四維或五維的展開說不定會更有趣.
但在年初我也曾經思索除了關係展開的可能性之
外, 語意的展開也是一個最基本的方式, 雖然內容是
很標準的一維關係式, 但要解釋這個內容本身就是二
維或三維的展開.
只是若是展開就算了, 因為在 Open Source 界
一直沒有好的語意網路的實作練習, 有時都沒那麼簡
單, 所以還是得回歸關係.
【目前實作】
就像是 Orkut 也曾用關係來作人際與社群的推
薦, 反倒是 Linkist (聯絡家) 曾用內容的語意展開
來做推薦, 但那個案子不是我來執行的.
看到 104 玩了不少關係的計算, 但比較可惜的
還是停留在二維的展開, 但我相信一定有三維展開的
計劃, 但並沒有做語意網路的展開, 不然一定會更好.
*3
當然, 這些展開可以應用在各個層面, 從金融的
股市與期貨預測, 到任何的關係建立都可以用得上,
只是這個關係要有多少, 或怎麼取得, 然後量化與計
算, 如何收斂與加速, 都可以拿來玩的.
只是如何應用在生活, 或對人有意義的事情上面,
或者是怎去降低成本增加效益, 這些都是一個無止盡
的目標.
*4
[連結]
1. 工程師級的顧問 資料探勘 分類
http://www.ithome.com.tw/plog/index.php?op=Default&postCategoryId=734&blogId=410
2. 博客來資料探勘中心
http://blog.books.com.tw/mining
3. 104i
http://pda.104.com.tw/104i/
http://myurl.tw/Gene/1016
4. 我的聯絡家
http://myurl.tw/0007
[TAG]Data Mining, 資料探勘, 關係, SNS, 聯絡家,
博客來,
***********************************************
*1
07/28/06 05:24 pm, 現在過圓山站, 事實上是
在台大醫院站才坐到座位, 但電腦很白痴的又重開一
次機, 所以才會拖到現在.
*2
07/28/06 05:52 pm, 寫到這邊已經到淡水站了,
只好下次再寫.
08/03/06 11:40 am, 到關渡站, 就寫這一篇吧.
*3
08/03/06 12:10 pm, 台北車站轉車.
*4
08/03/06 12:15 pm, 到忠孝敦化, 只是這文章明
顯的是要分三四段, 但我還是放在一篇自我分段好了,
畢竟很久沒分段了.



















