yam 蕃薯藤
天空部落
  • 網誌
  • 相簿
  • 影音
  • 夯集
  • PK吧!
  • 揪便宜
  • i鬥圖
  • la zorza
  • 買房子
新聞
  • 即時新聞
  • 影音新聞
  • 新聞專輯
  • 政治新聞
  • 財經新聞
  • 娛樂新聞
  • 運動新聞
  • 兩岸新聞
  • 科技新聞
註冊 登入
夯集
隨便逛
  • 正妹
  • 熱門
  • 網誌
  • 旅遊/攝影
  • 愛情/交友
  • 親子/教育
  • 美食/休閒
  • 設計/創作
  • 家族/同好
  • 影視/音樂
  • 社會/人文
  • 時尚/美容
  • 寵物/生活
  • 工作/職場
  • 科技/金融
  • 運動/健康
  • 交通/運輸
  • 相簿
  • COSPLAY
  • 布袋戲迷
  • 電玩漫畫
  • 女生照片
  • 藝術寫真
  • 攝影作品
  • 男生照片
  • 影視娛樂
  • 大眼小布
  • 情侶拍拍
  • 旅遊紀錄
  • 朋友團體
  • 人文藝術
  • more...
推薦這個部落格: 169

只是捷運日記

在[食夢黑貘] 的 [捷運日記]外, 還有甚麼呢?

日記 |網誌 |影音 |相簿 |好友 |留言板
金牌製作人 | 主頁 | 成為好經理的十個要訣
August 4, 2006
人的分析以文找文
genehong 在天空部落發表於01:03:43 | 資料探勘
 

    [QOTD]很多關係必須要定義出二元資料關係, 才能夠
          用不同的維度與關係, 展開更有趣的可能性.



    *1

    【我的學習】

        我現在理論上已經有不少工作是跟 Data Mining
    資料探勘有相當的關係了, 其中的發展史應該是:

    1993 如何從 News (NNTP) 自動化的文摘系統

    1995 接到一個 Search Engine 的開發案

    1996 一個 Agent 能夠幫你去圖書館找書的論文

    1997 如何幫人找到合適的個人版去讀

    1998 下午茶邀約系統的構想

    1999 SheSay 桌面版
         終級交友系統的構思

    2000 你今天過得如何計劃

    2001 戀愛事務所的完成

    2002 進入博客來, 踏入真的專業

    2003 博客來 CIA 專案
         博客來相關選購開始

    2004 博客來搜尋改版
         開發模擬預測系統
         博客來好友推薦系統雛型完成        
 
    2005 花蝶推薦系統與新書系統
         MyZilla Project Start

    2006 銷售預測
         心情日記開始

    【工作/SNS分析的困難點】

        而在 2004 年底時, 遇到曹新南, 我們開始討論
    是否有較好的演算法能夠幫人尋找工作與方向, 但我
    們就發現一個很嚴重的問題:

    1. 雖然工作是可以很結構化的篩選與搜尋, 但事實
       上這結構會因為設計不良造成很大的問題.

    2. 還有在選擇者與被選擇者, 對這結構化的資料定
       義認知有很大差距.

    3. 加上即使相同的公司, 部門, 職位, 也會因人而
       異有很大的差別.
 
    【資料探勘的可能性】

        所以跟上面所說的資料探勘方法與模型, 完全不
    一樣, 但慢慢的因為語意網路 (Sementic Web) 的發
    展, 原本當時的問題可以繞路解決:

    1. 完全不用結構的篩選, 去用相似度來做比較, 例
       如用特定最佳對像去尋找相似度.

    2. 用人把職位與內容做關連性延伸, 而放棄篩選的
       全有全無, 變成結構因人的關聯而產生關聯.

    3. 把人與公司的尋找與方向, 而做為一個延伸, 將
       行為特徵做為媒合的方法, 建立多重的關係.

    4. 把原本的單一度的 人<=> 事, 延伸成四度的
       人 <=> 事 <=> 人 <=> 事 來做發散與收斂, 甚
       至是更多度的二元關係式.

    5. 而這邊可以設計很多兩度的組合做為展開元素,
       如 人 <=> 事 <=> 人 或相反的連結, 基於不同
       來原來做配對.

    *2

    【比較表】

    【二元關係的可能性】

        一個 SNS 或 "找工作" 的網站, 很容易把二元
    關係定位在人與工作, 事實上真正的二元是所有關係
    的可能性, 例如學經歷與能力, 個性等, 都是個建立
    關係的另一個元素.

        且把這樣關係的元素當成是條件來篩選, 更是另
    一個茫點, 因為關係本來存在各式各樣的可能性, 且
    強弱更是較難去量化估計的情型下, 全有全無是有問
    題的.

        就像是交友網站, 很容易假設人與人是個關係,
    此時就變成一元的關係, 此時關係就很難進一步定義
    與延伸, 此時一定要有另一元的產生來建立關係的差
    異性, 這樣就比較去精確.

        當然從建立 Community, Circle, Friends 或
    Contacts 等, 都也是一種建立關係的方式, 但本來
    就應該更多元的建立關係, 但無論如何一定要是不同
    的兩元關係, 這樣資料比較容易擴展.

        但真正要挑戰的事, 既然釐清了兩元關係後, 維
    度的多少變成真正的挑戰, 因為任何可能的二元關係,
    可能是每一元都是上百萬, 且關係是上千萬個.

        因此隨便一個二維的展開, 就是要算百萬乘上千
    萬的計算, 這樣就是 10^13 等級的運算, 若沒有收
    斂直接算到三維展開, 就是 10^20 的展開.

        博客來與花蝶新書推薦, 都是單純的一維搜尋,
    關連選購這種計算就是二維的 10^13 等級的關係計
    算了, 而薦購更是 10^20 等級的三維展開, 且之後
    我嘗試四維或五維的展開說不定會更有趣.

        但在年初我也曾經思索除了關係展開的可能性之
    外, 語意的展開也是一個最基本的方式, 雖然內容是
    很標準的一維關係式, 但要解釋這個內容本身就是二
    維或三維的展開.

        只是若是展開就算了, 因為在 Open Source 界
    一直沒有好的語意網路的實作練習, 有時都沒那麼簡
    單, 所以還是得回歸關係.

    【目前實作】

        就像是 Orkut 也曾用關係來作人際與社群的推
    薦, 反倒是 Linkist (聯絡家) 曾用內容的語意展開
    來做推薦, 但那個案子不是我來執行的.

        看到 104 玩了不少關係的計算, 但比較可惜的
    還是停留在二維的展開, 但我相信一定有三維展開的
    計劃, 但並沒有做語意網路的展開, 不然一定會更好.

    *3

        當然, 這些展開可以應用在各個層面, 從金融的
    股市與期貨預測, 到任何的關係建立都可以用得上,
    只是這個關係要有多少, 或怎麼取得, 然後量化與計
    算, 如何收斂與加速, 都可以拿來玩的.

        只是如何應用在生活, 或對人有意義的事情上面,
    或者是怎去降低成本增加效益, 這些都是一個無止盡
    的目標.

    *4

    [連結]

    1. 工程師級的顧問 資料探勘 分類
http://www.ithome.com.tw/plog/index.php?op=Default&postCategoryId=734&blogId=410

    2. 博客來資料探勘中心
      
http://blog.books.com.tw/mining

    3. 104i
      
http://pda.104.com.tw/104i/
       http://myurl.tw/Gene/1016

    4. 我的聯絡家
      
http://myurl.tw/0007 

    [TAG]Data Mining, 資料探勘, 關係, SNS, 聯絡家,
         博客來, 

    ***********************************************

    *1
        07/28/06 05:24 pm, 現在過圓山站, 事實上是
    在台大醫院站才坐到座位, 但電腦很白痴的又重開一
    次機, 所以才會拖到現在.

    *2
        07/28/06 05:52 pm, 寫到這邊已經到淡水站了,
    只好下次再寫.

        08/03/06 11:40 am, 到關渡站, 就寫這一篇吧.

    *3
        08/03/06 12:10 pm, 台北車站轉車.

    *4
        08/03/06 12:15 pm, 到忠孝敦化, 只是這文章明
    顯的是要分三四段, 但我還是放在一篇自我分段好了,
    畢竟很久沒分段了.

留言 (0) | 引用 (1) | 人氣 () | 轉寄 | 檢舉
此分類上一篇:購買機率與相似度 | 主頁 | 此分類下一篇:網站與個人
引用 (你可以針對此文寫一篇屬於自己的blog/想法,並給作者一個通告)
引用
不只是捷運日記於<部落格觀察的 Gadget> 引用本文
提要:    [前言]部落格觀察在最遠程的計劃中, 就是幫使用者          推薦該看的部落格, 這也是終極目標之一, 只   &nb
引用時間: Jul 10, 2007
留言 (0筆)
發表你的留言 (字數限制 最多 2000 個中文字)
私密留言: 是 否
Name:



是 否
內容:
檢視行動版網頁  |  檢視正常版網頁
系統公告
熱情贊助
yam揪便宜
記事分類
  • MyZilla (20)
  • 玩家 (41)
  • 電影 (13)
  • 資料探勘 (19)
  • Linkist (5)
  • 博客來 (4)
  • 淡水 (5)
  • urs.tw (48)
  • 遊戲 (3)
  • 其他 (82)
  • 部落格 (54)
  • 未分類 (13)
連結書籤
  • MyZilla.tw
  • 工程師級的顧問
  • 不只是捷運日記 (樂多)
  • 黑貘來說
  • 捷運日記@PCHome電子報
  • 捷運日記@明日報
  • 部落格觀察
  • 心情日記
genehong的最新的回應
  • burberry-outlets.org:
    Tasteful...
  • xqixxanfott:
    感謝分享 ...
  • dpcriw:
    感謝分享 ...
  • saubejkxcpyk:
    馮迪索...
  • wdwqbakkni:
    高國華...
yam今日我最殺
genehong的最新的記事
  • 2010 的十件事
  • 捷運日記還是會繼續的...
  • 正確的 SEO 態度...
  • 我的工作 (舊文回溯)
  • 823一日噗戰之前的噗浪事
個人簡介
個人圖檔
ID:genehong
暱稱:【食夢黑貘】
生日:1908/12/31
地區:臺北縣
  • 好友 |
    • 好友功能
    • 觀看好友列表
    • 觀看人緣列表
  • 人氣 |
  • 簡介 

好時光貼曆
最新的引用
  • 只是捷運日記
  • 寫部落格時的真實心情
  • 這觀點~有讓我沉思喔!
  • 探討人類的思考模式,我...
  • Ativan.
每月記事
  • Jan 2011(1)
  • Nov 2010(3)
  • Aug 2010(1)
  • Jul 2010(1)
  • May 2010(3)
  • Apr 2010(1)
  • Mar 2010(2)
  • Jan 2010(2)
  • Dec 2009(3)
  • Aug 2009(2)
  • May 2009(1)
  • Feb 2009(1)
  • Jan 2009(2)
  • Nov 2008(2)
  • Oct 2008(1)
  • Aug 2008(2)
  • Jul 2008(2)
  • Jun 2008(1)
  • May 2008(2)
  • Apr 2008(4)
  • Nov 2007(1)
  • Oct 2007(2)
  • Sep 2007(3)
  • Aug 2007(12)
  • Jul 2007(17)
  • Jun 2007(9)
  • May 2007(4)
  • Apr 2007(15)
  • Mar 2007(22)
  • Feb 2007(22)
  • Jan 2007(17)
  • Dec 2006(15)
  • Nov 2006(14)
  • Oct 2006(15)
  • Sep 2006(13)
  • Aug 2006(12)
  • Jul 2006(16)
  • Jun 2006(19)
  • May 2006(21)
  • Apr 2006(13)
  • Mar 2006(6)
  • Feb 2006(7)
  • Jan 2006(5)
  • Dec 2005(3)
  • Nov 2005(5)
  • Oct 2005(1)
Blog搜尋
搜尋:
訂閱
Add Look
訂閱 Bloglines 收進你的MyShare個人書籤
訂閱電子報
心情日記

社會化的貘

黃色區塊圖是前天的作息
藍色折線圖是昨天的作息
紅色長條圖是今天的作息


標簽林

Google廣告
Text-Link

莊園級紅茶
台中網頁設計公司
鑽石鑽戒專家
可溶性膳食纖維
產後護理之家
排油煙機領導品牌
計數器
Free Web Counter
我的Blogroll
あわせて読みたい
我在學學開的課
Cluster Map
Swichi Search
人氣指數
當日人次:
累積人次:
我推薦誰
目前無名單
誰推薦我
誰來我家
RSS 訂閱
RSS2
ATOM
CC授權
其它資訊
本部落所刊登之內容,皆由作者個人所提供,不代表 yam 天空部落 本身立場。
POWERED BY
POWERED BY 天空部落
會員登入│免費註冊