• yam天空
  • 天空部落
  • 新聞
  • 登入 註冊 網誌隨便逛
  • 加入天空部落
  • 聽不見我愛你活動

網誌 相簿 影音 PK吧! Honda嬉遊趣
即時新聞 影音新聞 新聞專輯 政治新聞 財經新聞 娛樂新聞 運動新聞 兩岸新聞 科技新聞
管理介面 發表網誌 發表日記 上傳相片 上傳影音 管理留言
推薦這個部落格: 63

只是捷運日記

在[食夢黑貘] 的 [捷運日記]外, 還有甚麼呢?

日記 |網誌 |影音 |相簿 |好友 |留言板
SEO 與蜘蛛人 2 | 主頁 | 藍眼觀注的拉票現像
June 22, 2007
甚麼不是資料探勘?以文找文
genehong 在天空部落發表於00:27:08 | 資料探勘
鼓勵此網誌:1 

    [前言]所謂的 "即時性" 及 "完整性" 是資料探勘與
          一般統計學常用的立論基礎是不一樣的, 甚至
          我都開玩笑的說: "統計學不是從數學分支,
          因為數學家不認為這是完美的", 相較之下說
          不定到最後: "資料探勘不是從統計分支, 因
          為統計學家都不認為這是合理的".

    *1

        跟我最沒有緣份的科系, 一個是物理, 因為我的
    目標都是物理系所但都沒考上, 而另一個更沒緣份的
    是數學.

        要算我考上過的數學相關系所可多了, 從成大數
    學, 政大應數, 東吳商數, 淡江數學, 且這些不乏考
    上一次以上, 加上原本想考統計所但後來作罷.

        因為我一直認為從數學或物理可以找到一些模型
    與答案, 但事實上這兩門學門所受的思考限制才是更
    多的.

        尤其是我從 1996 開始接觸所謂的 Information
    Retrieval 的資訊獲取的一些想法與技術時, 其中有
    一支就是我現在投入最深的 Data Mining (資料探勘).

        而在當時的教科書中, 有一半的方法都是在統計
    學上著墨, 我也跟著相信統計學的更上層存在一種可
    能解與方法, 所以我研究所花了不少去念多變量, 時
    間序列等等的學科.

        當然在 199X 最熱門的兩個題目, 一個是 Fuzzy
    (模糊數學), 一個是 Nerual Network (類神經網路),
    而我也很相信這可能是答案.
     
        只是開始實作時, 我發現這些方法雖然是合理的,
    但卻發現事實上問題都不在這邊, 而是其他技術面與
    人的政治面.

        這人的政治面有時最麻煩的不是其他人, 而是唸
    統計或唸行銷的人, 對所謂資料探勘有既成的印像,
    而這邊我在之前的文章有說過了.

        所以我才刻意說出幾種說法:

    1. 資料探勘是一種逆行銷, 不以行銷者的觀點作出
       發, 而是從消費者為中心出發.

    2. 資料探勘與統計相違背, 因為統計學常有 "母體"
       或 "抽樣" 的假設, 但資料探勘是計算即時發生
       的所有行為.

        甚至我還很偏頗的說: 只要是 "抽樣", 只要是
    "一個時間區間", 那些是統計的說法, 不是資料探勘
    的範籌去做區隔.

        事實上只要是能夠 "挖掘" 出答案的就是好的方
    法, 而何必去管是否是資料探勘或不是呢? 只是常面
    對一些令我不知如何挑戰, 我都會心理很阿 Q 的如
    此滴咕著.

        因為與其是區分何謂資料探勘或不是, 來判別甚
    麼是好的方法還是壞的方法, 還不如去探討質性與量
    化的研究優缺點, 這是很無聊的事, 甚至事實上這些
    說不定都比不上神秘經驗.

        但的確所謂的 "即時性" 及 "完整性" 是資料探
    勘與一般統計學常用的立論基礎是不一樣的, 甚至我
    都開玩笑的說: "統計學不是從數學分支, 因為數學
    家不認為這是合理的", 相較之下說不定: "資料探勘
    不是從統計分支, 因為統計學家都不認為這是合理的".

        當我悟出這道理後, 我更發現從一些理論物理/
    量子力學, 數值方法/演算法, 發現一些更另我吃驚
    的結果, 甚至發現原來我原本想要從統計學去趨近是
    錯誤的, 這些是工具, 但最後往往不是路逕.

        有一天我跟某 Cxh 聊說, 只要給我 20M 到 50M,
    我可以有 80% 以上的準確度來預測股市, 而來讓那
    些明嘴打嘴巴, 他說我這句話讓他心有所種感悟後,
    我發現或許要打敗所謂金錢遊戲, 或許我該下場讓那
    些機制運作失效.

        所以我在想有沒有可能是用 500K 到 2M 來作一
    些初步的運算, 而且是立即可用的, 不是那種只是我
    現在的空口說話而已, 但就我的 Priority 而言, 這
    個大概還很遠吧,  甚至是現在跟本沒必要去想這個.
    
        但為甚麼會這樣想與說呢? 以後再說好了.

    *2

    [連結]

    1. 事後諸葛這個模型
http://www.ithome.com.tw/plog/index.php?op=ViewArticle&articleId=9622&blogId=410

    2. 購買機率與相似度
       http://blog.yam.com/genehong/article/6345472

    3. 不只是捷運日記 的 資料探勘分類
       http://blog.roodo.com/genehong/archives/cat_170471.html

    [TAG]資料探勘, DataMining,  

    *********************************************

    *1
        05/14/07 02:26 pm, 過竹圍準備到關渡, 看完
    二手 Upapaer, 但只是紙張是二手, 內容無所謂二手,
    因為大都是三四手以上了.

    *2
        05/14/07 02:58 pm, 已經到古亭站了, 也來不
    及說了.

誰推薦這篇文章:
留言 (6) | 引用 (3) | 人氣 () | 轉寄
此分類上一篇:政治與網路 | 主頁 | 此分類下一篇:資料探勘所須的背景
引用 (你可以針對此文寫一篇屬於自己的blog/想法,並給作者一個通告)
引用
不只是捷運日記於<資料清理 (Data Cleaning)> 引用本文
提要:    [前言]無論如何, 能夠更準確的預測所想要知道的東          西, 用甚麼奇怪的方法都是對的, 畢竟是數字   &nb
引用時間: 2007-07-12 23:52:45
工程師級的顧問 / 【食夢黑貘】於<資料清理 (Data Cleaning)> 引用本文
提要: [前言]無論如何, 能夠更準確的預測所想要知道的東 西, 用甚麼奇怪的方法都是對的, 畢竟是數字 去找人, 而不要人去配合這些
引用時間: 2007-09-01 00:09:52
留言 (6筆)
1.
所謂的股票市場 ,就是難以用一種統計模式來一體適用 ,連諾貝爾經濟獎得主都會馬失前蹄 .

對這個市場要尊敬 ,至於理論 ,沒有必勝之法吧 .
CGS 於 2007-06-25 10:10:43 留言 |

2.
CGS:

是的, 我說錯話了...

btw, 我用的不是統計的方法, 是用 simulation 的...
黑貘 於 2007-06-26 17:58:19 留言 |

3.
黑貘大哥您好,
抱歉第一次留言,也不清楚您提出這個觀點的背景脈絡,
僅就初淺對於統計的了解提出我的想法。

就我的理解,其實從學理發展,
資料探勘也可以視為統計學的相關領域,
資料探勘直接觀測母體表現,
也是透過參數去估計影響變數,
還是要去探討變數間的關連性,
只是不涉及早期統計學,
在有限運作技術、資訊下必須要先去界定的母體範圍,
並以抽樣的觀測所得去推估母體表現;
至於假設檢定與否,
那其實牽涉到研究者對於統計方法論的信仰,
也是有很多學者不甩這一套的啊~

是啊~
不管黑貓白貓,抓的到老鼠的就是好貓,
用類神經網絡、資料探勘如果可以解決問題,
那就是好方法囉~

曾經有某老師要學生以類神經網絡去探討尖離峰飯店房間使用率問題,
最後不了了之,因為問題根本不再用什麼方法去解決研究問題,
而是經理人以實務經驗加上對當年度、當季外在環境的變化就可以預測,
儘早透過管理手段去解決之,何必搬石頭砸自己的腳 XD

無差別 於 2007-07-13 15:21:23 留言 |

4.
to 無差別:

的確, 我有說過, 再好的預測有時也不見得比人來的更準, 但一個 EC 網站可能有數十萬到百萬級的商品, 都由人來預測數量下單是不太可能的, 所以通常是說 95% 用電腦算掉後, 剩下比較困難的由人來判斷, 畢竟電腦是輔助人力, 不是拿來取代的....
黑貘 於 2007-07-13 21:55:58 留言 |

5.
撑着油纸伞,独自彷徨在悠长、悠长又寂寥的雨巷,
Barcode Printer 於 2008-05-22 15:31:54 留言 |

6.

的確, 我有說過, 再好的預測有時也不見得比人來的更準, 但一個 EC 網站可能有數十萬到百萬級的商品, 都由人來預測數量下單是不太可能的, 所以通常是說 95% 用電腦算掉後, 剩下比較困難的由人來判斷, 畢竟電腦是輔助人力, 不是拿來取代的....
adf 於 2008-06-02 17:04:46 留言 |

發表你的留言 (字數限制 最多 2000 個中文字)
私密留言: 是 否
Name:





是 否
內容:
系統公告
記事分類
  • MyZilla (20)
  • 玩家 (41)
  • 電影 (13)
  • 資料探勘 (19)
  • Linkist (5)
  • 博客來 (4)
  • 淡水 (5)
  • urs.tw (48)
  • 遊戲 (3)
  • 其他 (81)
  • 部落格 (49)
  • 未分類 (5)
連結書籤
  • MyZilla.tw
  • 工程師級的顧問
  • 不只是捷運日記 (樂多)
  • 黑貘來說
  • 捷運日記@PCHome電子報
  • 捷運日記@明日報
  • 部落格觀察
  • 心情日記
genehong的最新的回應
  • 網頁設計:
    經營部落格非常不容易,...
  • 網頁設計:
    Plurk雖然好用,不...
  • jhpeng:
    今天在東華大學見到黑貘了!
  • idear:
    目前我們在販售一些桌遊...
  • travel:
    不錯,收錄到我的最愛!
genehong的最新的記事
  • 2009 的今年 10 件事
  • 從 BBS 到微網誌 ???
  • Open Hack...
  • 我為甚麼要玩桌遊?
  • 我為甚麼要...
個人簡介
個人圖檔
ID:genehong
暱稱:【食夢黑貘】
生日:1908/12/31
地區:臺北縣
  • 訂閱 |
    • 我要訂閱此部落格的
    • 日記
    • 網誌
    • 相簿
  • 好友 |
    • 好友功能
    • 觀看好友列表
    • 觀看人緣列表
  • 人氣 |
  • 簡介 

好時光貼曆
最新的引用
  • 感謝劉兆玄~~~
  • 我要變身? 談網路身份~~
  • 部落格觀察六個月的十六點觀察
  • 是否開要分站!?
  • 是否開要分站!?
每月記事
  • Dec 2009(3)
  • Aug 2009(2)
  • May 2009(1)
  • Feb 2009(1)
  • Jan 2009(2)
  • Nov 2008(2)
  • Oct 2008(1)
  • Aug 2008(2)
  • Jul 2008(2)
  • Jun 2008(1)
  • May 2008(2)
  • Apr 2008(4)
  • Nov 2007(1)
  • Oct 2007(2)
  • Sep 2007(3)
  • Aug 2007(12)
  • Jul 2007(17)
  • Jun 2007(9)
  • May 2007(4)
  • Apr 2007(15)
  • Mar 2007(22)
  • Feb 2007(22)
  • Jan 2007(17)
  • Dec 2006(15)
  • Nov 2006(14)
  • Oct 2006(15)
  • Sep 2006(13)
  • Aug 2006(12)
  • Jul 2006(16)
  • Jun 2006(19)
  • May 2006(21)
  • Apr 2006(13)
  • Mar 2006(6)
  • Feb 2006(7)
  • Jan 2006(5)
  • Dec 2005(3)
  • Nov 2005(5)
  • Oct 2005(1)
Blog搜尋
搜尋:
訂閱
Add Look
訂閱 Bloglines 收進你的MyShare個人書籤
訂閱電子報
心情日記

Download Flash plugin


社會化的貘

黃色區塊圖是前天的作息
藍色折線圖是昨天的作息
紅色長條圖是今天的作息


標簽林

Google廣告
Text-Link

full hd
台北室內設計
英國留學代辦權威
莊園級紅茶
網頁設計北部首選!
計數器
Free Web Counter
我的Blogroll
あわせて読みたい
我在學學開的課
Cluster Map
Swichi Search
人氣指數
當日人次:
累積人次:
我推薦誰
目前無名單
誰推薦我
誰來我家
RSS 訂閱
RSS2
ATOM
贊助商
CC授權
其它資訊
本部落所刊登之內容,皆由作者個人所提供,不代表 yam 天空 本身立場。
POWERED BY
POWERED BY 天空部落
會員登入│免費註冊