• yam天空
  • 天空部落
  • 新聞
  • 登入 註冊 網誌隨便逛
  • 加入天空部落
  • 華文部落格大賞結果出爐!

網誌 相簿 影音 PK吧! Honda嬉遊趣
即時新聞 影音新聞 新聞專輯 政治新聞 財經新聞 娛樂新聞 運動新聞 兩岸新聞 科技新聞
管理介面 發表網誌 發表日記 上傳相片 上傳影音 管理留言
推薦這個部落格: 66

只是捷運日記

在[食夢黑貘] 的 [捷運日記]外, 還有甚麼呢?

日記 |網誌 |影音 |相簿 |好友 |留言板 |未來內容
低潮的原因 | 主頁 | 部落格觀察Q&A(II)
July 22, 2007
資料清理 (Data Cleaning)以文找文
genehong 在天空部落發表於21:31:57 | 資料探勘
鼓勵此網誌:1 

    [前言]無論如何, 能夠更準確的預測所想要知道的東
          西, 用甚麼奇怪的方法都是對的, 畢竟是數字
          去找人, 而不要人去配合這些數字, 只是人的
          行為是可以被預測的嗎? 或許是說一個人較難
          預測, 但群體行為就可以嗎?


    *1

        在資料探勘的這個議題除了我們算出實際結果出來
    的這個範籌中, 事實上還有兩個很重要的領域, 一個是
    稱為 Data Presentation 的資料呈現, 及清除有問題
    資料的 Data Cleaning.
    
        而雖然我常說, 資料探勘與統計最不一樣的原因是
    樣本空間, 在資料探勘拿到的是所有的母體, 所以理論
    上不太會有錯誤的資料, 所以在資料清除這塊是意義最
    小的, 讓自由度保持最高反而是最好的, 所以不要放棄
    任何資料.
    
        但若牽涉到預測, 有時也是只有往一個大方向走去,
    所以在所謂的 Data Cleaning 的排除有問題的資料,
    最簡單的就是用平均, 有時我就會很懶墮的用平均數與
    中位數來做預測區間.
    
        在點閱數的外插法中, 最簡單的就是用五筆資料來
    找中位數與平均, 甚至擔心會有跳脫的數值時, 就取中
    間三筆來做平均就可以了, 而中位數本身就不用擔心所
    謂有問題資料所造成的 Noise (噪音).
    
        而我採取的樣本空間則是:
        
    1. 上週同期
    2. 七日移動平均
    3. 兩週前同期
    4. 昨天(或最適曲線)
    5. 上週平均(或同週最適曲線)
    
        只是所謂的最適曲線就是要經過選擇判斷的, 說真
    是很吃資源的, 而基本上就要做最佳化才能真的實用,
    所以說要短時間寫出來也沒那麼簡單.
    
        事實上我也不是沒算過所謂的最適曲線, 但當時用
    的是找到五條曲線做平均, 但因為這個五條的變化太大
    了, 所以到最後反而因為變動的離散太高, 因此在沒有
    人維護後就沒了.
    
        而當時發現的幾個問題:
        
    1. 若是每天重新取最新的樣本, 往往一天的開始會有樣
       本不足造成乖離太嚴重的現像, 所以應該放大樣本,
       例如包含昨天的樣本.
       
    2. 在取最適解的最佳化中, 就是做取樣的降冪, 例如是
       用 5 分鐘以下的取樣瀕率, 甚至最好是以計算週期
       做為取樣頻率.
       
    3. 當時並沒有做 Data Cleaning 的手續, 雖然若是用
       最適解的話, 事實上任何例外都是經驗, 但若非這種
       方式的話, 很容易造成資料扭曲到預測失準.
       
    *2
        
        但事實上 Data Cleaning 最困難的是要用甚麼方式
    去區隔所謂有問題的資料, 或只是樣本數不足罷了, 甚
    至若是會發生這樣的限象, 必然是一個因子, 在經驗上
    的重覆使用更不應該排除.
    
        只是這個社會很習慣的看整體共同點, 基本上是放
    棄例外或比較突兀的數字, 當然到底要如何去面對這些
    數字又是另一個觀點.
    
        無論如何, 能夠更準確的預測所想要知道的東西,
    用甚麼奇怪的方法都是對的, 畢竟是數字去找人, 而不
    要人去配合這些數字, 只是人的行為是可以被預測的嗎?
    或許是說一個人較難預測, 但群體行為就可以嗎?
    
        這條路還很漫長, 所以這些形而上的社會影響與哲
    思還可以慢慢想, 但也不能不想.

    *3

    [連結]
    
    1. 事後諸葛這個模型
http://www.ithome.com.tw/plog/index.php?op=ViewArticle&articleId=9622&blogId=410

    2. 甚麼不是資料探勘?
       http://blog.yam.com/genehong/article/10571840
       
    3. 資料探勘所須的背景
       http://blog.roodo.com/genehong/archives/2728749.html

    4. 從業績預測開始(下)
       http://blog.roodo.com/genehong/archives/2656200.html
       
    [TAG]資料探勘, DataMining, DataCleaning, 預測
    
    ************************************************

    *1
        2007/7/12 下午 01:20:46, 也是因為等開機, 一
    直到竹圍才開始寫, 這種 Timestamp 用的是 Sony
    PCG-C1MZX 這台.
    
    *2
        2007/7/12 下午 01:55:41, 轉板南線, 繼續寫.
    
    *3    
        2007/7/12 下午 02:05:53, 過永春了, 就寫當這邊.

誰推薦這篇文章:
留言 (2) | 引用 (0) | 人氣 () | 轉寄
此分類上一篇:資料探勘實用是因為小技術 | 主頁 | 此分類下一篇:數學與行為
引用 (你可以針對此文寫一篇屬於自己的blog/想法,並給作者一個通告)
引用
留言 (2筆)
1.
Hello你說我部落格觀察填到你的ID是什麼意思?
我去認領的是我自己的部落格耶
他好像有點怪怪的
可以拜託告訴我一下要怎麼設定嗎?
謝謝
小踢 於 2007-07-23 12:53:22 留言 |

2.
對不起~我懂你的意思了
已修改
對不起造成你的困擾
SORRY
小踢 於 2007-07-23 13:00:49 留言 |

發表你的留言 (字數限制 最多 2000 個中文字)
私密留言: 是 否
Name:





是 否
內容:
系統公告
記事分類
  • MyZilla (20)
  • 玩家 (41)
  • 電影 (13)
  • 資料探勘 (19)
  • Linkist (5)
  • 博客來 (4)
  • 淡水 (5)
  • urs.tw (48)
  • 遊戲 (3)
  • 其他 (81)
  • 部落格 (49)
  • 未分類 (5)
連結書籤
  • MyZilla.tw
  • 工程師級的顧問
  • 不只是捷運日記 (樂多)
  • 黑貘來說
  • 捷運日記@PCHome電子報
  • 捷運日記@明日報
  • 部落格觀察
  • 心情日記
genehong的最新的回應
  • 網頁設計:
    經營部落格非常不容易,...
  • 網頁設計:
    Plurk雖然好用,不...
  • jhpeng:
    今天在東華大學見到黑貘了!
  • idear:
    目前我們在販售一些桌遊...
  • travel:
    不錯,收錄到我的最愛!
genehong的最新的記事
  • 2009 的今年 10 件事
  • 從 BBS 到微網誌 ???
  • Open Hack...
  • 我為甚麼要玩桌遊?
  • 我為甚麼要...
個人簡介
個人圖檔
ID:genehong
暱稱:【食夢黑貘】
生日:1908/12/31
地區:臺北縣
  • 訂閱 |
    • 我要訂閱此部落格的
    • 日記
    • 網誌
    • 相簿
  • 好友 |
    • 好友功能
    • 觀看好友列表
    • 觀看人緣列表
  • 人氣 |
  • 簡介 

好時光貼曆
最新的引用
  • 感謝劉兆玄~~~
  • 我要變身? 談網路身份~~
  • 部落格觀察六個月的十六點觀察
  • 是否開要分站!?
  • 是否開要分站!?
每月記事
  • Dec 2009(3)
  • Aug 2009(2)
  • May 2009(1)
  • Feb 2009(1)
  • Jan 2009(2)
  • Nov 2008(2)
  • Oct 2008(1)
  • Aug 2008(2)
  • Jul 2008(2)
  • Jun 2008(1)
  • May 2008(2)
  • Apr 2008(4)
  • Nov 2007(1)
  • Oct 2007(2)
  • Sep 2007(3)
  • Aug 2007(12)
  • Jul 2007(17)
  • Jun 2007(9)
  • May 2007(4)
  • Apr 2007(15)
  • Mar 2007(22)
  • Feb 2007(22)
  • Jan 2007(17)
  • Dec 2006(15)
  • Nov 2006(14)
  • Oct 2006(15)
  • Sep 2006(13)
  • Aug 2006(12)
  • Jul 2006(16)
  • Jun 2006(19)
  • May 2006(21)
  • Apr 2006(13)
  • Mar 2006(6)
  • Feb 2006(7)
  • Jan 2006(5)
  • Dec 2005(3)
  • Nov 2005(5)
  • Oct 2005(1)
Blog搜尋
搜尋:
訂閱
Add Look
訂閱 Bloglines 收進你的MyShare個人書籤
訂閱電子報
心情日記

Download Flash plugin


社會化的貘

黃色區塊圖是前天的作息
藍色折線圖是昨天的作息
紅色長條圖是今天的作息


標簽林

Google廣告
Text-Link

full hd
台北室內設計
英國留學代辦權威
莊園級紅茶
網頁設計北部首選!
計數器
Free Web Counter
我的Blogroll
あわせて読みたい
我在學學開的課
Cluster Map
Swichi Search
人氣指數
當日人次:
累積人次:
我推薦誰
目前無名單
誰推薦我
誰來我家
RSS 訂閱
RSS2
ATOM
贊助商
CC授權
其它資訊
本部落所刊登之內容,皆由作者個人所提供,不代表 yam 天空 本身立場。
POWERED BY
POWERED BY 天空部落
會員登入│免費註冊