• yam天空
  • 天空部落
  • 新聞
  • 登入 註冊 網誌隨便逛
  • 加入天空部落
  • 華文部落格大賞結果出爐!

網誌 相簿 影音 PK吧! Honda嬉遊趣
即時新聞 影音新聞 新聞專輯 政治新聞 財經新聞 娛樂新聞 運動新聞 兩岸新聞 科技新聞
管理介面 發表網誌 發表日記 上傳相片 上傳影音 管理留言
推薦這個部落格: 65

只是捷運日記

在[食夢黑貘] 的 [捷運日記]外, 還有甚麼呢?

日記 |網誌 |影音 |相簿 |好友 |留言板
部落格精神分裂狀態? | 主頁 | 為甚麼部落格觀察不只有一個排行, 但...
July 31, 2007
資料探勘實用是因為小技術以文找文
genehong 在天空部落發表於14:21:30 | 資料探勘
鼓勵此網誌:0 

    [前言]有時一些創意是甚麼了不起的想法, 甚至是覺
          得相當合理且習以為常的東西, 但有時有趣的
          是如何兜在一起, 且兜在一起的動機與理由都
          是多變的, 幾乎都是在不同的環境與刺激出來
          的結果.

    *1

        昨天我在跟 anny 講說我當時是怎麼設計一套預
    測系統的, 事實上我本來以為一些大的進化與改變是
    很重要的, 但在回溯之前寫的程式時, 發現一些看似
    不怎樣的小技巧確是影響很大的東西.
    
        一個簡單的外插法, 由與取樣的方式就會有很大
    的變化, 當時只是一個很簡單的預測當日業積, 我就
    用當日來計算, 但一下子就發現一個很大的問題:
    "當一天開始的時候, 此時的樣本就太少".
    
        當樣本太少的時候, 這些樣本的小小變化就會造
    成很大的變動, 所以每次要到下午 2:00 到 4:00 時
    才會收斂到近乎直線.
    
        在第二次改版時, 我就想說保持 24 小時的樣本,
    而當時已經引進我當時所想的最適經驗法則, 只是因
    為為了要計算那個是最適經驗時, 就要做很多中間表,
    且為了要保持 24 小時的樣本數, 可讓中間表膨漲很
    大且並沒有提高準確度.
    
        事實上當時的問題不在這個, 而是我發現最適解
    本身因為每次計算可能都不一樣, 因此結果也是跳來
    跳去, 而我嘗試著用各種平均也找不到答案, 所以最
    後是畫出了兩個曲線, 一條叫做: "好像還沒那麼終極
    的終極預測", 以及 "希望會好一點的終極預測".
    
        看這兩個名字就知道, 這是一個失敗的案子, 雖
    然我對於所謂的最適經驗法則有信心, 但最大的問題
    就是取樣的方式以及最後結果的計算.
    
        而我在寫部落格觀察時, 此時就面臨一個更大的
    挑戰, 我要與預測不是一條曲線, 而是上萬條曲線,
    所以每次去展開樣本空間去做很多中間表是不可能的,
    我就用了一個欺騙的技巧.
    
        就是不去預測今天的點閱數, 而是用這兩天的資
    料與上週或平均的資料去預測這兩天的點閱數, 而由
    於昨天的點閱數是已知了, 自然剩下的就是今天的預
    測點閱數.
    
        這個小技巧使得建中間表變的更簡單, 且能夠保
    證不只是 24 小時的資料, 而是必然超過 24 小時的
    資料, 因此準確度自然提高了, 這也是我當時沒有想
    到的方式.
    
        當然這個也是說反正是個時間序列的曲線, 之前
    我過於強調 Sliding Window 的區間來看資料, 來算
    平均, 甚至也過於強調要保持這個這區間的大小寬度,
    反而在面對這個問題忘了取其中.
    
        接著就是最後算出來時, 要如何處理, 而之前一
    直知道若要解決乖離的資料, 必須要有某種 Data-
    Cleaning 的步驟, 但有時我也過於迷信資料存在必
    然有用, 不要放棄任何自由度.
    
        但事實上捨棄資料本身不見得會讓自由度變少,
    尤其是在這資料如何捨棄或化成某種機制, 此時才會
    在我當時說預測的區間可能是存在於中位數與平均值
    這個非常詭異的經驗論.
    
        只是我剛好遇到一個有趣的命題, 就是: "為甚麼
    部落格觀察死都要提供最終的綜合排行榜", 因此我也
    要擠出一個數字來做結果, 因此我嘗試著把中位數與
    與平均再取平均.
    
        但這個在理論上是完全沒有依據的, 所以我一直
    覺的不妥, 在某個睡夢中之前, 我想到了平均若是個
    面積的觀點, 為甚麼不用 Fuzzuy (模糊) 來去計算
    最終數字, 且能夠保持某種不會有乖離的現像呢?
    
        因此最後終於找到一個有趣的解答方式:
        
    1. 最適經驗法則
    2. 彈性的 Sliding Windows
    3. Fuzzy 的面積法
    
        這些這些都不是甚麼了不起的想法, 甚至是覺得
    相當合理且習以為常的東西, 但有時有趣的是如何兜
    在一起, 且兜在一起的動機與理由都是多變的, 幾乎
    都是在不同的環境與刺激出來的結果.
    
        所以該怎說呢? 我唯一會 Quote 的話是: "一個
    只是經濟學家的經濟學家, 絕不是一個好的經濟學家",
    此時的經濟學家可以換成任何領域的單一專家吧.

    *2
    
    [連結]
    
    1. Anny
       http://anny325.blogspot.com/
       
    2. 資料清理 (Data Cleaning)
       http://blog.roodo.com/genehong/archives/3649845.html
    
    3. 從業績預測開始(上)
       http://blog.yam.com/genehong/article/7613295
       
    4. 資料探勘所須的背景
       http://blog.yam.com/genehong/article/8195330
       
    [TAG]資料探勘, DataMining,     

    **********************************************

    *1
        2007/7/17 下午 01:25:20, 過忠義站, 嗯, 剩下
    20 分鐘可以寫了.
    
    *2    
        2007/7/17 下午 01:56:48, 坐在古亭站月台結尾.
留言 (0) | 引用 (0) | 人氣 () | 轉寄
此分類上一篇:從資料到資訊 | 主頁 | 此分類下一篇:資料清理 (Data Cleaning)
引用 (你可以針對此文寫一篇屬於自己的blog/想法,並給作者一個通告)
引用
留言 (0筆)
發表你的留言 (字數限制 最多 2000 個中文字)
私密留言: 是 否
Name:





是 否
內容:
系統公告
記事分類
  • MyZilla (20)
  • 玩家 (41)
  • 電影 (13)
  • 資料探勘 (19)
  • Linkist (5)
  • 博客來 (4)
  • 淡水 (5)
  • urs.tw (48)
  • 遊戲 (3)
  • 其他 (81)
  • 部落格 (49)
  • 未分類 (5)
連結書籤
  • MyZilla.tw
  • 工程師級的顧問
  • 不只是捷運日記 (樂多)
  • 黑貘來說
  • 捷運日記@PCHome電子報
  • 捷運日記@明日報
  • 部落格觀察
  • 心情日記
genehong的最新的回應
  • 網頁設計:
    經營部落格非常不容易,...
  • 網頁設計:
    Plurk雖然好用,不...
  • jhpeng:
    今天在東華大學見到黑貘了!
  • idear:
    目前我們在販售一些桌遊...
  • travel:
    不錯,收錄到我的最愛!
genehong的最新的記事
  • 2009 的今年 10 件事
  • 從 BBS 到微網誌 ???
  • Open Hack...
  • 我為甚麼要玩桌遊?
  • 我為甚麼要...
個人簡介
個人圖檔
ID:genehong
暱稱:【食夢黑貘】
生日:1908/12/31
地區:臺北縣
  • 訂閱 |
    • 我要訂閱此部落格的
    • 日記
    • 網誌
    • 相簿
  • 好友 |
    • 好友功能
    • 觀看好友列表
    • 觀看人緣列表
  • 人氣 |
  • 簡介 

好時光貼曆
最新的引用
  • 感謝劉兆玄~~~
  • 我要變身? 談網路身份~~
  • 部落格觀察六個月的十六點觀察
  • 是否開要分站!?
  • 是否開要分站!?
每月記事
  • Dec 2009(3)
  • Aug 2009(2)
  • May 2009(1)
  • Feb 2009(1)
  • Jan 2009(2)
  • Nov 2008(2)
  • Oct 2008(1)
  • Aug 2008(2)
  • Jul 2008(2)
  • Jun 2008(1)
  • May 2008(2)
  • Apr 2008(4)
  • Nov 2007(1)
  • Oct 2007(2)
  • Sep 2007(3)
  • Aug 2007(12)
  • Jul 2007(17)
  • Jun 2007(9)
  • May 2007(4)
  • Apr 2007(15)
  • Mar 2007(22)
  • Feb 2007(22)
  • Jan 2007(17)
  • Dec 2006(15)
  • Nov 2006(14)
  • Oct 2006(15)
  • Sep 2006(13)
  • Aug 2006(12)
  • Jul 2006(16)
  • Jun 2006(19)
  • May 2006(21)
  • Apr 2006(13)
  • Mar 2006(6)
  • Feb 2006(7)
  • Jan 2006(5)
  • Dec 2005(3)
  • Nov 2005(5)
  • Oct 2005(1)
Blog搜尋
搜尋:
訂閱
Add Look
訂閱 Bloglines 收進你的MyShare個人書籤
訂閱電子報
心情日記

Download Flash plugin


社會化的貘

黃色區塊圖是前天的作息
藍色折線圖是昨天的作息
紅色長條圖是今天的作息


標簽林

Google廣告
Text-Link

full hd
台北室內設計
英國留學代辦權威
莊園級紅茶
網頁設計北部首選!
計數器
Free Web Counter
我的Blogroll
あわせて読みたい
我在學學開的課
Cluster Map
Swichi Search
人氣指數
當日人次:
累積人次:
我推薦誰
目前無名單
誰推薦我
誰來我家
RSS 訂閱
RSS2
ATOM
贊助商
CC授權
其它資訊
本部落所刊登之內容,皆由作者個人所提供,不代表 yam 天空 本身立場。
POWERED BY
POWERED BY 天空部落
會員登入│免費註冊