<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" 
  xmlns:dc="http://purl.org/dc/elements/1.1/"
  xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
  xmlns:content="http://purl.org/rss/1.0/modules/content/">
<channel>
<title>wasay !! blog !!</title>
<link>http://blog.yam.com/wasay</link>
<description>
記錄一些發生在你我間，可能你已經遇到或是即將碰到的奇怪電腦、網路問題...
</description>
<language>zh-tw</language>
<generator>blog.yam.com</generator>
<copyright>All Rights Reserved</copyright>
<item>
  <title>備份自己的文章</title>
  <description>
&lt;p&gt;之前同學聊到 想要備份自己的文章，畢竟每一篇 都是自己走過的紀錄，也可以檢視從過去到現在週遭人事物的一些變化，要是哪一天文章不見了，應該也會小失落吧~ 所以想說把文章打包一份存在各地..&lt;/p&gt;
&lt;p&gt;第一次備份：&lt;br /&gt;wget -np -m &lt;a href=&quot;http://blog.yam.com/wasay/article&quot;&gt;http://blog.yam.com/wasay/article&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;-np --no-parent 只備份 這個 domain 下的內容&lt;/p&gt;
&lt;p&gt;-m --mirror 成相同的目錄結構&lt;/p&gt;
&lt;p&gt;如果 遇到 403，可能是server 有檢查angent，只要加上 --user-agent=AGENT 參數即可，&lt;br /&gt;變成 &lt;br /&gt;wget --user-agent=AGENT -np -m &lt;a href=&quot;http://host.org/&quot;&gt;http://host.org&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;如果遇到 robots.txt 而不能下載，那只要 &lt;br /&gt;&lt;/p&gt;
&lt;p&gt;wget -e robots=off -m -np http://myselfsite.org&amp;nbsp; &lt;br /&gt;&lt;/p&gt;
&lt;p&gt;即可。&lt;br /&gt;=================================&lt;br /&gt;上述方式可以 很單純的備份自己的文章，在一個資料夾，沒有其它雜質&lt;/p&gt;
&lt;p&gt;注意：&lt;a href=&quot;http://blog.yam.com/wasay/article&quot;&gt;http://blog.yam.com/wasay/article&lt;/a&gt; 的最後面沒有 /，如果多一個 /，只會存一個 html 而已&lt;/p&gt;
&lt;p&gt;第二次以後的備份：&lt;/p&gt;
&lt;p&gt;用 wget --help 看到一個 -N 的選項 --&amp;gt; don&#039;t re-retrieve files unless newer than local (依據時間，只抓新增的)，所以我用&lt;/p&gt;
&lt;p&gt;wget -np -Nm &lt;a href=&quot;http://blog.yam.com/wasay/article&quot;&gt;http://blog.yam.com/wasay/article&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;wget -np -N -m &lt;a href=&quot;http://blog.yam.com/wasay/article&quot;&gt;http://blog.yam.com/wasay/article&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;都發現它還是會再重抓一次已存在的電腦裡的網頁檔案，猜&lt;br /&gt;可能是因為抓的是&quot;網頁&quot;，會以每次抓網頁的時間存為&quot;網頁檔案&quot;新的時間，也就是一定比原本電腦裡網頁檔案的時間新，所以也就是說它還是會全部重抓一次， -N 的選項 應該是用在 一般檔案身上有時間戳記屬性的時候才能發揮作用吧~&lt;/p&gt;
&lt;p&gt;UPDATE：&lt;br /&gt;第二次以後的備份 可用&lt;/p&gt;
&lt;p&gt;wget -nc -np -r -k -c &lt;a href=&quot;http://blog.yam.com/wasay/article&quot;&gt;http://blog.yam.com/wasay/article&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;-nc --no-clobber --&amp;gt; skip downloads that would download to existing files.&lt;br /&gt;-np --no-parent --&amp;gt; 只備份 這個 domain 下的內容&lt;br /&gt;-r --recursive --&amp;gt; 從這個目錄往下走&lt;br /&gt;-k --convert-links --&amp;gt; 轉換非相對連結為相對連結&lt;br /&gt;-c --continue --&amp;gt; resume getting a partially-downloaded file.&lt;/p&gt;
&lt;p&gt;這些都是有完整內文的網頁，不是 天空管理後台 功能設定 --&amp;gt; 匯入／匯出 產生的那種摘要而已，&lt;/p&gt;
&lt;p&gt;所以有了這些完整內文檔案 加一個 天空後台生成的摘要網頁(方便看標題)，就算完整了吧~&lt;/p&gt;
&lt;p&gt;有密碼的文章可以另外處理~ &lt;/p&gt;
&lt;p&gt;備份完之後，也可以看blog右邊 分類文章數總和 應該會和電腦裡的 article folder 裡 網頁檔案個數一樣哦~ &lt;/p&gt;
&lt;p&gt;ps. wget 也有 win32 版的，指令幾乎一樣~ 下面是win32版下載位址&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;http://users.ugent.be/~bpuype/wget/#download&quot;&gt;http://users.ugent.be/~bpuype/wget/#download&lt;/a&gt;&amp;nbsp;&lt;br /&gt;&lt;br /&gt;======20080722&amp;nbsp; Update=======&lt;br /&gt;&amp;nbsp;-p(小寫p，抓取網頁上的圖片檔案)&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&lt;br /&gt;&amp;nbsp;get all images, etc. needed to display HTML page.&lt;br /&gt;&lt;br /&gt;&amp;nbsp;-k(抓完後，轉換絕對路徑成相對路徑)&amp;nbsp;&lt;br /&gt;--convert-links&amp;nbsp;&amp;nbsp; &amp;nbsp; make links in downloaded HTML point to local files.&lt;br /&gt;&lt;br /&gt;&amp;nbsp;-H(如果網頁中的圖片是在外面domain主機上的話，可用H參數抓回來)&amp;nbsp;&amp;nbsp;&lt;br /&gt;--span-hosts&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;go to foreign hosts when recursive.&lt;br /&gt;&lt;br /&gt;第一次可用 wget -r -p -np -m -k -H &lt;a href=&quot;http://target/index.php?Article=60&quot;&gt;http://target/index.php?Article=60&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;第 2 次續傳可加 -c 就會續傳，且不會 覆蓋原來已抓好的網頁檔案&lt;/p&gt;
&lt;p&gt;wget -r -p -np -m -k -H -c &lt;a href=&quot;http://target/index.php?Article=60&quot;&gt;http://target/index.php?Article=60&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;---------------------&lt;br /&gt;加 -i inputfile.txt (inputfile.txt 中的內容，一行接著一行，no double space ，即可以 work)&lt;/p&gt;
&lt;p&gt;例：&lt;br /&gt;wget -r -p -np -m -k -H -c -i GetArticle.txt&lt;br /&gt;&lt;br /&gt;要注意的是，如果 抓到一半，按下 ctrl+c 的話，就會中斷動作，所以也不會進行 -k 轉成相對連結，這時候如果離線看剛才抓取的網頁，則路徑不會有相對應關係~&amp;nbsp; 所以，GetArticle.txt 內容最好別一口氣放太多連結去抓，可以分成幾次去抓，GetArticle01-to-10.txt、GetArticle11-to-20.txt ..... 依此類推。&lt;br /&gt;&lt;br /&gt;但用上面的指令會有問題，因為要等到 最後一個&amp;nbsp;10 &amp;nbsp;的內容載完才會 做相對路徑的轉換，要是中途當掉，那就全部前功盡棄了，最好還是用 下面的方式，&lt;/p&gt;
&lt;p&gt;wget -r -p -np -m -k -H -c &lt;a href=&quot;http://target/index.php?issue=01&quot;&gt;http://target/index.php?issue=01&lt;/a&gt; &lt;br /&gt;wget -r -p -np -m -k -H -c &lt;a href=&quot;http://target/index.php?issue=02&quot;&gt;http://target/index.php?issue=02&lt;/a&gt; &lt;br /&gt;wget -r -p -np -m -k -H -c &lt;a href=&quot;http://target/index.php?issue=03&quot;&gt;http://target/index.php?issue=03&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;http://blog.yam.com/wasay/article/16338045&quot;&gt;先產生上述內容的 txt&lt;/a&gt; ，再存成 .bat 檔，點兩下執行，如此，就會在&lt;/p&gt;
&lt;p&gt;wget -r -p -np -m -k -H -c &lt;a href=&quot;http://target/index.php?issue=01&quot;&gt;http://target/index.php?issue=01&lt;/a&gt;&lt;a href=&quot;http://target/index.php?issue=01&quot;&gt;&lt;font color=&quot;#000000&quot;&gt; &lt;/font&gt;&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;跑完時，馬上轉換成 相對路徑，然後才開始抓下一個 02 的 url&lt;br /&gt;&lt;br /&gt;一個一個 Link 解決，這樣比較保險~ ^^&lt;br /&gt;&lt;br /&gt;======20080723&amp;nbsp; Update=======&lt;br /&gt;有時候 wget 常會抓到 讓目標主機 有點來不及回應，會造成 hang 在哪等對方主機回應，所以更保險就是設定 timeout 幾秒後，自動 retry。&lt;br /&gt;&lt;br /&gt;若遇到 403 forbidden，wget 會聰明的不做 retry 動作 (對一個 403 forbidden 的檔案 retry&amp;nbsp;好幾次應該是很笨 也很浪費時間的行為&amp;nbsp;)&lt;br /&gt;&lt;br /&gt;wget -r -p -np -m -k -H -c --timeout=10 --tries=5 --waitretry=2 --user-agent=&quot;User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)&quot;&amp;nbsp; &amp;nbsp;&lt;a href=&quot;http://target/index.php?issue=01&quot;&gt;http://target/index.php?issue=01&lt;/a&gt;&amp;nbsp;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;/p&gt;
   </description>

<content:encoded><![CDATA[
<p>之前同學聊到 想要備份自己的文章，畢竟每一篇 都是自己走過的紀錄，也可以檢視從過去到現在週遭人事物的一些變化，要是哪一天文章不見了，應該也會小失落吧~ 所以想說把文章打包一份存在各地..</p>
<p>第一次備份：<br />wget -np -m <a href="http://blog.yam.com/wasay/article">http://blog.yam.com/wasay/article</a></p>
<p>-np --no-parent 只備份 這個 domain 下的內容</p>
<p>-m --mirror 成相同的目錄結構</p>
<p>如果 遇到 403，可能是server 有檢查angent，只要加上 --user-agent=AGENT 參數即可，<br />變成 <br />wget --user-agent=AGENT -np -m <a href="http://host.org/">http://host.org</a></p>
<p>如果遇到 robots.txt 而不能下載，那只要 <br /></p>
<p>wget -e robots=off -m -np http://myselfsite.org&nbsp; <br /></p>
<p>即可。<br />=================================<br />上述方式可以 很單純的備份自己的文章，在一個資料夾，沒有其它雜質</p>
<p>注意：<a href="http://blog.yam.com/wasay/article">http://blog.yam.com/wasay/article</a> 的最後面沒有 /，如果多一個 /，只會存一個 html 而已</p>
<p>第二次以後的備份：</p>
<p>用 wget --help 看到一個 -N 的選項 --&gt; don't re-retrieve files unless newer than local (依據時間，只抓新增的)，所以我用</p>
<p>wget -np -Nm <a href="http://blog.yam.com/wasay/article">http://blog.yam.com/wasay/article</a></p>
<p>wget -np -N -m <a href="http://blog.yam.com/wasay/article">http://blog.yam.com/wasay/article</a></p>
<p>都發現它還是會再重抓一次已存在的電腦裡的網頁檔案，猜<br />可能是因為抓的是"網頁"，會以每次抓網頁的時間存為"網頁檔案"新的時間，也就是一定比原本電腦裡網頁檔案的時間新，所以也就是說它還是會全部重抓一次， -N 的選項 應該是用在 一般檔案身上有時間戳記屬性的時候才能發揮作用吧~</p>
<p>UPDATE：<br />第二次以後的備份 可用</p>
<p>wget -nc -np -r -k -c <a href="http://blog.yam.com/wasay/article">http://blog.yam.com/wasay/article</a></p>
<p>-nc --no-clobber --&gt; skip downloads that would download to existing files.<br />-np --no-parent --&gt; 只備份 這個 domain 下的內容<br />-r --recursive --&gt; 從這個目錄往下走<br />-k --convert-links --&gt; 轉換非相對連結為相對連結<br />-c --continue --&gt; resume getting a partially-downloaded file.</p>
<p>這些都是有完整內文的網頁，不是 天空管理後台 功能設定 --&gt; 匯入／匯出 產生的那種摘要而已，</p>
<p>所以有了這些完整內文檔案 加一個 天空後台生成的摘要網頁(方便看標題)，就算完整了吧~</p>
<p>有密碼的文章可以另外處理~ </p>
<p>備份完之後，也可以看blog右邊 分類文章數總和 應該會和電腦裡的 article folder 裡 網頁檔案個數一樣哦~ </p>
<p>ps. wget 也有 win32 版的，指令幾乎一樣~ 下面是win32版下載位址</p>
<p><a href="http://users.ugent.be/~bpuype/wget/#download">http://users.ugent.be/~bpuype/wget/#download</a>&nbsp;<br /><br />======20080722&nbsp; Update=======<br />&nbsp;-p(小寫p，抓取網頁上的圖片檔案)&nbsp;&nbsp;&nbsp;&nbsp;<br />&nbsp;get all images, etc. needed to display HTML page.<br /><br />&nbsp;-k(抓完後，轉換絕對路徑成相對路徑)&nbsp;<br />--convert-links&nbsp;&nbsp; &nbsp; make links in downloaded HTML point to local files.<br /><br />&nbsp;-H(如果網頁中的圖片是在外面domain主機上的話，可用H參數抓回來)&nbsp;&nbsp;<br />--span-hosts&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;go to foreign hosts when recursive.<br /><br />第一次可用 wget -r -p -np -m -k -H <a href="http://target/index.php?Article=60">http://target/index.php?Article=60</a><br /><br />第 2 次續傳可加 -c 就會續傳，且不會 覆蓋原來已抓好的網頁檔案</p>
<p>wget -r -p -np -m -k -H -c <a href="http://target/index.php?Article=60">http://target/index.php?Article=60</a><br /><br />---------------------<br />加 -i inputfile.txt (inputfile.txt 中的內容，一行接著一行，no double space ，即可以 work)</p>
<p>例：<br />wget -r -p -np -m -k -H -c -i GetArticle.txt<br /><br />要注意的是，如果 抓到一半，按下 ctrl+c 的話，就會中斷動作，所以也不會進行 -k 轉成相對連結，這時候如果離線看剛才抓取的網頁，則路徑不會有相對應關係~&nbsp; 所以，GetArticle.txt 內容最好別一口氣放太多連結去抓，可以分成幾次去抓，GetArticle01-to-10.txt、GetArticle11-to-20.txt ..... 依此類推。<br /><br />但用上面的指令會有問題，因為要等到 最後一個&nbsp;10 &nbsp;的內容載完才會 做相對路徑的轉換，要是中途當掉，那就全部前功盡棄了，最好還是用 下面的方式，</p>
<p>wget -r -p -np -m -k -H -c <a href="http://target/index.php?issue=01">http://target/index.php?issue=01</a> <br />wget -r -p -np -m -k -H -c <a href="http://target/index.php?issue=02">http://target/index.php?issue=02</a> <br />wget -r -p -np -m -k -H -c <a href="http://target/index.php?issue=03">http://target/index.php?issue=03</a></p>
<p><a href="http://blog.yam.com/wasay/article/16338045">先產生上述內容的 txt</a> ，再存成 .bat 檔，點兩下執行，如此，就會在</p>
<p>wget -r -p -np -m -k -H -c <a href="http://target/index.php?issue=01">http://target/index.php?issue=01</a><a href="http://target/index.php?issue=01"><font color="#000000"> </font></a></p>
<p>跑完時，馬上轉換成 相對路徑，然後才開始抓下一個 02 的 url<br /><br />一個一個 Link 解決，這樣比較保險~ ^^<br /><br />======20080723&nbsp; Update=======<br />有時候 wget 常會抓到 讓目標主機 有點來不及回應，會造成 hang 在哪等對方主機回應，所以更保險就是設定 timeout 幾秒後，自動 retry。<br /><br />若遇到 403 forbidden，wget 會聰明的不做 retry 動作 (對一個 403 forbidden 的檔案 retry&nbsp;好幾次應該是很笨 也很浪費時間的行為&nbsp;)<br /><br />wget -r -p -np -m -k -H -c --timeout=10 --tries=5 --waitretry=2 --user-agent="User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)"&nbsp; &nbsp;<a href="http://target/index.php?issue=01">http://target/index.php?issue=01</a>&nbsp;<br /><br /><br /><br /></p>
]]>
</content:encoded>


  <link>http://blog.yam.com/wasay/article/13801982</link>
  <category>ubuntu(Debian同源)</category>
  <pubDate>Sun, 10 Feb 2008 05:07:00 +0800</pubDate>
</item>
</channel>
</rss>