跳到主要內容

發表文章

目前顯示的是 12月, 2011的文章

[野人獻曝] 某個WebProxy的......使用方法?

這一篇來告訴各位ProxyPy這個Web Proxy的......嗯......使用方法? 首先,可以確定一點的是, ProxyPy載入網頁的uri格式是: http://xxx.appspot.com/u?purl={query_string} 這個query_string就是代表你要瀏覽的網頁, 看起來可能蠻亂七八糟不知所云, 但說穿了也不過是經過一些處理過程而已。 主因當然是避免有人知道這串query_string所代表的網址是什麼。 不過本篇文章不是要來解釋怎麼解開那串query_string, 而是要解釋一下ProxyPy是怎麼處理那串query_string的(雖然看完以後你也會解就是了(汗))。 簡單來說,這串query_string經過了以下的處理步驟: 把網址文字反轉,如 http://tw.yahoo.com/ 反轉成 /moc.oohay.wt//:ptth 再將上述反轉的字串用 base64 重新編碼過,所以會得到  L21vYy5vb2hheS53dC8vOnB0dGg= 這組字串 接著再把上述字串處理過,使其符合RFC1738的規則 經過這些步驟你就可以得到以下的url: http://xxx.appspot.com/u?purl=L21vYy5vb2hheS53dC8vOnB0dGg%3D 知道了這個編碼規則以後, 相信搭配 前一篇文章 後(還有 某一篇關於爬資料 的文章), 你應該就知道可以作些什麼事了吧(笑)。 文章最後再提一下, 很多Web Proxy也是使用類似的方法來處理, 所以在踹的時候也可以把這些步驟拿來試試看喔^.<

[野人獻曝] 利用Google來找出架在appengine上的Web Proxy

因為大人的原因, 所以我要透過很多Web Proxy去代替我爬資料, 不過由於我手上根本沒這麼多Proxy可用, 又加上有人把 Google Appengine 當成一種Proxy來用, 所以......我就毫不知恥的直接寫程式讓Google幫我爬這些資料了(心虛)。 原始碼在這 ,有興趣想玩的請參考。 解釋一下原理好了, 基本上只是利用Google幫我查詢「Powered by ProxyPy v1.4 site:appspot.com」這個字串, 我再把裡面的網址用正規式爬出來而已, 算是個相當簡單的小工具。 不過要注意一下, 由於Google對於頻繁的查詢是會有ban掉的措施, 所以使用時請自重, 否則弄到同一區域網路的其他人不能用就好笑了。