The value of md5sum for the same file would be different after Gziped

I got a latest dataset from the collaborator yesterday, some files were already included in the previous version. However I failed in “md5sum -c md5sum.text”, that really tossed  me greatly. When I did the further check and  I found there was not any differences between the decompressed files, so only the compression step changed the MD5!!!

An email from Ray reminded me. I found the following lines on wiki page of gzip and I could have a sweet dream tonight~

“gzip” is often also used to refer to the gzip file format, which is:

  • a 10-byte header, containing a magic number, a version number and a timestamp
  • optional extra headers, such as the original file name,
  • a body, containing a DEFLATE-compressed payload
  • an 8-byte footer, containing a CRC-32 checksum and the length of the original uncompressed data

如何高效利用google搜索 (一)

完美使用google搜索语法

在墙内,最怕的不是搜索到你不需要的结果,而是 This webpage is not available… 所以推荐大家用google加密搜索 https://www.ggssl.com 如果用其他地址搜索,概不负责
  • 把需要连接在一起的关键词用 “” 括起来,比如搜索关键词: google hacks,如果不用”” 那么结果中会包含 “Google Earth Hacks – Fun stuff for Google Earth” 而不是你想要的google hacks 这本书
  • 善于运用布尔逻辑 假定关键词 X,Y
    • OR |         X | Y == X OR Y  表示搜索到X或者Y  OR作为逻辑符号,必须要大写、
    • –              X -Y                    表示结果含有X但是一定包含Y
    • +             +X Y                    避免google忽略常用词, 搜索结果一定要包含X
    • ~            ~X                       不仅搜索X,还附带与X同意的词组
    • ..              X..Y                    表示从X~Y范围,这时候XY必须是数字,搜索最好加上单位, X..  表示>X
    • *              “X * Y”                 通配符,懂得正则的同学都应该知道 Continue reading

Google Storage 申请&使用

Google Storage Store your data in Google‘s cloud…

说白了也就是个已经有点小泛滥的云存储,Amazon S3早几年前就推出服务了,去年实验室服务器不够用,去amazon EC2买了几个节点用,传数据的时候必须用到S3,$0.150 per GB per month,贵倒是不贵,就是付款要国际信用卡而且传输速度超慢(那时候服务对象是北美&欧洲,我是被歧视的…),用完了也就算了,除非用药EC2服务打死我也不用S3了…

我是标准G粉,既然google推出这么好的免费服务,一定要支持啊

申请

先填写申请表[如果点不开,人品不好,就翻墙吧…], 在这里一定要注意,Are you a US developer? * 一定要填写 Yes,目前Storage只针对US开发者开放,我第一次写的时候N久没收到,后来发现这点重新填写之后一周就收到GS的邀请

使用

Amazon S3有个firefox的插件,像FTP一样,拖拽实现Upload/Download,目前我没看到Google Storage有什么插件,官方推荐使用gsutil 和 浏览器版的GS manager

用之前先管理好你的developer keys.(Acess Key, Secret)

gsutil-linux 其他版本忽略

配置[前提gsutil装在$HOME]

$ tar xfz gsutil.tar.gz -C $HOME

在~/.bashrc 里面添加一行,来指定gsutil

$ cat >>~/.bashrc

export PATH=${PATH}:$HOME/gsutil

ctrl+D

gsu

Aside

再见!Google搜索引擎:5种解释Google撤出中国成定局(一) 转自Goolge Reader

来自: 牛博山寨头条 – FeedzShare  学无止境@一点一滴 – FeedzShare
发布时间:2010年01月14日,  已有 33 人推荐


 

昨晚从可能吧博客看了《宁为玉碎,不为瓦全-为Google喝彩》,开始预感Google未来的几天将可能撤出中国运营办事处, 我不是一个分析家、预测师。

但我们为何不看看一些充分的事实证据呢?——当然,你也不用太担心你的Google服务数据,面包总会有的。

第一种解释:Gmail攻击?到底是如何攻击的?
Gmail为何成为攻击对象?——普通网民一点不知情,与政治有关——大量境外敏感人士使用Gmail进行安全通信与安全有关——Gmail是全球电子邮箱服务提供商最安全的邮箱服务,一个Gmail 0day的漏洞在地下黑市出售可达50W~100W。

关于Gmail的安全级别评判,早期Gmail是存在Cookies、附件的跨站攻击,之后Gmail的团队专门开发了XSS Filter(恶意脚本代码过滤器),在字符串过滤与语法过滤都非常安全。若你想知道邮箱服务提供商的安全排名:Gmail——Yahoo——Hotmail——国内邮箱,Yahoo现在的XSS漏洞主要存在于CSS的语法过滤漏洞,至于后者的国内邮箱,像网易是极度不安全的,它存在Cookies漏洞,当用户点开一封邮件即可无需密码窃取邮件。

再加之,Gmail采用了SSL加密,鉴于此,国内的政府、公司是很难对Gmail账户入侵,那么,有没有解决方案呢?——有的,要求Google中国出示某Gmail账户密码。但是,Google不吃这一套,因为它记住了早期的Yahoo泄露用户密码的教训,Google对用户声誉看的非常重要,一旦泄露用户密码,这意味着什么?美国司法局会找Google麻烦,而我们不再爱Google了。

退而求其次,如何攻击Gmail账户呢?

1.废掉用户Gmail账户
伪造受害者的邮箱地址群发垃圾信息,其它用户会向Gmail举报受害者的邮箱地址为spam垃圾邮箱,Gmail并停用此账户。

简单说,A的邮箱地址是google@gmail.com,攻击者伪造google@gmail.com邮箱地址在一小时内向1万个Gmail用户发送垃圾邮件,于是google@gmail.com邮箱进入黑名单并被停用了。而受害者不得不重新注册个邮箱地址,或者弃用gmail用别的邮箱。

2.邮件内部钓鱼
你的Gmail有没有收过一封邮件,里面有两个输入框,一个按钮,让你输入账号、密码登陆,那么,你得小心点。这个漏洞仍然存在,老实说,这并不算啥漏洞,国内邮箱都支持这种HTML标签的,这种攻击太简单了,不会触发Gmail的预警。

同样,你有没有访问这个Gmail钓鱼网站www.gmail.cn?稍有点域名买卖经验的人都会很奇怪,会烧钱的Google为何没能买下这个域名呢?为啥呢,这是ZF做的,任你数亿美元也买不下这个钓鱼网站的。

3.密码重置
我认为Gmail官方博客指的Gmail攻击应该是这种攻击,属于暴力破解的一种形式,使用邮箱密码问题找回的攻击,输入了正确的问题答案就找回密码,如果输错了呢?

脑子秀逗了攻击者,反反复复的手工尝试,脑子没进水的,收集一堆的代理服务器自动尝试。

什么叫自动尝试?比如A用户的密码提示问题是:我是啥时生出来的?于是,攻击者使用密码词典生成年、月、日的密码组合,密码组合可以生成几万个。然后,攻击者使用工具导入密码词典,挂上数万个代理服务器一个个暴力破解,机子性能好、网速快,破解也会快些。

4.发送毒文档
像PDF、DOC、XLS……等一堆的文档格式,这些文档的漏洞有三种:一种是本身文件格式漏洞;二种是支持javascript;三是支持宏。

国外经常报导说啥中国黑客入侵美国XX政府的电脑,嗯,确有其事,但没有GhostNets那么夸张。众所周知,美国和中国不同,美国绝大多数政府机构都在互联网架了个站的,放了邮箱联系方式,于是乎,这些傻瓜攻击者,用爬虫工具把这些政府网站全爬完,收集了一堆的邮箱地址后,往这些邮箱发一堆的带毒文档,运气好的话,在这些机子装了些RAT木马。

普通用户不必担心,带毒的文档在Gmail网页中不会运行的,你可以直接点击在线查看就OK了,如果某天在线查看一片空白,你就得小心点。

另附David Drummond法务官对此次的Gmail攻击说明:

第一:这次攻击不仅仅针对google.我们的调查显示至少有20家大的公司,行业领域包括互联网,金融,科技,传媒,化工,都遭受了相似的攻击。我们正在通知这些公司,而且我们正在与美国相关领域的专家进行合作.

第二:我们有证据显示这些黑客的主要目标是获取中国人权活动家(Chinese human rigths activists)们的gmail账号信息.调查显示这些黑客并没有达到他们的目的。只有两个账户似乎被侵入,但是仅得到了账户的一般信息(比如说账户 是何时建立的)和邮件的标题,并没有得到邮件的内容。

第三:作为这次调查的另一部分,我们发现很多个在中国,美国,欧洲致力于中国人权发展的用户的gmail账户经常被第三方人士查阅.这些第三方人士并不是通过google的安全漏洞来获取gmail信息的,而是通过网络钓鱼和在用户的计算机上运行恶意软件的方法来获取用户的gmail邮件信息.(各位现在得小心邪恶的小企鹅!

第二种解释:Google中国区服务器被监听?
10月23号新浪微博客一条消息:Google开始撤退,所有在中国境内的服务器全部搬走。当然,我们不需要去考证这句话是否很傻很天真,先上个菜:

美国谷歌公司12日表示,在去年12月侦测到的攻击中,谷歌公司的知识产权遭到窃取。这并非只是一场单纯的安全事件,至少有其他20家大型公司也成为了类似的攻击目标,目前正与有关部门携手展开调查。
德拉蒙德在博客中写道,公司网站曾遭遇有针对性的攻击,导致其机密技术被窃,以及有关部门对谷歌搜索结果“审查整顿” 的做法,让其无法接受。

让我们开始联想一下,Google中国区机房是在北京兆维机房,而使用Google账号登陆Google的网络服务,Google的认证通信是与美国服务器通信呢?还是与中国区服务器通信呢?再来第二种,中国区的Google员工是参与开发工作的,它们所在中国与国内合作研发的网络产品就有N个:天涯问答、巨鲸网音乐、迅雷啥的……

咱们再来一次瞎想想,Google的网络产品核心技术被窃,这意味着啥?——有了源代码。有了源代码又能干啥——可以白箱找出账户认证的漏洞。有了这漏洞又能干啥?——Gmail的SSL加密完全可以无视。SSL都能无视了,又能干啥?你的网络通信内容可以被嗅探窃听……连你密码都可以飞了~

说的牛头不对马嘴,开始简单的总结一下:Google核心技术确实被窃取了,基础架构也确实被攻击了。窃取的手段可能控制了Google的中国区服务器。

那么,怎么控制的呢?我们都知道电话线可以被窃听的,当然,你的网线同样可以被窃听的,尤其是ADSL用户。俺见过这牛叉的ADSL窃听,具体的过程是,搞到受害者的IP地址,政府下发公文向电信运营商获取许可,攻击者在机房根据IP地址并接受害者的线路,就是接到一个长方形的黑箱子里——一个小型的windows系统,几个数据包的工具自动监视受害者的数据包,并能够伪造数据包。比如,用户在skycn下载个QQ软件,攻击者可以让下载链接地址重定向到一个木马地址,让你装上个木马。

最近,verycd的上海机房就随便让ZF关了,Google能控制自己的机房吗?Google能保证自己的机房的线路不被放个数据包嗅探器吗?Google能拿起法律保护自己吗?——老天,这是个冷笑话。甚至于——Google员工不可能泄露核心技术吗?在中国这个地盘,没有啥不可能的。

第三种解释:频率的自我和谐?
用Firefox的,经常搜Google,太邪恶的时候,总会搜到——接被重置

Google.cn,可怜的布鸟总是唱着悲伤的儿,因为它每天都要从自己身上拔下漂亮的羽毛,自李开复那会儿,它就得天天自我和谐,实在太折腾了。——远在太平洋的美国Google看不下去了,毛都拔光了,也不会唱歌,不中看也不中用,不如废掉算了……

这里得谈到关键字过滤,为了天朝伟大的和谐,于是一堆的网络软件、网络服务经常得干这活儿,比如网络软件Verycd吧,就有一份关键字名单,再如网络服务搜狐博客吧,有一帮的思想警察,本想提绿霸的,可惜这玩意写的很傻很天真,过滤能力太差了,ZF只好把它查办了。

至于Google.cn,也有一份长长的关键字名单,也有一份长长的黑名单网址清单……ZF呢,定期发邮件到google.cn的公关部,公关部呢,再发封邮件到技术部,技术部的人呢,差不多精通中国近代政治学了。

Google的员工,企业思想经常离不开“feedom”、创新啥的,搞这种言论审查累呛他们了,认为这不符合它们的核心使命,至于啥中国多流油的河蟹市场,见鬼去吧。这主要是因为Google有好的厨师经常做营养套餐,河蟹吃多了,他们内分泌失调……

第四种解释:经常月经的网络服务?
一般而言,学校的MM都知道,月经来两三次还算正常,但年年月月的起月经,同学会笑话的。这不……谷歌这位同学就是一个典型代表,月经都发展成抽筋了,美国媒体的那帮同学经常笑话它……谷歌辩解说:我从来一直都没有月经的,我是被迫月经的!可是,美国同学还是嘲笑它:哪咋的?为啥经常抽筋呢?谷歌:一言难尽,我是被抽的……

如果不加https访问Google Reader、Gmail、Google Docs……你就发现,这些网站好像在中国从来不存在过,别说啥Youtube、Twitter、Facebook压根就是骗人的。而在最近,ZF的GFW开始往Google轮番轰炸,连Google Groups都败下阵来了,这还没完,连啥Google书签都瘫痪了……基本上,Google上半身全瘫了,想不月经都不难的。

这对Google而言,一来,Google无法为中国区用户提供更好的免费服务,二来,Google的中国区网络服务完全陷入真空之中。相对Google而言,他们无法忍受去开发、维护一款“垃圾”产品的,如果中国ZF不欢迎他,那么,他便只有离开。

第五种解释:与Google价值观背道而离?
Google 的使命是整合全球信息,使人人皆可访问并从中受益。
1. 以用户为中心,其他一切水到渠成。
2. 心无旁骛、精益求精。
3. 快比慢好。
4. 网络的民主作风。
5. 获取信息的方式多种多样,不必非要坐在台式机前。
6. 不做坏事也能赚钱。
7. 信息永无止境。
8. 信息需求,没有国界。
9. 没有西装革履也可以很正经。
10. 没有最好,只有更好。

无论如何,河蟹让Google在中国区违背了太多的价值观,但关键之处在于李开复游说Google总部才达成这一点的。Google经常在烧钱,它有的是钱,所以中国的媒体不需要太自以为是,尽说一些无用的空话,中国人生来就喜欢免费的服务,试问,有多少人中国购买了Google产品?这份量很少的,中国人没钱的,早让ZF吸光了。

以第四条价值观而言,谷歌在中国的所作所为在国外媒体是倍受批评的,这些媒体总是反复的质问Google:Google为何向中国妥协?Google不应该向中国ZF妥协的!
现在,我们很高兴看到,Google开始不再向中国ZF妥协了:如不停止网络审查,则退出中国区。

撤出中国成定局:中国政府如何应对Google提议——不审查G.cn?

从中国撤出,无论对于Google与中国政府,他们都有一个好消息与一个坏消息。

中国政府:Google从中国封杀了。一个好消息:开始了强有力的网络审查第一步。一个坏消息:网络民间的倒戈与指责中国政府的错误。
Google:带真正的谷歌回家。一个好消息:维护了Google的尊严,为网民专注提供最优秀的服务。一个坏消息:网民们需要翻墙才看到Google。

好了,下面开始预测中国政府的行为:
一.抓住Google的“把柄”抹黑。
这个行为一直在进行中,比如下面这套路:
1.攻击Google搜索引擎:国家电视台CCTV播报Google搜索引擎涉黄。 《央视曝光谷歌搜索含有大量色情淫秽内容的逻辑
2.攻击Google Books图书搜索引擎:文协著指控Google图书摘要侵权。《Google图书搜索的是与非
3.人身攻击:从N个角度指责Google的RP有问题、脑残等,下为国家喉舌的报导:
谷歌考虑关闭中国运营是真是假
退出?谷歌在撒娇吧!
谷歌真得是不懂中国法律吗?
谷歌考虑撤出中国 事情也许不那么简单
相信谷歌“其实不想走”
七成受访网民认为政府不应向谷歌让步
高调宣布考虑退出中国市场 谷歌想吓唬谁?
……
愁~太多了,就不列了,随便点开一篇文章,看看后面的一堆的标题,你绝对可以见识世界上最牛的五毛党的文明用语。
比如,从道德上骂、从产品上骂、从服务上骂……太牛叉了,这些文章主要是造势,最精彩的戏还没上场呢。

二.控制媒体对Google开批斗会。
除了南方报系不会骂人之外,咱们会看到复古年代的光辉了。

国家电视台、全省卫视台、国家报刊媒体、地方报刊媒体、国家媒体网站、主流门户网站……统一口径听令中宣部的通知:近期一律只发Google负面稿件。对广大的群众同志再次执行洗脑意识形态……

今后,咱位除了每天看抗日片来仇恨日本人外,也会看国家喉舌的新闻仇恨资本主义……OH~~太棒了……

至于开批斗会的依据是啥呢?从人民网国家喉舌的架势就可以看出来了,Google.cn铁定撤出中国,那一堆的文章全是冷嘲热讽,太不和谐了,哼哼……当然,Google撤出中国,完全是自由的,它可以继续在中国和谐并道歉,或者有尊严的离开。

三.凭空挰造把柄
啥呢?很有可能,中国政府各个不同的部门开始调查Google在中国的情况,税啊啥的,侵权啥的,搞了啥盗版音乐的,黄色av啥的……反正就是这一句:Google在中国犯法了。但话说回来,Google可不是小孩的,中国政府要挑战一堆的法务官,得集中所有的力量,包括网络立法者、大头律师挖掘Google有犯法的问题没有。

经俺估指一算,不到两周,中国政府铁定找出Google几个把柄。

当然,犯不犯法,不是我们说了算的,也不是谷歌说了算的,而是中国政府,说你犯法就是犯法了,怎么着,TMD的,你就是触犯本天朝大法了……

上面个招术轮番上阵后,Google雷打不动,为啥呢?Google在美国——有钱,Google在网络——强大。中国政府并没有实质的证据可证明Google违法了的,因而,不会有一场官司。但是,会打算把Google祖宗十八代都骂完,好让咱们中国人意识形态认为:Google果然可恶了……

———————————————————————————————
从官方人民网的喉舌可以看出:不对Google.cn审查?不可能!你爱撤离中国市场?随便你!
我们都是天朝可爱的孩子们,不谈政治了,谈技术~请勿跨省追捕……
以上内容纯供大家娱乐……主要都是东拼七凑出来的……
另外,俺喜欢这张图片……我要非法盗用一下: