[ Content | Sidebar ]

侧眼看绿坝

2009 ,六月 14日

在稻城的时候看到新闻,得知工信部要求国内出厂的计算机全面预装绿坝-花季护航软件,可以过滤色情内容、暴力内容以及翻墙软件,用来保护未成年人的上网安全。其他的先不看,单单是色情内容过滤,这不就是情点之间距离没那么均匀分配,中间的社区相对密集,是嘈杂的闹市。如果有时间,哪怕你走马观花也能淘到一些像样的玩意,色内容识别吗?实验室的师兄也做过类似的研究,让我们来看看绿坝怎么实现的。

从 XFImage.xml可观察到,绿霸使用了OpenCV的haar分类器进行人脸检测。绿霸附带的cximage.dll、CImage.dll、 xcore.dll和Xcv.dll也来自OpenCV的库文件。都反映出绿霸主要使用了OpenCV来进行图像方面的处理。不过就像一般国产软件的做法,绿霸大概也无视了OpenCV的BSD许可证。

OpenCV是Intel资助开发的开源计算机视觉(computer vision)库,包含了许多计算机视觉和图像视频处理领域的算法。绿坝没有在自己的文档中和版权声明中包含BSD协议就算了。我们还是来关注色情内容识别上。

色情图像检测已经发展好多年了,在研究之初,大家最容易想到的方法就是通过肤色来检测(人脸检测也是)。但这种方法有个明显的弊端,怎样区分类肤色在一张图片中所占比例的问题(一张风景照中可能就包含大量的类肤色区域,总不能把自己辛辛苦苦拍得风景照也屏蔽了吧,甚至火焰的颜色和肤色还有点像||若图片中的人脸比例过大,一张脸何来色情?)以及黑人(黑人也色情?不要拍砖给我)白人肤色的问题。于是,检测人脸检测并引入其他图像特征(如纹理等)成为后来常用的方法。

绿坝所使用的方法是:图像检测进程从待检图像队列中获取图像数据,先归一化图像尺寸(在图像变换过程中,不同尺寸的图像体现的边界细节有所不同,因此需要调整到合适的尺寸,同时将大图像调小也可以提高处理速度。),然后分离肤色区域和非肤色区域,在对肤色区域关系进行分析后去除干扰,提取区域的特征送入已训练SVM(support vector machine即支持向量机)分类器得到判决结果。当图像被检为色情图像后再送入人脸检测器,若人脸不是主要部分便确定为色情图像。这套算法的主要问题是,色情图像的识别严重依赖于肤色和肤色形状;而最后使用人脸检测加权判定也只是手工打补丁避免出现大幅人脸识别为色情图像问题的办法,且经验权值可靠性缺乏验证。

由此可以看出此图像识别依然以颜色分割为基础,即使算法再好也无法达到很好的人工智能识别效果。因为这种以颜色为基础的检测,基本检测单位是一个个的像素点,从2维上看2维,缺乏高度的抽象,即使通过模式识别的方法进行训练识别,从本质上还有别于人的识别方式,因此最终的识别结果也就不乐观。

关于色情站点,我们的墙早就保护了我们,而现在互联网上所看到的不健康图片来源于许多门户网站等频道中打擦边球的栏目。同时还听说绿坝会直接关闭浏览器或文字编辑软件,那假如孩子在写程序的时候突然某大型网站弹出个大量肤色的广告,程序的IDE被强制关闭,孩子辛苦写的程序岂不白写了……宜疏不宜堵,且堵也要用个有点技术含量的软件吧。这张政府单子有4000万,看来CV方向还是很有钱途的。

Tech, 杂念 - 0 Comments

硬盘数据恢复

2009 ,五月 7日

这次的经历真是有惊无险。

话说4号得到许可可以使用曾经新校区6401实验室的那种电脑后,我就把我的硬盘和电源和新电脑的硬盘电源互换,快1点的时候终于把系统和驱动搞定了。第二天早晨硬盘间拷贝文件的时候系统突然提示发现新硬件,我一看就晕了,那不正是其中一块硬盘?再点那个硬盘的分区则提示该分区未被格式化……这块硬盘可是我大学以来一直使用的硬盘,里面存的全是各种文档和资料!平时备份只是备份到不同分区,没想到现在整个硬盘却出问题了。

重启了一次问题依旧,那个硬盘的所有分区依然无法访问。进DOS用PartitionMagic或修复分区的工具试了试,反而把主硬盘的分区表也搞坏了。现在的问题是:系统盘分区表错误,无法进入系统;资料盘估计MBR之类的出了问题。只尝试了pq(总是提示有错误,修复了错误依旧),scanfix(修复分区表的工具,无效),Disk Genius(一进软件按提示修复错误还是无效)。没办法,怕再修下去别把数据搞掉了,只能拿到修电脑的地方看看。

店家的伙计接上资料盘开机后,硬盘狂叫不止,自检无法通过。伙计直接说硬盘坏了,没希望了(忒打击人了),而进入PE系统后能认出系统盘,里面的文件还是在的。

回实验室后,剩下的就只有把系统盘的数据导出,然后删除所有分区重新分区就OK了。再接上资料盘还是不正常地叫。看来资料盘的数据真没了,相当于我快5年的积累没了,相当于我从今年才开始使用电脑T_T。此情此景,不能欲哭无泪万念俱灰!心态还是要调整好。

咨询了Shawn后,在进入XP后在接上IDE资料盘的电源线,冒险试试看能不能读取。奇迹的是,硬盘不叫了,设备管理器里也能正常认出。此时的情况是:硬盘能被认出,但是分区信息没了,只有一个raw格式的分区,于是用EasyRecovery尝试恢复盘上的数据,但是用Raw扫描后建立可恢复的文件列表却花了我2个小时还没建立好。无奈之下,想起Disk Genius能重建分区表(之前只是按照提示操作,没有看到菜单中的这个功能 囧)。选择交互方式重建分区表,分区表被正确地找回来了!接下来就easy了,EasyRecovery就能把硬盘上的数据恢复出来了。

reconstruct DPT

到现在为止,往资料盘写数据的速度还是有些偏慢,暂时先不用它了吧。之前XX向boss说我电脑坏了,没想到第二天就应验了,无愧先知的称号啊,而我今年的RP依然不济。

教训:

  1. 经过几年的使用后,硬盘的可靠性开始降低。若有多个硬盘的话,尽量把重要数据备份在不同的位置,如网络上(云存储,我用M$的live mesh),不同的硬盘上。
  2. 分区表出问题后,可以尝试Disk Genius,国人写的短小精干的软件但功能绝对不逊色。PartitionMagic还是不如它。若分区表是正常的,可以进PE系统看看能不能查看分区内容,不行的话可以用EasyRecovery恢复。

LiZheng曾经在个人信息管理整合方案(上)里写到

你的数据,重要的数据,应当备份到哪里比较安全?

回答脑子的,不错,不过我比较笨,记不住那么多。

回答U盘的,赶快去买彩票吧。

回答硬盘的,相信你不久会遇到一次人生重大波折。

回答服务器的,我想告诉你,万一你的网管比较不负责任怎么办。

个人认为,Gmail是个不错的选择。Gmail提供了7273 MB空间(到我写作的这一刻),虽然不够放几百GB的照片,但是放写重要的文档(比如爱人曾经给我发过的全部短信,我都有保留。怎么保留,请见第8部分)还是足够的,这些文档极度极度重要,但是很小,几兆而已。

没有绝对可靠的地方,唯有多备份,有条件的组个RAID1(RAID也可能出问题)。希望大家的数据都能平平安安。附一张出问题后,系统辨认的我的数据盘,哈哈,现在市面上最大的硬盘才不过2T。

2.5T Hard disk

Tech - 0 Comments

安装office 2007 sp2中遇到

2009 ,四月 29日

今天office2007 sp2补丁发布了,马上下载安装。安装进度走到三分之一的地方卡住了,然后弹出来一个对话框曰:此程序包的安装失败。(忘了截图了)

网上貌似还没有人遇到这样的问题,有人建议安装出错了就卸载office重装。可是我重装完依然出现这个问题。然后又一次尝试安装sp2补丁包卡在那个进度的时候我取消了补丁的安装,打算以后用Windows的自动更新来更新。诡异的是,过了一会儿一个sp2安装成功的窗口弹了出来……再看word的版本号确实更新了。

Tech - 0 Comments

Google地图解谜游戏

2009 ,四月 24日

游戏地址:http://www.williamlong.info/google/earth/

Google Earth是一款很好的软件,这个Google Earth解谜游戏可以考验用户的地理常识和卫星地图查看能力,还可以培养大家查看卫星图片的能力,但这和专家相比还是差的很远。在军事领域中,一个卫星图片专家培训要10年以上的时间。

游戏的任务是在Google Earth卫星地图上找到某个指定的地点,系统会随机显示一个世界上某个独特景观的卫星图片,并给出一些提示信息,根据这些提示信息,用户可以在卫星地图上去搜索这个地点,挑战自己的地理常识,当用户把经度和纬度移动到该景观附近,并且显示放大比率相同,则算赢得了这次游戏的胜利。

Picasa也推出了类似的游戏,大家有兴趣可以去试试,但要难很多(岂止是难,太BT了),Picasa网络相册的探索游戏地址:http://picasaweb.google.com/lh/explore#whereintheworld

内容来自月光博客

杂念 - 0 Comments

没想到

2009 ,三月 22日

搬家是一件很痛苦的事情,3个人搬到隔壁实验室搬了近2个小时。没想到半年时间小小的空间被我放了这么多私人物品。搬到了隔壁,没想到网络那么差(时好时坏,而且是房间的一半好,另一半有可能就差,这叫没想到同一个房间的差距这么大),网站刷很多次有可能才打开。

我终于脱离了背对门口的位置,来到了距门口最远且面对门口的地方。据说坐在背对门口的位置会使人注意力分散影响工作效率。估计这个理论也是因人而异,工作时我倒没觉得什么,之前那个位置倒是影响了我娱乐的效率。可惜啊,现在有了看电影的可能却失去了电影的来源。

最近生活的主题是lost: lost ability, lost possession。没想到我那破车都有贼惦记。但无论怎样,我还是在笑,小方说我就根本没在心过,其实不然,但凡事应该看到可爱的一面,还应该看到更可爱的一面。

某人在忙的通宵,某人在伤感。BTW,好久没见Shawn了。

P.S.安装了IE8以后,无论是在VS2005还是VS2008下,右键Class->Add Functions/Variables。

出现错误:

'ParameterType.Value.length'为空或不是对象(Line:842)

暂时还没有找到解决方案,总是是IE8的安全设置问题。解决方法如下:

启动注册表编辑器 regedit (在64位系统上也可以启动32位版本)

找到“HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Internet

Settings\Zones”, 建立一个名为1000的新键(如果没有的话).

在这个1000的键下,建立如下DWORD内容:

Name = 1207

Type = REG_DWORD

Data = 0x000000

杂念 - 3 Comments

和谐的黑键

2009 ,三月 12日

我们知道在中国音乐中,五声音阶指宫、商、角、徵、羽。在一个八度之内这5个音便是1(do)、2(re)、3(mi)、5(sol)、6(la)。而钢琴键盘上的黑键刚好符合这些音程。因此无论怎么按黑键,听起来都是和谐的音符。

西方音乐发展到十二平均律,而中国音乐更偏好五声音阶。是因为我们没有找到十二平均律吗?还是和的思想早已渗入国人的灵魂?

杂念 - 1 Comments

2009格莱美

2009 ,二月 10日

每年寒假后来到学校第一个关注的应该就是格莱美颁奖了,凑巧今年的51届格莱美颁奖在元宵佳节。纵览提名,之前我只听过Coldplay,Radiohead和AC/DC的专辑。

戴着耳机在实验室耐心地看视频。音量不大,依然被被歌手们的演奏所感染,不仅仅是器乐演奏,还有歌词内容。此时,很容易把国内的音乐颁奖和各种文艺晚会与之对比。

首先就是真唱or假唱。格莱美的舞台上,艺人们真弹真唱,每个人都兴奋与疯狂着,他们的表演完全是在享受音乐、分享音乐所带来的欢乐。国内就不多说了,今年春晚有所进步,当然许多歌手今年也就不见了踪影(比较奇怪黄同学的出现),有些歌手还是小小地跑了点调。直到最后纵贯线的出场才让我感到没有白白期待。姜还是老的辣。

其次就是歌词的内容了。口水歌泛滥,无病呻吟。大家关注的仿佛不再是音乐本身而是关注艺人了。真正好的作品又有可能惨遭商业化埋没。

在这个连豆瓣都低俗的时代,期待一场音乐Revolution。

杂念 - 1 Comments

到家

2009 ,一月 23日

经过24小时的火车旅途,我终于回来啦~

昨晚一下火车,立马感受到强劲的西北风,那个冷啊,还是记忆中的冷。虽然艳阳高照,可真不是上街的天。而家里的网络出问题了,在这个宽带普及的时代我竟然又体验到拨号上网的速度,好稀有……

杂念 - 2 Comments

接二连三

2009 ,一月 13日

话说最近诸多不顺,只能期待农历新年新气象了。

先是吃鱼吃到胆。bulk在家做好了烤鱼,我们三个一起品尝,可第一口我就觉得苦,难道是筷子没洗干净?洗完筷子吃第二口,仍然觉得苦,还混着烧烤蜜汁的味道,那可能就是调料不能蘸着吃了。第三口,只吃鱼肉还是苦,我不吃了T_T。直到bulk也吃到了胆附近的肉才发现问题,他做鱼没有去胆!

然后车锁分两半。早晨骑车去考试,一开锁,哗啦锁分家了,还好还能凑合着接上以警示小偷,这便宜货就是不能买。

再次考试笔芯断。考DIP的时我答完了全部的题目,快交卷时想再补充补充,猛然发现中性笔尖漏出了大量油墨(珠子掉了),还好可以问夏旭同学借笔,还好只是补充试卷,还好不是政治考试进行到一半。

Someday,宿舍窗户玻璃在我开窗换气时不争气地裂开了。紧接着第二天凌晨听见玻璃掉下去的声音(还好没听见人尖叫的声音)。于是就有了这般景象。

_MG_9769

然后在夏旭同学的倾力相助下,我们换上了玻璃,可就在我满手玻璃胶的情况下他却毅然离去去赴约……

2009来了,大家都希望新年有新的开始,可在农历新年前若有不顺的话,则又盼望即将到来的农历新年,而将两次新年期间发生的事情当作试炼吧。

杂念 - 2 Comments

Google Chrome 2.0之用户脚本

2009 ,一月 9日

今早发现Google Chrome2.0的测试版放出,这距离1.0正式版的发行才几天啊……除了bug修复,升级等例行公事外,明确提及了支持用户脚本(类似火狐中的Greasemonkey),参考官方的说明,用法如下,Cnbeta上的可能用法不对。

  • 在Chrome的快捷方式后面加上“--enable-user-scripts“字样,不包含引号。例如我的是这样的:\chrome.exe" --enable-user-scripts
  • 创建一个目录用于存放用户脚本。若chrome的版本<= 2.0.156.1,脚本应该被放在此目录:C:\scripts若chrome的版本 > 2.0.156.1,脚本应该放在chrome用户目录下的User Scripts下。单击chrome的快捷方式单击寻找目标,打开此文件夹建立新文件夹即可。
  • 将*.user.js文件拷入脚本文件夹中。
  • 脚本将被自动载入,刷新页面就可以看到效果了^^

Tech - 1 Comments