【深度】如何界定色情?AI“鉴黄师”:我太难了

【深度】如何界定色情?AI“鉴黄师”:我太难了插图

图源:pixabay

前几日,“B站宅舞区脱衣裸露视频过审”的新闻曝光。虽然事后,B站发表声明表示,大尺度违规视频源于海外网站,B站过审的是“和谐删减版”,没有违规没有涉黄,并删除了相关视频。但还是难挡吃瓜群众的八卦之心,各个平台上热议纷纷。

 

不仅有人找到了最初未被“阉割”的小视频,甚者还有网友“人肉”出了跳舞妹子的详细资料,事件的前因后果和陆续发展。大家都异常踊跃。

【深度】如何界定色情?AI“鉴黄师”:我太难了插图1

谈性色变的时代,凡是这种带点颜色的消息总能博得众人眼球,越来越多的人打着大量的“擦边球”、在“涉黄”边缘试探,“网络鉴黄师”的工作越来越难……

 

【深度】如何界定色情?AI“鉴黄师”:我太难了插图2

“鉴黄”不易,且行且珍惜

   

一个Tumblr倒下了,千千万万个Twitter站起来。

 

2018年12月17日,全球最大的轻博客网站Tumblr禁止了色情内容,这让众多无处安放的灵魂躁动不已。

【深度】如何界定色情?AI“鉴黄师”:我太难了插图3

这时候,有一部分人发现Twitter可以继续他们日常生理需求。换汤不换药,Twitter成了新的网黄聚集地。

 

某位从事互联网工作的女性表示,在Twitter平台上,她的“好友请求”收件箱里到处都是“嗨”一类的消息和一些过于私人的问题;有时,一些更加大胆的男人会直接给她发送阴茎图片。


【深度】如何界定色情?AI“鉴黄师”:我太难了插图4

 

在Twitter上,很多女性都表示曾收到过类似图片。尽管很多人对于什么是网络骚扰及其细节会有不同意见,但有一点大家都一致认同:在未经同意的情况下给某人发送一张阴茎照片,即使对于当事人不能算是一种完全虐待的行为,也是一大失礼和恶心的事。

 

但若男性不在乎失礼,这种骚扰又该如何应对呢?

 

网络“鉴黄师”作为社交媒体的“清道夫”, 为亿万网络用户的网络净土而负重前行,将最肮脏、最恶心的信息阻截在世界之外。


【深度】如何界定色情?AI“鉴黄师”:我太难了插图5

但是他们真的扛得住吗?

 

如今的Facebook用户已经达到了23.2亿,Twitter的日活也已经稳定在1.34亿左右,随着社交媒体的兴起和发展,互联网上对暴力、冲突、色情的加速作用变得越来越激烈,血腥自残,幼童虐待,恐怖暴乱,淫秽色情,网络“鉴黄师”成为了这个时代最悲伤的职业。

 

【深度】如何界定色情?AI“鉴黄师”:我太难了插图6

好在,人工智能的出现让他们松了一口气。但AI审核能否万事大吉呢?

AI审核,没那么简单

这是最好的时代,信息和知识从来没有像今天一样唾手可得,但这也是最坏的时代,因为信息从来没有像今天这样铺天盖地,泛滥无章。

 

自人工智能浪潮兴起,自动化内容审核一直在发展,该服务确实可以对陌生人发送的信息进行自动筛选,隐藏图像和嵌入的推文(除非收件人选择查看),但该系统的广泛适用性也限制了其实用性。

 

【深度】如何界定色情?AI“鉴黄师”:我太难了插图7

图源:人民网

一张小猫的照片和一张阴茎的照片一样会被扫描;收到的色情推文,也只有点击了才知道区别。更加好笑的是,英国警察曾想用人工智能技术发现和识别互联网上的色情内容,但是却总是把沙漠照片误认为是裸体。

 

人走茶凉的Tumblr在AI监测之路上也走的跌跌撞撞,用户的大量流失,AI鉴黄技术困难重重。Tumblr CEO Jeff D’Onofrio曾在声明中表示,Tumblr的AI鉴黄计划并不是指要禁止裸体政治抗议或大卫雕像这类内容,而是希望AI具备极强的成人内容识别能力,同时也依靠人类帮助训练和控制系统。

 

【深度】如何界定色情?AI“鉴黄师”:我太难了插图8

简单来说,Tumblr希望打造一个可以识别女性裸体但同时又不会将裸体女性塑像误认为是成人内容的人工智能系统。尽管这对人来说是一件再简单不过的事,但对于AI来说其难度则是与“鸡蛋里挑骨头”无异。所以,当该系统开始运用时,就错误的识别了4554亿个博客和1628亿个无辜帖子,包括“花瓶”、“女巫”、“鱼”等等。

 

Facebook的AI审核也漏洞百出。例如1973年荣获普利策奖的《火从天降》一图,全身赤裸的小女孩在越南战争中逃离汽油弹袭击的照片被AI算法标记出来,被认为是儿童色情,遭到Facebook管理员删除。虽然事后Facebook方面马上恢复了照片并作出澄清,但我们依旧可以看出机器与人的区别。尽管小女孩全身裸露,但没有人会觉得这张反映战争残酷的照片有一丝丝色情的味道,而机器虽智能,却仍旧缺乏理解人类细微差别的能力。

 

【深度】如何界定色情?AI“鉴黄师”:我太难了插图9

 

种种现象表明,AI技术虽然已经对毒品、枪支和钱币等物品实现了有效的识别,但是面对裸露图片时,它依然不够可靠。

 

色情:当你凝视他时就知道,但AI知道吗?

考虑到现代人工智能和机器学习的进步,过滤器自动区分一种公鸡和另一种完全不同种类的公鸡的图片似乎是不费吹灰之力的。的确,卡内基·梅隆大学人机交互研究所的杰森·洪(Jason Hong)教授表示,机器学习对解决这类问题非常有用,他指出,这将是“目前最先进的方法。在很多方面,它类似于电子邮件的垃圾邮件过滤器。”

 

但与垃圾邮件过滤器不同的是,垃圾邮件过滤器可以通过嵌入文本中的关键词来识别有问题的内容而阴茎图片过滤器需要处理照片,这比前者要复杂得多。为了创建一个能够准确识别冒犯性内容的程序,需要提供大量的材料用于训练一个深度学习分类器来识别阴茎的图片,并考虑到照片的大小、形状、颜色或角度等方面。

 

【深度】如何界定色情?AI“鉴黄师”:我太难了插图10

洪教授指出,这个训练过程可以与现有的举报方法相配合,即根据社群用户举报的冒犯性内容,比如说笔者举报某用户发送了一张阴茎图片,该图片将被用作一个数据点输入算法来训练算法,使其适应社群需求。

 

但这种收集数据的方法可能需要一些时间。相反,程序员可以自己简单地编译一个训练数据库,但他们必须弄清楚什么才是真正的违规内容。

 

训练程序识别勃起的人类阴茎是一回事,但其他可能被用来骚扰用户的成人内容,像同性恋色情片要怎么处理呢?一张图片的重口味要达到何种程度才会被认定为具有冒犯性?它必须包含阴茎的图片,还是说同性恋色情也会被认为是一种冒犯?把网撒得太窄,程序就会失效;把网撒得太广,用户可能会抱怨他们的数据库管理系统(DMs)受到侵略性的审查,就像Instagram最近首次推出成人内容过滤器之后发生的那样。

 

【深度】如何界定色情?AI“鉴黄师”:我太难了插图11

 

色情有多难被定义呢?

 

这个问题可以追溯到1896年左右,当时美国最高法院法官波特·斯图尔特(Potter Stewart)在审理著名的“雅各贝利斯诉俄亥俄州”一案时,就如何界定“色情”大挠其头,最后也只能绝望的说:“这些材料就是赤裸裸的色情,可我也不想再劳神费力地去给他们下什么定义了,我这辈子恐怕也很难做到这一点。不过,只要我看见了,我就知道是不是色情。”

 

AI鉴黄,路漫漫其修远兮。

Bumble私人检测,或许是目前最佳选择

 

即使我们给人工智能喂食了大量色情作品,教会他们如何识别色情,但是一切选择最后仍旧依赖于人。

  

【深度】如何界定色情?AI“鉴黄师”:我太难了插图12

并不是所有的生殖器图片都是有问题的,虽然这些图片是一种骚扰,但是也有一些用户同意接受他们,一些场合需要他们,例如性教育。所以,一个自动将这些图片标记为违规的系统,或者在不考虑语境的情况下阻止它们被接收,是不能满足所有用户需求的。

 

【深度】如何界定色情?AI“鉴黄师”:我太难了插图13

对此,Bumble(一个在线约会网站)最近推出的私人检测功能也许是目前能期待的最好的系统。该功能声称能够通过人工智能来识别成人内容,从而改善用户体验。Bumble团队称私人检测器识别违规图像的准确率能够达到98%,它并不会给所有图片打上马赛克,而是让用户自己决定是否愿意承担看到阴茎图片的风险,只会给确认包含成人内容的图像打上马赛克,但用户仍然能够自主选择查看此类图片。

 

这可能不是一种天衣无缝的算法,不能在人们打开收件箱之前自动擦除不想被看到的生殖器照片,但这是一个最有可能满足最广泛群众需求的系统,在尽可能预防更多的骚扰的同时,为用户提供选择的能力,以防用户实际上需要该图片的情况。

 

在未能停止人们发送不适宜的成人内容之前,这可能是目前拥有的最佳选择。

【深度】如何界定色情?AI“鉴黄师”:我太难了插图14

推荐阅读
秋招必备!Github 1.8 万星的『程序员面试宝典』
高二获全奖跳级进哈佛,29岁坐拥数亿身家,这位曾让马云畏惧的“天才神童”现在怎么样了?
【实战】我背着女朋友,用 Python 偷偷抓取了她的行踪
“00后”开始读研了!清华今年最小博士生17岁
【Linux】15 个『牛逼』的Linux工具,提高效率的同时增加乐趣
【深度】如何界定色情?AI“鉴黄师”:我太难了插图15
喜欢就点击“在看”吧!

    已同步到看一看

    发送中

    点赞