2024 T-EDGE文章详情页顶部

雷军,可能有点心烦...

钛度号
AI正在模仿真人。

文 | 王智远

烦什么?你听到了吗?

最近,有不少人用雷军的声音进行二次创作,做成各种段子。我听完之后,觉得既搞笑又无奈。 

比如: 

“老子踏马一眨眼,国庆节就过去了,我又得拖着一大堆破行李去上那个X班;假期里,躺在抖音上刷视频的废物们,大家好,我是雷军,你们千万不要用小米手机看黄片。” 

还有更雷人的内容,在哔哩哔哩上,他的AI语音被用来制作各种游戏解说、话题封面语,比如打篮球、打麻将,主打一个“不爽”,吐槽和评论非常犀利。 

至于让我感到无奈的部分,却不太好描述。 在写这篇文章之前,我把其中一个短视频发给了我爸,并问他:“你觉得这个短视频有什么特别之处吗?” 

我爸回答说:“挺有意思的。”但他并没有提到语音的问题,换句话说,他根本没意识到这是AI生成的语音。可见,AI语音已经能够达到以假乱真的地步了。

01‍‍

不过,这次假语音和之前“Are you ok?”有很大不同。

Are you ok,内容属性不强,本身没什么恶意,也不会引发误会,最多让本人觉得有点尴尬;雷军甚至还幽默地回应过,还把版权买下来,从营销的角度来看,这反而成了一种正面的宣传。 

但AI语音有点不一样。 

现在网络上,大部分雷军AI语音,都是网友们用他的声音说的一些很过分的话,什么“远程操控小米手机炸死你”或者“我开小米SU7撞死你全家”。 

这些话相当极端。 不了解的人,会认为真是雷军说的,已经涉及到造谣的问题。 

AI语音有很多种形式,常见的包括:语音合成、语音克隆、语音识别、深度伪造和自然语言处理。前三种大家比较熟悉,后两种是最近两年才逐渐流行起来的。 

深度伪造(Deepfake)是由“深度学习”(deep learning)和“伪造”(fake)组合而来,意思是用深度学习技术来模仿人的声音和图像。 

而自然语言处理(NLP)是让计算机理解和处理人类语言的技术,应用非常广,比如:智能客服和语音助手。 

很多创作者在给视频配音时,为了省时省力又不想出镜,通常会先写好文字,再用AI来朗读和合成。 

拿我来说: 

一般会选择港版男普通话、广西表妹、或东北话,这样让文本画面和其他地域口音结合,刚好形成了鲜明的反差感。 

这些技术的作用是停留在语音合成和搞笑方面,确实没什么特别的影响;但是,一旦涉及到名人 IP 效应再加上搞笑,同时还试图进行文化层面的输出,情况就大不相同了。 

因为这不再是单纯的逗趣,还可能引发各种社会反应。 

之前关于“三只羊”卢某某的录音想必不少网友刷到过,那段语音听起来非常逼真,引起了很多人的讨论和担忧,我听完后都感觉像真的,甚至还在群里吐槽事件本身太颠覆三观了。 

不过,9天后(2024年9月26日),合肥市公安局很快发布了官方回应,说那是假的,并提醒大家不信谣、不传谣。 

假语音威力不比短视频小,短视频有画面,更容易分辨真假,但语音却很难区分,这就更容易误导人们。

02‍

国外也有类似事件。我用Perplexity查了一下关于AI造假的新闻,发现他们甚至把目标对准了总统,问题上升到了政治层面。

根据《连线》杂志的报道,今年年初,一些新罕布什尔州的选民接到了冒充“拜登总统”的自动语音电话,试图误导他们在初选中投票。 

白宫新闻秘书确认,电话是伪造的,并非总统录音。 

美国联邦通信委员会(FCC)主席杰西卡·罗森沃塞尔(Jessica Rosenworcel)表示,近年来,机器人电话中使用的AI生成语音变得越来越先进,这些语音可以模仿名人、政治候选人,甚至亲密家人的声音,从而制造虚假信息,误导公众。 

她强调,如果语音克隆公司在开发应用时涉及名人、可能误导公众、传播风险高的内容,应该在传播中加上明显的标识,提醒公众注意。 

我们建议,将使用AI生成语音的机器人电话(robocall)视为非法。 

另外,还有知名歌手泰勒·斯威夫特的AI伪造“不雅照”在网上疯传,这类AI造假事件引发了人们对人工智能的广泛担忧。 

几天后,造假的人被找到,他坦言自己用AI工具ElevenLabs,仅花了不到20分钟和1美元就完成了造假,是不是很惊人? 

今年3月,一位记者发现,只要在上传文件开头加入一分钟的静音,就可以绕过规则,成功克隆特朗普和拜登的声音, 尽管技术可以用来对抗技术,但AI检测软件往往无法有效识别AI生成的音频。 

难道,AI生成语音真的能强大到这种地步吗? 

其实我也有疑虑。 自从“三只羊”卢某某AI录音事件后,我一直关注着回应此事的品牌( 某声 )的进展。 

他们的网站上确实有雷军的AI合成声音,大家可以自己去试听,音色与真人非常接近,而且发布的数量也不少,这给了许多蹭热度的机会,他们利用名人的声音制造话题。 

不仅是雷军,现在很多互联网平台,比如抖音、B站,都有大量与马保国、葛优、麦克阿瑟等名人声音相关的视频。 

这些视频利用的是AI配音技术,你只要选择相应的人物声音,然后输入文字,就能生成该人物声音的内容; 虽然很多程序会用代称来规避版权问题,但提供的声音种类多达上百种,还可以调整语速和语调。 

图释:某声品牌社区广场,仍可以搜到一些名人音频 

截止到写这篇文章,在 (某声) 社区角色市场,依然可以找到雷军、蔡徐坤、卢本伟、刘亦菲、成龙等名人的仿声合成音,你很难分辨是否是真人。 

我并不是单单批评某一个软件,而是整个语音生态似乎都存在一些问题,这引发了我们的思考: 

以前互联网平台只对图文和视频进行管理,现在进入了AI时代,AI成了一种新媒介。 

那么,AI作为媒介载体做出来的平台,是不是自身也要自我管理?是不是得要求用户,非本人不能用别人的声音伪造?至少现在看来,属于三不管的地带,没有很细节的法律条文、也缺乏清晰的社区规则。

03‍

既然提供技术的平台监管不到位,那么,发布平台就真的无法监测吗?比如,我将AI语音发布到抖音、快手等平台,难道它们就无法检测到问题?

问了一圈懂行的朋友,他们说,这涉及到两方面问题。 

从技术角度,语音模型的自动语音识别(ASR)和文生文、文生图的原理相似,它们首先都要大量的语料来进行训练,只有这样才能生成更多精细化的模型。 

这些模型越细分,语音识别效果就越好。 这让我感觉,这像是一个层层递进的套娃游戏。 

另外,目前国内主流的ASR技术多采用端到端模型(End-to-End Models)。这种模型通过一个网络,将输入的语音直接转换为输出结果,简化了传统ASR系统中多个复杂组件的流程。这使得识别过程更加高效,但中间环节也减少了。 

比如说: 

当你对着手机说“今天天气怎么样?”,端到端模型能直接将语音转为文字,查询天气信息,并告诉你结果,这种方式非常快捷,但它不具备中间的感知能力。 

虽然现在主流的AI语音模型开始采用更深度的学习框架,如循环神经网络(RNN)、长短时记忆网络(LSTM)和Transformer来处理一些关键部分, 但这些技术仍处于早期阶段。 

面对一些更复杂的情况,如方言和多音轨的噪音,模型依然存在局限性,因为训练数据不够全面,模型能力有限。 

从审核机制来看,问题就更明显了。 

一位技术朋友提到: 

2018年,有一则新闻,今日头条的创始人张一鸣发表了一封公开信,回应“内涵段子”被关停的事件。在信中,他提到为了弥补算法和机器审核的不足,需要加强人工运营和审核,将6000人的审核团队扩大到10000人。 

同样,快手当年也采取了类似措施,将2000人的审核团队扩展到5000人。他们都认识到,在“算法是否具备价值观”的问题上,必须加大投入。 

当年视频面临的问题,现在AI语音也遇到了。 

平台审核机制分为两部分:机器审核和人工审核。机器审核能快速识别明显违规的内容,但对于隐晦、复杂的内容,机器可能判断不准确,就要人工审核。 

AI语音的复杂性不亚于视频,不同语种、口音、语速等都会影响识别效果。 要逐帧处理这些因素,并且应对AI生成的以假乱真的音频,是一项极大的挑战。 

你想想看,用AI生成一个音频,再让它自己识别是AI生成的,这种循环无疑是对技术的极大考验。 

要想实现“魔法打败魔法”的效果,平台要投入更多资金和资源,这不仅困难,还要时间;因此,我们正处在一个技术、伦理与监管并行发展的新阶段。

04‍

一个在大厂工作的朋友告诉我,目前传播内容的平台针对这种“灰度空间”有三种处理办法:

一.检查元数据是否有隐性标识。 

所谓隐性标识,即,音频里,用来确定内容的来源或生成的方式,目前,这项技术已经有所发展和应用。 

类似于,字节跳动早年自研的隐藏水印算法,现在已经应用到各种产品上。今年3月14-15日,中国人工智能产业发展联盟(AIIA)发布了“信元令”数字隐写标识平台,也在大力推广。 

简单来说,他们都在解决同一个问题,即,让AIGC生成的内容自带标识,这种标识人看不到,技术却看得到。 

第二个办法,提醒用户自行添加说明。 

如果平台未检测到隐性标识,会提醒用户主动标明内容来源。你可能也见过在发布内容时,可以选择标注“取自网络”“AI生成”或“原创拍摄”。 

用户不想自己声明,也没有隐性标识,那平台会进行第三种办法:抽样检测。一旦发现语音中有AI的痕迹,就会直接添加提醒标识。 

了解了这些,你就能明白,为什么有些视频下方会出现“疑似使用AI生成技术,请注意甄别”的提示。 为什么说是“疑似”呢?因为目前AI还无法完全准确地识别另一个AI生成的内容。 

不过,有一个前提:除非某个内容真的引发了广泛关注和巨大舆论,平台才会主动干预。否则,面对海量内容,平台很难做到逐一审核。 

所以,防范AI语音,不只是个人和企业的责任,更要技术提供商和社会各界一起努力。 

在深度伪造泛滥的时代,雷军成为了国内第二个因AI语音造假而受到影响的人,我们看看段子就好,千万不要成为传播的始作俑者。

总结 

AI正在模仿真人。 

我想提醒大家,在网上浏览视频时,要多留一个心眼,最好不要默认一切都是真实的。 技术无罪,就怕别有用心,希望我们能明智地使用它,推动社会向积极的方向发展。 

本文系作者 王智远 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 语言很难区分,就更容易误导人们

    回复 10月13日 · via iphone
  • 假语言威力不比短视频小

    回复 10月12日 · via pc
  • AI正在模仿真人

    回复 10月12日 · via pc
  • 技术无罪,就怕别有用心。

    回复 10月12日 · via pc
  • 凡事还是要小心,谨防上当受骗

    回复 10月12日 · via iphone

AWARDS-文章详情右上

快报

更多

12:41

日本宫城县附近海域发生5.3级地震

12:39

杰富瑞将Zoom目标价从70美元上调至85美元

12:38

《好东西》导演回应“抄袭风波”

12:36

伊藤忠商事据悉有意参与柒和伊控股收购计划

12:35

百度健康原总裁何明科、医疗业务原总经理张延东离职

12:29

高盛:特朗普批准液化天然气项目只能从2027年开始增加供应

12:24

首只以新加坡元交易的新兴亚洲ETF问世

12:21

著名人口学家、北大人口研究所创始所长张纯元逝世,享年92岁

12:09

人民空军运-20赴韩接志愿军烈士回家

12:08

日本新型固体燃料火箭试验再次发生异常

12:05

广东:建立低空经济军地民协同管理机制,创建国家低空经济产业综合示范区

12:03

港股午评:恒生指数涨0.49%,恒生科技指数涨0.43%

11:52

广东:支持深圳证券交易所建设世界一流交易所、广州期货交易所丰富交易品种

11:50

香港财经事务及库务局许正宇:沪深股通已成为国际投资者投资内地证券市场最主要的途径

11:48

广东:深入推进深圳综合改革试点深化改革创新扩大开放

11:46

广东:支持珠三角九市与港澳联合共建科创制造、人工智能等合作平台

11:45

广东:在港口、航运等领域推进战略性重组和专业化整合

11:43

外国投资者11月25日净卖出668亿卢比的印度股票衍生品

11:36

河南一极氪X运输途中起火?极氪高管:运输货车刹车高温引发轮胎起火

11:34

A股午评:沪指震荡反弹涨0.43%,IP经济概念股集体爆发

5

扫描下载App