AI“瘋狂污染中文互聯(lián)網(wǎng)”,社交平臺管不了還是不想管?|世界新資訊
這幾天,有人發(fā)現(xiàn)一個知乎用戶“百變?nèi)松悲偪竦厥褂肅hatGPT回答問題,回答速度極快,差不多每1、2分鐘就能搞定一個問題,甚至能在1分鐘之內(nèi)回答2個問題。這些生成后就從未過人工核查的答案,有些被必應(yīng)AI抓取,因此形成了誤導(dǎo)性的回答。
由此一來,“AI正在瘋狂污染中文互聯(lián)網(wǎng)”就成了一個熱門話題。不過,作為一家正在生產(chǎn)環(huán)節(jié)積極引入AIGC的文娛新媒體,我們娛樂資本論還是想重復(fù)那句聽起來可能很俗套的觀點:
“瘋狂污染中文互聯(lián)網(wǎng)”的不是AI,而是使用AI的人。
(資料圖片僅供參考)
很多人看到類似這樣的案例,就會自然產(chǎn)生一種要“管管”AI生成內(nèi)容的沖動。我們對此有些不同看法:
平臺層面限制AI生成內(nèi)容,短期內(nèi)可能有必要,但長期來看就不一定了。
社交平臺并沒有真正的技術(shù)能力,來自動“預(yù)判”和限制AI生成內(nèi)容。
當(dāng)AI生成內(nèi)容有可能“污染”大模型時,模型開發(fā)者應(yīng)該負起更多責(zé)任,而不是社交平臺。
一、為什么會發(fā)生這種事?
從知乎到必應(yīng)AI,這條神奇的鏈路是如何形成的?
必應(yīng)AI是最早一批聯(lián)網(wǎng)的大語言模型,很久以后才有谷歌的Bard和百度文心一言可以聯(lián)網(wǎng)。而ChatGPT官方聯(lián)網(wǎng)功能也是跟必應(yīng)合作,這使得必應(yīng)作為一個搜索引擎,對AIGC的意義非常特殊。
但必應(yīng)本身并不是一個很優(yōu)秀的搜索引擎。在某些中文問題上,必應(yīng)的檢索能力并不強于百度,可能只是廣告相對少一點;相對谷歌,必應(yīng)則有更大的劣勢。
中文互聯(lián)網(wǎng)更嚴重的“圍墻花園”現(xiàn)象,則讓搜索引擎的能力進一步受限。目前已知必應(yīng)無法讀取微信公眾號文章,對頭條號、百家號等收錄也不完整。
必應(yīng)AI功能剛小范圍內(nèi)測時,甚至在百度官宣“文心一言”之前,知乎就已經(jīng)是其中文回答里最常見的參考來源。它內(nèi)容質(zhì)量相對較高,又不限制搜索引擎的抓取。
通過這種曲折的關(guān)系,知乎成為了一個對AI非常特殊的存在——一個“公版”的語料來源。
3-4月起,AI開始在各行各業(yè)開始替代人工寫作。在各個社交平臺上,這種替代的速度是不同的。
在微博、小紅書等地,它“入侵”文本內(nèi)容相對較慢。但知乎和公眾號、頭條號、百家號等平臺,內(nèi)容以中長篇文字為主,這些地方幾乎同步被“入侵”。
甚至,當(dāng)我就“AI污染中文互聯(lián)網(wǎng)”在微信“搜一搜”的時候,還可以搜到另一篇明顯出自GPT的“評論文章”,整件事情頗為行為藝術(shù)。
小紅書以及各家短視頻平臺,則更受困于AI生成圖片,及圖片堆砌成的視頻內(nèi)容。
對圖片的審核及事實核查難度始終高于文本。早在2022年8月,就有關(guān)于重慶山火的帖子被人指出“10張圖有8張是AI作畫,下面評論卻一片感動哭了”。
Midjourney對一些知名人士的預(yù)訓(xùn)練相當(dāng)成功,以至于“特朗普被捕”系列“世界名畫”引發(fā)了強烈反響,其創(chuàng)作者被MJ官方封號。但在國內(nèi),“霍金來了都得給領(lǐng)導(dǎo)敬酒”等變種則依然不受限制地繼續(xù)流傳。
以文字為主的社交平臺,受到AIGC內(nèi)容的沖擊明顯大于以圖片、視頻為主的平臺。
在知乎,雖然“百變?nèi)松币驯环饨惽闆r還很常見,有些回答不標注“包含AI創(chuàng)作”,但一看就有GPT的味道。
這些內(nèi)容最大的問題并不是枯燥乏味,而是缺乏事實核查,特別是在醫(yī)學(xué)、金融等專業(yè)領(lǐng)域,無資質(zhì)人員的回答很容易形成誤導(dǎo)。
此外,“GPT體”的顯著特征——按條列出要點,最后來一段總結(jié)——實際上會在生成過程中,不斷強化對前面寫過的答案的“自信”。一旦AI生成內(nèi)容有遺漏或編造成分,它會在剩下的回答中,致力于讓前面的內(nèi)容變得看起來很可信。
文生圖類AI工具受到生成內(nèi)容的“反向污染”可能性目前還比較小。而對于大語言模型而言,“垃圾進、垃圾出”是一個迫在眉睫的現(xiàn)實威脅。
類似“百變?nèi)松钡倪@種情況,可以在一個非??斓闹芷趦?nèi)被反饋進去。他關(guān)于“象鼻山有纜車”的錯誤回答,僅用不到一個月的工夫,就被抓取和錯誤地呈現(xiàn)出來了。
如果不能盡快想出對策,類ChatGPT的文本大模型工具,將很快成為一種無用的玩具和擺設(shè),它訓(xùn)練得越努力,生成的東西反而越不可用。
二、AI內(nèi)容不是新鮮事,但短期只能“一刀切”
ChatGPT火爆已有半年。這段時間里,知乎、抖音、小紅書等社交平臺都已經(jīng)發(fā)布了限制AI生成內(nèi)容的規(guī)定??傮w上它們都是需要發(fā)布者對AI生成部分明確標記,以及對缺乏人類介入的純AI內(nèi)容嚴肅查處。例如,抖音禁止沒有“中之人”,完全由AI生成問答的直播。
對此,娛樂資本論的觀點始終如一:AIGC就像其他任何工具一樣。當(dāng)AI生成內(nèi)容“污染互聯(lián)網(wǎng)”的時候,錯的不是工具,而是使用工具的人。
自動化生成垃圾內(nèi)容,并填充到網(wǎng)上的生意古已有之。
針對搜索引擎的優(yōu)化結(jié)果,大多數(shù)真人都是看不見的,只對機器規(guī)則有意義。
10多年前就有打散文章順序,同義詞替換等“偽原創(chuàng)”技術(shù)。
稍微動點心思的人工“洗稿”在公眾號時代屢禁不止,微信不得不組織一些德高望重的“陪審團”來處理洗稿爭議。
ChatGPT等AIGC工具做的事情本質(zhì)上是一樣的。當(dāng)然這個新“工具”也確實有特別之處,它生成垃圾內(nèi)容的效率,相比過去可能是10-100倍的提升。ChatGPT對任何使用者一視同仁地“降本增效”,對營銷號也不例外。平臺反低質(zhì)內(nèi)容的斗爭變得更艱難了。
其實,ChatGPT生成的內(nèi)容,如果讓人類來評價,還好于傳統(tǒng)方法做出的“偽原創(chuàng)”“營銷號體”等內(nèi)容。但是,AIGC卻不太可能替代掉以前的垃圾內(nèi)容,而是兩種很差的內(nèi)容共存,讓網(wǎng)絡(luò)環(huán)境更糟糕。
因為AIGC做營銷號的爆發(fā)比較突然,來勢洶洶,短時間內(nèi),平臺不可避免需要對AI生成的內(nèi)容“一刀切”。如果找不到根治方法,這些臨時措施也很可能會常態(tài)化。
但長遠來看,平臺沒有必要對所有AIGC內(nèi)容始終保持特殊化對待。善用AI的人,是用它來更好發(fā)揮自己已有的專業(yè)能力。
在“首屆上海文娛科創(chuàng)沙龍”上,娛樂資本論創(chuàng)始人吳立湘在《文娛行業(yè)的多模態(tài)戰(zhàn)爭》主題演講中明確提出:
① “由AI生成”并不意味著人類可以“偷工減料” ,從最終結(jié)果上看,我們報道的質(zhì)量和標準和以前沒有區(qū)別。
② AI不是取代人類,而是解放人類。我們的記者和編輯對AI生成的結(jié)果負最終責(zé)任,而他們也擁有這些作品的原有權(quán)益。
有的人在知乎回答時,先用AI生成基底,但在發(fā)布前手動核查事實,對內(nèi)容負責(zé)。這樣的回答可能在當(dāng)前的“一刀切”管理中被誤傷。
一旦平臺擁有了比較快速、準確的機審方法,可以將一些比較基礎(chǔ)的AI生成內(nèi)容識別出來,并自動處理,那么用AIGC制作的垃圾內(nèi)容,和用偽原創(chuàng)等工具做的內(nèi)容,應(yīng)該平等地被處罰。還是那句話,錯的不是工具,而是使用工具的人。
三、識別AIGC內(nèi)容的技術(shù)困難
問題在于,目前的技術(shù)手段很難有效判斷一段內(nèi)容是否由AI生成。我們之前對秘塔科技的采訪中也提到了這一點。
在計算機領(lǐng)域,有一個常識性的道理——首次生成內(nèi)容,永遠是比二次處理同一條內(nèi)容更簡單的。舉例說,將一段話以“中翻英,英翻中,再翻回去”的方法過很多遍機器翻譯,它就會變得難以辨認。
即使ChatGPT生成的“GPT體”有人類讀者肉眼可見的特征,比如上面提到的“按條列出要點,最后來一段總結(jié)”,這種特征也是由人類特有的抽象能力得出的。
對人類來說接近本能的、非常簡單的工作,可能對機器來說極其困難。GPT們僅僅是從語料中,統(tǒng)計最有可能接在一個字后面的下一個字,它們不是真的“懂了”某個道理,而是某次生成的內(nèi)容恰好“瞎貓碰死耗子”地符合了人類的需要而已。
我們可以假設(shè)自己是平臺的風(fēng)控人員,想想該怎么抓取和判斷AI生成內(nèi)容:
對于AI生圖,可以考慮讓國內(nèi)外的作圖工具出圖時加水印之類。但Stable Diffusion完全開源,不能號召所有人都這樣。
即使如此,AI生成的文字內(nèi)容也是不可能“加水印”的,而且大模型本身就是一種很好的文本潤色工具,將生成內(nèi)容再過一遍AI,即可大大降低“GPT體”被看出來的概率。
因此,我們只能說現(xiàn)在的平臺“有心無力”,因為技術(shù)上查處和整治的速度趕不上問題產(chǎn)生的速度。其實如果知乎真的能用機器+人工實現(xiàn)有效的事前監(jiān)管,就不需要等到這事鬧大了。
技術(shù)不夠,“小管家”們只能事后監(jiān)管,手動定位被網(wǎng)民舉報的用戶;而監(jiān)管也得按照“基本法”,即使“百變?nèi)松北唤?,他的答案還保留著。
在必應(yīng)AI的回答里,象鼻山現(xiàn)在還是有纜車。
四、大模型開發(fā)者應(yīng)為反“垃圾”負更多責(zé)任
如果不解決這個問題,放任AI生成內(nèi)容被重新投喂到大模型中反芻,結(jié)果將引來模型的“崩潰”。意思是,用片面的信息不斷自我強化,最終只能生成對人毫無意義的內(nèi)容。
在牛津大學(xué)、劍橋大學(xué)的研究人員發(fā)布的一篇預(yù)印本論文上,講述了得出這個結(jié)論的過程。研究人員的解決方法是,模型開發(fā)者應(yīng)繼續(xù)保留一部分人工制作的語料,和真人打標簽的過程。
但這似乎越來越不容易。在英語世界中,亞馬遜的外包服務(wù)網(wǎng)站MTurk經(jīng)常被AI開發(fā)者用作標注任務(wù)。然而MTurk上的勞動者,現(xiàn)在在做任務(wù)的時候也廣泛采用AI輔助。
如果外包人員不加說明,人們會誤以為這些機器做的標注是“純天然無污染”的??墒?,一些人類看了覺得沒什么的“抖動”,會在缺乏人類監(jiān)督的情況下,迅速自我強化,最終讓算法得出錯誤的結(jié)果。
如果語料和訓(xùn)練的自動化不可避免,該怎么辦?
有人提出,上述研究的盲點是只會用最簡單的方法來提問。因此,可以從訓(xùn)練方法,甚至是prompt的多樣性上做文章。適當(dāng)?shù)膒rompt才會激發(fā)AI扮演不同人格,調(diào)用不同領(lǐng)域?qū)W來的知識。
另一種思路,是使用人類有償或義務(wù)勞動的辦法來打標簽。驗證碼服務(wù)Recaptcha曾經(jīng)幫助識別了很多印刷書籍,現(xiàn)在它讓輸入驗證碼的人類幫AI生成的圖像打標簽。
知乎目前擁有一個很好的評價機制,人們用“贊同”“反對”為答案投票。盡管不都是反映答案品質(zhì),也可能是表達一種情緒,但這個投票機制很難把高票投給“GPT體”的回答。被封禁的“百變?nèi)松币卜献鎏柕摹叭裏o小號”特征,容易被識別。所以,知乎可以利用好這種排名機制中的人類勞動,并讓必應(yīng)等搜索引擎在抓取時,注意到答案權(quán)重的區(qū)別。
如果繼續(xù)想下去,那么普通用戶的真人操作,還將以各種方式被更好地利用,甚至不排除給錢——一個可能無關(guān)的例子是,大眾點評上的很多商家會對真人打卡行為給予獎勵。
無論如何,模型開發(fā)商無法“號令”為其提供語料的平臺,幫自己預(yù)先篩選掉AIGC內(nèi)容。隨便一想就知道這太過分了:它們甚至本來應(yīng)該給平臺和用戶們錢,才能使用這些語料數(shù)據(jù)的。
當(dāng)StackOverflow以及Reddit宣布限制AI生成內(nèi)容,以及限制抓取站內(nèi)信息的時候,不論是模型還是社區(qū)用戶都對此無能為力,只能是那些先下手抓完的平臺搶占先機。
大模型制造者為了采購好數(shù)據(jù),將付出比現(xiàn)在更多的代價。能確保有優(yōu)質(zhì)人類內(nèi)容的社區(qū),將來可以有很好的商業(yè)價值。
社交平臺們也可以考慮提升創(chuàng)作門檻,保留人類親手寫內(nèi)容的“火種”。例如小紅書和即刻那樣,隱蔽或取消桌面寫作入口,將社區(qū)變成“移動優(yōu)先”。
總而言之,這次大模型們這次必須自己解決“污染”問題,而無法尋求其一直利用的社交平臺的幫助。
關(guān)鍵詞:
您可能也感興趣:
今日熱點
為您推薦
哪些花草不適合在封閉陽臺上栽種(都有哪些花不適合在陽臺上養(yǎng))
還剩不到40小時!5人命懸一線! 短訊
2023中國鐵路廣州局集團有限公司招聘畢業(yè)生崗位一覽 每日關(guān)注
排行
- 驚險!男子洗車時突然觸電 路人施救也遭電擊_時快訊
- 兩部門印發(fā)辦法明確 消防員面向社會公開招錄
- 低價出售410萬旅客信息?12306回應(yīng):為第三方泄漏
- 2019年這些新規(guī)將落地 又一次普惠“加薪”
- 北京8家醫(yī)院試點將推錯峰就診 率先開展“治堵”
- 數(shù)字化的城商行們怎么樣了?數(shù)字化轉(zhuǎn)型背后的故事
- 四川省稅務(wù)系統(tǒng)將推出10大類舉措服務(wù)納稅人、繳費人
- 長三角禁限塑新規(guī)實施尚存3個堵點 仍需多方合力推進
- 中國鐵建高溢價溫州奪地 去年毛利率低于行業(yè)約10個百分點
- 推行郵件快件包裝“綠色革命” 從根源上解決問題
最近更新
- AI“瘋狂污染中文互聯(lián)網(wǎng)”,社交平臺管不了還是不想管?|世界...
- 軟中華多少錢一包_軟中華330價格多少錢一條 全球熱訊
- 夏至之約相關(guān)古詩有哪些 關(guān)于夏至的古詩
- 天天看熱訊:冕寧縣有幾個鎮(zhèn)_冕寧縣是哪個市
- 娛樂圈之潛規(guī)則之皇(娛樂圈潛規(guī)則是什么意思)
- 熱點在線丨用象征手法寫一個片段100字(用象征手法寫一個片段)
- 要聞速遞:鮮品會_關(guān)于鮮品會簡述
- 涪陵榨菜鮮菜價格_涪陵榨菜多少錢一包
- 觀焦點:運動科技公司Keep通過港交所聆訊
- 小米新專利頭戴式相機獲授權(quán),為米家眼鏡相機外觀_當(dāng)前獨家
- 觀點:舍得也賣冰淇淋!攻略年輕人市場,酒企熱衷“白酒+”
- 6家單位被評為山西第三批省級旅游休閑街區(qū) 世界熱點
- 【天天報資訊】dcs world操作手冊_dcs world
- 每日熱點:“烏軍進展比預(yù)期要慢”,澤連斯基最新發(fā)聲
- 鮮味豆腐王_關(guān)于鮮味豆腐王簡述-新消息
- 黑牡丹煙多少錢一包 多少錢一條_黑牡丹香煙價格多少錢一包-...
- “端午送福 粽暖民心”延邊邊境管理支隊勇化邊境派出所慰問...
- 【陽光評論】情牽山海共發(fā)展,續(xù)寫合作新篇章
- 不斷做大做強幫扶產(chǎn)業(yè)
- 膽大包天 小偷竟偷到了派出所隔壁小區(qū)
- 山東省紀委監(jiān)委公開曝光_世界快資訊
- 深圳樓市再現(xiàn)“明星營銷” 購房者更注重品質(zhì)
- 法拉第未來股價暴跌37% 引起市場恐慌?!
- 世界快報:移民最好的國家排行榜 移民條件
- 環(huán)球精選!初到東京_關(guān)于初到東京的介紹
- 從全面崛起到百花盛放,國漫產(chǎn)業(yè)化的生命力在何處? 天天微速訊
- 全球微速訊:pr如何將視頻旋轉(zhuǎn)90度_pr視頻旋轉(zhuǎn)90度
- 2023杭州西湖自開船去哪能坐
- 孔子第75代孫孔祥勝:書法文化與數(shù)字文明異曲同工
- 淘寶優(yōu)惠卷設(shè)置(淘寶優(yōu)惠卷) 世界速看料
今日要聞
- 臺灣又一明星翻車,性侵20人不止,受害者:下面很大、最愛絲襪
- AI“瘋狂污染中文互聯(lián)網(wǎng)”,社交平臺管不了還是不想管?|世界新資訊
- 乾坤鎖下載_乾坤鎖-熱頭條
- 大船貨從哪里來?被零元購的SSD硬盤出現(xiàn)在電商-全球觀速訊
- 庫迪“逼急”瑞幸,咖啡內(nèi)卷重啟|焦點快報
- 新華視點|做好黃河“水文章” 美麗鄉(xiāng)村入畫來-當(dāng)前熱門
- 星游記漫畫圖片大全_星游記漫畫 全球頭條
- 焦點快看:廣西南寧擬定降低收費、延時免費等措施優(yōu)化停車管理
- 每日看點!威振股份聘任陳崗為公司總經(jīng)理 聘任譚榮芳為公司財務(wù)負責(zé)人
- 世界快報:移民最好的國家排行榜 移民條件