研究發現 AI 在社交媒體互動中模仿人類語調的困難

下次您在社交媒體上看到特別禮貌的回應時,也許值得再仔細看看。這可能是一個人工智慧模型在努力嘗試融入其中,但不太成功。

週三,由蘇黎世大學、阿姆斯特丹大學、杜克大學和紐約大學的研究人員發表的一項研究強調,AI 模型在社交媒體互動中仍然明顯有別於人類。最常見的 AI 生成內容指標是過分友好的情感語調。他們在推特/X、Bluesky 和 Reddit 等平台上測試了九個開放權重模型,並發現他們的分類器可以以 70% 到 80% 的準確率識別 AI 回應。

該研究介紹了一種「計算圖靈測試」,旨在評估 AI 模型能否多近似地複製人類語言。與依賴於人類判斷來評估真實性的方法不同,這個框架使用自動化分類器和語言分析來隔離使機器生成的內容與人類撰寫的文本區分開的特定特徵。

「即使在校準後,LLM 輸出仍然清晰可辨地區分於人類文本,特別是在情感語調和情感表達上,」由蘇黎世大學的 Nicolò Pagan 率領的研究小組寫道。他們探索了各種優化方法,從簡單的提示到微調,並發現更深層次的情感線索仍然表明某段數位互動是由 AI 聊天機器人而非人類創造的。

毒性指標

作為研究的一部分,測試了九個大型語言模型:Llama 3.1 8B、Llama 3.1 8B Instruct、Llama 3.1 70B、Mistral 7B v0.1、Mistral 7B Instruct v0.2、Qwen 2.5 7B Instruct、Gemma 3 4B Instruct、DeepSeek-R1-Distill-Llama-8B 和 Apertus-8B-2509。

當這些模型被要求生成對來自真實用戶的社交媒體帖子的回應時,它們在複製人類帖子的隨意否定性和自發情感表達方面遇到了困難。在所有三個平台上,AI 生成的回應的毒性得分始終低於真正的人工回應。

為了解決這一缺陷,研究人員嘗試了優化技術,包括提供範例寫作和背景檢索,以最大程度地減少諸如句子長度或字數等結構差異。儘管如此,情感語調的差異仍然明顯。「我們的全面校準測試挑戰了認為更複雜的優化必然產生更像人類輸出的假設,」研究人員總結道。

← 返回新聞