下次當您在社交媒體上看到一個非常有禮貌的回應時,請仔細看看。這可能正是一個努力融入的AI算法。
週三,來自蘇黎世大學、阿姆斯特丹大學、杜克大學和紐約大學的研究人員發表了一項研究,表明AI模型在在線對話中仍然很容易被識別。主要的破綻是它們始終如一的友好語氣。在如Twitter/X、Bluesky和Reddit的平臺上測試了九種不同的AI模型後,研究人員發現它們的AI分類器以70%到80%的準確性正確識別了AI生成的回應。
該研究引入了一種“計算圖靈測試”,該測試評估了AI模仿人類語言的能力。該框架不依賴於人類意見來判斷文本的真實性,而是使用自動分類器和語言分析來找出區分機器生成內容和人類輸入的特徵。
來自蘇黎世大學的Nicolò Pagan領導的研究人員指出:“即使在校準之後,LLM的輸出仍然在情感語氣和情緒表達上明顯不同於人類文本。”儘管嘗試了各種優化策略,包括簡單提示和微調,情感線索仍然是由AI而非人類撰寫文本互動的強烈指標。
毒性標誌
在研究期間,測試了九個大型語言模型,包括Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B, 和Apertus-8B-2509。
當被要求生成對真實社交媒體帖子的回應時,這些模型難以複製人類撰寫的帖子中常見的隨意負面性和自發情感表達,在所檢查的所有三個平臺中的毒性分數均較低。
為了解決這些不足,研究人員嘗試了優化策略,如提供寫作範例和上下文檢索,這有助於減少結構差異,如句子長度或詞數。然而,情感語氣的差異仍然存在。研究人員總結道:“我們的全面校準測試挑戰了更高級優化必然產生更像人類的輸出的假設。”