如何分辨 AI 声音避免被骗

在互联网上辨别什么是真实的、什么是虚假的已经变得比以往任何时候都更加困难。随着人工智能无处不在，判断一个声音是否真实变得愈发模糊。幸运的是，有一些明确的迹象可以帮助你辨别。

没有自然的停顿

No Natural Pauses

在某些情况下，没有自然的停顿是判断视频是否由人工智能生成的一个好方法——音频也是如此。较新且更昂贵的模型通常不存在这个问题，但早期版本的人工智能和更便宜的模型还达不到同一水平。

例如，在下面的人工智能生成的播客中，你听不到任何自然的停顿。尽管这两个声音听起来确实像人类，甚至包含了呼吸等元素，但说话的人在该停顿的时候却没有停下来。此外，播客的某些部分中，一位主持人还没说完话，另一位就开始说话了。

当然，没有自然的停顿也可能是剪辑不佳的结果。但在许多情况下，这是早期人工智能软件的结果。尽管现在人们仍然可能使用这些模型进行创作，但你应该特别将这一提示用于2023年或更早发布的相关内容。

语音中的随机故障

Random Glitches in the Voice

人工智能音频创作已经取得了长足的进步，如今生成更接近真实生活的音频比以往任何时候都更容易。但尽管如此，人工智能仍然不完美。如果你仔细聆听，仍然可以发现故障和其他错误。

如果你在听多语言音频，故障会更加明显。例如，在下面的视频中（该视频是使用人工智能生成的），“gracias”这个词的发音就不正确。在类似的视频中，如果你听到的口音来自非母语人士，有时也会注意到故障。

和前面的提示一样，这一条对于更先进的大型语言模型（LLM）不太相关。但对于那些没有显著发展的模型，你更有可能注意到这些问题。

加速播放时表现不一致

Inconsistent When Put on Speed Play

以比录制时更快的速度播放内容，不仅仅是在某些情况下更快速地获取信息的最优方式。如果你试图判断你正在听的音频是否由人工智能生成，将内容的速度调到1.25倍或更高，会让你很明显地感觉到这不是真实的人类声音。

当你以比正常更快的速度播放人工智能生成的音频时，内容往往会听起来相当机械。有时你会觉得像是在听一个梗，而不是真实的东西。同样，当你听人工智能生成的音乐时，你可能会注意到声音中的不一致性。

尽管如今你可以创建一个听起来像你自己的人工智能声音，但它仍然无法达到你自己说话的水平。

没有呼吸声

No Breathing

除了没有自然的停顿之外，另一个可能表明你正在听人工智能音频的迹象（尤其是如果它在播客或视频中）是听不到任何呼吸声。即使经过重度剪辑，如果声音是人类发出的而不是由人工智能工具生成的，你通常仍然会听到呼吸声。

除了没有呼吸声之外，你也不会听到人们在说话时的呼吸或类似的声音。例如，我很少听到人工智能生成的声音中有叹息声。下面的视频（使用人工智能开发）就是一个例子。

尽管人工智能在复制人类互动方面变得越来越好，但有时它仍然感觉像是没有灵魂的。随着你长时间聆听更多人工智能生成的内容，你可能会注意到这一点。这也是人工智能生成的播客具有争议性（并且在可预见的未来可能仍将保持这种状态）的众多原因之一。

语音过于情绪化

The Voice Is Overemotional

尽管人工智能的声音比以前更像人类，但它们并不一定擅长表现出人类情感的全部范围。一种批评意见是人工智能的声音有时听起来像机器人，但相反的情况也是真的。下面的短片（使用人工智能创作）就是一个例子。

在许多情况下，人工智能的声音过于情绪化。例如，它们会夸大自己的兴奋程度，以至于听起来很做作。即使是简单的故事，有时也会被说得像是世界上最令人惊叹的事情，以至于即使是真正充满热情的人也不会那样说话。

如果你怀疑声音听起来不真实，通常是因为说话者不够真诚，或者声音是用人工智能生成的。

你的直觉告诉你这是AI

Your Intuition Says It’s AI

我们的直觉经过进化是为了让人类生存下去，尽管我们常常被建议在现代社会中忽视它们，但它们通常是正确的。尽管你可以进行深入分析并多次聆听以试图判断内容是否由人工智能生成，但有时你就是有一种感觉。

如果你对正在听的内容是否由人工智能生成感到犹豫不决，那么你可能猜对了。随着你聆听更多人工智能生成的内容（例如，如果你花一周时间听人工智能生成的音乐），你会对这种感觉更加敏感。

尽管很难，但你可以使用一些策略来判断你是否在听人工智能的声音。将它与普通人类的行为进行比较是一种方法，你也可以寻找故障。然而，有时你的直觉才是最好的判断。

（文：AI音频时代）