在进行人声与背景音分离(尤其是使用 AI 工具)时,输入文件的质量直接决定了输出结果的上限。虽然现代 AI 工具(如易我人声分离、简鹿人声分离、Demucs 等)对多种格式都有很好的兼容性,但为了获得最清晰的人声和最干净的降噪效果,以下音频格式是更佳选择:
保留原始录音的所有细节,没有数据压缩损失。AI 能捕捉到更细微的频率特征,从而更精准地分离人声和噪音。
WAV (.wav)
该格式是行业标准格式,未压缩,音质最接近原始录音。缺点是对于在线音频处理时它的文件体积较大,上传和处理时间稍长。
FLAC (.flac)
无损压缩格式。音质与 WAV 完全一致,但文件体积通常只有 WAV 的 50%-60%。需要注意的是部分老旧的工具可能不支持,但主流 AI 工具(包括易我)通常都支持。
AIFF (.aiff)
苹果系统下的无损格式,性质与 WAV 相同。这种格式非常适用于 Mac 用户导出的原始音频。
经过压缩,丢失了部分人耳不易察觉的高频细节,但在高码率下,AI 依然能发挥很好的效果。
MP3 (.mp3) - 高码率 (320 kbps)
兼容性最好,几乎所有设备都能播放。如果是 320 kbps 的高品质 MP3,其听感非常接近无损,分离效果通常令人满意。还需要提醒用户避免使用 128 kbps 或更低码率的 MP3,压缩伪影可能会干扰 AI 判断,导致人声出现“机械音”或背景音去除不干净。
M4A / AAC (.m4a, .aac)
苹果设备和 YouTube 视频常用的格式。在相同文件大小下,其音质通常优于 MP3。
如果您直接上传视频文件(如 MP4, MOV, AVI),工具会自动提取视频中的音频轨道进行处理。
建议:如果视频本身的音频编码是高码率 AAC 或 PCM,效果会很好。如果视频是为了网络传播经过高度压缩的,效果可能不如直接上传原始的 WAV 音频。
不要反复转换格式:例如,不要先把 WAV 转成低质量 MP3 上传,处理完下载后再转回 WAV。每一次有损转换都会丢失信息,导致音质越来越差(代际损失)。
采样率:大多数 AI 工具针对 44.1kHz 或 48kHz 的采样率进行了优化。如果您的文件是特殊的采样率(如 96kHz),工具通常会自动重采样,但这不会带来额外的音质提升,反而增加处理时间。
如果您追求极致的分离效果,请始终优先选择 WAV 或 FLAC 格式上传。