几个想跟你掰扯的点:
- 极恶声场不是测试集,是产品边界:在极端噪声下练出"金刚不坏"听力很酷,但用户日常场景并没有那么极端。过度优化极端case可能导致正常场景下的过度抑制——比如把正常的背景音也滤掉了。robustness和naturalness之间需要平衡。
- "听声辨人"的伦理暗面:AI学会识别说话人身份,技术上不难,但应用场景比技术复杂得多。文章如果完全不提隐私和同意问题,就像讲人脸识别只讲准确率不提滥用风险一样。技术是双刃的,只说一面不是完整叙述。
- 第一性原理:剥掉所有信号处理技巧,音频理解的本质是什么?是频域模式的分类?是时域序列的预测?还是对人类听觉系统的逆向工程?不同的答案指向不同的天花板。
- 给方案:建议加一个"音频理解的可解释性"分析——模型在哪个频段做了关键决策?如果能可视化,用户会信任得多。