在多人对话录音里,只想要某个人的语音?TargetDiarization 给出了极具工程化的解决方案。
新项目,部署体验觉得可以的话 不妨点个Star吧
它基于 深度学习 与业界 SOTA 模型 融合,能在嘈杂环境中把目标说话人音频从混合流里剥离出来,并完成 ASR 转写。输入一段多人混音 + 一份目标说话人的音频样本,输出的就是 完整的说话人日志 + 干净分离的目标音频。
标签:#TargetDiarization #音频 #音频分离 #说话识别 #语音转写 #语音转文字 #音频处理
新项目,部署体验觉得可以的话 不妨点个Star吧