还是因为我们要拍的是文字转WAV音频