他们只需要强行推进文字转WAV音频