所以他只是断断续续的听到了几个单词文字转WAV音频