其实刚才的对话他已经听到了文字转WAV音频