但一旦结合前后时间发生的事和周围的情况文字转WAV音频