他们用大量的时间聚集在一起文字转WAV音频