他们按照正常的坐下上下课文字转WAV音频