就是增加一倍的训练量文字转WAV音频