这样的误差完全能被接受文字转WAV音频