也就是双方的数量相差太悬殊文字转WAV音频