他的分析在某些方面还算是准确文字转WAV音频