但他还是依靠自己出文字转WAV音频