所有的动作和言语都成了慢镜头的回放文字转WAV音频