实际上通过前两次的考核文字转WAV音频