我不明白他们是怎么做出这个判断的文字转WAV音频