观察体型其实就是一种初步审核文字转WAV音频