它们的着力点主要是衣服文字转WAV音频