是没办法完全相信狭义概念中的人类文字转WAV音频