已经拿到了可能的坐标位置文字转WAV音频