我们已经通过影像传输看到了文字转WAV音频