就是投射影像和现实场景重叠文字转WAV音频