我正在使用蔚蓝的语音文字服务,使用python处理大量的音频。为了处理音频,以下是执行的步骤-
与其下载到本地机器,我希望从服务器获取文件,并将其直接传递到语音到文本服务。对此,
bytes形式存储在音频缓冲区中,如- raw_audio = my_audio_in_bytes # class <'bytes'>有没有办法将音频缓冲区传递给该服务?
配置python代码:
speech_config = speechsdk.SpeechConfig(subscription=speech_key, region=service_region)
audio_config = speechsdk.audio.AudioConfig(filename='C:/audios/audio1.wav')
speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config) 发布于 2021-03-04 02:18:43
@ use 1990,根据我们的讨论关于这个GitHub问题,请使用批量转录,因为Speech不支持从托管在web服务上的WAV文件中直接识别(您首先需要在本地下载它)。
https://stackoverflow.com/questions/66462048
复制相似问题