我正在使用谷歌的语音到文本的API。
下面是我的python代码:
from google.cloud import speech_v1p1beta1 as speech
import os
os.environ["GOOGLE_APPLICATION_CREDENTIALS"]="C:\\Users\\chetan.patil\\Speech Recognition-db71b5de7c80.json" #Specified key
client=speech.SpeechClient()
speech_file="Chetan_Recording_20Secflac.flac" #import file
with open(speech_file,'rb') as audio_file:
content=audio_file.read()
audio=speech.types.RecognitionAudio(content=content)
config=speech.types.RecognitionConfig(encoding=speech.enums.RecognitionConfig.AudioEncoding.LINEAR16,
language_code='en_US',enable_speaker_diarization=True,audio_channel_count=1,
sample_rate_hertz=44100)
response = client.recognize(config, audio)当我运行line的最后一段代码时。它给出的错误是"400指定FLAC编码以匹配文件头“
即使我尝试了.wav文件,它给出的错误是"400必须使用单声道(单声道)音频,但WAV头指示2声道“
有人能在这方面帮我一下吗?
发布于 2021-04-03 15:04:08
删除整个编码配置似乎也是可行的。我的意思是从配置设置中删除encoding=speech.enums.RecognitionConfig.AudioEncoding.LINEAR16,因为这可以从音频文件的头部推断出来。
发布于 2019-04-16 21:09:59
当我运行line的最后一段代码时
。它给出的错误是"400指定FLAC编码以匹配文件头“
你需要speech.enums.RecognitionConfig.AudioEncoding.FLAC来处理FLAC文件
即使我尝试了.wav文件,它给出的错误是"400必须使用单声道(单声道)音频,但WAV头指示2声道“。
wav文件应该是单声道的,看起来你尝试过立体声文件。
https://stackoverflow.com/questions/55702484
复制相似问题