做网站最简单的方法,做外贸网站需要注意哪些,深圳网站建设微信开发,广州网页设计软件培训文章目录音频AudioClassificationPipeline 类构造函数__call__ 方法_sanitize_parameters 内置方法_forward 内置方法preprocess 方法postprocess 方法TextToAudioPipeline 类构造函数实例函数返回结果ZeroShotAudioClassificationPipeline 类构造函数实例函数返回结果Automati…文章目录音频AudioClassificationPipeline 类构造函数__call__ 方法_sanitize_parameters 内置方法_forward 内置方法preprocess 方法postprocess 方法TextToAudioPipeline 类构造函数实例函数返回结果ZeroShotAudioClassificationPipeline 类构造函数实例函数返回结果AutomaticSpeechRecognitionPipeline 类构造函数实例函数返回结果音频PipelineAudioClassificationPipelineChunkPipelineAutomaticSpeechRecognitionPipelineTextToAudioPipelineZeroShotAudioClassificationPipeline在音频领域的任务中包括实现音频分类的AudioClassificationPipeline任务类能够自动识别语音的AutomaticSpeechRecognitionPipeline任务类 能够经文本转化为语音即语音合成的TextToAudioPipeline任务类和在没有任何鉴见的样本、训练模型下也能够对给定的语音进行推理分类的ZeroShotAudioClassificationPipeline零样本音频分类任务类。除了AutomaticSpeechRecognitionPipeline外都继承自Pipeline。AutomaticSpeechRecognitionPipeline需要“块”处理支持继承于ChunkPipeline但ChunkPipeline也是继承自Pipeline因此如果以实例函数实现特定功能的任务处理流程与Pipeline一样。以下将对各个任务类详细描述但通用部分已在Pipeline一节中描述在此不再对通用部分累述。AudioClassificationPipeline类AudioClassificationPipeline实现将给定原始音频在给定的分类模型中评估该音频在既定模型各分类中评估得分并选择出最符合输入音频的分类的任务。音频分类任务只针对Pytorch框架有效其他不支持。该类重写了父类的几个方法包括构造函数、内置的实例函数__call__内置的前馈函数_forward、内置的参数解析函数_sanitize_parameters、预处理方法preprocess和 后处理方法postprocess。AudioClassificationPipeline依托AutoModelForAudioClassification来具体实现音频分类功能如果使用Pipeline容器类可通过标识audio-classification调用。构造函数与父类Pipeline相比需要通过kwargs字典参数中提供实例函数top_k和function_to_apply。top_kint类型可选。通过它设置一个值指定在既定分类中返回评估得分最高的分类数量默认为5。function_to_applystr类型可选。指定后处理时用的处理方法默认为softmax即使用逻辑回归算法。__call__方法重写了父类的方法处理方式和父类一致列出的原因是因为它在输入参数要求上比父类更严格一些输出上也具有指定的格式。函数原型如下__call__(self, inputs: Union[np.ndarray, bytes, str], **kwargs)输入参数inputs 父类未做限定即any这里是复合类型支持字符串、字节数组或者numpy.ndarray类型或者Dict。如果为字符串类型则表示输入为一个音频文件路径如果是字节数组则表示输入是从音频文件中读取到的音频流如果是numpy.ndarray则表示该数据已经按照给定的采样率采集的音频形状数组采样值可能是Float32或Float64如果是字典类型字典包括sampling_rate和raw节点属性其中sampling_rate表示数据的采样率int型raw是numpy.array类型表示已经使用sampling_rate采样出来的音频形状数组。top_kint类型可选。通过它设置一个值指定在既定分类中返回评估得分最高的分类数量默认为5。function_to_applystr类型可选。指定后处理时用的处理方法默认为softmax即使用逻辑回归算法。输出参数如果是单输入输出为由dict组成的List字典包含label和score属性labelstr类型分类标签scorefloat类型评估得分。如果是多输入则输出为list列表的每一项的结构与单输入相同。_sanitize_parameters内置方法该函数与父类的不同在于显示定义了top_k和function_to_apply参数。其实这两个参数是通过使用构造函数创建任务实例或者通过调用实例执行时传入的。原型如下_sanitize_parameters(self, top_kNone, function_to_applyNone, **kwargs)它所使用的实例函数top_k和function_to_apply已经在其他节中描述在此不再累述。_forward内置方法该函数将输入通过调用model实例处理后输出处理后的结果原型如下_forward(self, model_inputs)preprocess方法根据输入参数的具体类型对原始音频输入处理成为可用的音频形状数组然后对输入的音频形状进行特征提取后转换Pytorch框架所需的输出。函数原型如下preprocess(self, inputs)postprocess方法对通过模型预测的结果通过回归算法计算在各分类的得分情况并返回得分结果字典。原型如下postprocess(self, model_outputs, top_k5, function_to_applysoftmax)输入参数model_outputs预测后得到的结果集top_k设置返回得分排名最高的分类数量function_to_apply 后处理函数默认为softmax回归算法输出参数输入为由字典类型构成的列表其中包含label和score属性label为str类型分类标签score为float类型得分。TextToAudioPipeline类TextToAudioPipeline具体任务为将文本转换为语音。该类不支持TenseFlow框架。该类重写了父类的几个方法包括构造函数、内置的实例函数__call__内置的前馈函数_forward、内置的参数解析函数_sanitize_parameters、预处理方法preprocess和 后处理方法postprocess。在TextToAudioPipeline中将文本生成语音的具体实现是通过AutoModelForTextToWaveform类或AutoModelForTextToSpectrogram类来完成的。如果使用Pipeline容器类可通过标识text-to-speech调用。构造函数函数原型如下__init__(self, *args, vocoderNone, sampling_rateNone, **kwargs)其中args位置函数参数。vocoder人生编码器默认为None。sampling_rateint类型【可选】默认为None。 生成音频波的音频采样率kwargs额外的特定字典参数。实例函数函数原型__call__(self, text_inputs: Union[str, List[str]], **forward_params)其中text_inputs支持str类型和list类型必选。如果是str类型则表示一段文本如果是list则表示是一组文本。preprocess_params预处理所需要的配置参数字典可选。可包含在forward_params参数字典中。forward_params前馈处理所需要的配置参数字典可选。可包含在forward_params参数字典中。generate_kwargs后处理所需的配置参数字典可选。可包含在forward_params参数字典中。返回结果如果是单输入返回结果是一个Dict类型的值字典至少包含audio和sampling_rate属性键-sampling_rateint型。生成音频的采样率。audionumpy.ndarray类型。音频波形数据如果是多输入则返回由单输入处理返回的结果结构构成的列表。在获取到合成结果后需要再手工处理转换成音频流或者保存为音频文件。ZeroShotAudioClassificationPipeline类ZeroShotAudioClassificationPipeline类实现的是在没有可参考的样本下将给定的语音在新提供的分类上评估得分并将评分结果输出的功能称之为”零样本音频分类“。该实现仅支持Pytorch框架。ZeroShotAudioClassificationPipeline依托ClapModel实现具体功能。如果使用Pipeline容器类可通过标识zero-shot-audio-classification调用。构造函数函数原型为__init__(self, **kwargs)其中kwargs额外的特定字典参数。实例函数函数原型__call__(self, audios: Union[np.ndarray, bytes, str], **kwargs)audios复合类型支持str类型或numpy.array或者list类型。必选。如果是str类型则表示以一个音频文件地址可以是本地文件地址也可以是一个http链接如果是numpy.array则表示是一个音频采样值数组如果是list类型如果列表值为str类型则表示为一组音频文件地址如果值为numpy.array 则表示为一组由音频字节数组组成的列表。candidate_labels由str构成的list。必选。为音频分类评估使用的新定义的的分类标签组合。hypothesis_templatestr类型可选默认值This is a sound of {}。格式化模板结合candidate_labels格式化结果的输出。返回结果如果是单输入则返回由dict组成的list其中组成列表的字典值包含label和score属性键labelstr类型。分类标签名scorefloat类型。分类标签的评估得分 。如果是多输入则返回如单输入返回的结构组成的列表AutomaticSpeechRecognitionPipeline类AutomaticSpeechRecognitionPipeline完成将给定的语音转换为文本的功能。和上面的类不同它继承自ChunkPipeline。相较于PipelineChunkPipeline支持对构造函数分块然后对每个块分别处理。AutomaticSpeechRecognitionPipeline要实现自动语音识别功能需要ffmpeg库支持。如果使用Pipeline容器类可通过标识automatic-speech-recognition调用。构造函数函数原型__init__( self, model: PreTrainedModel, feature_extractor: Union[SequenceFeatureExtractor, str] None, tokenizer: Optional[PreTrainedTokenizer] None, decoder: Optional[Union[BeamSearchDecoderCTC, str]] None, device: Union[int, torch.device] None, torch_dtype: Optional[Union[str, torch.dtype]] None, **kwargs, )其中modelstr类型 或PreTrainedModel子类。模型的路径或模型标识。feature_extractorstr类型或者SequenceFeatureExtractor类型。【可选】默认为None。特征提取器如果需要自定义的提取器通过这个参数配置。tokenizerPreTrainedTokenizer类型【可选】默认为None。分词器。decoderstr类型或BeamSearchDecoderCTC类型【可选】默认为None。解码器用来给源音频解码用device支持str或int简单类型或是torch.device枚举类型。可选。设备类型。torch_dtype支持str简单类型或torch.dtype枚举类型。可选。浮点类型。kwargs额外的特定字典参数。实例函数函数原型__call__(self, inputs: Union[np.ndarray, bytes, str], **kwargs )其中inputs支持str类型或bytes类型或者numpy.array类型。必选。如果是str类型则表示一个音频文件地址或者一个http链接它需要ffmpeg库支持。如果是bytes类型或numpy.array类型则表示是一个原始的音频波字节流chunk_length_sfloat类型可选默认为0。设置每个分块的输入长度如果该值为0则不再对构造函数进行分块。stride_length_sfloat类型为每个块设置左右步幅的长度可选默认为chunk_length_s / 6。如果该值大于0就可以通过上下文来推断字词比没有上下文更好。ignore_warningbool型是否忽略警告可选。return_timestampsbool类型或str类型是否在返回时返回时间戳可选。对于CTC模型即Wav2Vec2,HuBERT等值为word则表示为以词为单位生成时间戳如果是char则表示为以字符为单位生成时间戳对于Whisper模型如果值为word则意义与CTC相同值为True时则表示是按词分割得到的段来生成时间戳。。return_languagebool型是否返回语种可选。max_new_tokensint类型设置生成标记的最大长度可选。用于控制生成文本的长度以防止生成结果过长。decoder_kwargs解码器所需的实例函数集合。generate_kwargs生成所需的实例函数集合。返回结果如果是单一输入返回结果为一个字典实例包括text属性键值为识别出来的文本还包括其他的附属参数如tokenslogitsis_laststridetoken_timestampsstart_offsetend_offset等。如果是多个输入则返回如单一输入返回相同结构组成的列表。