苏州钰尚传媒-商业品牌企业运营服务商-专业高端视频拍摄服务、商业品牌宣传片制作、企业产品广告片TVC微电影动画片视频、媒体宣传发布推广、品牌宣传软文发布、苏州广告标识牌设计制作,平面广告装饰、多媒体广告展厅文化墙装修全包、钰尚文化传媒——合作咨询 联系微信:esay8168 ,联系:电话18888186853微信同号

扫微信二维码

联系

电话18888186853微信同号




这里是文章模块栏目内容页
VSP-LLM:可通过观察视频中人的嘴型来识别唇语

站长之家(ChinaZ.com)2月28日 消息:VSP-LLM是一种通过观察视频中人的嘴型来理解和翻译说话内容的技术,也就是识别唇语。该技术能够将视频中的唇动转化为文本(视觉语音识别),并将这些唇动直接翻译成目标语言的文本(视觉语音翻译)。不仅如此,VSP-LLM还能智能识别和去除视频中不必要的重复信息,使处理过程更加快速和准确。

VSP-LLM的开发基于AV-HuBERT模型代码,后者是Facebook开发的一个自监督的视觉语音模型。AV-HuBERT能够从视频中学习语音表示,尤其是从人的唇动中识别语音信息。因此,VSP-LLM利用了AV-HuBERT在视觉语音识别方面的先进技术,作为其视觉语音处理组件的基础。

image.png

项目地址:https://top.aibase.com/tool/vsp-llm

该技术结合了视觉语音处理和大语言模型(LLMs)的新型框架,旨在利用LLMs的上下文理解能力来提高视觉语音识别和翻译的准确性和效率。

VSP-LLM的工作原理包括自监督学习、去除输入帧中的冗余信息、利用大语言模型进行上下文建模、多任务执行和低秩适配器(LoRA)。

首先,通过自监督学习的方式,VSP-LLM训练一个视觉语音模型来理解和识别视频中提取的唇动作。自监督学习使得模型能够在没有明确标注的数据情况下,通过自我生成的反馈来学习和提取有用的信息。

其次,为了提高处理效率,VSP-LLM设计了一种去重方法,通过识别视觉语音单元减少输入帧中的冗余信息,进而减少模型需要处理的数据量。

然后,通过将自监督视觉语音模型提取的信息映射到LLMs的输入空间中,VSP-LLM能够实现视觉到文本的映射,进而利用LLMs的上下文建模能力来理解和翻译视频中的唇动作。

此外,VSP-LLM能够执行多任务,包括将视频中的唇动作识别为具体文本(视觉语音识别)或直接翻译这些唇动作成目标语言的文本(视觉语音翻译)。

最后,为了进一步提升训练的计算效率,VSP-LLM采用了低秩适配器(LoRA)技术,这种优化训练过程的方法能够减少计算资源的需求。

()

(来源:站长之家)
免责声明:本站文章部分内容为本站原创,另有部分容来源于第三方或整理自互联网,其中转载部分仅供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对其内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。
传媒行业的商业全面服务 与您共创美好未来
合作共赢
  • 交互式网络传媒领域
  • 资源丰富,体系完善
  • 创造更加精准、有效的,线上线下互动品牌整合服务
  • 多年传媒行业尽管,见证品牌及产品的蜕变、递增和成长
创造优势
苏州钰尚传媒-商业品牌企业运营服务商最新资讯
致力于传媒行业领域的专业公司
长沙 北京 广州 上海 深圳 中山 珠海 河北 山西 广东 山东 河南 浙江 四川 安徽 湖北 湖南 陕西 福建 辽宁 云南 广西 江西 贵州 甘肃 吉林 黑龙江 海南 内蒙古 西藏 宁夏 青海 重庆 天津 香港 台湾 澳门 江苏 南京 苏州 无锡 徐州 常州 南通 扬州 盐城 淮安 泰州 镇江 宿迁 连云港 苏州吴中区 苏州相城区 苏州平江区 苏州沧浪区 苏州金阊区 苏州工业园区 苏州园区 苏州高新区 苏州新区 苏州虎丘区 苏州张家港 苏州常熟 苏州昆山 苏州太仓 苏州吴江