DeepMind发布新模型Mirasol3B:更高效处理音频、视频数据、传媒热点、传媒资讯、苏州钰尚传媒-商业品牌企业运营服务商

苏州钰尚传媒-商业品牌企业运营服务商-专业高端视频拍摄服务、商业品牌宣传片制作、企业产品广告片TVC微电影动画片视频、媒体宣传发布推广、品牌宣传软文发布、苏州广告标识牌设计制作，平面广告装饰、多媒体广告展厅文化墙装修全包、钰尚文化传媒——合作咨询联系微信：esay8168 ,联系：电话18888186853微信同号

合作咨询

QQ：

微信：esay8168

扫微信二维码

联系

电话18888186853微信同号

联
系
我
们

这里是文章模块栏目内容页

DeepMind发布新模型Mirasol3B:更高效处理音频、视频数据

uidhs168

2023-11-16 10:36:52

**划重点:**
1. 🌐 Google DeepMind发布Mirasol3B，致力于改善对长视频输入的理解。
2. 🎥 Mirasol3B采用先进的多模态学习，同时处理音频、视频和文本数据。
3. 🤔 对于应用于实际场景的可行性存在疑问，但该技术在YouTube等领域可能带来革命性的变化。

站长之家（ChinaZ.com）11月16日消息:Google DeepMind日前悄然宣布了其人工智能研究的重大进展，推出了一款名为“Mirasol3B”的新型自回归模型，旨在提升对长视频输入的理解能力。该新模型展示了一种颠覆性的多模态学习方法，以更综合和高效的方式处理音频、视频和文本数据。

Google Research的软件工程师Isaac Noble和Google DeepMind的研究科学家Anelia Angelova共同撰写的博客文章中指出，构建多模态模型的挑战在于模态的异构性。他们解释说:“一些模态可能在时间上同步（例如音频、视频），但与文本不对齐。此外，视频和音频信号中的大量数据远远大于文本，因此在将它们结合在多模态模型中时，视频和音频通常无法完全消耗，需要进行不成比例的压缩。对于更长的视频输入，这一问题变得更加严重。”

多模态学习的新方法

为了解决这一复杂性，Google的Mirasol3B模型将多模态建模解耦为分开的自回归模型，根据模态的特性处理输入。“我们的模型包括一个用于时间同步模态（音频和视频）的自回归组件，以及一个用于不一定时间对齐但仍然是序列的模态(例如标题或描述)的单独的自回归组件，”Noble和Angelova解释道。

Google可能会探索在YouTube等领域应用该模型的可能性。作为全球最大的在线视频平台之一，YouTube是公司的主要收入来源之一。该模型理论上可以用于提升用户体验和参与度，例如生成视频的字幕和摘要，回答问题并提供反馈，创建个性化推荐和广告，以及让用户使用多模态输入和输出创建和编辑自己的视频。

例如，该模型可以基于视觉和音频内容生成视频的字幕和摘要，并允许用户通过关键词、主题或情感搜索和过滤视频。这有望提高视频的可访问性和可发现性，帮助用户更轻松快速地找到他们想要的内容。

该消息在人工智能社区引起了浓厚的兴趣和激动，同时也有一些怀疑和批评。一些专家赞扬了该模型的多功能性和可扩展性，并对其在各个领域的潜在应用寄予厚望。但也有人质疑为何没有提供代码、模型权重、训练数据甚至API。这引发了关于该技术在实际应用中的可行性的讨论。

这一宣布标志着人工智能和机器学习领域的重要里程碑，展示了Google在开发前沿技术方面的雄心和领导地位。然而，这也为AI的研究人员、开发者、监管机构和用户提供了一项挑战和机会，需要确保该模型及其应用符合社会的道德、社会和环境价值观和标准。

（）

（来源：站长之家）

免责声明：本站文章部分内容为本站原创，另有部分容来源于第三方或整理自互联网，其中转载部分仅供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对其内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

有帮助

上一篇：“以美食之名，讲好中国故事” 谷歌与世界中餐业联合会推出新页面

下一篇：电视机“新旧产品混卖” TCL惹怒众多消费者

栏目索引