更小更强大！Hugging Face发布8B开源视觉语言模型Idefics2、传媒热点、传媒资讯、苏州钰尚传媒-商业品牌企业运营服务商

苏州钰尚传媒-商业品牌企业运营服务商-专业高端视频拍摄服务、商业品牌宣传片制作、企业产品广告片TVC微电影动画片视频、媒体宣传发布推广、品牌宣传软文发布、苏州广告标识牌设计制作，平面广告装饰、多媒体广告展厅文化墙装修全包、钰尚文化传媒——合作咨询联系微信：esay8168 ,联系：电话18888186853微信同号

合作咨询

QQ：

微信：esay8168

扫微信二维码

联系

电话18888186853微信同号

联
系
我
们

这里是文章模块栏目内容页

更小更强大！Hugging Face发布8B开源视觉语言模型Idefics2

irfjbf5412

2024-04-16 16:36:34

划重点:
⭐️ Hugging Face 推出 Idefics2，这是一款8B 的开源视觉语言模型，拥有更好的图像处理和字符识别能力。
⭐️ Idefics2相比前代模型，参数规模更小，只有80亿的十分之一，并改进了光学字符识别（OCR）功能。
⭐️ 这款模型具有更好的图像处理能力，支持最高分辨率达到980x980像素，并且无需调整图像比例。

站长之家（ChinaZ.com）4月16日消息:Hugging Face 首次发布了其 Idefics 视觉语言模型，该模型于2023年首次亮相，采用了最初由 DeepMind 开发的技术。如今，Idefics 迎来了升级，新版本 Idefics2拥有更小的参数规模、开放许可证以及改进的光学字符识别（OCR）能力。目前，用户可以在 Hugging Face 平台上使用 Idefics2。

Idefics 的全称是 Image-aware Decorder Enhanced à la Flamingo with Interleaved Cross-attentionS，是一款通用的多模态模型，可以对文本和图像提示作出响应。与前身80亿参数规模的 Idefics 相比，Idefics2的规模缩小了十倍，仅有80亿，与 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 相当。

除了核心功能外，Idefics2承诺提供更好的图像处理能力，支持高达980x980像素和原生长宽比的图像操作。图像无需调整大小以适应固定的正方形比例，这在传统的计算机视觉中是常见的操作。

通过整合从图像或文档中转录文本生成的数据，OCR 能力得到了增强。Hugging Face 团队还改进了 Idefics 对图表、图形和文档问题的回答能力。

，该模型的架构经过简化，摒弃了 Idefics1的门控交叉关注。Hugging Face 在一篇博客文章中指出:“图像被送入视觉编码器，然后经过学习的 Perceiver 池化和 [多层感知器] 模态投影。然后，将该池化序列与文本嵌入串联起来，以获取图像和文本的（交错的）序列。”

Hugging Face 使用了一系列公开可用的数据集，特别是 Mistral-7B-v0.1和 siglip-so400m-patch14-384，来训练 Idefics2。此外，还利用了网络文档、图像标题对、OCR 数据、渲染文本和图像到代码数据。

Idefics2的发布是 AI 繁荣持续推出的许多多模态模型之一，包括 Reka 的新 Core 模型、xAI 的 Grok-1.5V 和 Google 的 Imagen2。

官方博客：https://huggingface.co/blog/idefics

（）

（来源：站长之家）

免责声明：本站文章部分内容为本站原创，另有部分容来源于第三方或整理自互联网，其中转载部分仅供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对其内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

有帮助

上一篇：账号全网封禁！网红猫一杯旗下店铺OMETOO终止经营

下一篇：“买到盗版书发现字是手写的”上热搜！实为营销号炒作系2年前旧闻

栏目索引