华科大发布多模态大模型新基准覆盖五大任务、传媒热点、传媒资讯、苏州钰尚传媒-商业品牌企业运营服务商

苏州钰尚传媒-商业品牌企业运营服务商-专业高端视频拍摄服务、商业品牌宣传片制作、企业产品广告片TVC微电影动画片视频、媒体宣传发布推广、品牌宣传软文发布、苏州广告标识牌设计制作，平面广告装饰、多媒体广告展厅文化墙装修全包、钰尚文化传媒——合作咨询联系微信：esay8168 ,联系：电话18888186853微信同号

合作咨询

QQ：

微信：esay8168

扫微信二维码

联系

电话18888186853微信同号

联
系
我
们

这里是文章模块栏目内容页

华科大发布多模态大模型新基准覆盖五大任务

user34782

2024-02-03 00:36:47

要点:
华中科技大学等机构发布了多模态大模型新基准，对14个主流多模态大模型进行全面评估，覆盖五大任务、27个数据集。
研究团队深入研究了多模态大模型在OCR（光学字符识别）能力上的表现，提出了专门的评测基准OCRBench，揭示了在OCR领域中多模态大模型的局限性。
评估结果显示多模态大模型在一些任务上表现出色，如文本识别、文档问答，但在语义依赖、手写文本和多语言文本等方面存在挑战，需要进一步改进。

站长之家（ChinaZ.com）2月2日消息:近期，华中科技大学等机构发布了一项关于多模态大模型（LMMs）的全面评估新基准，旨在解决多模态大模型性能评估的问题。这项研究涉及了14个主流多模态大模型，包括谷歌Gemini、OpenAI GPT-4V等，覆盖了五大任务、27个数据集。然而，由于多模态大模型的回答具有开放性，评估各个方面的性能成为一个亟待解决的问题。

在这项研究中，特别强调了多模态大模型在光学字符识别（OCR）方面的能力。研究团队深入研究了多模态大模型的OCR性能，并为此构建了一个专门的评测基准，命名为OCRBench。通过对27个公有数据集和2个生成的无语义和对比的有语义的数据集上进行广泛实验，揭示了多模态大模型在OCR领域的局限性。论文详细介绍了评测模型的概述、指标以及使用的评测数据集。

项目地址:https://github.com/Yuliang-Liu/MultimodalOCR

评估结果显示，多模态大模型在一些任务上表现出色，如文本识别、文档问答等。然而，在语义依赖、手写文本和多语言文本等方面，这些模型存在一定的挑战。特别是在处理缺乏语义的字符组合时，性能较差。手写文本和多语言文本的识别也呈现出较大的挑战，可能与训练数据的不足有关。此外，高分辨率输入图像对于一些任务，如场景文本问答、文档问答和关键信息抽取，具有更好的表现。

为了解决这些限制，研究团队构建了OCRBench，以便更准确地评估多模态大模型的OCR能力。这一举措有望为多模态大模型的未来发展提供指导，并促使更多的改进和研究，以进一步提升其性能和应用领域的拓展。

在这个多模态大模型评估的新时代，OCRBench的引入为研究者和开发者提供了一个更为准确和全面的工具，以评估和改进多模态大模型的OCR能力，推动该领域的发展。这项研究不仅为多模态大模型的性能评估提供了新的思路，也为相关领域的研究和应用奠定了更加扎实的基础。

（）

（来源：站长之家）

免责声明：本站文章部分内容为本站原创，另有部分容来源于第三方或整理自互联网，其中转载部分仅供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对其内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

有帮助

上一篇：谷歌Brad AI聊天机器人免费在线使用地址 Gemini Pro体验入口

下一篇：1元=1700000tokens！清华系发布国产Mistral仅2B，老手机都带得动，GitHub一天斩获300+星

栏目索引