科学家提出RAR新方法,增加大模型细粒度识别力,可用于电商识图等领域
2024-05-20 05:16:43

在近期一项研究中,科学可用武汉大学本科生、家提加目前在上海人工智能实验室担任实习生的新方细粒刘子煜和所在团队 ,针对视觉语言模型(CLIP,法增Contrastive Language-Image Pre-Training)和多模态大型语言模型(MLLMs,模型Multimodal Large Language Models)  ,度识澳门免费资料最准的资料在处理细粒度识别任务上的别力局限性开展了一项研究。


科学家提出RAR新方法,增加大模型细粒度识别力,可用于电商识图等领域

图 | 刘子煜(来源 :刘子煜)

科学家提出RAR新方法,增加大模型细粒度识别力,可用于电商识图等领域

据介绍 ,于电虽然 CLIP 模型在视觉-语言理解任务中表现出较好的商识灵活性和强大性能,但在面对包含大量类别或细粒度类别的领域数据集时,它的科学可用表现开始出现下滑。

科学家提出RAR新方法,增加大模型细粒度识别力,可用于电商识图等领域

这一现象主要归因于语言描述的家提加固有模糊性和同义词带来的挑战,这些因素使得模型难以准确区分那些紧密相关但又各不相同的新方细粒类别 。

另一方面  ,法增黄大仙救世网MLLMs 虽然在训练过程中积累了丰富的模型知识,并在分类细粒度类别上展示了出色能力。但当面对越来越多的类别时 ,由于上下文窗口大小的限制 ,其性能也开始受到影响。

基于此,课题组希望通过结合两种方法的优势 ,提高少样本/零样本识别能力,尤其是针对具有广泛和细粒度词汇的数据集 。

确定研究方向后,他们开始设计一种新的方法 ,刘子煜将其命名为 RAR(Retrieving And Ranking) ,它通过在 MLLMs 中融合检索和排序来增强功能 ,澳门精准资料大全免费香港可以很好地解决上述挑战。

RAR 方法首先基于 CLIP 建立一个多模态检索器,为不同类别创建并存储外部的显式记忆。

在推理过程中 ,RAR 使用输入图像在记忆库中进行检索  ,并返回检索到的前 k 个结果,然后使用 MLLMs 对这些结果进行整合和排序并作出最终预测 。

这种方法不仅解决了视觉语言模型(VLM,Visual Language Model)和 MLLM 单独使用时在细粒度识别中的固有限制,而且保留了 MLLM 本身的知识和能力,显著提高了各种视觉语言识别任务的准确性。

RAR 将多模态大型语言模型的能力与先进的检索和排名机制相结合,从而显著提高了在各种复杂环境中处理和理解细粒度视觉信息的能力 。

预计其将用于以下应用场景 :

其一 ,可用于细粒度图像搜索和分类 。

RAR 技术能够准确识别和分类具有细微差别的图像,例如识别和分类不同种类的鸟类、花卉或汽车 。

这在图像搜索引擎、电子商务平台等领域非常有用,让用户可以通过上传图片来精确搜索特定产品或类别 。

其二 ,可用于医学影像分析。

在医学诊断中 ,RAR 技术可以帮助识别和分类细粒度的医学影像 ,如不同类型的肿瘤、病理切片等 ,从而协助医生作出更准确的诊断 。

其三,可用于自然科学研究。

在生物学、地质学等领域,RAR 可以用于识别和分类复杂的自然图像 ,如识别和分类动植物物种 、岩石矿物等,从而为科学研究提供支持 。

其四,可用于智能监控和安全系统。

RAR 可以提高安全监控系统的效率,通过精确识别和分类人群 、车辆等  ,来增强公共安全和交通管理。

其五,可用于自动化内容审核。

在社交媒体和数字平台上  ,RAR 技术可以帮助自动识别和分类图像内容 ,有效过滤不当或侵权的内容。

其六 ,可用于机器人视觉系统 。

RAR 技术可以提高机器人对环境的理解能力,尤其是在复杂环境中 ,可以精确识别各种物体和障碍,从而提高机器人导航和操作的效率和安全性。

其七 ,可用于教育和学术研究。

在教育领域 ,RAR 技术可以辅助创建更为丰富和互动的教学材料,如通过图像识别来教授生物多样性 、艺术作品鉴赏等。

随着 RAR 技术的不断发展和优化 ,其应用范围有望进一步扩大 ,为多个行业带来转型和升级。

日前 ,相关论文以《检索和排序增强 MLLM 视觉识别》(RAR : Retrieving And Ranking Augmented MLLMs for Visual Recognition)为题发在 arXiv[1],刘子煜是第一作者 。


图 | 相关论文(来源 :arXiv)

接下来,他们计划将这些技术融合到一个更智能的 Agent 系统中,并探索其在不同领域的应用潜力。

据介绍 ,这个系统的核心是高度的适应性和灵活性 ,它能够根据不同行业的特定需求进行调整和优化。

总的来说,课题组的主要目标是创建一个能够理解复杂用户查询和反馈的系统 ,进而提供高度个性化的响应和解决方案 。

想象一下 :一个能够精确理解用户需求并提供定制化建议的智能助手,无论是帮助顾客选择产品 ,协助医生解读医疗数据 ,还是为教育者提供个性化的教学方案。

未来,他们计划将这种智能 Agent 系统应用于诸如客户服务、内容创作、个性化教育 、医疗咨询和企业决策支持等领域 。

预计系统将通过分析大量数据 ,不仅能回应直接的查询,还能预见用户需求,提前带来有价值的信息和建议  。

参考资料:

1.https://arxiv.org/pdf/2403.13805.pdf

运营/排版 :何晨龙

01/ 北航团队研发生物降解 “电子绷带” ,小鼠肠道损伤14天内完全愈合,加速多种器官的伤口愈合

02/ 中德学者首次发现超快卡皮查-狄拉克效应 ,为研究电子性质带来全新手段 ,能直接观测电子相位信息

03/ 科学家破解太阳能地下咸水淡化经济性难题 ,为富盐卤水“储能式”淡化提供范例

04/ 让AI向生物级智能迈出重要一步:北航团队开发新型人工神经元器件 ,能对外界信号做出超快超精响应

05/ 西交大提出多糖等生物大分子合成新范式,甲烷蛋白粗蛋白质含量超过70%,成功实现高效生物储能


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布 ,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

(作者:澳门六开奖结果2024开奖记录)