
通用模型
文章平均质量分 93
?life?
浙江大学博士毕业,一个本来不想搞算法和深度学习,但是不小心走向了人工智能、机器学习、深度学习的人儿~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MobileSAM轻量化实现路径思考
仅对比image encoder,参数量和速度都极大减小对比FastSAM完整推理时间,MobileSAM快5倍。原创 2025-08-04 11:43:59 · 795 阅读 · 0 评论 -
【DINO】基于自监督的通用视觉骨干网络
简单总结本文的动机就是,transformer得益于自然语言的成功才被尝试用在视觉上,而在自然语言中,基于自监督预训练在transformer上取得了很大的成功(比如BERT),那在transformer用在视觉上是不是也可以用自监督取得好的效果呢?一、主要解决的问题ViT在视觉任务中的局限性监督学习下的Vision Transformer(ViT)相比卷积网络(ConvNets)尚未展现明显优势,计算成本高、依赖大量训练数据,且特征缺乏独特性质。自监督学习对ViT的潜力探索。原创 2025-08-04 15:44:44 · 744 阅读 · 0 评论 -
SAM2论文解读-既实现了视频的分割一切,又比图像的分割一切SAM更快更好
核心目标:给定输入视频,通过在任意视频帧上提供交互式提示(如点、框、掩码),分割并跟踪目标对象的时空掩码(masklet),即生成覆盖整个视频的时空一致分割结果。交互性:用户可在任意帧添加提示以迭代优化分割结果。例如,在某一帧纠正分割错误后,模型会将修正传播到整个视频,减少重复标注成本。对比半监督视频对象分割(VOS)VOS通常仅在第一帧提供掩码提示,且聚焦于完整物体跟踪;PVS支持多帧任意提示,并可分割物体部分(如“人的手臂”),覆盖更广泛的“任意物体”场景。原创 2025-08-04 18:26:27 · 1217 阅读 · 0 评论 -
SAM分割一切系列相关论文梳理
为了在保留优势的同时克服当前SAM方法的局限性,我们提出了用于通用细胞核分割的域自适应自提示SAM框架(UN - SAM),通过提供一种在不同领域都具有卓越性能的全自动解决方案。此外,为了在各种细胞核图像中发挥SAM的能力,我们设计了一个域自适应调谐编码器(DT - Encoder),将视觉特征与领域通用和领域特定知识无缝融合,并进一步设计了一个域查询增强解码器(DQ - Decoder),通过利用可学习的域查询在不同的细胞核领域进行分割解码。可以看出大部分都是结合SAM与其他模型实现的工具,例如。原创 2025-08-04 13:28:10 · 1106 阅读 · 0 评论 -
SAM微调fine-tune/PEFT系列论文整理
分割一切模型(SAM)彻底改变了计算机视觉领域。依靠对SAM的微调将解决大量基础计算机视觉任务。我们正在设计一个基于SAM的用于训练微调模型的类别感知单阶段工具。你需要提供任务所需的数据集以及支持的任务名称,此工具将帮助你获得针对任务的微调模型。你也可以设计自己的扩展SAM模型,FA将为你提供训练、测试和部署流程。原创 2025-08-04 12:24:49 · 1237 阅读 · 0 评论 -
SAM论文学习
本文的一大核心是prompt,支持多种prompt作为输入,那么什么是prompt?prompt指定图像中要分割的内容,可以包含待识别物体的空间或文本信息等。包含11M图片、1.1Bmask的数据集SA-1B是怎么来的?如上分为三个阶段(1) 模型辅助人工标注阶段,(2) 半自动阶段,结合自动预测掩码和模型辅助标注,(3) 全自动阶段,在此阶段我们的模型无需标注人员输入即可生成掩码。由于在实际应用中这种构建大规模数据方式有很好的参考意义,所以这里重点介绍一下。原创 2025-08-04 20:01:06 · 980 阅读 · 0 评论 -
从SAM看交互式分割与可提示分割的区别与联系:Interactive Segmentation & Promptable Segmentation
维度提示分割(Promptable Segmentation)交互式分割(Interactive Segmentation)核心目标单次提示生成有效掩码,支持零样本泛化(任意任务/数据分布)多轮交互修正掩码,追求高精度(依赖用户反馈)提示次数单次为主(支持多提示组合,但无需迭代)多次(依赖用户逐步输入前景/背景点、边界调整等)歧义处理输出多个掩码,自动排序(如3个掩码+IoU评分)假设用户通过交互消除歧义,输出单个掩码模型能力通用分割基础模型,可组合到更大系统(如文本+检测框→实例分割)原创 2025-08-04 13:53:56 · 807 阅读 · 0 评论