就在上个礼拜黑森林实验室开源了flux kontext的dev版模型,该模型是目前为止最强的图像编辑模型直接对标GPT-4o,这两天迫不及待的试了下,效果是针不戳,工作流也特别简单,基本只需要提示词就能玩,可以和以往的复杂工作流说拜拜啦。 下面行歌会从风格转绘,产品试穿,扩图,人物移除,角色融合等角度展示一下kontext dev的能力,相信我它觉得可以成为你今后工作中的利器。 Kontext基础工作流 ...
最近收到一个小伙伴的需求,希望可以根据用户自拍上传的颈部图片,自动识别出用户颈纹的严重程度并给出评分等级。针对这个需求我们基本上可以用图文理解大模型来解决,但是由于没有在这方面进行过专门的训练,大模型在识别时容易出现幻觉,不能很好的对标我们自己的等级评分标准。 我们现在百度智能云平台选择一款多模态大模型进行试验,先在百度智能云平台选择一款多模态大模型进行试验,这里我们选择通义千问2.5vl模型来测试它的图文理解能力。 ...
最近有一个想法,想把自己公众号的文章整理成一个知识库,方便自己和用户对文章中的内容进行检索,可以快速的查找到相关的知识和对应的文章链接,于是便有了搭建一个智能体Agent助手的想法。 搭建这样的AI智能体基本上有两种方案,它们各有优缺点可以根据自己的需求来选择: 1. 私有化服务器或者本地部署:可以自己选择开源的LLM大模型和RAG(比如DeepSeek+RagFlow的组合),系统在服务器上安装搭建所需环境,优点是私密性比较好;缺点是需要服务器和带宽成本,部署起来虽然不复杂但是比较花时间。 ...