Emu3.5 原生多模态开启世界学习新纪元
Emu3.5 是北京智源研究院(BAAI)推出的新一代多模态大模型,在架构层面做出了一个激进决策——不再区分视觉和语言的输入输出,而是通过统一的 token 序列进行处理。这种做法听起来简单,但一旦扩展到超过 10 万亿 token 规模的跨模态预训练,带来的语义一致性和生成流畅性,已经明显超过依赖...
探索前沿技术,分享实践经验,追踪行业动态
NVIDIA 推出全新的 Nemotron Nano v2 12B VL 模型为多模态 AI 领域注入强劲动力。这款前沿模型由 NVIDIA 精心打造,旨在提供卓越的多图像推理、视频理解以及强大的文档智能处理能力,即日起便可用于商业部署。 核心亮点 Nemotron Nano v2 12B VL 最...
Embedding 模型是 AI 绘图中一个非常实用的工具,它能够将复杂的提示词效果压缩成一个小小的模型文件,让你轻松实现特定的艺术风格、人物特征或画面效果。这些模型通常只有几 KB 大小,但效果却非常强大,是提升图像生成质量的重要工具。 ComfyUI 作为目前最强大的 Stable Diffus...
在 AI 图像生成过程中,我们经常因为设备性能限制无法一次性生成大尺寸图片,通常需要先生成小尺寸图像再进行放大。ComfyUI 提供了多种图片放大方法,每种方法都有其独特的特点和适用场景。 本文将详细介绍 ComfyUI 中三种主要的图片放大方法:像素重新采样、SD 二次采样放大和使用放大模型放大图...
扩图(Outpainting)是 AI 绘图中一项非常实用的技术,它能够让你在原始图片的边缘区域继续生成内容,从而扩展图片的尺寸和视野范围。无论是补充画面缺失的部分、调整图片的宽高比例,还是创造更大场景的视觉效果,扩图都能帮你实现。 ComfyUI 作为目前最强大的 Stable Diffusion...
局部重绘是 AI 绘图中最实用的功能之一,它让你能够精确地修改图像的特定部分,而不影响其他区域。无论是清除画面中的物体、修改人物表情、调整服饰颜色,还是替换背景元素,局部重绘都能帮你实现。 ComfyUI 作为目前最强大的 Stable Diffusion 工作流工具,在局部重绘方面提供了灵活的控制...
AI 前沿观察发现 Google 推出的 ShieldGemma 2 模型为图像内容安全领域带来了一次重要升级。这款基于 Gemma 3 打造的 40 亿参数模型,专为图像安全分类设计,旨在帮助开发者和研究人员有效规避有害内容风险,这不仅是对现有 AI 安全模型的补充,更是一种前瞻性的内容防护策略...
Llama 4 多模态大模型震撼发布 Meta 推出 Llama 4 系列开启 AI 新纪元。 Meta 近日正式发布其新一代旗舰模型 Llama 4 系列 包含 Llama 4 Scout 和 Llama 4 Maverick 两款模型。这标志着 Llama 生态系统迈入一个全新时代 其核心创新...
AI 前沿动态聚焦 OpenBMB 最新力作 MiniCPM-o 2.6 模型以仅 80 亿参数的体量,在多项基准测试中展现出与 GPT-4o 202405 GPT-4V Claude 3.5 Sonnet Gemini 1.5 Pro 等专有大型模型相媲美甚至超越的性能,尤其令人瞩目的是其在手机端...
deepseek-ai 再次展现其在 AI 前沿的探索精神,最新推出的 Janus-Pro 模型,为多模态 AI 领域带来了创新的统一框架。这款模型不仅能理解图像内容,还能生成图像,其独特之处在于视觉编码的巧妙解耦设计,打破了传统多模态模型在理解与生成任务中的潜在冲突。 Janus-Pro 的发布预...
NVIDIA Isaac GR00T N1 是世界上首个面向通用类人机器人推理和技能的开放基础模型。 这款由 NVIDIA 推出的模型,不仅标志着机器人 AI 领域的一次重大飞跃,更预示着机器人将从传统的“任务专家”走向具备泛化能力的“环境通才”。 模型亮点与架构解析 GR00T N1 的核心亮点在...
提示词是 AI 绘图的核心,一个好的提示词能够让你的创意完美呈现,而糟糕的提示词则可能让你失望而归。ComfyUI 作为目前最强大的 Stable Diffusion 工作流工具,在提示词处理方面有着独特的语法规则和功能特性。 今天我们就来详细讲解 ComfyUI 中的提示词基础语法,从最基础的书写...
ComfyUI 的强大之处在于它支持各种类型的模型,每种模型都有其独特的作用和应用场景。但对于新手来说,面对五花八门的模型类型和复杂的安装过程,往往感到无从下手。 今天我们就来详细讲解 ComfyUI 中各类模型的安装方法,从基础的 Stable Diffusion 检查点模型,到进阶的 LoRA、...
微软(Microsoft)最新推出的 Kosmos-2.5 多模态模型,正重新定义我们对图像中文本的处理方式。它不仅是简单的光学字符识别(OCR),更是一个能够“阅读”并理解文本密集图像的“识字”模型。这标志着文档智能处理领域的一次重大飞跃,让机器不再只看到文字,更能理解文字的结构与含义。 核心亮点...
M87 Labs 带来了其前沿的视觉语言模型 Moondream 3 (Preview) 这一模型以其独特的专家混合 MoE 架构 脱颖而出。它在保持极致效率的同时 提供了业界领先的视觉推理能力 为 AI 爱好者和开发者打开了视觉 AI 应用的新篇章。 Moondream 3 MoE 架构揭秘 Mo...
Apriel-1.5-15b-Thinker 多模态推理模型由 ServiceNow-AI 团队发布 带来了 AI 训练领域的新鲜视角。这款模型的核心理念是“中间训练即所需”Mid training is all you need. 团队通过深度且广泛的持续预训练 Continual Pre-tra...
ComfyUI 作为目前最受欢迎的 Stable Diffusion 工作流工具,更新频率相当高。新版本不仅修复了 bug,还经常带来性能优化和新功能。但很多用户面对升级这件事总是犯愁,不知道该怎么操作。 今天我们就来详细讲解 ComfyUI 的升级方法。由于不同的安装方式对应不同的升级策略,我们需...
一、为什么你需要「提示词反推」? 做 AI 绘图的同学都懂: 1. 好不容易找到一张“梦中情图”,却写不出同样味道的提示词; 2. 训练 LoRA/角色模型时,需要给成百上千张图写标注,手打到天荒地老; 3. 多人协作,标注风格不统一,炼出来的丹直接“歪脸”。 共绩算力刚刚上线的「提示词反推工具」...
