
(图片来自 huggingface.co/blog/Borise/law-vision-representation-in-mllms)
表示空间 (Representation Space) 是多模态人工智能中的核心概念,指不同模态数据(文本、图像、音频等)经过编码后映射到的统一数学空间。该空间使机器能够理解跨模态的语义关联,是实现多模态智能的数学基础。
表示空间本质上是高维向量空间,具有以下关键属性:
text_emb = encode("火山喷发") → 查找 argmin(d(v_img, text_emb))[img_emb; audio_emb] → 融合层 → 联合表示v_"医疗报告" + v_CT影像 → 诊断建议v_原图 + v_"添加彩虹" → 生成新图