2026-05-02 多模态

多模态AI模型迎来统一架构时代

最新研究展示了一种统一的视觉-语言模型架构，可在图像、视频、文本间无缝转换推理。

多模态AI领域迎来重要里程碑。研究人员成功构建了一个统一的Transformer架构，能够在图像识别、视频理解、自然语言处理等多个模态之间进行无缝推理，而无需为每个任务单独训练模型。