这篇文很长!仔细对马上要发布的openai GPT 4V 做了前瞻测评!
主要的概括点:
1、第一,输入的多种模态 随意切换,纯文本 图片文本交互的,极大增加 应用性!
2、视觉提示互动,可以用画标示的方式,和大模型互动!
3、特定场景的少样本泛化能力 强!图表 逻辑 编程能力很强!
4、视频部分内容理解 推导!这部分能力 展示不多,应该相对于图片+文本混合,能力还有待提高!
5、行业应用;机器人导航!图形界面导航!工业缺陷检测!图片配文描述!函数 物理教育互动,医疗诊断提示....
微软ai研究院提供资料