科技
重磅!斯坦福 AI 团队被曝抄袭中国大模型开源成果,推特舆论开始发酵
The following article is from AI科技评论 Author 西西
Github开源:https://github.com/mustafaaljadery/llama3v HuggingFace开源:https://huggingface.co/mustafaaljadery/llama3v(已删库) Medium发布文章:https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee Twitter官宣模型:https://twitter.com/AkshGarg03/status/1795545445516931355
斯坦福团队百口莫辩
最开始,用户质疑 Llama3V 套壳 MiniCPM-Llama3-V 2.5 开源模型时,Llama3V 作者团队并不承认,而是声称他们只是「使用了 MiniCPM-Llama3-V 2.5 的 tokenizer」,并宣称他们「在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作」:
推特舆论发酵,面壁回应
6 月 2 日下午,该事件开始在推特上发酵,MiniCPM-V 的作者亲自发帖,表示「震惊」,因为斯坦福的 Llama3V 模型居然也能识别「清华简」。
MiniCPM-Llama3-V 2.5:民
Llama3-V:民
GT:民
Llama3-V:君子
GT:甬
### 副标题难图长图长文本精准识别
### 正文OCR技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V2.5对于难图、长图、长文本的精准识别,再度带来出众表现!面壁自研高清图像高效编码技术,我们可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比、甚至「有点变态」的1:9极限比例图像,突破了传统技术仅能识别20万像素小图的瓶颈。此前,MiniCPM-V系列多模态模型就因对于街景、长图等困难场景的高效解析,赢得了良好口碑。
### 图片描述1. **180万像素** - 任意长宽比 - 图像无损识别 - 可支持 - 1:9极限宽高比
### 副标题难图长图文本精准识别
### 正文OCR技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V2.5对于难图、长文本的精准识别,再度带来出众表现。面壁自研高清图像高效编码技术,我们可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比、甚至「有点变态」的1:9极限比例图像,突破了传统技术仅能识别20万像素小图的瓶颈。此前,MiniCPM-V系列多模态模型就因对于街景、长图等困难场景的高效解析,赢得了良好口碑。
### 图片描述- **180万像素**:任意长宽比,图像无损识别,可支持。- **1:9极限宽高比**:可支持。
租售GPU算力租:4090/A800/H800/H100售:现货H100/H800
特别适合企业级应用 扫码了解详情☝
点「在看」的人都变好看了哦!
特别适合企业级应用