智源研究院开源阿拉伯语通用大模型ALM,发布最大阿拉伯语数据集ArabicText
近日,北京智源人工智能研究院(以下简称“智源”)联合多家阿拉伯科研机构,开源兼具自然语言理解和生成能力的通用阿拉伯语预训练模型ALM 1.0,并发布开源世界目前数据量最大的阿拉伯语预训练文本数据集ArabicText,共同推动阿拉伯语大模型AI生态的建设。
阿拉伯语作为世界第五大语言,是超过20个国家和地区的官方语言,世界上有超过4亿人使用。目前现有的阿拉伯语预训练语言模型大多侧重文本理解或文本生成单一方向,并且现有阿拉伯语的预训练数据也存在着数据量少、质量参差不齐等问题。
通用性更强的阿语模型
兼备自然语言生成和理解能力
GLM
GLM是一个基于自回归空白填充的通用语言模型,通过增加二维位置编码和允许任意顺序预测跨度来改进空白填充预训练。GLM可以通过改变空白的数量和长度对不同类型的任务进行预训练。在横跨NLU、条件和无条件生成的广泛任务上,GLM在相同的模型大小和数据条件下优于现有其他语言模型。
数据来源:ALUE官网 数据截至2022年12月6日
榜单链接:https://www.alue.org
案例1:
Context: شرم الشيخ وجهة سياحية شهيرة
ALM: ، تعد واحدة من أجمل الأماكن السياحية الرائعة ، التي يقصدها عشاق الطبيعة للاستمتاع ، بجمال الشواطيء الساحرة ، حيث تضم المنطقة الكثير من الأماكن التي تصلح لأن تكون منتجعا صحيا ، فهي موطن للكثير من المنتجعات الصحية و المنتجعات التي يمكنك من خلالها الاسترخاء ، و الاستمتاع بالهواء النقي العليل و مياه البحر الدافئة ، و ذلك لاحتوائها على العديد من المعالم السياحية التي يمكنك زيارتها والاستمتاع بها ، و لكن قبل الاستمتاع بها عليك أن تعرف جميع المعلومات اللازمة عنها و التي تعد ضرورية و ضرورية لكل سائح ، و إليك هذه المعلومات : * تعتبر منطقة شرم الشيخ من أهم و أجمل المناطق السياحية في مصر ، فهي تمتاز بالهدوء و الراحة المفرطة ، حيث تنتشر في المدينة العديد من الفنادق و المنتجعات التي تقدم لك أفضل الخدمات السياحية ، و التي منها : * فندق جراند بازار شرم الشيخ . * فندق رويال هايلاند شرم الشيخ . * فندق صن رايز بيتش شرم الشيخ .
Context: Sharm El-Sheikh 是著名的旅游胜地
ALM: ,它是最美丽和美妙的旅游胜地之一,大自然爱好者们去那里欣赏美丽的景色迷人的海滩,因为该地区包括许多适合的地方 因为它是一个疗养胜地,所以它是许多疗养胜地和度假村的所在地,您可以在其中放松身心,享受清新的空气和温暖的海水,因为它包含许多您可以参观和享受的旅游景点,但在享受它们之前,您必须了解有关它的所有必要信息,这对每个游客来说都是必要的,这是这些信息:*沙姆沙伊赫被认为是其中之一埃及最重要和最美丽的旅游区,因为它的特点是平静和过度舒适,因为城市中有许多酒店和度假村。它为您提供最好的旅游服务,包括:* Grand Bazaar Hotel, Sharm El-Sheikh。* 皇家高地沙姆沙伊赫酒店。* 日出海滩酒店,沙姆沙伊赫。
案例2:
Context: بورسعيد هي واحدة من المدن الساحلية الرئيسية في مصر
ALM: ، وهي أيضا بوابة البحر الأبيض المتوسط . و هي مدينة تجارية غنية بالنفط والغاز وبها أكبر ميناء تجاري في مصر ، وأحد أهم المعابر بين الشرق والجنوب . كما كانت لها أهميتها الروحية من خلال احتوائها على مسجد أبو العباس بن عبدالمتعال ، أحد أهم المزارات الدينية للمسلمين في البلاد .
Context: 塞得港是埃及的主要沿海城市之一
ALM:也是通往地中海的门户。它是一座盛产石油和天然气的商业城市,拥有埃及最大的商港,也是东西方最重要的过境点之一。它还具有精神重要性,因为它包含了阿布·阿巴斯·伊本·阿卜杜勒·穆塔尔清真寺,该清真寺是该国穆斯林最重要的宗教圣地之一。
案例3:
Context: ونصح الدكتور وائل، الجامعات السعودية العمل على تبني هياكل جديدة لتحفيز التعاون بين الأقسام الأكاديمية والمراكز البحثية
ALM: المختلفة على الإسهام بشكل أكبر في تحقيق الأهداف البحثية ، مشيرا إلى أن هذا التوجه يعد توجها عالميا ، خصوصا مع ظهور تخصصات جديدة في العلوم والتقنية بدأت في الانتشار ، كما بدأت الكليات والجامعات في استخدام أساليب جديدة محفزة لجذب الطلبة ، مثل استخدام مختبرات العلوم التقنية .
Context:Wael 博士建议沙特大学努力采用新结构来促进学术部门和研究中心之间的合作
ALM: 他指出,这种趋势是全球趋势,尤其是随着科技新学科的出现开始普及,高校开始采用新的激励方式来吸引学生,比如利用技术科学实验室。
**以上中文均为谷歌翻译,未经过人工修正
https://github.com/FlagAI-Open/FlagAI/blob/master/examples/ALM/README_zh.md
此外,ALM 1.0通过不同级别的掩码方式、二维位置编码等独特的任务设计,使得模型在预训练阶段的训练目标与下游任务的模式更加相近,并且在预训练阶段就已经具备了基本的常识性问答能力,以及生成片段级、句子级和篇章级文本的能力,大幅度减少了下游任务的微调成本。用户可根据自己的需求灵活控制模型输出的结果,从而适配更多的业务场景,以期获得更广泛的应用。同时ALM 1.0已经集成到智源基础模型开源平台FlagAI中,支持一键调用、快速加载。
200GB+高质量预训练文本
开源世界最大阿语预训练数据集
https://data.baai.ac.cn/details/ArabicText-2022
超过100万条优质新闻文本
最大阿语新闻标题生成数据集
当前,阿拉伯语公开的文本生成任务评测数据集相对较少,已有数据集的体量也较小,难以满足阿语模型生成能力的评测需求。为此,团队通过对阿拉伯世界的主流优质新闻网站进行严格文本清洗、短文本过滤和人工筛选,最终获得总量超过一百万条的优质文本数据集ArabicText-NTG 。
ArabicText-NTG 成为目前最大的阿拉伯语新闻标题生成数据集,同时还将提供评测脚本和基线模型的结果,以供研究者使用和对比,这也将为阿拉伯语文本生成相关研究提供有力的数据支持。
ArabicText-NTG数据集链接:
https://github.com/cofe-ai/ArabicText-NTG
加入智源
基础模型研究中心/
如果你是自然语言基础模型、对话大模型或行业/领域基础模型等方向的人才,欢迎加入智源基础模型研究中心,我们一起做出最具影响力的科研成果。
要求:
对科研有兴趣,有热情;
有决心和韧劲长期攻坚科研难题;
代码和数学能力强;
有相关顶会代表作加分;
有高质量开源项目和ACM获奖经历优先。
实习生需全职六个月以上
欢迎自荐或推荐优秀人才
简历投递:yqwang@baai.ac.cn
/