安迪的写作间

科技

选择你的道路:LLM 时代指南

Agents,做应用;艰难之路:去搞大模型理论研究,可解释性,短期基本看不到回报,但这块成果对前两个都会有帮助。这里划分充其量笔者个人意见,而且这些方向也都有交叉地方,还没列出的也有,比如
2023年8月21日
其他

为什么现在大家都在用 MQA 和 GQA?

才知道这篇论文,当时看了下也没觉得哪里好,就忘了。而且作者可能也没太当一回事,论文从头到脚都能看到两个字,随意。最近才越来越多被提到,包括
2023年7月30日
其他

读完这些书你也可以加入马斯克的 xAI

推荐了两份书单,一份是偏数学的书,之后在网友的要求下他又放出了另一份更大类书单。偏数学的书大概有四十多本,而大类的书单就有两三百本,我还在慢慢整理,这里放出第一批里的书。我会大概按类别整理一下,分成
2023年7月22日
其他

当 OpenAI 说 Superalignment 说的是什么

系统也会不时无视监督进行某些不想要行为。主要通过改变内部状态来避免被可解释性工具检测到,并通过“玩训练游戏(在训练指标上下降)”来显得行为是安全的,但实际上模型中仍包含不安全部分。因此,可以对这些
2023年7月9日
其他

SpanBert:对 Bert 预训练的一次深度探索

根据几何分布,先随机选择一段(span)的长度,之后再根据均匀分布随机选择这一段的起始位置,最后按照长度遮盖。文中使用几何分布取
2019年7月30日
其他

飞跃芝麻街:XLNet 详解

预测过程,首先我们会发现,打乱顺序后位置信息非常重要,同时对每个位置来说,需要预测的是内容信息(对应位置的词),于是输入就不能包含内容信息,不然模型学不到东西,只需要直接从输入
2019年7月2日
其他

Transformer (变形金刚,大雾) 三部曲:RNN 的继承者

讲讲最近深度学习里面的后期之秀吧,Transformer(和变形金刚没有半毛钱关系)话说自公元二零一三年,深度学习网络一枝独秀,自机器学习王国脱颖而出,带动了人工智能领域的发展。其中它最主要的两大家,卷积网络(CNN)和循环网络(RNN),因其独特的性质,分别在计算机视觉和自然语言处理领域得到广泛使用。然而这两大家却都还是上世纪就被提出来了,本世纪虽有创新,却也逃脱不了这两大家的干系。前有
2018年7月25日
其他

吴教授的循环神经网络(RNN)课堂

那是因为,虽说理论上全连接网络可以处理所有问题,但对于有些问题全连接网络效率非常差。因此,针对某些特定问题往往都会有更有效的网络架构,比如说对于图片这样的2维信息处理,毫无疑问CNN会更有优势。
2018年2月9日
其他

神经机器翻译概览:基准模型与改进(上)

整个翻译流程像这样,输入源语言(比如说汉语),转换成词向量,传入编码器编码总结,然后传给解码器,解码器通过注意力机制,一个词一个词,边参考源语言信息边翻译成目标语言(比如说英语),最后用到柱搜索
2017年12月22日