AINLP

其他

月之暗面kimi底层推理系统方案揭秘

9]与我们有相同的直觉,即使用分离架构,但在引入分块预填充[15]后,分离是否仍然必要仍然值得讨论。分块预填充将输入token分成多个小块,这些小块加入连续批处理过程。这种方法有两个明显的好处:1)
2024年7月1日
其他

老乡鸡,竟然开源了?!

转自:麦叔编程注:能否拿来做一个食谱语料?起猛了,竟然看到老乡鸡开源!本月初,连锁快餐品牌
2024年5月20日
其他

LLM微调经验&认知

作者:快乐子涵酱原文地址:https://zhuanlan.zhihu.com/p/634180659关于认知知识来自于pretrain阶段,指令微调通常只不过是为了让LLM显示地输出已具备知识。延申下来,可以理解Llama(原生)是一个会听不会讲中文的人,用中文语料做指令微调,实际上更多是教他“说中文”。换句话说,指令微调可以教他”用中文写文章“,但不会教他“写文章”本身。模型一但学会中文后,一些指令微调数据集里没见过的中文词汇它竟然也可以理解和输出,这里有些惊奇。但这并不意味着指令微调除了教模型”更好地说话“以外没有其他作用,事实上在这个阶段模型也能学到一定的知识。例如用高质量领域数据集进行微调,模型可以学会很多本身不具备的新技能。如果说指令微调是为了让模型“能说会说”,那RLHF更多是让模型“说得更符合心意”。尽管RLHF阶段的LOSS设计会驱使模型的输出不要偏离SFT太多,但仍可能会造成NLU能力的损失。指令微调并不是数据量越多越好,可能10k左右就够了。数据质量可能更重要,太大的数据量有可能“阉割”掉模型原有的base能力多TASK或者多语言混合微调可能会有更好的效果,TASK不足的情况下考虑增加目标任务的数据量目前的LLM如GPT、Llama、chatGLM等都可以理解为是一个“办公助手”的角色,想真正做到拟人,其实还是要靠角色扮演prompt。但情感链接这块,和真人还是有很大差距。换句话说,你时刻都能感觉到自己是在和AI对话,而不是一个“有情感”的机器人。关于训练Lora框架peft需要torch>=1.13.1,torch1.13.1可能需要cuda11.7,安装环境够让人头疼一会了。Lora配合int8可以大幅度降低显存,但deepspeed不支持int8。如果想同时使用,要么float16,要么换accelerate包int8推理太慢了!指令微调可以理解是【Q+A】文本拼接,其中Q部分没必要计算loss,设置ignore_index即可。参考alpaca实测chatGLM的tokenizer中文分词其实做的挺一般的,如果想做第4点,数据处理时需要格外注意,它有可能把拼接的位置切错中文指令微调需要注意max_length,别傻傻照抄256/512一般情况下lr选择9e-6到1e-5即可据说batch
2023年12月20日
其他

LLM实战 | 使用LLM抽取关键词

抽取关键词是NLP的常见任务之一,常用的方法有TFIDF、PageRank、TextRank方法等等。在Bert时代,可以使用KeyBERT(https://github.com/MaartenGr/KeyBERT)来抽取关键词,在ChatGPT时代,KeyBERT也扩展支持了LLM,本文我们将介绍使用KeyBERT的LLM功能来抽取关键词。
2023年12月19日
其他

连字节跳动都跳不动了

连字节跳动都跳不动了?这是最近有些读者在后台的提问,大家反馈比较多的是,现在年底了,想要过字节的简历面比较难,拿到offer之后想要argue薪资也不是太容易。恰好我最近接触过一些跳槽去字节的朋友,对情况有个大致的了解,可以来聊聊这个话题。现在到了年底了,各家招人基本上进入了一个淡季。因为年底是公司回顾一下今年全年表现,盘点下明年的各类预算怎么花,队伍是扩大还是收缩,战略上如何规划。所以12月份是一个很忙的月份,招人的节奏上有所停滞是很正常的,不仅是公司,就连个人,想要跳槽的也是寥寥无几,毕竟辛苦工作了一年,再熬一熬,年终奖就能到手,小几个月的工资,也是不少的钱,谁也不想放弃。有良心的公司会在12月份、1月份发放年终奖,一般般的公司则会拖到来年的三四月份,这一拖,就很耽误不少同学的跳槽计划了。所以我的确见到过一些朋友,即使工作到年底了,如果遇到了好的工作机会,也会果断的舍弃年终奖,毅然决然的加入新公司。近几年的行业环境表现很是普通,跳槽涨薪各大公司一般会设定一个线,例如不会比之前的公司高出30%之类的,如果实在是人才,那这个招人计划需要层层上报审批。有时候因为业务、工作机会原因,不少人甚至会选择平薪、降薪跳槽。我知道的,身边比较熟悉的,就有不少大厂员工,会在三十多岁的时候,选择跳槽去央企国企。这是一个智慧的选择,这批人大部分是在互联网的红利期赚到了不少的,能够在一线安家立业,那现在三十多岁了,体力下滑,刚好卡在年龄线之前加入国企,他们的经验能力相较于一直在国企的技术人员,还是有不少优势的。某种程度上来说,这是一种大家口头常说的成功上岸了。前面提到现在跳槽涨薪都挺难的,相较而言,字节还是很财大气粗的,在当前的市场上,它所能提供的薪资和岗位都是名列前茅的,同时对人才能力的要求也挺高的。就目前掌握的一些信息而言,到年底大概率公司招人动作上会减少,到明年的金三银四,情况会好很多。现在最近仍然有一些同学成功跳槽加薪,我身边就有一位,他去了字节之后,月薪上有了50%的涨幅,这个结果是相当的不错了,我也有点羡慕。当然了,这样惊人的涨幅,主要还是他前东家稍微抠搜了一点,底薪比较低。在另外的一些案例里,跳槽去字节的不少也卡在涨幅20、30%的线上。这里也附上一些互联网行业跳槽的时间节点,有需要可以收藏下:1-2月:不适合换工作,除非已经找到理想的机会。由于临近春节,这两个月很多优质公司即使有空缺,也不会进行招聘。由于年终奖的存在,员工在1-2月不太可能辞职。因此,在这两个月里,招聘的公司通常是因为人员流失较大,求职者需要谨慎选择。3-4月:通常被认为是求职的高峰期,即所谓的金三银四。然而,需要注意的是,3月份虽然有很多招聘岗位,但公司对求职者的要求也很高。如果个人能力不突出,在3月可能难以找到理想的工作。如果当前有工作,建议不轻举妄动,等到4月中旬后可能更有机会。但如果已经失业,找到80%满意的工作也是可行的。5月开始:招聘的公司相对减少,但不排除一些大型公司在4月后开始招聘。然而,从7月份开始,由于天气原因,很少有人愿意出来找工作,因此在7-8月,即使对现有工作不满意,也不太会选择离职。9-10月:下半年是求职的黄金时期,也有金九银十之说。如果希望在职业生涯上有所提升,需要抓住这两个月的机会。因为很多企业在上半年招聘的新员工可能表现不佳,业绩没有突破,因此在9-10月可能重新选择,成为求职者的机会。11月开始:招聘的公司逐渐减少,但一些较好的公司可能仍愿意进行招聘。有时可能是因为公司的重要岗位突然空缺,需要填补。但需要注意的是,11月仍在招聘的公司可能质量较差,求职者需要擦亮眼睛仔细观察。进技术交流群请添加AINLP小助手微信(id:
2023年12月18日
其他

Llama深入浅出

前方干货预警:这可能是你能够找到的最容易懂的最具实操性的学习开源LLM模型源码的教程。本例从零开始基于transformers库逐模块搭建和解读Llama模型源码(中文可以翻译成羊驼)。并且训练它来实现一个有趣的实例:两数之和。输入输出类似如下:输入:"12345+54321="输出:"66666"我们把这个任务当做一个文本生成任务来进行。输入是一个序列的上半部分,输出其下半部分.这和文本生成的输入输出结构是类似的,所以可以用Llama来做。目前大部分开源LLM模型都是基于transformers库来做的,它们的结构大部分都和Llama大同小异。俗话说,魔鬼隐藏在细节中,深入理解Llama模型的的源码细节,将会帮助你打通和开源LLM模型相关的基础原理(如旋转位置编码以及长度外推),并让你熟悉各种参数的配置和使用(如past_key_value,attention_mask的使用等等)。一,准备数据
2023年8月6日
其他

一文看懂:如何充分高效训练多轮对话大模型

01前言最近,在我们的大模型技术交流群里,有很多小伙伴在提问和讨论如何训练大模型的多轮对话能力。对于该问题,我们在群里给不同的小伙伴解答过很多次,并且Firefly项目里也有多轮对话的训练逻辑,但仍然会有新的小伙伴提出相同的问题。这让我们意识到,这是一个非常值得展开介绍和分享的技术点。本文将会详细介绍Firefly项目是如何充分高效利用多轮对话数据训练大模型。注意,我们重点圈出了【充分】和【高效】两个关键词,这是Firefly项目训练多轮对话的特点,该方法可能和大部分同学理解的多轮对话训练方法存在差异。Firefly项目链接:https://github.com/yangjianxin1/Fireflyfirefly-ziya-13b权重:https://huggingface.co/YeungNLP/firefly-llama-13b欢迎大家Star和关注Firefly项目,该项目已支持对LLaMA-2、Baichuan、InternLM、Bloom、Ziya、LLaMA-1等开源大模型进行多轮对话指令微调。可以在16G显存上微调130亿的大模型,并且这套训练流程在Open
2023年7月25日
其他

李宏毅:穷人如何低资源复刻自己的ChatGPT

假期推荐一下李宏毅老师的这个视频,简明扼要很有意思!来自于他的机器学习2023春季课程,主要主题是生成式机器学习,非常值得推荐:https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.php进技术交流群请添加AINLP小助手微信(id:
2023年4月29日
其他

理解AutoGPT原理

看过上次文章的朋友应该学会抢答了:对,就是提示词。那么具体是怎么做的呢?首先启动时你需要设置三个项目:你的机器人名字、你设定给机器人的角色、你要完成的目标。根据你的设定利用ChatGPT进行下一步的抉择,具体的,实际上归功于提示词:下面这段提示词在干什么呢?其实很简单,将设定的名字、角色、目标告诉ChatGPT;之后设定了一些使用规则如将信息保存在文件中、命令需要用中括号括起来等接下来告知ChatGPT可以进行的指令操作如:谷歌搜索、浏览器、读文件、写文件、执行python脚本等告知ChatGPT可以使用的资源如:网络信息、文件写入的记录、GPT代理的任务等要求ChatGPT高效完成任务,不要浪费资源最后对ChatGPT的输出进行格式的限制开始第一轮的决策有了这一轮的机器人决策,你可以选择:【继续】、【退出】、【反馈】。反馈是指用自然语言的方式对机器人的决策进行指挥。到此为止,你已经深入地了解了AutoGPT的原理,此项目的代码非常简单,整体阅读起来不会耗费1至2小时。You
2023年4月22日
其他

也谈微调数据质量、多样性规模对大模型性能的影响与评估方案:Belle项目开源实验工作报告介绍

本文主要对Belle的近期的开源工作进行介绍,最近有很多声称性能逼近chatgpt,chatgpt4的模型,这无疑引起重视。针对当前仍然缺乏对这些模型的深入评估的比较,即目前的评估要么数量不足,要么完全依赖于人为评估,必须研究这些高质量的数据集如何增强指令跟随模型的问题。《Towards
2023年4月22日
其他

NLP重铸篇之LLM系列(Codex)

,更多内容关注知乎专栏(或微信公众号):NLP杂货铺。介绍评测metric评测数据集Codex数据模型效果Codex-S数据模型效果Codex-D局限论文之外介绍
2023年4月22日
其他

元语智能招募大模型方向NLP算法实习生(2名)

www.nlpjob.com也可以发布在AINLP相关交流群欢迎加入AINLP社招/校招/实习交流群我们会从NLPJob网站或者求职群里选择招聘信息推送发布招聘信息或者求职进群请添加小助手微信
2023年4月22日
其他

大力真的有奇迹

finetuning的方法训练了一个可以适用多个场景的embedding模型。维度768,模型0.3b,推理速度很快,线上使用负担也比1536的ada-002低很多。这个跟之前我使用的21年SOTA
2023年4月22日
自由知乎 自由微博
其他

今天被OpenAI爆了

今天第一次体验到来自大语言模型的压力。最近在做一个语义匹配的小任务,选择的方案是用2021年的SOTA模型SimCSE在我们的领域数据上先进一步预训练,然后再用任务数据finetune降维。前几天的时候还自我感觉良好,因为比之前的模型效果好,还修复了老语言模型的一些明显badcase。但是今天,我们用openai的embedding模型也试了一下,recall指标直接翻了一倍。当时看到结果我都惊呆了。这个模型一千个token只要0.0004美元,相当的便宜,而且开箱即用。之前我看到网上帖子说NLP工程师失业啥的还觉得有点夸张,现在感觉还真有可能。首先这个事情是有正反馈的,作为一款公开的产品,而且这么便宜,你不用别人也会用,你如果没法超过他(现在看起来确实不容易),那就只能也用,不然产品竞争力就会出问题。一旦大规模用,那很多NLP问题的处理范式真的会改变,以前大家在不同场景finetune类似bert这样的小模型,但现在可能会变成在OpenAI
2023年4月20日
其他

Jina AI 创始人肖涵博士:揭秘 Auto-GPT 喧嚣背后的残酷真相

美元开发了一种创建食谱的方法,那么再用花相同的钱来调整参数,显然是不符合逻辑的。想象一下,在玩《我的世界》(Minecraft),每次都要从头开始建造一切。显然,这会让游戏变得非常无趣。而这便暴露了
2023年4月19日
其他

Instruct-UIE:信息抽取统一大模型

等大模型进行了系统研究,构建了信息抽取统一大模型Instruct-UIE。该模型在绝大部分信息抽取任务中(85%以上)都超越了单个小模型的预训练微调结果。Instruct-UIE
2023年4月18日
其他

再谈知识图谱与ChatGPT如何结合:参数化与形式化知识库的现实问题、结合要素和具体路线

在之前的文章《ChatGPT下的知识图谱审视:一次关于必然影响、未来方向的讨论实录与总结》中,我们谈到了目前的一些思考,但不够具体,具体两者应该如何结合,并没有指出具体的实践方向,很多人也并不清晰。因此,为了更好的解答这个问题,本文主要谈谈在CCFTF97:大语言模型时代的知识工程《浅谈大模型与知识图谱的结合:近期的几点方向探索与心得总结》中的一些分享心得,供大家参考。我们认为,首先,在模型层面,作为参数化知识库的大模型与形式化知识库的知识图谱之间,可以通过prompt作为桥梁进行互相转化。例如,知识图谱,可以利用prompt,参与到大模型的训练前的数据构造,训练中的任务,以及训练后推理结果的约束生成,提升大模型的性能。又如,大模型,可以通过prompt,来执行相应信息提取以及思维链的推理任务,形式化成不同形式的知识【例如三元组,多元组或者事件链条】。此外,在平台系统层面。知识图谱目前有相应的知识图谱平台,与网络分析、图数据库查询、可视化展示,推理链条可解释形象化展示上已经形成了一个工具性平台。而大模型目前通过系统接口、插件的方式又可以作为一个灵活的组件注入到知识图谱平台当中,作为一个新的生产力提升工具而存在。下面是具体的一些路线和方向心得,供大家参考。一、先从知识图谱与大语言模型说起1、知识图谱VS大语言模型我们先来看看知识图谱和大语言模型之间的区别首先,在相同点上。两者本质上都是一种知识库;在实时性和时效性上面临的挑战一致:chatgpt遇到的事实性错误和时效性,知识图谱同样存在,知识图谱也需要解决知识更新的问题。而且知识图谱如果不能保证非结构化数据源的正确性,到后面也注定会发生事实性错误。如果chatgpt创造出大量的内容之后,并作为数据源导入到知识图谱当中,会影响知识图谱的准确性。
2023年4月14日
其他

ChatGPT用于数据标注是否可行:基于推特分类、生成内容排序任务的代表性实验报告介绍

1、https://arxiv.org/abs/2303.150562、https://arxiv.org/abs/2303.07610进技术交流群请添加AINLP小助手微信(id:
2023年4月1日
其他

ChatGPT 标注指南来了!数据是关键

的区别,如果错误答案没有构成任何与指令相关的新信息,则不将其标记为幻觉。以下不属于幻觉:输出错误但没有新信息。如输出错误情感类别。输出使任务出错但没有新信息。如要关键词却输出一小段摘要。输出仅包含
2023年3月9日
其他

ChatGPT下的知识图谱审视:一次关于必然影响、未来方向的讨论实录与总结

前段时间,跟知识图谱领域专家王昊奋老师一起就chatgpt会对知识图谱造成什么影响、两者之间的关系以及未来发展这个话题进行了讨论,其中的一些观点具有一定的参考和指引性,整理出来与大家一同思考。一、关于chatgpt带来的kg研究与落地影响的讨论下面是昨天讨论的全程实录(对话中的观点仅供参考):刘:有个问题想咨询下您的观点:chatgpt会对知识图谱造成什么影响呢?两者之间的关系是怎样的,未来发展是怎样的?想听听您的看法。王:我觉得ChatGPT或LLM的出现其实本质来说,对于是否我们需要完全结构化(符号)表达的传统图谱会有反思。甚至很多传统的KG任务,比如知识抽取,知识融合,知识推理与计算,以及上层的问答、搜索、推荐其实都会受到影响,就和早年大家在针对PTM(还不算LLM)的时候,大家就说PTM就是Knowledge
2023年3月4日
其他

NLP短评 | 神经网络与自然语言处理关系演变

circle(y)上面多个变量实现了同时联编。显然,这个问题用现在的分布式表示学习很容易理解,神经网络通过分布式表示学习可以同时表征多个信息。系统性问题或者系统组构性(Systematic
2023年2月24日
其他

深入理解Pytorch中的分布式训练

world_size=world_size)共享文件的话需要手动删除上次启动时残留的文件,加上官方有一堆警告,还是建议使用TCPdist.init_process_group(backend,
2023年2月9日
其他

ChatGPT Prompt工程:设计、实践与思考

都能理解的相当不错,也能生成不错的结果。这看起来就好像你给一个人在布置任务一样,把你的要求清晰准确的告知对方,对方帮你把事情做完。【核心文献2】有大量的示例,感兴趣的读者不妨一试。更多Case刚刚的
2023年2月7日
其他

DataParallel里为什么会显存不均匀以及如何解决

Parallel实现原理实现就是循环往复一个过程:数据分发,模型复制,各自前向传播,汇聚输出,计算损失,梯度回传,梯度汇聚更新,可以参见下图[2]:pytorch中部分关键源码[3]截取如下:def
2023年2月2日
其他

数据不够?文本生成来凑!用强化学习神包trl轻松实现GPT2可控文本生成

-2.726576089859009}]]这里注意必须要确保transformers版本是4.15.0,不同版本的Pipeline输出大有不同7.加载预训练GPT2-smallgpt2_model
2023年1月10日
其他

ChatGPT会对未来5年的NLP算法从业者带来怎样的冲击?

周末看到知乎的一个问题,有点意思,值得NLPer思考,选取几个回答,欢迎留言。问题:ChatGPT的诞生意味着模型大一统的可行性,这会对未来5年的NLP算法从业者带来怎样的冲击?我个人从ChatGPT上看到了很多可能性,也对未来职业生涯更加悲观,或许纳米酱说得对,薅资本主义羊毛,攒够几百万回家考公务员才是正道。链接:https://www.zhihu.com/question/575391861作者:张俊林链接:https://www.zhihu.com/question/575391861/answer/2832979762来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。一言以蔽之:对于NLP研究人员,前景非常不乐观。ChatGPT这种Instruct
2023年1月7日
其他

WSDM2023|知识蒸馏推荐如何去偏?何向南老师组提出UnKD

2023论文链接:https://doi.org/10.48550/arXiv.2211.14729代码链接:https://github.com/chengang95/UnKD01方法1.1
2023年1月1日
其他

一文探索“预训练”的奥秘!

作者:王奥迪,单位:中国移动云能力中心2022年下半年开始,涌现出一大批“大模型”的优秀应用,其中比较出圈的当属AI作画与ChatGPT,刷爆了各类社交平台,其让人惊艳的效果,让AI以一个鲜明的姿态,站到了广大民众面前,让不懂AI的人也能直观地体会到AI的强大。大模型即大规模预训练模型,本文就和大家聊一聊
2023年1月1日
其他

ChatGPT出来后,我们是否真的面临范式转变?

和通用机器学习领域有大量关于分布偏移/对抗鲁棒性/组合生成的研究,人们发现当测试集分布与训练分布不同时,模型的行为性能可能会显著下降。然而,在大型语言模型的上下文学习中似乎并非如此。Si
2023年1月1日
其他

颜宁,履新!

本文来源:学术志综合新民周刊(王嫱)、海报新闻、南方都市报、直新闻、人物、济南时报、青塔、颜宁微博@nyouyou编辑:募格学术日前,深圳医学科学院(筹)揭牌,颜宁获发聘书,正式出任院长一职。深圳医学科学院(筹)主要承担深圳医学科学院的各项筹备及项目推进工作,下设科研部、科研平台、专项资金管理、教育与交流、运营管理、基础建设等部门。颜宁曾在致辞中说,将脚踏实地、敢为人先,努力把深圳医学科学院打造成立足深圳、引领湾区、辐射全国、有国际影响力的生物医药人才培养和科学研究、转化创新基地。考上清华的山东妹子1977年,颜宁出生于山东省济南市章丘区普集街道博平村。博平村始建于东晋(公元417年),至今已1600余年,是国家级传统村落、省级历史文化名村。村书记李曰学说,这几年,来村里旅游的人经常会问,这里是不是科学家颜宁的家乡,想去看看她家。其实,颜宁只在博平村待了两年。颜宁的父母在当时的山东省交通厅汽车制造厂工作。两岁时,父亲颜景君工作调动至济南市莱芜区,颜宁也跟随父母搬去了莱芜。6岁的时候,颜宁随着父母搬迁到北京。颜宁的父亲颜景君在北京,颜宁就读于大兴区第五小学。从一年级开始,颜宁就是“别人家的孩子”——担任中队干部,少先队大队委、大队长等职务,历年来都被评为优秀少先队员和三好学生。当时学校刚成立了小记者站,颜宁就成了第一届小记者站的站长。颜宁的中学就读于大兴一中(当时是黄村一中),在这个当时大兴区唯一的重点中学度过了六年时光。上学时,颜宁的兴趣点在文学方面,她喜欢唐诗宋词,喜欢读散文小说。功课几乎门门都是第一,在多次全市学科竞赛中获奖。因为家中有很多亲人从医,所以颜宁的父母也希望女儿学医。但颜宁很怕解剖,决定学习和“医学”比较相似的“生物学”专业。1996年,19岁的颜宁考入清华大学生物科学与技术系。在清华读本科时,颜宁一开始并未像周围大多数同学那样想着要出国深造,更未想过要从事生物学的科研工作,古灵精怪的她其实更想当一名记者。这可能和她小学时候当过小记者站站长的经历有关。不过在大学气氛的感染下,颜宁萌生出“去看看外面的世界”这一念头,于是开始准备考托福、申请去国外读书。说来有趣,颜宁英文名中的“Nieng”实际上应该是“Ning”,原因是家长在帮她托福报名时不小心多写了个“e”,反而使得颜宁的英文名Nieng
2023年1月1日
其他

Yoshua Bengio:我的一生

和杀手机器人;失业人士的痛苦来源,至少在过渡转型时期是这样;来自广告和社交媒体的操纵;强化社会偏见和歧视;使得不平等加剧,权力集中在少数人、公司和国家。进技术交流群请添加AINLP小助手微信(id:
2023年1月1日
其他

李航老师《统计学习方法(第二版)》清华大学课件完整版下载!

书籍介绍统计学习方法即机器学习方法,是计算机及其应用领域的一门重要学科。本书分为监督学习和无监督学习两篇,全面系统地介绍了统计学习的主要方法。包括感知机、k
2022年12月29日
其他

ChatGPT有哪些不足和缺陷?

之前的难题,诸如多轮对话的连贯性、推理、判断、指代消岐、讽刺、正话反说等等。我们夸一个小孩聪明,只需要他回答出一个精彩的答案;我们夸一个模型牛逼,却需要它方方面面都给出精彩的答案。毕竟
2022年12月22日
其他

万字拆解!追溯ChatGPT各项能力的起源

整理:李rumor英文原版:https://franxyao.github.io/blog.html中文版本:https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756作者:符尧,
2022年12月21日
其他

Patch-level大有可为 | 小样本+多示例+注意力机制

representation。本文认为,attention同时具备了上述聚合方式的优点,既能突出某些instance,又不会丢失过多信息。但其实基于attention的multi-instance
2022年12月8日
其他

一文读懂chatGPT模型原理(无公式)

(本文是chatGPT原理介绍,但没有任何数学公式,可以放心食用)前言这两天,chatGPT模型真可谓称得上是狂拽酷炫D炸天的存在了。一度登上了知乎热搜,这对科技类话题是非常难的存在。不光是做人工智能、机器学习的人关注,而是大量的各行各业从业人员都来关注这个模型,真可谓空前盛世。我赶紧把
2022年12月8日
其他

深度学习撞墙?谷歌:是时候动用钞能力了

直线下跌!哇塞这简直是神了!照这么说只需要更多无脑喂大模型就能获得增长!于是前几年,在这种思想的影响下,各家大厂的算力军备竞赛如火如荼地开展,一时之间诸如
2022年12月5日
其他

自然语言处理圣经SLP3最新版本分享

关于SLP3,我们介绍了很多次:如何学习自然语言处理:一本书和一门课如何学习自然语言处理:NLP领域经典《自然语言处理综论》英文版第三版更新自然语言处理圣经SLP3终于又更新了上次是2020年初,介绍时还预计应该是出版前最后一个draft版本,没想到还是没有迎来最终版。这不,SLP3在2021年的尾巴又更新了一次,这一次主要是增加了第11章的大部分内容,主要是预训练模型,包括BERT和微调:Here's
2022年11月28日
其他

润了!大龄码农从北京到荷兰的躺平生活

入住酒店阿姆斯特丹很小,我们很快就抵达了酒店。Booking很贴心地根据我们的人数给提供了两室一厅的公寓酒店,可以自己做饭。我们去超市买了水果牛奶面包和三文鱼,吃完就早早休息倒时差了。九.
2022年8月4日
其他

死的明白:大厂裁员的逻辑与操作,如何决定了裁掉谁

【概要】一问帮读者搞清楚,大厂“咔嚓”、“咔嚓”、“咔嚓”的裁员机制是如何运转的。到底如何选择裁员的时间、人员规模、业务线,以及如何决定“咔嚓”具体哪个人的。(说明:本文并非以具体某一家大厂为具体描述对象,每家公司有其特殊的流程,因此所描述的流程不一定适合所有公司。只是提供一个大厂裁员的逻辑框架,具体操作上可能存在流程和操作上的节点增加以及前后顺序变化)【正文】
2022年6月12日
其他

NLP哪个细分方向最具社会价值?

任务的重要程度是一个极其开放的问题,从商业价值应用前景的角度出发是一套评价体系,从科学研究学科贡献角度出发又是另一套排名标准,但如果将我们的高度拔高一点,站在一个社会成员的角度,如何评估
2022年6月7日
其他

踏上回国路,为啥反向润?

大家好,我是梁唐。昨天到了成都折腾了一夜,终于安顿下来了。宣布了回国的消息之后,很多同学理解不了反向润的行为。觉得国外水(花)深(天)火(酒)热(地),为什么非得回来。答案很简单,就是我觉得对我而言,我认为回国大于继续待在新加坡。当然这个只是我的个人看法,不一定具有普适性。国情这种东西永远是距离产生美,了解得越多,发现的问题和痛点也就越多,越不了解,越容易产生幻想。举个很简单的例子,我经常在网上看到有润学家说美帝物价多么多么便宜,一美元就能买大牛排、很多牛奶等等。如果你正好很在意国内的物价,那么看到这样的消息肯定非常义愤填膺,恨不得马上润去美帝。但只要稍微稍微想一下就能知道,牛排这种东西对大多数中国人来说是不能天天吃的。哪怕退一步来说,即使是真的牛排爱好者,牛排也不可能是生活的全部。况且牛排便宜并不代表其他东西都便宜,更不能代表其他一切完美,生活中不会出现其他问题。所以如果你有润的想法,请一定要深思熟虑,多搜集信息,去之前多了解。至少对潜在的收益以及背后的代价有一个比较完整的认识,再去做决定。而不是因为所谓一美元的牛排就吃了安利,我个人认为是很不明智的。说完了牛排的事情,再来说一些我个人的观点。让我们从大到小,先把视野扩大到全球。如果对全球政治经济有所了解,基本上可以发现,全球这么多国家,当今经济还能保持增长的经济体实际上就几乎只有中美两家。经济增长不意味着一切完美,但经济衰退肯定是有隐患的。可能有人会说,我是打算润去享福的,又不是打算去拉动增长的。它们国家经济怎么样管我什么事?殊不知覆巢之下无完卵,一个国家的宏观经济对于该国的所有居住者都是有深刻影响的。举一个最简单的例子,工资。相信工资人人关心,工资要年年增长的观念深入人心。我刚毕业的时候,一年10%的调薪就已经算是地板了,稍微慷慨一点的公司涨得更多。但很多其他国家,尤其是经济长期萧条停止增长的国家,工资是变动很小的,今年拿得和去年差不多,每年10%的涨幅?别想了,能有5%就烧高香了。甚至是内部晋升了,只变title不变待遇也比比皆是。更别提,工资拿到手还得交税。很多人羡慕北欧的高福利,但高福利的背后是高税收。去之前你会觉得交了高税收就能享受高福利也未尝不可,然而去了之后发现政府拿着你一小半的血汗钱养难民,养懒汉,关键是很多被政府养的人还因为你是中国人排斥你歧视你,简直有苦说不出。连全球著名低税地区的新加坡都上调了消费税率,有新加坡人问政府,新加坡这么多富人移民,为什么不能对他们多收点税,而要抬高消费税呢?这不是增加底层老百姓的生活成本吗?政府避而不谈。调税之后几个月,新加坡的房租、房价疯狂上涨,短短两个月普遍涨了30%以上。要知道新加坡本来房租就非常贵,和香港差不多,一个类似国内筒子楼普通小区的主卧,房租在5000以上。想要租得好一点,住公寓的话,基本上每月房租都要上万。买房子也很贵,政府建的祖屋倒是便宜,200w能买到很好的,公寓设施要更好,也要贵得多,差不多3倍及以上的价格。便宜的祖屋只卖给有国籍的本地人,永久居民能买但只能买五年以上的二手房。如果是外国人的话,建议放弃,会有30%的税……问题是新加坡的程序员薪水也并没有比国内高非常多,NUS、NTU能进大厂的学生,一年大概也就50w左右。租得好一点,一年光房租就要十几万。并且由于没有身份也没有社保、公积金。欧洲的国家我没有去过,不好多说,但就我了解到的情况来看。欧洲税前工资可能比新加坡更多,但交税之后到手可能更少。并且欧洲一些著名都市:伦敦、巴黎等的消费水平甚至比新加坡更高。这意味着去这些国家当码农,赚的工资肯定不算少,也能过上不错的生活,但职业发展上一眼看到头,想要大富大贵或者是在某些行业做出点成就来非常非常难。朝九晚五、中产阶级守门员、一眼看到头的职业生涯,这给我一种出国当公务员的感觉……说完了国家层面经济发展状况对个人的影响,我们再稍微缩小一点视角,看看身份的问题。很多人觉得,只要一个签证一张机票,润了就是X国人。但实际情况可能是因为语言、文化等各方面的差异,身边的圈子玩得好的朋友仍然是中国人(或者过去曾经是中国人)。想要融进当地的圈子和文化是非常困难的,即使在新三年,我也没有一个新加坡朋友。因为除了工作,根本不会认识本地人……新加坡尚且如此,其他国家可想而知。融入不了本地圈子,就会很难把自己当做是国民,拥有身份认同,那么难免地就会有漂泊感。身份这种东西由两个部分构成,一个部分是你自己怎么看你自己,第二个部分是别人怎么看你。哪怕搞定了第一个部分,我们把自己当做是某国人,尤其是拿到了身份之后。但这并不影响其他人仍然把你当中国人看待,甚至你的孩子也一样,尤其是欧美国家。即使移民了之后身份转换,我们还是和中国深度绑定的。之前中美处在蜜月期,中国和西方势力关系也算不错,所以这方面体现不深。如果有朝一日,中美之间关系崩溃,如果此时你在美国,你觉得你一定不会受到影响吗?一定不会受到排斥吗?甚至严重一点,你的生命安全和财产安全真的还能得到保障吗?并且搞身份也是一件非常磨人的事情,一般来说常规套路是先给工作签证,待几年可以申请永久居民,俗称绿卡。新加坡还算好,互联网行业的程序员一般都是最高级别工作签(EP),待两三年之后申请永居就行了。但美帝就要难搞很多,先得想办法卷h1b,拿到h1b之后还得再卷几年拿绿卡,前前后后得好几年。并且说是永久居民,但往往不是永久的。比如新加坡的永居每五年就要renew一次,如果你最近五年都没在新加坡,大概率就没办法renew了。美帝等其他国家好像也有类似的要求,美国好像是每年都至少得在美国待一段时间。更搞人的是,拿了永久居民也是二等公民,公积金待遇不如本地人,以后孩子上学好学校名额也是本地人优先。所以在新加坡有孩子打算长待的,基本上入籍是必选项,夫妻双方至少得有一个人入籍新加坡才行。但这又会带来另外一个问题,就是兵役。如果是男孩的话强制服兵役,要是运气不好赶上当兵两年疫情两年,青春岁月直接减半……然后再缩小一点,看看个人的日常生活。我个人感觉在新三年最大的感受就是贵,啥都贵,房租刚才已经说了,稍微想住好一点,一个月房租过万是家常便饭。除了住之外,另外一个大头是吃。在新加坡,想要吃饱很容易,也不贵,30RMB能搞定一顿。但想吃好一点,下个馆子,人均500以上也是常规价格。比如海底捞,国内人均200不到,新加坡一顿人均得四五百。每周下几次馆子,又是好几千大洋……点外卖的话,100RMB起步,能看上的来来回回就那么几家,并且味道非常非常一般……然后是出行,新加坡交通还算方便,公交地铁到处都能去,但打车就很贵了,稍微远一点就100RMB起步。买车的话,更更更贵。新加坡为了控制汽车数量防止堵车,给汽车加上了非常重的税,国内10w出头的丰田,新加坡得50w。汽车牌照也非常昂贵,10w
2022年5月28日
其他

两万字聊对话系统

概述篇什么是对话系统其实对话系统很好理解,对话系统就是人机对话的一个接口,人和他对话,他能给出一定的反馈,甚至完成一定的任务。举个例子,比较常见的就是淘宝的客服,问一些问题,某些有机器人后台的就会给出一些初步的回复,虽然有些沙雕,但是总能够完成部分简单常见的问题,能一定程度满足用户需求,从而降低了人工的成本。举个例子:Q:你们商品一般什么时候发货。A:当天发货亲。这种很常见的简单问题,是可以通过客服系统直接回复的,简单方便。答案很多,回复也很多样,如何给出合适回复,这就是对话系统需要解决的核心问题。而使用场景上,其实远没有大家想的那么冷门,可能大家身处互联网行业,或者是每天看的东西都是互联网而被这些信息给局限了,其实对话系统是非常常见的,除了上面说的客服,还有类似智能家居、智能助手等场景,其实非常依赖好的对话系统完成各种各种复杂的任务,我自己觉得最有幸福感的就是冬天天气很冷,在被窝里玩手机,只需要一句“帮我把卧室灯关掉”就能关了,这背后都有对话系统的身影,另外最近收到一些流调的电话,电话里的很多都是机器人在提问和记录。所以,我其实感觉,对话系统没有想象中那么不堪,很多人觉得对话系统不赚钱没前途,我自己并不觉得悲观的,当然,对话系统的核心技术点——NLP,也因为同样的原因,其实不见得就“没前途”。对话系统的类型划分根据类型进行拆解,大家能够更好理解对话系统内部的本质,很多人可能都会听说类似“闲聊型”、“任务型”之类的,很多样,这里我按照我的理解做一些分类,让大家更好地理解对话系统以及其内部的一些技术思路。说到分类,肯定是要提分类标准的,不同的分类标注肯定会得到不同的分类结果。根据结果输出的方式分类我把它分为检索式、生成式和混合式。检索式顾名思义,通过查询来得到最终的答案。检索式的答案大都是有人提前进行了整理存到特定的库里面,在对用户query进行理解后即可根据结果查询到适合给用户的标准答案。这里的查询,可以是文本层面的查询,例如比较基础的ES,也可以是潮了一段时间现在被看做是baseline的向量召回,甚至是现在还比较潮的知识图谱,都可以算作是检索式。这种方式可能在对话系统中已经非常老了,但是仍旧是对话系统落地场景中最重要的方式,它具有很强的可干预性、稳定性等,结果是啥样就给的啥样,不会有什么风险,结果的正确性能够保证,而且NLP只需要关注理解和匹配问题,对答案内容可以不太关心,相比之下会简单很多。生成式应该是现在大家看到的和分享的最多的,正因为他是比较前沿的,生成式就是通过模型或者规则的手段生成回复,可以说是非常智能的方案了。一般地,闲聊场景是非常常见的,最近看过的一次分享就是小布助手的生成式闲聊(小布助手闲聊生成式算法),就是直接能够根据用户query生成结果。这个方式的优点就是泛化能力强,对于没有提前准备答案的,知识点没覆盖的内容,他也能回复但是缺点也比较明显,就是可控性低,而且缺乏知识的生成式很可能会一本正经的胡说八道(从北京到深圳只需要2公里,这句话从通顺性上没毛病,但是逻辑上是有问题的,哪怕是GPT之类的模型也很容易出这个问题)。混合式就是两者的混合吧,这里指的混合是指结果上的混合,检索式可以查到一些零散的信息,结合生成式可以将整个结果拼接成更为完整、更像“人话”的回复。根据交互次数这个划分很简单,如果只是回复一次就结束对话,上下文之间不考虑相关性,那就是单轮对话,与之相反就是多轮,毫无疑问多轮对话的难度要大于单轮,单轮对话遇到的问题多轮基本都会有,而多轮因为要考虑上下文,难度可就大很多了。目前多轮对话的结构和思路是已经形成了一定的共识,即需要DM模块(dialog
2022年4月23日
其他

读完这三篇论文,我的模型学会多样回复了

在生成式对话系统中,“安全回复”是让很多人头疼的问题。当模型不知道怎么回复时,就会偷懒用常见、高频、简短但没有营养的一些语句来敷衍用户。因此,回复多样性是一个影响回复语句质量的重要指标。由于训练样本中“我不知道”等一般性回复的频率较高,同时Beam
2021年9月12日
其他

面试官如何判断面试者的机器学习水平?

兵法记载“知彼知己,百战不殆;不知彼而知己,一胜一负;不知彼不知己,每战必殆。”参加面试时,如果能站在面试官角度换位思考如何考查候选人的水平,一定可以让我们的面试准备更加有效。过去2年,从小公司、创业独角兽到互联网大厂,我经历了数十场面试,也有幸担任过算法面试官。结合自身经验,和大家分享一些简单实用的判断方法。故事一研一寒假,修完了学校要求的所有学分后,我开始在实验室悄悄准备面试,寻找实习机会。当时我刚刷完吴恩达的机器学习课程,《西瓜书》看了前两章,对ML仅有基础概念,能回答“过拟合的原因,偏差方差有什么区别,聚类算法有哪些”之类的问题。仗着初生牛犊不怕虎,我申请了几家公司的机器学习实习岗。几周过去了,回音寥寥,但还真有一家深圳的创业公司给我发来了电话面试邀请。这是我第一次参加实习面试,戴着耳机,我紧握简历的双手沁出了汗水,心里在反复念叨简历上密密麻麻的笔记。面试开始挺顺利,面试官问了一些关于python和项目的问题,我答得还不错。随后面试官问:“你都熟悉哪些机器学习算法呀?”我:”Emmm,逻辑回归、随机森林吧“。面试官:“那先聊聊第一个,可以解释一下逻辑回归的原理吗?”我:“逻辑回归是分类算法,一般用于二分类。算法里用了一个sigmoid函数把数值转换成了概率。”最怕空气突然安静面试官:“没了吗?那它是线性还是非线性模型?”我:“非线性吧,您看它的图是曲线S形的。”(后面复盘才发现,逻辑回归是广义线性模型)面试官:“那再说说随机森林,有什么特点?”我:“它是一种集成算法,用了好多棵决策树来投票。”面试官:“决策树有哪些生成算法?”我:“这个没注意过。”(复盘:最典型的有ID3、C45、CART树等)面试官:“那了解GBDT、XGB不?”我:“听过名字...”面试官:“.....”我还在等面试官问“过拟合是什么,怎么处理”,这题咱会呀;结果5分钟后面试直接结束了!很显然,第一次面试以失败告终。我的基础太差劲,面试官想评价我的机器学习水平不要太轻松。简单询问点算法原理和特点,2-3个回合就能把我问成哑巴。故事二那次面试后我狠狠地重补了机器学习基础,主要干了这么几件事:1)阅读李航老师的《统计学习方法》和周志航老师的《西瓜书》,巩固理论;2)遇到某一种算法公式太多看不明白(SVM等),就去b站上找相应视频,重新学习做笔记;3)阅读机器学习“神书”《Hands-on
2021年6月16日
其他

ERICA: 提升预训练语言模型实体与关系理解的统一框架

此外,作者分析了远程监督关系的多样性/预训练文档数量对于模型效果的提升。实验结果发现,更加多样的远程监督关系与更大的预训练数据集对于性能的提升有积极的作用。d)
2021年6月16日
其他

算法在岗3年小结:学习成长篇

掐指一算,还剩几个月就工作3年了(含实习),时间过得挺快的,接着即将到来的假期,对自己的成长和思路进行了总结,我会分几个角度来总结下自己,并且展望一下自己后续的计划。(DONE)模型策略篇。讨论算法方案的思考。(DONE)工作思路篇。工作思维,结果导向。个人成长篇。如何让自己更好地解决更多问题。技术人,还要一直做技术,总需要持续各级各个技术的发展,同时也要花时间来点亮自己的各个技能项,所以持续的学习成长就是必要的。有关算法模型类算法模型相关是算法工程师的必修课,我们需要更新自己的知识,完善自己的装备库武器库,从而保证甚至是提升自己的能力。首先是基本的模型方案学习,虽如我经常谈到的,我们日常应用中使用模型的情况并不多,但是我依旧建议大家还是要持续看模型方面的论文和文章,原因不只是让大家学会这些模型方案,而是通过模型我们能吸收到的是我们日常其实能遇到的问题以及他的解决方案,问题我们是经常遇到,而方法确实多种多样的,我们要能和作者产生首先共鸣是我和他能遇到相似的问题,然后是我们看看是否可以借鉴他的方式或者是用什么降级或者升级方案来解决他的问题。然后是完整的技术方案,非常建议大家好好看一下。这些资料大都来源于大厂的分享,一般大厂的分享会给大家介绍的都是一大个项目的完整方案,例如我的[前沿重器]栏目中就给大家介绍了不少,这些完整的技术方案其实为大家做技术设计提供了很多建议,同时也让大家的水平和大局观有提升,从小项目小问题的解决提升为更大项目的技术实现,这其实对个人晋升有很大好处。当然除此之外,自己所在项目相关的技术方案和整体架构也尽可能熟悉清楚,这会让自己对技术设计的敏感度有新的提升。多看数据。众所周知算法项目本身是一个数据依赖性特别严重的,而且最终的算法效果也会随着数据的变化会产生变化,因此只有我们更加熟悉数据、了解数据,才能够更好地完善我们的数据方案。因此经常阅读数据是非常有利于解决问题的,另一方面读数据其实也对我们理解数据的能力有帮助,为什么会有人问为啥我看数据看不出问题,一定原因就和看数据不够有关,看的数据不够对比不出数据的特色,这个和看人识物一样的。建议产品经理也多看看,很多时候问题都反馈应在数据里,无论是单条的数据还是整体数据分布。多实践。很多问题实践才会被暴露,对某些方法的理解才能得以加深,因此,我们在各种阅读吸收知识的同时,要记得多实践,对比多个方法之前的优缺点,这些优缺点的提炼其实非常有利于我们后续需要考虑的方案选择。有关工程技术类算法工程师是怎么都避不开工程的,这个入行后的各位应该都有所感受,而没入行的各位也需要时刻明白这点。而为了更好地应对这个问题,我们需要做的就是提升自己的工程能力。总的来说,工作后我花了大概一年半的时间来集中补充工程方面的能力和知识,这个阶段的整体学习虽然让算法这块小幅度落后,但是工程这块不再成为短板,还算值得,我来简单聊聊我是怎么做的,我的思路是这几点:以工作为起点,去查询自己缺漏的技术点,然后按时学习。例如git、c++/java、shell、hadoop大礼包相关,这些工作中经常遇到的一定要尽快学习起来。官方文档结合网上的教程,快速get起来是关键。通过工作来验证自己的技术,增强技术信心。我们都知道我们的专长在于解决算法问题,但这不代表所有的工程问题都要丢给工程,或者说不见得所有工程都可以丢给工程做,例如一些数据流的操作,为了不太依赖工程,其实我们需要自己多掌握一些,从而保证很多事情的推进不依赖别人,同时自己的技术也有提升,这对于晋升还是有用的。有关工作技能的成长很多时候,我们会发现有些事情的进展不佳,不是因为我们的技术不行,而是一些诸如沟通、项目管理等问题导致,因此我们可以沉迷技术,其实还可以多读一些管理学、经济学甚至哲学之类的书籍来提升自己,这种学习我一般是当做闲书来看,平时轻松愉快地阅读一下其实也挺不错的,这块毕竟不是我们现阶段的重点,我不展开啦~学习时间的安排说实话,学习的时间真的被压缩到很少很少,比较无奈是正常的,我通常的学习时间就是通勤、晚上回家的时间,另外是工作过程有一些调研和方案分析的时候我们是可以借此来学习的,不要太说没时间,大部分时间都是因为自己摸鱼给浪费了。另外还有一个比较关键的事情就是要学会总结和积累,有一个比较合理的笔记库,通过这个笔记库记录自己做过的事情,总结沉淀下来就是自己的东西了,此时很多东西能被快速记录从而实现快速成长,通过这种方式的成长在新人期其实收获会非常大,所以非常建议大家花点时间把基础的笔记体系建立起来。小结一连3篇的小结到此结束,这也算是自己的一个里程碑式的结点吧,毕竟没想到自己已经是一个3年的老人了,新人光环逐渐散去,很多事情也要开始独当一面,当然工作中会遇到很多困难,但是这些没打倒我的最终都会成为我的养料。进技术交流群请添加AINLP小助手微信(id:
2021年6月14日
其他

2021年如何科学的“微调”预训练模型?

rate对模型进行训练。上面的“微调”示意图也告诉我们,任何模型结构都可以进行微调,包括不限于:Transformer、CNN、LSTM等。预训练模型和常见NLP训练任务如图1所示,只要Target
2021年4月12日
其他

图神经网络综述(一)

近年来,深度学习已经彻底改变了许多机器学习任务,从图像分类和视频处理,到语音识别和自然语言理解,这些任务中的数据通常表示在欧几里得空间中。然而,在越来越多的应用程序中,数据是从非欧几里得域生成的,并表示为具有复杂关系和对象之间相互依赖的图形。图数据的复杂性给现有的机器学习算法带来了巨大的挑战。近年来,许多关于扩展图数据深度学习方法的研究已经出现。文章《A
2021年1月23日
其他

自然语言处理圣经SLP3终于又更新了

Interpretation)一书。最后是如何下载这个电子版,其实官网上已经提供了相关的下载链接:https://web.stanford.edu/~jurafsky/slp3/
2021年1月13日