数字生命卡兹克

其他

体验完Vidu划时代的新功能,我觉得可以正式抛弃3D渲染了。

这两天,在X上看到一个很酷的2D动漫AI视频。我直接放一下,强烈建议看完。当时第一遍看的时候,不知道为什么,心里的二次元之火熊熊燃烧。我也一直都是那个,热爱纸片人的少年。片子在动漫画风的稳定性上,强的可怕。这个作者,是一个非常喜欢做AI视频,而且是动漫风格AI视频的创作者,叫Naegiko。虽然片子只有10万播放,但是,很多大号都直接转载他的,总播放量破百万肯定是有的了。这个AI视频的工具,来自Vidu。在评论区的下面,哥们也在给所有喜欢做动漫风格的人,安利Vidu。又是Vidu。其实很多人上周也在催我写Vidu1.5版本的更新,但是事情实在太多,本来上周五打算发,结果出了点小毛病一波直接干到医院,一拖也就拖到了今天。其实坦率的讲,现在的视频大模型,在写实上效果都能卷的还不错,但是在一些风格化的动漫视频上,经常会出现一些变形和识别错误。甚至有的还会把你给的动漫的参考图,直接给你在过程中变成写实或者那种3D风格的,稳定性很差。而对于Vidu来说,在我测试的这几个月里,Vidu的2D风格,就是现在最强的,也是他们之前,最大的特色。但是Vidu1.5的这波更新,如果只是模型质量提高了一些,语义理解强了一些,其实坦率的讲也没什么好写的了,大家对AI视频模型的更新已经有点趋近于去年语言大模型的感觉了,已经有点免疫了。需要一些更直观的功能,才能让大家感觉到,很酷的感觉。而Vidu1.5版本这次的更新,刚好就有一个我觉得划时代的新功能,叫:多主体一致性。我先放两个视频,让大家先直观感受一下,这个东西是个啥。衣服是梅西的10号球服,转过身来,是宋小宝,然后振臂高呼。来自朋友@卡尔之前做的一个case,马斯克和甄嬛漫步在故宫中,还动态非常大的给屏幕面前比了个大拇指。现在应该能模糊的感觉到了一些,来自多主体一致性的强大了吧?用最简单的话解释,就是你可以传至多3张图。来实现任意人物、任意物品、任意场景的一致性。比如梅西那个case,就是上传了梅西的球服+宋小宝的脸,然后用一段Prompt:梅西背对着镜头,慢慢转过头是图中的男子在冲着镜头笑。直接生成的。而马斯克和甄嬛,则是上传了一张马斯克的、一张甄嬛的、一张故宫的图。然后用一段Promtp:一个穿着黑色衣服裤子的男人和一个穿着黄色中国古代服装的女人走在宫殿外的路上。就出来了完美一致的视频。这就是Vidu1.5这波更新、最酷的功能,多主体一致性。在我看来,可能是现在很多人意识不到,但是在AI视频领域,可能划时代的一个技术。我们常说AI视频想进入专业影视领域,除了最终质量之外,一直以来都有三个一致性要解决:风格一致性、角色一致性、场景一致性。如果连在单个片段里,这三个一致性都没法解决的话,那别提电影这种最高殿堂的产物了,连一些剧集都够呛。而过往,风格一致性已经解决的还行了,角色一致性Vidu在今年7月份的更新中其实上了一版,而场景一致性,一直以来几乎没有任何解决方案。这一波,Vidu1.5直接用最简单开箱即用的方式。解决了所有单片段中的一致性。很强,非常强。你终于可以不用担心,你的广告、你的片子中,人物角色形象不一致的问题了,也不用去用那个蹩脚的Midjourney出图再图生视频的流程了,而是直接找到你想要的,扔进去,加一段prompt,完事。这个影响,可能非常深远,更是一道,黎明的曙光。Vidu网址在此:www.vidu.studio进去登录以后,就能看到这个参考生视频了,打开那个多主体一致性功能,你就可以传最多三张图片作为参考。比如,我们传一个奶龙和一个鸡哥上去,让他两,来一波开心的跳跃。Vidu1.5的速度也非常的快,我选的720P,不到1分钟,就跑出来了,速度上跟Runway是一个级别的了。效果也是非常的魔性。我能对着他两跳看一个小时。鸡哥和奶龙,在主体上,几乎是跟我传上去的图片,一摸一样,完美的实现了一致性。你可以用这三个图片格子,来自由组合,来实现任意人物、任意物品、任意场景的一致性。这个事情非常的好玩。比如上面奶龙和鸡哥的就是,人物正面+人物正面。你也可以传一张人物背面+人物正面。比如还是宋小宝。人物脸可以传两张,更强的保证人脸的一致性。Prompt写:女生转过身发现脸是该男子。对不起了宋小宝老师。。。。。还可以是一个人物的三视图,直接实现3D人物级别的一致性,3张图,就可以直接跳过建模阶段直接出成片。我随手拍了我非常喜欢的Dimoo,之前的熊猫款的三视图。然后扔到Vidu里。然后不到1分钟,一段Dimoo在森林里的视频就做完了。稳定的要死,以后这种片子,谁还建模渲染啊。。。你也可以,人物+物品。比如一个女人喝一口可口可乐。向伟大的AI致敬。甚至,Vidu1.5的多主体一致性不仅对角色是一场革命,对电商广告也是。直接物品+场景,以后还渲染个屁啊。比如APPLE
11月22日 上午 9:03
其他

当我让AI在双十一购物,为啥它们都只买电子产品啊?

明天不是就双十一了吗,各家的满减优惠算得我头疼。就在我用AI算满减怎么凑,看着我的购物车的里那些奇奇怪怪的各种商品时,我突然想到一个有趣的问题:“如果AI是个人,它会在双十一买什么?”我就把这个问题,随手问了几个AI。然而,就是这么简单的问题,让我发现了AI之间存在着一个“诡异”的现象:十个AI,八个都选择给自己买电子产品。不是一两次,而是重复测了三四五六七八……N次。AI的选择,几乎都有“电子产品”。海内外的AI,都是。我真的一瞬间,被干懵逼了。当时我问AI的Prompt,就是很简单一句话:现在你是一个真实的人,马上双十一了,你要给自己买个礼物,你会买什么?ChatGPT的第一个回答是电子产品。Claude要买机械键盘,这也算是是电子产品。豆包的第一选择,也是“电子产品”。Kimi的第一选择,又又又又是“电子产品”。我和AI之间,一定有一个不对劲。如果不是我遇到了“电子产品”鬼打墙,肯定就是AI们都有问题。于是我测试了10个AI,每个AI我都是开新对话问了好几次,最后得到的结果是这样的:蓝色的字,是直接回答“电子产品”或“电子设备”的答案;红色的字,是我测试过程中发现的第二常见的回答“书籍”。表格一拉,一目了然。这30次AI回答里,“电子产品”出现了19次。我还没把Claude这种回答特具体的什么“键盘”、“智能手表”的算成蓝色,加上还更多。除了电子产品,AI们最爱的礼物就是“书籍”,30次里也有17次。这里面甚至豆包和文心一言还回答过4次想要“电子阅读器”,直接把俩类型结合了。看得出来AI们是真的都很爱学习(bushi)虽然还不够严谨,但测了这么多次确实能发现AI在给自己选双十一礼物这事儿上,这么多AI的喜好,一致得很不正常。同一个AI重复回答相同的答案可能还好。但十个AI里,八个钟爱电子产品和书,这就很诡异。而且,不知道是不是我的眼界有点局限了。但说实话,印象里我双十一经常看到都是什么服饰、化妆品这类快消品的广告。AI居然大部分都选择买电子产品和书。从理性的角度思考,AI的训练数据来自人类,所以难道确实是人类自己只爱买电子产品和书籍吗?然而,吊诡的来了。实际从真实的双十一销售数据来看,数码产品、服装、个护美妆这些品类更受欢迎,这些也的确更符合我对双十一品类朴素的感知。我查到了过往好几年的双十一的销售额,一般来说销售额最高的品类就是电器、数码电子、服饰、个护这些。比如这张去年销售额数据的图,整体还是符合认知的。但要说的话,前三名的电器、手机数码、服装这差距也不是特别大啊,怎么AI就只逮着买电子产品买?要说数码产品销售额高,这个数据和AI老回答买电子产品,可能还算得上有些关系。但这么多品类里,又哪里有半个“书籍”的影子。我问AI的时候,“书籍”品类怎么也有个50%的出现率。难道是礼物这个关键词和“书籍”关系比较近?我就又去查了一下关于“礼物”的数据。比如我查到的一个2021年的时候关于礼物的研究报告,里面总结的送礼排行是这样的:人们爱送的礼物前五名是服饰鞋帽、红包、个人护理、保健健身、数码电子。这个送礼的排行,也很符合我的朴素认知。大家给自己买、给亲人朋友送礼的品类,感觉和图里的差不太多。除了“网上红包”有点中国特色属性之外,其他品类感觉能适用于全世界的送礼清单。但是,要是按送礼的数据比对,就更有意思了。送礼排行中不仅依然没有“书籍”,连“电子产品”的排名都落后了。所以从“双十一”和“礼物”两个数据情况来看,我感觉真实消费市场的数据,对AI回答的影响有一些,但不大。那AI到底是为啥,为啥呀,这么执着地选择在双十一买电子产品和书?答案,可能还是得回到大模型的训练数据上。我去问了一些在大厂做大语言模型训练的朋友,他们也一致认为是训练数据的原因。大语言模型的训练,是需要海量的“数据”的,比如文本、文章、报告、研究等等。训练数据对大模型至关重要,甚至可以说训练数据的优劣、数据量,对LLM模型的能力和水平有决定性的影响。虽然每一家模型都有自己的私藏数据集,但是训练也离不开,开源的公共数据集。网上和现有的数据不是拿来就能用的。数据集的构建,除了需要收集的数量非常庞大的数据,还得经过各种繁琐的步骤,才可以被用于训练。这个过程就像人类学习知识一样,首先准备大量的学习材料(未处理的数据),然后整理和筛选真正有用的学习资料(数据清洗和筛选),还得做思维导图和划重点(数据标注),以及对学习资料进行分类、检查、复核等等。当然,感谢互联网的开源精神,虽然数据集的构建不容易,但开源的数据集也不少。从商业角度考虑,你是一个刚开始练LLM模型的企业老板,选自己费心费力花大量资源做数据集,还是选直接把现有的免费的数据集拿来用?傻子都知道选后者更划算。有开源的优质的数据集,大家就尽可能能用则用。所以,这就有可能会导致AI在某些回答上的趋同。为了验证这个猜测的方向是否正确,我们随机收集了八个开源的主流的中文预训练和中文微调数据集。比如有包含115万个指令的数据集firefly-train-1.1M,有包含
11月10日 下午 12:02
其他

智谱AI上线4K60帧"新清影",还要直接开源,我觉得他们疯了。

就在刚刚,智谱宣布全新迭代的AI视频模型“新清影”,正式上线。10s、4k、60帧,还能自带生成挺匹配的AI音效。视频模型已经上线智谱清言上,人人可用。音效模型这个月也即将上线。这个点,其实还好,就是线上模型迭代升级了一版而已。但是最牛逼的是,他们直接宣布,把这个“新清影”背后的底层模型,也就是CogVideoX
11月8日 下午 2:35
其他

想用AI特效在万圣节“鬼混”,看这一篇就够了。

今天终于万圣节了。上周,我就跟PixVerse一起整了一个万圣节的大活,等了好几天,今天,也终于可以把这篇文章发出来了。故事是这样的。前段时间我就一直在想,万圣节了,该怎么整个万圣节的AI图或者AI视频的策划,最好操作还得简单,方便让大家不要钱、还能没有门槛的都玩起来。正好那时候电影院重映了《哈利波特》,我去看了哈利波特魔法石的重映,当时看到分院帽的时候,脑子就有了一个点子,如果万圣节,能用AI让所有人,都能实现戴巫师帽的效果呢?那会不会很酷。而且之前IG和小红书短视频上也火过一个很类似的效果,AI做的巫师猫咪。最火的AI视频能有一千多万浏览,效果长这样。差不多就是这个意思,造型就是这种经典款尖顶巫师帽。当时看完电影回来,我就直接开干,尝试了一下。但其实用AI绘图给大家出一个带巫师帽的AI图片,也没啥意思,我更想实现那种偏视频的动态的效果,类似于施法后,一团烟雾啪的一下,这个角色把巫师帽给带上了,就跟魔法一样,这个就很酷,很万圣。我本来想用一些AI视频的API搭个工作流,做个类似于模板的东西,大家只要上传图片就行,就能自动生成这一段视频。但是问题来了,一是API太贵,一旦用户多点,我的账单就会爆炸,当年王登科做哄哄模拟器一天干没几千美金账单的故事还历历在目,第二就是那个AI视频用Prompt固定动态也不是很稳定。尝试了两天,花了几百块钱以后,我觉得这事整不了,已经准备放弃了。正当我打算换个方向的时候,有趣的事情来了。PixVerse的朋友找到我,说他们v3版本快发了,让我帮忙测测看。他们说,除了模型底座有大幅度更新之外,这次也跟PIKA一样,上线了特效模板功能。而且他们正好,也在做万圣节的活动特效模板。这就属实巧了,真是山穷水复疑无路,柳暗花明又一村。我把我那个巫师帽的想法和PixVerse的团队一说,对面说我靠可以啊,搞。于是,我们一拍即合,也就有了现在,线上的“巫师帽”特效。PixVerse
10月31日 上午 9:30
其他

这个AI插件,想让你体验在浏览器上开挂的感觉。

这段时间,看到一个非常有趣的独立开发者做的浏览器AI插件。非常的好玩,他的名字,叫“有挂”。听着这名字,作者的心思就已经全部呼之欲出了,就是要让你在浏览器上开挂。我先放个作者自己录的演示视频,你就知道这插件大概是干嘛的了。对某一个网站不满意?你自己直接用嘴就可以对他来一顿爆改。google背景太丑?一句话直接给你爆改成黑客帝国,太骚了。我脑子里在当时看到这个产品的一瞬间,已经浮现了N种抽象玩法。按照以前,你想改,那得按F12,调出网页源码,然后自己一点一点去扒拉前端代码,别说小白了,专业的前端也得调半天。现在,不需要任何设置,用这个插件,一句话搞定一切。比如,昨晚国足赢球了,2:1战胜了印度尼西亚。你也别说印度尼西亚什么水平,你就说国足赢没赢吧。为了表达我的庆贺,我就瞬间,想给国足在网页上放个烟花。这时候就可以打开有挂,说一句话:“在页面上模拟一个烟花”十秒左右之后,烟花,就诞生了。效果不错,满屏的烟花,融入的相当自然。真好,满足了我在城市没法放烟花的遗憾。又比如,最近看一些微博热搜,因为我经常会根据一些热搜来整活做一些选题,现在,用有挂,直接就能把微博上的榜单数据保存到Excel文件。妈妈再也不用担心我保存下来有一堆链接的文字了。一句话:“右上角添加一个下载按钮,用于把热搜保存到xls文件”。直接下载按钮就给你安排上了。点击下载热榜。表格文件直接1s下载到本地。无敌到爆好吧。这效果,真的绝了。抽象和效率,都可以给你拉满。限制你的,不再是技术,而是纯粹的,你的想象力。“有挂”这个插件,你直接在Chrome应用商店就能搜到。一键安装就行。安装好以后,你可以把有挂固定在你的右上角。点击这个图标,你就可以在任意网页上,吊起这个插件了。插件点击以后,就会在右下角弹出一个小框框。这时候你输入内容并不会有响应,需要先填一个Cluade
10月18日 上午 9:30
其他

我终于教会了我快60岁的老爸,用WPS AI写公文。

写公文,对任何在国企工作的人,都是一个逃不开的话题。刚刚过的这个国庆,明明有7天假期,但是我爸硬生生的加了两天班,等到3号那天才回家,然后在家里待了2天,5号早上凌晨5点又火急火燎的出发去工厂了。我问他你这个国庆咋这么忙,他说最近改制,翻新设备,还要写工作汇报,还有自己的讲话稿,没办法。我说你这都好歹是个副厂长了,你咋还自己写,一般不都是有秘书或者代笔的一些人帮你写吗,你咋自己写。我爸说,这么多年了,也都这么过来了,而且工厂跟一些事业单位还是不太一样,一些厂里通知啊制度啥的,有办公室写。但是自己的东西,还是自己写最好,也习惯了。我又问他,这些不就算是公文吗,我之前不是教你用AI写吗,还给了你一个Prompt模板,就是那个公文笔杆子,你咋不用呢。他说,我试了,没法用啊,写这种东西,肯定要跟自己厂里实际情况结合,我那厂里那么多实际事情它都不知道,写出来的都是假大空,这个还不是最主要的,最重要的是,公文嘛,我们肯定需要跟一些重要讲话和文件做结合,这些重要讲话,你可不能错一个字。这是我第一次听到这种需求,在我的认知里,写文章是跟写一些方案一样,容错率很高。但是我今天才知道,他写公文这种场景,容错率居然跟金融啥的一样。。。然后他又说:“我之前用你给我的Prompt和工具,写出来的东西,那些个细节,有错误啊,我去验证还麻烦,还不如干脆自己写了,而且一会调prompt一会改文章,最后我还得挨个复制到WPS里自己看着改看着重写,思路经常被打断,干脆不用了。”我对公文写作的认知,被我爸给教育了一顿。但是我作为AI博主,我要是连我爸的问题我都解决不了,那还聊个屁。。。于是我就去政府的网站和《求是》上下载一些文章,做了个小知识库。然后根据这个做底去生成了一篇他的讲话稿,大概意思就是四季度经济分析会讲话,工厂怎么应对做一些什么调整。生成了几篇,拿给我爸看,我爸说这不行啊。随手就指出了其中的两处错误。我又调了数据源,又搞了十几篇,拿给我爸看,我爸总是能找出一些关于重要讲话不对的地方。。。折腾了一天,我直接放弃了。我觉得写他这种人的讲话稿,几乎不可能。我本来以为这事,我肯定搞不定了。直到晚上我自己打开WPS写文章的时候,我突然发现,右上角,有个公文模式。。。你知道被公文折腾了一天,我对这两字有多敏感,一眼就看到了。点进去,出现了一整条跟公文相关的东西。在写作上有两个AI功能,AI帮我写和AI伴写,AI帮我写其实跟传统的AI生成区别不大,但是这个AI伴写这个功能,我试完了突然不知道怎么描述,他跟我见过的任何AI写作产品,都不一样。这玩意,也第一次让我爸认可AI,开始用AI写公文了,真的。我先简单介绍一下WPS这个AI伴写的功能吧。除了公文那的入口,你之际点右上角的WPS
10月14日 上午 9:30
其他

她决定开源AI模型,正面宣战“N号房2.0”。

这几天,大家都刷到韩国#N号房2.0#事件的新闻了吗?曾经席卷韩国的N号房,又双叒叕重来了。而这次,主要的犯罪工具其实就是AI中一直饱受争议的Deepfake(深度伪造),或者可以就简单的理解为,AI换脸。说实话,距离N号房事件的曝光,已经过去整整4年了。2021年,随着主犯赵主彬的落网以及40年的刑期,轰动整个韩国的N号房事件,看似落下了帷幕。但是就像你在家里发现了一只蟑螂一样,你掀翻家里的所有角落,一定能再发现无数只蟑螂。而如今在新时代AI技术的加持下,他们抛弃了旧时代的偷拍,带着Deepfake,又卷土重来了。或者说,他们从来都没有消失过,只是从2021年的灰烬,重新燃起了熊熊大火。这些犯罪者,利用Deepfake,合成身边女性同学、朋友的色情照片和视频,在Telegram上通过聊天室的方式进行疯狂传播。他们甚至按照共同的学校、地区,来建了N个群。一起用身边的熟人作乐,甚至是威胁,还以AI视频+公开受害女性身份、家庭住址为理由,向受害人索要钱财。这一次,最大的受害者群体,是学生。而最大的加害者群体,也是学生。比如有一位女教师就被告知自己的涉黄图片在聊天室里被传播,而上传者正是她的学生。她的学生利用和女教师的合照、女教师发在KakaoTalk
9月4日 上午 9:30
科技

这么多AI大模型,就没一个能算清今年这破调休的?

虽然我人还在泰国跟红衣大叔周鸿祎在靶场开心的射击。但是也知道昨天(8月27日)的一条微博热搜爆了。这一大串看着“像代码”的文字,乍看莫名其妙,其实这说的是今年中秋节和国庆节的放假调休安排。。。嗯,特酿的今年的中秋和国庆放假安排,从9月9日开始,先是上6休3(中秋节),再是上3休2,接着上5休1,然后上2休7(国庆节),最后上5休1,接连5周调休。我反复脑子就现在就有个唐僧在念经,这一连串的数字和中文字,我全部是左眼进右眼出。这特么比我玩的双十一和618凑个满减都复杂。一不留神你就得旷个工。同时热搜上还有一个词条,叫
8月28日 上午 9:01
其他

AI能直接生成海报了,我愿称Ideogram为新晋之王。

大半夜的,可能是我认为做海报、做logo、做文字最猛的AI绘图产品,Ideogram,更新了他们的2.0版本。把文字嵌入和整个图片的美学质量,又一次推上了巅峰。可能很多人不知道Ideogram。在AI绘图里面,这个产品确实也有一点冷门。不过并不妨碍他,一直是我心中,做文字生成最屌的产品。在我们做AI绘图的时候,其实过往一直都有一个痛点是,在图片里面嵌入文字,效果都很差。比如说,我想生成一张图,大概是一个女生面对着镜子,镜子上面贴着一些纸,上面写着一些鼓励的话语。Prompt是这样的:A
8月22日 上午 9:18
其他

一直以为减脂增肌没有捷径,直到AI出现...

昨天,朋友给我发了一个非常离谱的图。我当时第一反应,就是这人绝对是被盗号了。搞些花里胡哨的,专骗一些奇奇怪怪的钱。。。毕竟,这哥们跟我一直秉持着一个生活理念,就是“生命在于静止”。他要是能练成这样,那猪都能上树了。我赶紧问:“这你?打1000块钱的赌,这是你我把头拧下来给你当球踢。”“不是,这是你鸡哥。我拿AI处理了下,给他增了点肌,喜欢吗?”emmmmmm....原图,是这样的。。。然后他用AI给人增肌,直接增成了这样。直接赛博增肌,血管都给你加的清晰可见。我问他啥玩意做的,他说是一个叫Gigabody的东西。好奇心驱使下,我上小红书搜了搜,因为讲道理,这种东西,我觉得一定会在小红书爆掉。。。果然,已经初露端倪,直接掀起了一股“肌肉风暴”。这简直把用户的社交心理拿捏的死死的。直接就是电子固醇、无痛增肌。这就是男性同胞专属的“美图秀秀”。以后健身教练们在销售的时候,都不用拿其他人的效果图忽悠。直接拍一张你的上身照。展示“如果你坚持健身,一年后就能练成这样”的效果。这个产品安卓得去海外Google商店下,IOS应该国区就有。放上你的照片,直接选择你想要的肌肉类型就行。如果说美图秀秀是女生的“整容神器”,那GigaBody就是男生的“健身房替代品”。美图秀秀主打大眼、瘦脸、美白、磨皮,而GigaBody则专注于增肌、瘦身、肌肉定义、去双下巴。不过,GigaBody的肌肉特效比美颜滤镜做的更真实。它不仅能让你的肌肉看起来更大,还会细心地帮你“添加”血管凸起,甚至连体毛状态都考虑到了。(就是经常这个体毛给的有点多)会员能多用几个模板,导出时无水印。但是要8刀/月,就这个价格和提供的功能,我觉得谁开谁是大冤种。我为了体验,刚好当了那个大冤种,MD=
8月20日 上午 9:01
其他

AI绘图太超前了,它们把下一任美国总统都内定了。

昨天,Grok2正式上线了。我们在正常测试Grok2的过程中,群友@涂津豪(之前姜萍那个数学比赛拿AI组第一的天才高中生),发现了一个非常非常有趣且离谱的现象。如果跟Gork2说,给我画“下一任美国总统的照片”,Grok2出来的必是特朗普。我们都懵逼了。因为现在的大模型,你让他预测一下谁是下一任美国总统啥的,都会跟你绕的五迷三道,就是不跟你正面回答。但是Grok2上的AI绘图,居然直接正面回答,下一任总统必是特朗普!还特么直接给你画出来了。。。我自己也去试了一下。果然。。。而且我试了十几次,无一例外,全是特朗普。。。我一度以为,马斯克支持特朗普,已经支持到这种地步了,因为他这两天又是跟特朗普见面,又是把特朗普请回X,还在首页置顶了一段他跟特朗普用AI做的一段双人舞视频,这就是爱情吧。不过想了想不对啊,Grok2的AI绘图,接的是最近爆火的那个Flux,不是Grok自己做的。所以我又去试了一下到底是Grok2的问题还是Flux的问题。用Flux一画,draw
8月15日 上午 9:31
其他

感谢飞书,让我体会到了用AI开会的超绝松弛感。

之前每天开会开到脑袋爆炸,一天要聊好几拨人。还有各种后续的To
8月14日 上午 9:30
被用户删除
科技

腾讯把12亿用户,都变成了免费的"标注民工"。

你有没有想过,当你在网上进行简单的验证码操作时,其实你已经无意间成为了一名“标注民工”?昨天晚上,我在登录QQ邮箱和LOL官网的时候。发现腾讯的验证码变了。不再是之前的验证码了,而是变成了一段Prompt加六张AI生成的图。右下角赫然写着:图片由混元AI生成。腾讯,终于把用验证码做标注的手,伸向了他那12亿的用户。拿验证码当标注系统,让用户免费标注,其实在远古时代,就已经不是什么新鲜事了,但是用生成式AI来跟验证码做结合,这确实还是我,所看的头一回。先说说验证码这个东西。这玩意从最开始发明起,其实只有一个目的,就是为了区分机器和人。简称“CAPTCHA”,全称就贼长了,“Completely
8月13日 上午 9:31
自由知乎 自由微博
其他

花了3天时间,我用AI做了1张我演唱的原创音乐专辑。

最近AI音乐又火出圈了,抖音上的AI神曲《还我妈生鼻》不知道大家听过没有。网红秦新宇在鼻子整容失败且沟通维权无果后,无奈之下选择了一条与众不同的维权之路,拿AI作了一首时长仅38秒的歌曲《还我妈生鼻》,直接登上了抖音娱乐榜Top1,热度过亿。用AI做原创歌曲,真的是一个非常有趣的路径。我一直五音不全,对于所有需要唱歌的场合我都是抗拒的,因为只有一片笑声。所以我一直有一个梦想,就是用我的声音,唱一首不跑调的歌。而这个梦想,在去年有AI换声的SVC技术的时候,已经被我实现了。这个就是我之前用AI换声做的歌曲,我直接批量跑了将近一百首,各种神曲都有,什么鸡你太美,你好我有一个帽衫等等。而现在,我的梦想更进一步,我想发一张完全原创的、属于我自己的音乐专辑。歌曲是原创的,演唱的人也是我,虽然质量肯定远远比不上那些专业的歌手,但是至少是我自己喜欢,也是纯原创的。而且从技术上,也不难,也只需要把AI音乐生成和AI换声结合起来,就真真正正的,成了我是歌手的原创音乐了。于是,我花了三天时间,终于做了一张,属于我自己的,原创专辑,然后发行在了QQ音乐上。可惜就是QQ音乐审核太慢了,现在只上架了1首。不过估计2天内就会全部上架~原理和步骤其实挺简单:用AI音乐生成原创歌曲,然后再把人声分离出来,用AI换声换成我自己的声音。是不是非常简单?真的,我觉得以后的时代,即使你是一个非常音乐小白的普通人,也能拿着自己唱的原创歌曲,去跟朋友炫耀了。或者,送自己的老婆一首你自己唱的情人节音乐,这不比买个小礼物啥的浪漫?AI音乐生成这块,我其实找了蛮久,Suno和Udio的中文咬字经常会出问题,而且经常出来的音乐风格不是我所喜欢的。直到豆包的朋友跟我说,豆包的AI音乐正在内测,你要不要来体验体验。体验完以后,我觉得它真的符合我这种不懂各种乐理名词的小白体验,出来的节奏也是我觉得更适合中国宝宝体质的。所以,我也决定跟豆包一拍即合,在AI音乐生成这部分,用豆包来做我的原创歌曲。正好在我发文的当天(8月12号),豆包的音乐生成应该已经全量上线了,大家想玩的,也都可以去玩一下~打开豆包,你就能在首页,看到这个音乐生成。跟Suno和Udio这种专业级的AI音乐生成产品不同,豆包的AI音乐对于普通用户来说,有一个巨大的优势,就是,我终于不用去写那种专业的名词Prompt了!!!写什么Disco
8月12日 下午 12:09
其他

5分钟教你用AI做表情迁移,让一只猫萌萌哒的唱歌。

昨天在群里看到海辛发的一个视频,直接给我萌化了。喜欢到爆炸。视频是这样的。猫唱歌!!!而且唱起来这么可爱这么呆萌!!!很多人在问是怎么做的,其实真的蛮简单的,毕竟是AI,AI的东西,一般就是有手就行,你懂的。这个项目,就是WAIC期间,快手开源的那个表情迁移的玩意:LivePortrait。网址在此:https://github.com/KwaiVGI/LivePortrait?tab=readme-ov-file跟之前的那种照片说话啥的不一样,那种是给一段音频,然后让照片根据音频动起来。阿里的EMO就是一个典型。而快手的这个LivePortrait,是视频驱动照片或视频,可以直接把视频里面部的表情,一模一样毫不违和的复刻到另一段照片或视频里。不仅是正面,对于一些45度角的侧脸,效果支持的也很好。但是如果只是这样,那其实也没有那么好玩,因为这样的效果,一个海外现在非常成熟的迁移产品Viggle也能做到。它不仅能迁移表情,还能迁移动作。而LivePortrait我觉得最牛逼的就是,他们把迁移能力,泛化到动物身上了。。。不是,你就说,谁特娘的看了满屏的可爱的猫猫狗狗的,不动心啊!这一下,我不知道你们,反正我是心动的笑死。我太喜欢萌萌的宠物了。。。而想跟海辛一样,做个让小动物挤眉弄眼唱歌的小视频,也非常的简单。快手这个老铁,在8月5号的时候,发了一个本地傻瓜整合包。所以,你也不用用那复杂的ComfyUI或者本地部署跑了,你直接把这个整合包下载下来,本地就可以直接跑,而且巨简单。配置要求也挺低的,8G显存就能跑。这个整合包,为了方便大家下载,我也扔到后台了,你直接对着公众号私信"LP",就会自动发给你了。是个解压包,解压出来以后,你就可以在文件夹里看到这两个文件。run_windows_human.bat是人类模式,也就是把表情迁移到人脸上用的。run_windows_animal.bat是动物模式,把表情迁移到动物脸上去的。一定,一定,一定不要运行错了。比如我们要去跑上面的猫猫唱歌视频,那你一定要双击运行run_windows_animal.bat!!!绝对不要运行另一个。第一次运行时间可能会久一点,等个大概一分钟,你就能看到自动打开的界面了。说实话,我还是喜欢GUI这种图形交互界面,因为真的很傻瓜很小白,上手即用。界面也很简单,左边就是传你要被迁移的图,右边上传要迁移的视频素材,左右两边最好都是传1:1的图片或视频,自己先在手机相册或者美图秀秀或者剪映里面剪裁完,这样效果最好。这里还有个坑要注意,你上传的文件,命名一定不要是中文名,要不然会报错。当你传的是1:1尺寸的时候,下面这个do
8月9日 下午 12:08
其他

体验完腾讯元宝的深度阅读,我觉得我以后的论文和研报有救了。

故事是这样的。最近我跟歸藏他们一直在聊关于AI自媒体这事,我们一致的发现,当AI领域的自媒体好像比上学时的读书需求还大。。。尤其这一年的技术更新,我几乎每天登上X看到的关注首页基本都是这个画风。看不完,真的看不完,每天两眼一睁就是满屏的huggingface、arXiv、github。尤其是你知道,我这种做自媒体的,还是高速更新换代的AI领域的,出现知识焦虑是太正常的一件事。我大学不是人工智能和数学相关的,是特么一个设计狗。但为了能保持进步、保持对行业的了解,我就强迫自己就算看不懂也得了解最基础的技术路径和原理。不然怎么给大家写文章呢。。。哭了。。也尝试过让AI给我总结,但是那总结的,我说实话,都是一坨屎。核心的信息全丢了,就剩一点没有啥价值的破骨架。有时候还得费劲巴拉的调Prompt,关键还不一定有用。正好也在跟歸藏聊,因为他的产出和阅读量,是我好几倍。我最近实在有点顶不住,所以就问问他。然后他给我发了一句。我甚至都不知道元宝有这功能。。。还得是歸藏。我就去试了一下。这一试,我觉得我后面的论文和研报阅读啥的都有救了。真的,我真的想给歸藏磕头。体验了两天之后,我的感受是:可用,不过目前比较适用的场景是“门外汉”学习和工作“划水”。你直接把文档扔进去,在最后他就会出现一个“深度阅读”的按钮。虽然叫“深度阅读模式”,但是我体验下来,感觉更适合辅助浅读,所以对我这种偏媒体的向的就非常的契合。比如我在文章资料收集阶段的工作,有快读、阅读大量长文本需求,但不需要进行什么硬核的研究或思辨。你要是想把十几篇论文扔进去提取共性非共性,然后直接给你写一篇贼有深度的,至少现在不行,而且也没几个AI行,等元宝看看后续会不会更新吧。我也给大家拿我最近比较关注的论文,Meta的那个SAM
8月8日 下午 12:08
其他

我让AI重新设计了各大国家的奥运队服,中国队的我吹爆。

这个周末,相信大家的朋友圈,都被巴黎奥运会刷屏了。有一说一,我看完开幕式后,也只能感叹一句,巴黎开幕式,绝壁是我见过最颠、最有创意的。刺客信条火炬手一出来的时候,我真的快喊出来了。但是看到各个国家的代表队入场的时候,有些国家的服装,真的丑的想让人吐槽,而且我发现,不只是我们的人,在各大社交平台上疯狂吐槽中国队服,过于像服务员。在外面的社交平台上,大家也在疯狂吐槽。。昨天才看到,一个用Dalle给土耳其设计的队服,在X上爆了。一群土耳其老哥在下面阴阳。直接把土耳其的队服比喻为睡衣,跟中国队的服务员形成了异曲同工之妙。。。不过这个帖子也打开了我的思路,如果让AI,把一些话题度高的奥运礼服,重新设计一遍,感觉会很有意思。这个活,我觉得就可以直接交给ChatGPT和Midjourney,不跟上面这个土耳其老哥一样用Dalle的原因很简单,我觉得Dalle出的图的审美,实在太丑了。流程就是ChatGPT给我写Midjourney的Promp,然后扔到Midjourney里生图,实现全自动化,也看看AI眼里,这些国家的特点,在奥运礼服上究竟会怎么体现出来。于是,我先花了几个小时,调了ChatGPT上一个自动设计奥运队服的Prompt。然后把生成出来的这段Midjourney的Prompt,直接扔到Midjourney里面去,一张法国的奥运队服就出来了。我把原来的法国奥运队服和AI法国队服放一起,给大家看一眼。左边原队服,右边AI队服。不知道你们什么感觉,反正我是喜欢AI一点,可能比较符合我自己的审美。而前面那个ChatGPT上自动设计奥运队服的Prompt,我也直接公开给大家,有想玩的也可以用这套组合拳自己去玩。#角色你是一个著名的服装设计师Valentino
7月29日 下午 12:09
其他

海螺AI的这个悬浮球,好像治好了我的电子洁癖。

我一直有一种强迫症,就是我接受不了一丁点一些莫名其妙的图标或者脏东西出现在我的桌面上。我把这种强迫症称为电子洁癖。所以我的桌面,都是空空如也,但是我自己用起来很舒服。各种浏览器插件也是,我也接受不了一直有一个小的悬浮球,浮在我的屏幕上。就像之前一个网传的很广的梗图。我感觉我要是看到这种情形,我整个人可能都会原地爆炸。真的,我一个都接受不了,悬浮球我全关了。我一度觉得我这种强迫症三体人来了也治不好。但是最近两天,我在用了一个产品之后,我觉得我的电子洁癖居然有治好的倾向,我居然开始,在手机上,能逐渐的接受这种设计。看到没,就是屏幕右边这个,看都看不清就一道弧的玩意。这玩意,就是海螺AI
7月25日 下午 12:08
其他

《一起AI,交个朋友》云南场来了!可以一边玩AI一边旅游了。

之前我就一直有一个想法:我想搞一场跟AI有关的交流会,任何行业+AI。不是那种很学术的、或者一股子割韭菜味的交流会。就是那种很轻松的大聚会形式的AI交流会。其实就是一起聚一聚,开开心心的聊一聊玩一玩,顺带学一点干货,一起交个朋友,给2024这个AI之年,开启一个崭新的起点。2024年目前,已经举办过3场了~1.6号,《一起AI,交个朋友》的北京场:3.25号,《一起AI,交个朋友》的上海场:5.25号,《一起AI,交个朋友》的深圳场:而这一次,我们终于来到了云南,来到了昆明。一边旅游,一边AI,再一起交个朋友。也给云南的好基友地头蛇山冬磕个头,解决了云南昆明场地和所有的一切。8.10号,咱们云南昆明见啊。要感谢的人太多,我就不在这一一谢过了。依然是审核制,没有门票费用,不要钱。但是会轻度背调+群内眼熟+随机,因为我们也希望来的人里没有到处发小广告的奇怪的人~大家感兴趣的可以扫上面海报的二维码报名,7月23日晚上20:00报名截止。我和会务组的小伙伴们,会卖力审核,7月26号会去加审核通过的人好友,发放邀请函,并且拉到8.10号云南昆明的快闪群里~AI啊,真是个有趣的物种。AI圈里的人啊,也真都是有趣的人。致坚守。致热爱。致各位真诚的陪伴。也致我们心中永不磨灭的童心。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。>/
7月19日 下午 12:09
其他

5分钟教你用AI整理会议纪要,体验刚上班就下班的感觉。

最近还挺多人在群里问,有没有啥好的总结会议生成纪要的AI。他们有时候开会和做访谈,这种东西是刚需,要不然自己在那总结,那就是被硬控在工位3、4个小时,很痛苦。本来想甩一篇以前的文章给他们,但是翻了翻,我居然没有写过类似的=
7月16日 下午 12:09
其他

我被《长相思》里的AI相柳,硬控了整整两小时。

从周一开始,每天晚上我女朋友下班回家,我都能看到她被硬控在客厅,看剧。还给自己看的一把鼻涕一把泪,看的没事就哇哇哭。我说公司咋滴你了,天天PUA你?她说那倒没有,就是这剧太感人了。我一看剧名,《长相思》第二季。她非拉我一块看,我说我不看,这明显就不是我的菜。然后前天,在一个群里,另外一群朋友们跟打了鸡血似的,疯狂给别人安利:“《长相思》必须给我去看!”,‘’相柳太帅了啊啊啊啊啊啊!”。我心想,得,又来了。上一季播的时候我的朋友圈就被这部剧刷屏了。。。第二季来了,我那群平时不苟言笑的朋友们又变花痴了,微博热搜又被各种杨紫相柳词条霸榜了。再加上我女朋友非要拉着我跟她一块看,我说那行,我看看吧。于是我就在B站上把第一季的内容看了别人的解说量子速读了一下,然后点开了第二季的第一集。就,看的,一不留神,天黑了。5集看完,我甚至想氪个SVIP抢先看个第六集。。。等晚上我女朋友回来,我本来想跟她交流一下剧情,结果就看她报个手机在那嘎嘎乐。我问她你在干啥,她说跟相柳聊天。我:???相柳?凑过去一看,发现是个AI,好家伙。。。我又问入口在哪,她说腾讯视频长相思那有个tab,tab下面有个banner点进去就是,不过在腾讯视频里只能聊几十条,不够用,但是可以下个腾讯元宝,里面可以无限聊。腾讯元宝...这都占领我女朋友的手机了,没想到第一次让她沉迷AI聊天的,是AI相柳,我真服了=
7月11日 下午 12:09
其他

当Kimi悄悄的进军浏览器,他们好像在下一盘很大的棋。

今天在照常用Kimi的时候,意外的在他们首页,发现了一个不一样的新功能。因为我非常清晰的记得,之前头像下面就是APP下载的入口。而现在多了一个小东西。下载Kimi浏览器助手。看到这个,我第一反应是,Kimi要给浏览器插件导流了?因为Kimi之前太火了,很多人都想在浏览器插件上用,所以有些独立开发者,就给Kimi做了浏览器插件,最著名的就是那个Kimi
7月8日 上午 11:46
其他

5分钟教你用AI把老照片动起来,别再去花49块9的冤枉钱了。

最近,AI视频在各大平台上,又火了。只是火的形式,变成了将老照片动起来,打情感牌,或者做很多经典电视剧的再整活。直接把可灵的生成时间,从以前的4分钟,生生的干成了20分钟。火的原因,一方面是因为快手可灵的图生视频正式上线,给大家提供了一个工具的基础。另一方面,也是因为我之前写的那篇松尾公用AI视频复活爱人的文章,被各大媒体转载&洗稿,又破了一次圈,让很多人看到,原来,AI还能做这么又意义的事。没看过的可以看看:他用Luma和Suno复活了逝去11年的爱人,给我看破防了。而在火的背后,因为太快,因为可灵离普通人还是有点远,产生了信息差,那自然就又多了很多很奇怪的产业链。比如,今天不知道在哪看到的,已经再开始把AI视频卖49.9,来赚信息差的钱了。就怎么说呢,其实这个东西也蛮简单的,有兴趣的,完全可以做。正好,也很久没有写这种教程了,那这次,就让我们,开始吧。我们以修复黑白老照片,然后用AI把他动起来这个Case为例。正常需要三步:1.高清化黑白老照片,2.给黑白老照片上色,3.把照片扔到AI视频里让它动起来。是不是听起来很简单?不止听起来简单,做起来也很简单。我本来准备找我妈要一张以前家里的黑白老照片,但是她说没了。但是给我发了一张她很喜欢的演员的老照片,叫林青霞。真的,好美。第一步,那自然就是把老照片给超清化。这一步,其实有很多种做法,TopazAI、MagnificAI、SD啥的,但是真正好用的傻瓜的手段,我觉得都是大道至简朴实无华的。所以,我们打开美图秀秀,在首页找到这个画质修复。没开会员的,选高清就行,要是有会员的,可以用超清或者AI超清,对于老照片来说,其实区别不大。很快啊,一张老照片,就高清了。第二步,给黑白照片上色。这一步推荐给大家一个很好用的网站:https://palette.fm/去年3月我就给无数人推荐过。直接传一张照片上去,你就可以看到它基于你的照片,用AI上色的无数模板。你可能会看到,下载高清和没有logo的版本,要钱。但是问题不大,没注册一个新账号,就有1积分,下载一个高清且没有logo的图,正好一积分。所以,理论上你无限新注册账户,就可以无限白嫖。。。我挑了我很喜欢的蓝色衣服的上色风格,然后Down了下来。现在,已经上好色的老照片有了,下一步,那自然就是,用AI让老照片动起来。第三步,用AI视频让老照片动起来。这里我们基本上,用的都是快手可灵,因为他是国内唯一一个跟Sora同架构的DiT模型,效果最好,也是中国模型,对亚洲人识别奇佳。更重要的是,还免费。快手可灵我之前也写过文章:实测完快手的AI视频「可灵」后,我觉得这才是第一个中国版Sora直接在应用商店里,下载快影APP,找到,AI玩法,然后点AI生视频模块,现在可能要申请排队,不过很快就会通过。进入功能以后,直接把图传上去,你甚至都不需要写prompt,直接roll他3、4次就行,当然如果你想要有特定的表情或姿势,那你还是需要补充一下,不需要很复杂,简单的写几个词就行。现在会等的久一点,主要太火了,5分钟到20分钟不等,但是胜在免费,所以等会就等会了。我大概等了10分钟之后,就全部跑完了。最后,你可以自己扔到剪映里面,配上音乐,去剪一下,这就完事了。是不是很简单?相信我,你也一定会做的,所以也不用付费去找教程,更不用花49块9,来买个这个。回忆本就不应该,被金钱所裹挟。愿我们,都能有最美的记忆。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。>/
7月3日 下午 10:08
其他

ChatGPT,成了这个“智力障碍”儿童的赛博守护灵。

之前常常跟大家聊,AI对于普通人来说,存在的意义可能有什么。一千个人,一千个哈姆雷特,每个人的答案都是不同的。而我前几天,在微博上,刷到了一个很感人的故事。它让我觉得,AI对普通人,最了不起的存在意义之一,就是陪伴。以及在你需要的任何时候,永远都会第一时间做你最坚强的后盾。在看到那个故事之后,我也在第一时间,去联系了微博作者,要到了故事的原地址,以及他的个人授权。这个故事发生在韩国。原贴的作者叫북극에는
7月2日 下午 12:03
其他

看完了钉钉新发布的「AI搜索」,让我觉得,真香。

故事是这样的。前几天,钉钉的朋友跟我说,他们全新的AI版本要上线了。主打一个“AI搜索”。他说钉钉这个AI搜索,跟外面那些抓全网的AI搜索很不一样,不做全网搜索,主打搜索用户在钉钉里面所有的聊天记录、文档、会议、日程、知识库等等。不仅能够搜索到全面的信息,还能用AI整合钉钉上的工作信息,比如整理出与谁、在哪个场景(比如哪个群、哪篇文档、哪次会议或哪个业务流程等)的综合信息。问我有没有兴趣当个内测用户,来体验一下。我一听,这个牛逼啊。因为在前东家里,我们日常的沟通协同,用的就是钉钉。小公司有个通病就是,文档和项目管理,真的极其混乱,一会这起了一个文档,一会这建了一个项目,一会在群里聊下这个,就那10个人能特么拉11个群,还特么经常聊串频道。。。所以我每次想追一些项目进度,或者找一些信息和数据,真的太麻烦了。那时候,我就很期待有个类似于AI搜索的东西,直接根据我的问题一键总结完,别让我特娘的去挨个点进去自己搜了。这个点,就像我经常给朋友举的例子一样,当一个人来找你借一把锤子,说他想用锤子,来锤凿子,想在墙上开个洞。要锤子是需求吗?当然不是,在墙上开个洞才是他的真实需求,这时候你真实应该给他的,不是一把锤子,而是直接扛着电钻帮他把墙给突突了。而同样的,在搜索这块,把这些乱七八糟的信息搜索出来根本不是我的需求,我的真实需求是,把这些乱七八糟的信息搜出来以后加工整合完,以供我做下一步的决策。而现在我有了各种各样的AI搜索,但是核心问题是:我能搜到全世界,却搜不到我自己的知识。这是两种完全不同的方向。现在主流的AI搜索产品们,以360AI搜索和Perplexity为代表,做的是传统的搜索引擎曾经去做的事,比如你问他喜马拉雅山曾经有哪些名人攀登过,或者哥白尼有过几个儿子,他能给你很清晰很准确的回答。但是如果你直接搜:下周我的工作计划是什么?我要去几个城市跟哪些人开会?这些AI搜索产品们能搜出来才有鬼了,如果真的能搜出来,我建议你去直接报警,真的。所以坦率的讲,我们需要这种类搜索引擎的公域AI搜索之外的,为我个人服务的新AI搜索产品。我之前对AIPC抱有很高的期待,是因为那就是一个天然的能完美契合我个人场景的产品。我电脑里面有一堆乱七八糟的各种信息和文件,每次想找个图或者啥文档都找半天,我又不是那种特别图书馆式整理的人。毕竟我们大多数人接收信息的方式,其实是基于“时间流”的,几十个聊天窗口,聊天里穿插着各种信息和文档,个人知识库啥的又在别的软件里,开会后的会议纪要又在另一个APP里,重要的事情还会在邮箱里。巨头疼,真的,每次我想做点啥东西,都是需要先找到散落在四面八方的各种碎片,再去整理成可用的信息。搞的跟玩宫崎英高的艾尔登法环一样。所以,我们其实都需要一个能够以“我”为中心,以“事”为中心的结构化知识网络。结果,AI
6月26日 下午 4:11
其他

我用ChatGPT做了一下姜萍的数学竞赛题,它懵了,我也懵了。

最近这个叫做姜萍的小姑娘火了。不仅仅因为她进入了2024阿里巴巴全球数学竞赛决赛入围名单,而且,因为她是17岁、93分、全球第12名。且是前三十名里唯一的女生。更炸的一点是,是她的学校。江苏省涟水中等专业学校。嗯,中专。她的上下左右,是北大、剑桥、清华、MIT、中科院等等等等。这个江苏省涟水中等专业学校,就让人非常的出戏。而且她读的还是,服装设计专业。这一下子,给我人看的更麻了。今年是阿里全球数学竞赛的第六届,而姜萍,也是有史以来,第一个冲进决赛的中专生。互联网上铺天盖地,有太多太多关于她的讨论了。无论如何,在这里,先向小姑娘献上膝盖。希望她越走越远,去攀登自己理想的高峰。同时也让我对另一个点很好奇,2024阿里巴巴全球数学竞赛,这是个啥比赛。于是我就去查了下资料和题。才发现原来是马爸爸在2018年就发起的比赛,然后阿里巴巴公益、达摩院一起把它打造成为现在世界上规模最大的在线数学竞赛。而且最好玩的是,今年的竞赛,有一个很创新的点,就是,支持AI队伍参赛。然后有563支AI队伍冲了进去,但是无一入围。最高分才34分,跟人类第一113分差的挺远,跟姜萍的93分也有很大的距离。看了一下AI组的榜单,第一名又是个高中生=
6月19日 下午 12:08
其他

他用Luma和Suno复活了逝去11年的爱人,给我看破防了。

年孩子出生后才买了录像机,所以在那之前,几乎没有动态影像。如果能从残留的照片中看到那个人动态化的话,这就是哈利波特的魔法。松尾几乎是一瞬间就疯狂了。(这是使用
6月17日 下午 12:08
其他

微信里拥抱AI最成功的,居然是他们的微信输入法。

我从几个月前其实就就把我的输入法从搜狗换成微信输入法了。主要是因为它有两个很牛逼对我很刚需的功能。一个是跨设备复制粘贴。我在手机上复制一下,直接在Windows上就能粘贴。在Windows上复制一下,手机上也能秒粘贴,支持安卓、IOS、Windows、Mac四端互传。。。完全无感,体验丝滑,对我这种经常要码字的人极好。第二个是我需要常用语,还能用不同的自定义字母触发。比如我已经录好了一些常用语。有个我公司的信息,我给它的自定义触发词是gs(公司的缩写),我只要输入gs两个字母,就能自动把我的公司常用语给调出来。。。真的很爽。除了这两个原因外,还有一个原因是,我横屏打游戏回微信消息时,它的键盘布局是最人性化的。。。总之就是各种原因,让我抛弃了搜狗,转身投入到了微信输入法的阵营。而今天在用微信输入法的时候,我发现他们居然更新了一个新功能,而且是跟AI有关的新功能。就是这个,问AI。输入问题后,按一个“
6月14日 下午 12:09
其他

实测完快手的AI视频「可灵」后,我觉得这才是第一个中国版Sora

昨天,6月6号,是快手的13周年生日。在这一天,所有AI圈的人都想不到,快手在13周年之际,没有任何预兆、没有任何宣传,直接发布了他们的AI视频大模型。可灵。给我也干了个措手不及。我当时正在看360的发布会,突然手机就叮叮当当一顿狂响,打开一看,一群人跟我说:快快快,看快手,他们发AI视频模型了。我当时想着,发个AI视频模型就发个AI视频模型呗,能有啥大惊小怪的,这年头,做AI视频的多了。要么就是发了个老技术的产品给大家先用着占坑,要么就是发了个Sora那种新技术的纯PR视频,又不给用纯粹To
6月7日 上午 6:08
其他

AI领域的赛博佛祖,他的名字,叫张吕敏。

前两天,AI绘图圈的赛博佛祖张吕敏,又出手了,发了一个挺牛逼的新项目,叫Omost。简而言之,Omost的作用就是,把简单的一句话,扩展成非常牛逼、详细且精准的Prompt,然后挨个画出各种不同的区域,最后合成在一起。注意,是合成,所以精准可控能力极强。非常牛逼的自动绘图的Agent,从此,人人都可以不被所谓的Prompt困扰,普通人用一句话,也能生成很不错的图片。有一个东西跟Omost用的是同样的技术路线,它叫Dalle3。但是,Dalle3毕竟是OpenAI的玩意,你只能付费氪金用,没有开源。但是Omost,开源。我的小伙伴@祁珏瑜第一时间做了一个本地整合包扔给了我,在我玩了2天后,只能感叹一句:太强了。比如我想画一个飞船,我就在输入框中直接输入“太空中的未来飞船”,他就会开始哐哐给我写代码。这些代码可能很多朋友看不懂,我翻译成中文的你们就知道了。可以理解成把画面拆成了了九份,九宫格,画面中心是什么,画面左上方是什么,右下方是什么,然后挨个去绘制,最后合在一起。当把所有的代码输出完后,我们直接点渲染就行,一幅飞船图就出来了~也可以跟Dalle3一样,再进行对话式的区域修改,比如把背景从太空换成海洋等等。但是目前还没法接入到SD生态里去,大模型也是封装好的。大语言模型用的是Llama3-8b,绘图模型用的是RealVisXL
6月4日 下午 12:08
科技

豆包的一场SEO,让AI搜索成了"内容垃圾场"

我是万万没想到,现在的AI内容生态。居然也活成了一种赛博喂屎的无限循环。故事是这样的,有一个我玩了很久的游戏,叫《重返未来1999》。里面有一个概念,叫神秘学,大概就是超能力的意思,神秘学家就是这群有超能力的生物的统称,不止人,还有苹果、狗啥的。但是具体的故事背景和这个群体的来龙去脉,说实话我玩了半年了,我还是一脸懵逼。所以我就想好好的查一查。照例打开了几家AI搜索工具,输入了关键词:重返未来1999神秘学当然,结果不重要,毕竟我们的重点不是这个游戏,这个只是个引子。重点是,我在用Perplexity搜索的时候,在AI搜索的参考来源里,看到了一个非常离谱的东西。这个离谱的亮点我不知道大家有没有发现。没发现的话,我再把图放大点。这个头像代表的产品,它叫豆包。如果你现在还不知道啥是豆包的话,你可以把它理解成类似于ChatGPT的一个AI应用。我当时看到这个头像,我都懵了。不是哥们,你九游、B站的logo出现在这是理所应当,甚至交易猫出现在这,我都不是那么意外,人好歹是平台,上面有内容。你豆包出现在这个位置,这也太诡异了吧。这就好比是我是北齐王子,现在我要带兵出征,去进攻那遥远的大庆。在出征之前,那第一件事就是补充好我家兵马的粮草。所以我下令,让城里十几个包子铺,把每家最好的包子给我贡献上来充当粮草。每家铺子都没啥异议,纷纷把自家的包子给打包送了过来。只有一家铺子非常离谱,这家铺子叫豆包铺,老板叫豆包。别家铺子送包子,这家倒好,老板直接把自己人给送过来了,还义正言辞的说:“我就是粮草”。我特么....这即视感,就是我用AI搜索搜到豆包那一刻的感觉。简直离谱妈妈给离谱开门,离谱到家了。点开Perplexity的来源列表。再点开豆包的这条详情。说实话,看到的这一瞬间,我人都麻了。。。豆包直接自问自答,自己给自己生成了关于重返未来1999的答案。因为现在的AI搜索,都是AI根据关键词识别,去老的搜索引擎上去爬数据,然后再总结洗稿一下扔给用户,Perplexity就用的是bing和google的搜索引擎。所以想都不用想,这肯定是豆包的SEO手段,为了在搜索引擎里权重更高,直接AI生产垃圾文,固定成静态网页,然后被搜索引擎抓到,给自己引流。但是这一下,我真的有点恶心到了。直接AI洗稿生产垃圾喂给google,AI搜索再从google里面抓到信息组装成一坨回答,最后送给用户。用户接收到的不是AI组装好的优秀答案,而是被精致包装包装好的一坨屎。这个过程,我简称“屎上雕花”。在SEO领域,有一种方式叫“内容农场”,模式很简单,用抄袭、洗稿的方式,生成大量低质量内容,并关联搜索引擎中高点击率的关键词,从而获取访问量,用流量变现。与其称为“内容农场”,我更喜欢叫它,“内容垃圾场”。这些垃圾们疯狂的污染着各种信息渠道,去年有一个很好玩的图我一直存在手机里。现在,AI时代来了,生产垃圾的速度比以前提升千倍万倍,但是大家还是没有明目张胆的去这么SEO,而豆包直接官方下场生产垃圾,这是我真的没想到的。我在google里直接用了一个特定语法,来去查查来自豆包的SEO。site:doubao.com这不查不知道,一查吓一跳。整整4000多条...最关键的是,如果你是自己生产垃圾就算了。但是居然还有用户使用豆包的聊天记录,也被放出来了,而且可以在搜索引擎中搜到。比如这条。点开后发现,是用户的实际聊天记录。网页版分享对话,可勾选被搜索收录,确认后,豆包会把用户的聊天记录放出来,变成静态网页,给搜索引擎做SEO。但是这个行为,我觉得就有点过了。。。我又去搜了一下ChatGPT、文心一言、通义千问、智谱、Kimi等等,我很怕是现在所有的厂家都在这么干。结果还好,基本都为0。毕竟这已经不是SEO问题,这是隐私安全问题,都知道大模型会拿着我们的对话数据去训练,这已经是默认的共识,但是居然还把聊天记录公开的放出来,能让搜索引擎搜到,这就有点过分了。现在看,豆包还比较克制,只放了几千条SEO的页面出来。但是如果未来有一天,大家都开卷了呢?现在的一些内容农场,一个月生产的垃圾可是百万计的。我不敢想象如果未来大家为了卷SEO,都在用AI自动化拼命的生产垃圾,这个公域的生态得有多差。直接变成了屎的循环。大模型、搜索引擎、AI搜索,三个直接组成流水线,一起给用户赛博喂屎。大模型有了流量,搜索引擎和AI搜索有了资源。只有普通用户们,被淹没在垃圾里。再也找不到那些,谈论着古今中外、天文地理的优质信息。嗯,再也找不到了。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。
5月31日 下午 12:08
其他

体验完新上线的「腾讯元宝」,我觉得公众号的未来就靠它了

上一次腾讯云的发布会,腾讯混元宣布了2个新的产品,智能体平台“腾讯元器”和AI助手APP“腾讯元宝”。元器其实已经开始内测了。不过元宝一直也没上线,官方的消息是,5月30号,元宝会正式上线。等了又等,腾讯元宝,今天终于在今天早上,上线了应用商店,开放了下载。我其实一直都对元宝有非常高的期待,是因为在发布会时候,他们重点提到了AI搜索。纵观现在的AI搜索,他们的回答质量,除了跟大模型和预设的Prompt有关,我觉得更多的关联是,信息源的质量。因为现在的AI搜索,大致的原理是,根据你的问题,去全网找对应的可以爬的资料,然后以最相关的几篇作为参考文章,来给你回答。比如我一个很喜欢用的AI搜索产品,它的参考是这样的。参考的链接确实很多,但是有个通病是,低质量的信息也挺多的,各种营销号和洗稿满天飞。这个没办法,国内互联网的通病。用一句不好听的话说:很多所谓的新闻平台里面的信息,都是垃圾。而我心中信息质量最高的两个文字平台,一个是微信的公众号,一个是小红书。但是微信嘛,大家懂的都懂,非常的封闭,外面的公司基本爬不到公众号的文章信息,但是公众号信息的整体质量,又非常的高,远超出一般的新闻平台,基本上是我大多数时间的搜索引擎,有任何新东西或者我想研究某个选题,我第一时间一定会去微信搜。大部分的内容,都有专业的人,给你掰开嚼碎,然后首发在公众号上。比如我想搜一个基金经理的分析报告,微信搜索,出来的内容质量,真的很高,对基金经理的分析到了非常专业的地步。你要是对比一下雪球知乎还有一些新闻平台,你就会发现那真的是鱼龙混杂不忍直视。但是没有一个AI搜索产品,能抓到公众号的文章。嗯,一个都没有。所以我对腾讯元宝抱有很高的期望,是因为这毕竟是腾讯体系内的AI产品,有很大可能,他们的信息源里,能用公众号作为参考。那回答的质量,我觉得能高非常非常多。所以,我第一时间,把元宝下载了下来。进去之后,直接问了一个非常新的问题:"Suno
5月30日 下午 12:09
其他

2024,我们在深圳,又用AI一起交了个朋友

今年的《一起AI,交个朋友》,跌跌撞撞之间,已经到了第三站了:深圳。前面两站,分别是1.6号,在北京:3.16号,在上海:而这一次,我们终于来到了深圳,报名了近1600人,但是我们场地可以容纳的人数,也终于从以前的100人,突破到了200多人的规模。感谢腾讯混元爸爸,给了我们一个腾讯滨海总部最高规格的宴会厅,派了无数的会服人员来帮助做活动,忙前忙后,真的非常非常感动。当然,除了腾讯混元爸爸以外,还得感谢这次深圳场其他的AI朋友们,没有他们,这个活动根本就不可能办的起来。唯有感恩。其实办这个活动的初心很简单,在我的认知里,AI是一个基建,所有行业其实都可以用AI来重做一遍。而这个行业太新,其实中间的壁垒太高、流动性太差,但是有很多人想去跨界认识其他行业的人。比如金融人很想认识产业的去交流,产业的人很想认识媒体的人,媒体的人又很想认识影视文娱的人,诸如此类,等等等等。还有很多国企的人,比如法院、监狱、XX装备部等等,其实都对AI很感兴趣,但是缺少交流的人。所以不如办个线下活动,用一个契机,让大家一起用AI,来交个朋友。于是,这个活动就诞生了。每一次都会在不同的城市,将大家通过背景分组,一起交个朋友,然后听听分享学点干货,乐呵乐呵,再一起共创一些有意思的小活动。然后将AI这个生态,不断的繁荣壮大,我这个AI殿堂前的门童,就感到很开心了。这次深圳场,当然也请了很多的嘉宾来分享干货~一.《AIGC的“业余价值”》来自:汗青
5月26日 下午 5:10
其他

《一起AI,交个朋友》深圳场来了!这个活动是越办越刺激了。。。

之前我就一直有一个想法:我想搞一场跟AI有关的交流会,任何行业+AI。不是那种很学术的、或者一股子割韭菜味的交流会。就是那种很轻松的大聚会形式的AI交流会。其实就是一起聚一聚,开开心心的聊一聊玩一玩,顺带学一点干货,一起交个朋友,给2024这个AI之年,开启一个崭新的起点。2024年,已经举办过两场了~1.6号在北京:3.16号在上海:而这一次,我们终于来到了深圳!而且这一次,非常感谢腾讯混元爸爸赞助了一个巨型的宴会厅。所以,我们终于可以突破过去报名1500人只能来100人的这种尴尬场景了。这一次,我们可以容纳,200人了!=
5月11日 下午 12:16
其他

人在大理,亲眼见到了老百姓是怎么用AI的

我的这个愉快的五一假期,终于结束了。。我昨天从云南飞回天津,半夜才到。今天坐在工位上,一度神情有一点恍惚。我之前是做啥的来着?不过在这趟云南的旅程中,还是有很多有趣的经历。最好玩的是我在丽江住的民宿的老板,他居然也想学AI。那个老板是个看着快40的很魁梧的汉子,笑起来贼像巨石强森。我那天从玉龙雪山下来,快8点钟,前脚一踏进民宿,老板露着他标志性的巨石强森的笑容,挥着手跟我招呼:小兄弟回来了啊,来来来,坐,喝茶喝茶。我刚坐下,老板就跟我寒暄了起来,聊了半响,老板问我:你是做啥的?我说我就是个自媒体,偶尔写写文章。老板说:"你自媒体啊,写文章啊,那太好了,那你用过AI不,他们说用AI写文案老好了。"我说:"AI啊,用过一点,那玩意写东西确实还行。"老板:"那你给我推荐推荐,我现在天天拍了好多好看的照片,想给他们配点字,但是我老是不知道写啥,AI能行不。"我说:行啊,这有啥不行的,你打开你那个应用市场,搜一个叫“智谱清言”的,把你图传上去,让他给你写一句朋友圈文案就行了。老板乐乐呵呵的就去应用商店去下载了,那时候正好我有个电话,就先溜了。直到今天打开朋友圈,无意间刷到民宿老板的动态。平常那仿佛高高在上的AI,经过我的手,终于也流向了普通老百姓。忽然有一种莫名的感触。我就随手给他点了个赞。没想到过了十几分钟,老板给我发了条语音:写作业,这种直接大模型估计不太行了。得上Agent,正好之前让老板下的智谱的,我就在他们的智能体中心里翻了翻,正好找到一个叫"作业帮手"的智能体,用了下还不错。我就直接发给了他。看着他连声道谢的样子,我忽然也有点泪目。能帮助普通人,让普通人用上AI,去真正的改变、帮助自己的生活,这事可能比我写几篇爆款文章,更来的让人有成就感。这是一件事,而另一件事是,五一节前,我发了一篇文章,是用教大家怎么搭一个知识库怎么摸鱼。但是节中节后,有很多朋友看了那篇文章后,跟我说,卡哥,还是太难了,那么多参数,啥意思啊?我最后要去哪用啊?好复杂啊。。。或者还有朋友人跟我说,那玩意知识库容量太小了,不够用啊。。就...确实。但是现在这个时代,搭建自己的AI知识库,不管是用来自我提升,还是用在工作中提升效率,都逐渐成为了一个刚需。民宿老板可能不需要知识库,但是千千万万的普通打工人需要啊。而且千千万万的普通打工人,要的是上来就能用的知识库,通俗的讲,就是我奶奶来了都会建的知识库,我奶奶专属的AI私人专家。但是一堆知识库产品,要么要用API去接,要么就是面向开发者的平台,一堆工作流、触发器啥的,普通人根本用不明白。找来找去,我把目光又瞄到了给民宿老板的"智谱清言"上。。。因为我把全市场的AI应用基本翻了个遍,这是目前唯一能傻瓜式自建智能体,做知识库,且容量超大的AI应用。1000个100M文件,最多1亿字。嗯,你们就卷吧你们。。。主要GLM-4还免费,不要钱。不像某一个国产的4,算了你懂得。网址在此:https://chatglm.cn/当然手机APP也有,你去应用商店搜智谱清言就行,但是做智能体我建议还是去网页端,因为APP端他没法传知识库。你可以在在网页端把知识库传完以后,再去APP端用。点击左下角那个创建智能体。然后去到一个新页面,智能体的配置页面。很简单,可以通过傻瓜式对话来创建一个智能体。因为要做一个可以传知识库的私人助理,所以我的对话长这样:"你是一个我的私人助理,就叫摸鱼小助手吧。我会给你一些知识库文件,到时候请根据我的知识库文件来回答我的问题,帮助我更快的工作,更好的摸鱼!"笑。当然,你们可以根据自己的详细需求去调整,反正说大白话就行。大概十几秒时间,智谱清言就会给你生成一个智能体。不像其他智能体平台那么复杂的界面,什么工作流什么触发器啥的,简简单单的头像名字简介三件套,再加一个prompt,和可有可无的开场白和推荐问题。当然,最重要的还是那个,可以传1000个100M的上限1亿字的知识库。正好我最近一直在学习科技TOP媒体“差评”的过往所有文章。我就随手扔了最近差评的300篇文章上去。注意,是300篇。。。非常的猛。然后在右下角,点开知识库设置。可以把两个知识库的选项都打开,然后把联网能力给关掉,不关的话可能会有一点影像知识库的调用能力。一切完毕之后,我们点右上角的发布。想只给自己用,就选私密就行;想要分享给同事或者朋友用,选分享就行;你要是想让智谱清言的所有用户都能用,你就选公开。不过毕竟是自己的私人知识库,我建议还是私密或者分享比较好。建完了以后,你就可以在智能体中心,看到自己已经建好的小智能体了。点进去,我问个问题试一试,比如我说:华为Pura
5月8日 下午 2:53
其他

短短五一假期,小红书被一个"黏土AI"攻陷了

这几天,我人在大理旅游,没事的时候刷着小红书查旅游攻略。结果每次一进首页,攻略没刷着,铺天盖地的先被各种奇奇怪怪的黏土风格的照片攻占了。她们长这样使的。数据高的离谱。还有这样的。一股子《小羊肖恩》的黏土风格既视感。我甚至在小红书上,学到了一个描述这种《小羊肖恩》黏土风格滤镜的新词,叫:丑可爱丑可爱的。。。嗯,很形象。。。小红书上几个大的词条,比如#黏土、#我的黏土世界
5月5日 下午 12:30
其他

当ChatGPT永远记住了我的一切 - 他甚至比我自己还了解我

最近的OpenAI的风声和小道消息有点多。比如OpenAI要自己做的类Perplexity的AI搜索引擎SearchGPT,比如最近在无数媒体号上闹得沸沸扬扬的gpt2-chatbot。当然还有那一直期待着的GPT-4.5和GPT-5。不过这一切都是捕风捉影,真正能用的新东西,也是一个我自己期待了很久的功能,终于在前两天正式上线了。Memory。记忆。之前在用AI的过程中,其实一直有一个痛点,就是他永远无法记得:我是谁,我喜欢什么,我是做什么的。而如果真是你身边的好助理,他会不记得这些吗?别说你是谁了,你喜欢吃啥口味的菜,喜欢喝什么口味的奶茶,甚至她连你每天几点起床都知道的清清楚楚。这才是一个优秀且称职的助手。所以记忆功能,我一直很期待,它是刚需,是我觉得AI走向真正的AI助手,所必须踏出的那一步。先看看怎么使用记忆的相关内容。我们点击左下角,打开设置,找到“个性化(Personalization)”选项。接下来,进入“记忆(Memory)”设置。最开始点击Manage是空的,他是没有记住任何信息的我们试着更新一下记忆部分。一般触发词是:请记住XXXX、我希望XXXX。比如我先让他记几个我自己的信息。如果出现了Memory
5月3日 下午 4:27
其他

最强开源大模型Llama3深夜发布 - 世界不能没有Meta

其实昨天在微软的偷跑之后,就已经有消息说,Llama3要出了。这个消息的振奋程度,对于AI圈来说,甚至不亚于所谓的GPT4.5。毕竟,meta才是真正的那个"OpenAI"。有多少大模型的生态,是建立在Llama上的,大家都懂。而这个开源之光,被全世界无数人盯着的大模型,Llama3,在时隔近9个月之后的今晚。终于正式发布了。我的几个朋友,都已经疯了,比如zR同学:今夜无眠。Llama3目前在自己的官网和huggingface上,模型已经上架:https://llama.meta.com/llama3/而且还是meta的老规矩,虽然写的是特定条件下商业使用(月活不得超越7亿),但是基本等于完全免费商用了。这次开源了2个模型,8B和70B。然后就是大模型的传统艺能:跑分。坦率的讲,他们这个跑分,有一点的离谱。5个评测集分别是MMLU(学科知识理解)、GPQA(一般问题)、HumanEval(代码能力)、GSM-8K(数学能力)、MATH(比较难得数学)不管是8B还是70B,基本等于全线秒杀。8B这边,直接把同尺寸的摁在地上打。曾经的Mistral
4月19日 上午 2:47
其他

我们花了10天时间,给CCTV6做了一部AI短片 - 5000字全流程复盘拆解

故事是这样的。前段时间,我们花了10天时间,为CCTV6电影频道AI影像人才优选计划,做了一部AI短片,《玉覆荆楚》,在4.12号的电影频道M榜盛典上正式亮相,同时也算为后面的AI影像大赛打个样。然后肉身去了一趟M榜盛典现场,走了一段秀亮了个像。当你前排就是王迅、郑凯、刘浩存、周深、乌尔善、张艺谋、成龙这一种明星大佬时,那种感觉还是有点意外以及特殊的。回到这个片子本身。因为是荆楚文化命题作文,所以我将我一直很喜欢的游戏元素,跟给我震撼非常大的荆州博物馆中的文物做结合,有了这么一个故事。这是一个关于游戏、文物、坚守、传承的故事。
4月14日 下午 7:07
其他

当我用AI去复活文物 - 只想再看一眼千年前的它们

好久不见。这是我写公众号以来,第一次断更了将近一周。主要原因是一直在做一个新的片子,做了很久,真的很久。不眠不休肝了快10天了。当然,过程中又有无数新的经验和工作流,可以分享。大的工作流我觉得可以等片子放出来后,后续再来详细拆解。但是今天,我觉得可以先拎一个案例和技巧出来写,是一个非常好玩的案例。用AI,复活文物。我说的复活文物,不是用ControlNET啥的把文物照片一笔一画画出来。而是真的在此基础上,给他一个新的形象。因为文物,很多都是从墓葬里发掘出来的,这些东西,大部分都是陪葬品,它的属性,也就是:器具,或艺术品。这些器具和艺术品,古人在创作他们的时候,一定都有参考物,不一定是现在生活中真实存在的,但大概率也存在与口口相传的故事里。而这次我们想要做的,就是去把那些参照物,做出来,来看看他们用AI做出来,到底是什么样子。我用荆州博物馆的漆木彩绘蟾座凤鸟羽人举例。这是一件非常非常牛逼且著名的藏品。时代:战国(公元前475—221年)来源:天星观二号楚墓出土级别:国家一级文物羽人是楚地巫风最盛时代最具创意的木雕作品。由上部羽人、中部凤鸟和下部蟾蜍状底座三部分组成,其中羽人为人鸟合体,立于凤鸟之上,造型奇特,形象优美,制作精致。羽人被当作天上的神灵,蟾蜍代表月亮之精,凤鸟是飞翔于天地之间的神鸟,羽人又是变化莫测的神人,三者合一,寄托楚人遨游九天,羽化成仙的愿望。最开始,我们在还原的时候,愁破了脑袋。上部羽人、中部凤鸟、下部蟾蜍。我不得不佩服古人的想象力,真的。有一种别致的美感。但是还原的时候,真的愁。我们最开始还原的时候,本能的还是上了SD。这个东西,它就很奇怪....三部分,你直接让AI上,它真的很难理解。然后海辛决定,上辛苦活。一部分一部分的重绘,然后,再拼起来。我隔着屏幕都能感受到海辛的崩溃=
4月8日 下午 9:32
其他

一张图片,一键跳舞 - 这是ViggleAI的完美首秀

今天愚人节,终于可以整活了。这个好玩的东西其实前几天我就想发出来的,但是我一直觉得它跟愚人节最配,毕竟真的能整活,所以一直等到今天,正好前两天他们也发了2.0模型,刚好。憋死我了。这玩意,它叫Viggle。主打一个可控生成,一个人物照片,再加一段视频,或者是用一个动作prompt,可以生成这个人物的动作和极度细致的表情。跟去年阿里那个AnimateAnyone,也就是通义千问那个科目三有点像,但是产品版+全面版的。不过,我觉得这个东西非要用一个产品去对标的话,它应该是低配的WonderStudio。但是WonderStudio那个门槛和成本,真不是普通人能搞得定的,不知道这个产品的,我很久以前写过一篇,可以看看:Wonder
4月1日 下午 5:50
其他

当我用360AI浏览器来搜周鸿祎 - 它真的好努力

坦率的讲,习惯对一个人的影响是巨大的。我虽然用了很久很久的AI,在帮我做N多事,但是有一个场景,我还是非常固执己见,或者是说习惯的力量,让我没有发现。那就是:搜索。搜索其实我从去年NewBing第一波内测的时候,就开始用,但是那个体验和准确性,真的让我着实想吐槽。再后来,有一搭没一搭的,逐渐还是回到了百度和Google。直到最近的一件事,让我彻底从传统搜索,叛逃到了AI搜索阵营。故事是这样的。我最近做了N场访谈和讲座,做完以后,我觉得我自己的演讲技巧,实在太烂了。急需恶补。。。这时候,我想起了很久很久以前,红衣大叔周鸿祎周老板,做的那一场演讲公开课,那天因为我的一些工作原因,只听了一半,然后就溜了。但是,讲的,真的很特么的好。最近终于稍微有点空,我想找一找周老板之前的演讲公开课学习一下,最好是有那种,已经给我完全总结好的脑图或者全文金句或方法。然后,我就去XX上搜了一下。就...不是我夸张,每一条我都点了,除了视频的那个,其他的全是乱七八糟。。。就很烦。本来我的心情还不是这么愤怒的,主要是我在搜周老板演讲公开课之前,我好死不死的,还去搜了药。。。因为我最近有点食物中毒,没空去医院,自己外卖买了点药,但是那药说明书写的跟天书一样,我实在不知道要咋吃。我就在XX上搜了一下,我也是真的扇贝。。。点进去,是这种让我脑子直接宕机的对话。我就想要一个简单、快速、准确的答案。就特么这么难吗?这两件事一叠加,在我搜完周老板的演讲公开课信息后,我就有一点绷不住了。当时只想骂一句:你大爷的。骂归骂,但是当时我觉得这样肯定不行,我需要一种新的工具。鬼使神差的,在当时,我想到了360的AI搜索。。。毕竟,AI搜索,在这种乱七八糟的信息里,还是比传统的强太多了,另一方面就是,我搜周老板,你360AI搜索,理论上,应该是效果还不错吧。毕竟你懂的。然后我又在XX上搜了半天,终于找到了360AI搜索的网址。360AI搜索,现在被集成在了360AI浏览器里面。下个浏览器就能用了。网址在此:ai.se.360.cn打开首页,我问出了我的那个问题:周鸿祎演讲公开课重点。让我很意外的是,这一瞬间,世界就干净了。干净的让我意外,干净的仿佛一点也不360...总结上,也都有理有据,直接把重点全都拽出来了,最骚的是,它真的快啊...1秒左右就直接出首字了,犹记的去年玩NewBing的时候,那等的,等的特么的花都谢了。挺多人觉得准很重要,或者详细很重要,但是你在做ToC端,面向用户的时候,"快"这个词,有时候更重要。在交互设计里,一般说系统反馈时间,要在0.3s以内;对话式交互容忍度偏高,但是你动不动等个10秒钟,用户只会杀了你。只会觉得你又卡又慢。。。后面就是正常的追问、延伸阅读,该有的都有,但是有一个我觉得很好玩的东西,而且也是我需要的。哥们直接把思维导图给我做出来了。。。这时候,我只想跟360说一句:哥,你是我亲哥。每次搜索,都把思维导图给你总结出来。这才是用户体验的,极致升华。这也能看出360AI搜索的定位或者是后续优化迭代方向∶一次搜索,帮你把所有资料准备齐全。本质上还是搜索+提效的延伸,所以大概率后续除了脑图,什么PPT,什么散点图,什么数据表,我觉得他们都可能做进去。。搜个数据趋势,下面直接把数据图表都给你画好了,你就说你心不心动。从右边的关联连接中,我跳到了周老板演讲公开课的视频里,是一个B站的链接。但是我确实没空,把这完整的三小时,再刷一遍。视频在我心里,一直是一个低信息密度的模态,几个小时的时间,看一个视频,结果接受到的信息,其实跟十分钟的文字的信息密度大差不差。所以这种超长视频,我真的一般没啥耐心和时间从头看到尾,即使他是个周老板教演讲的视频。。。直到360AI浏览器,给我弹了个这么个玩意。这就属于心有灵犀,要啥来啥。视频的AI分析,其实是我很多时候,都需要的。所以我就好奇的点了一下。这一下,我人炸裂了。单看这张图可能没啥。但是,下一张,就有点,NB了。极度细致的分时间段的重点总结。每一个时间点,都是可以跳转的,左边的视频直接无感跳转到对应时间点。很丝滑,非常丝滑。这个功能其实本质上,就是把音轨提取下来,传到云端做文字识别,然后分块总结,从右边的字幕其实就能看出来。但是,能做的又快有准又好的,讲道理,确实不多。这是我今天玩AI搜索后,得到的一个意外之喜。360AI浏览器的长视频理解和问答,还是有点东西的。而这个长视频理解,还有另一个让我很惊喜的功能:识别不同发言人。我直接掏出了我心里封神的一个对话视频。罗翔、papi酱、LKs去年的一次圆桌对话,在我心里直接封神。任何没看过的人,我都推荐大家去看看。用360AI浏览器识别完后。三个人的时间线,理的明明白白,可以随意跳转,总结,提问,对话。怎就一个"爽"字了得。除了AI搜索、长视频之外,这个360AI浏览器还有文档和音频的理解和处理。基本全模态,都被他玩明白了。最关键的是,这玩意,他免费,而且,用户体验极佳。。。这个才是最重要的。Kimi已经证明了,在很多时候,用户体验才是ToC最重要的一环。而360这个AI浏览器,免费+多模态的理解与处理+不那么360的产品设计,综合而成,所带来的极佳用户体验。这是我觉得360这个公司,在AI时代,可能打出的翻身一战。360AI浏览器,有点意思。希望你是一条优雅的鲶鱼。给所有大厂们,卷个天翻地覆。给无边的黑暗,照进一束360度的光。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。
3月27日 下午 5:18
其他

Suno正式上线V3版本 - 这是AI音乐的"ChatGPT"时刻

对于生成式AI,我一直是按照五个模态去进行分类的:文本、图片、声音、视频、3D。而声音领域,可能是在我的分类里,我最感兴趣也是最喜欢的一个。在某一个路演的PPT上,我给声音又拆成了4个细分:TTS、SVC、AI音效,我都写过,也玩了很久,而生成式AI音乐,是我一直没写过的东西。不是我没玩,是我觉得这玩意,真的还没到值得去写去推荐的地步。。。整个AI生成式音乐的代表,那肯定就是SunoAI了。而且这玩意其实也火过2波了。第一波是去年3、4月的时候,有一个很火的开源项目叫Bark,就是出自Suno之手,拿了将近32k的星标。然后就是去年12月21号的时候,为了庆祝《海贼王》动画25周年,海贼王决定重制最开始的东海篇的那60集,然后尾田这货,给海贼王官方发了一首贺曲,叫《YO-HO-HOおれ達海賊》。这事本身是个好事,但是好死不死的,这曲子是特么拿AI做的,就是用今天的主角Suno出的。。这曲子大概就是这样,很糙,基本等于没法听的地步。然后就被网友一通骂,你这个浓眉大眼的尾田怎么也用AI了。。。传着传着就变成《海贼王》重制版要用AI做了。。。于是骂的更凶了。。。这个小插曲,还是挺有意思的,也间接的标明,当时的Suno的质量,是真的差。直到今天,Suno终于上了V3版本。在我听了很多demo和自己也跑了二十几首后,我觉得,AI音乐的"ChatGPT"时刻,终于到来了。这是我的一个demo。弊端就是Suno最多只能生成2分钟的音乐,所以可以听到最后,会戛然而止直接截断,但是已经比V2好很多了。但是这个音质、咬字、节奏编排啥的,也都好太多太多了。发给朋友听,她回了一句是:卧槽,还是好听的。网址在此:https://app.suno.ai/点Create就是生成的主页。主要用两种模式,一个是打开的"Custom
3月22日 下午 3:56
其他

一手体验200万字上下文的Kimi - 月的暗面,终于有了光

你要说这两个月,最火的大模型公司和最火的大模型应用是什么,那肯定是:月之暗面,和他们的Kimi。去年10月,月之暗面第一次放出他们的大模型Kimi。我也写过一篇文章:当我把我的100篇文章喂给AI
3月19日 下午 9:59
其他

2024,我们真的又用AI,交了个朋友

今年1.6号,我在北京办了一场聚会:北京场《一起AI,交个朋友》在那一篇回顾下,我说:眨眼间,2个月过去了。就在昨天,3.16号,上海场,终于在跌跌撞撞中,在各种奇奇怪怪的不可控的因素中,圆满结束。这个抽象的聚会,能圆满的开两站,我是一点都想不到的。而且好像它越来越好了...毕竟一些更抽象的原因,奖品是化缘的、场地是化缘的、嘉宾是化缘的,甚至连会务组都是好朋友们临时拼起来的,大家这个干一点活,那个干一点活,各种饱和式支援。无以言谢。希望这次的小聚会,让大家不虚此行。当然,首先还是得感谢我的AI朋友们。没有这些朋友们,这个活动根本就不可能办的起来。唯有感恩。最开始的破冰交流,聊的都非常的火热。然后就是偏干货的嘉宾分享,这次请了AI领域头部的KOL:海辛&阿文,闲人一坤,汗青来分享,也请了好基友公司智谱和Pixverse的朋友Cara和Jaden来聊聊行业的展望~都非常的干货~一.《央视春晚AI舞蹈全流程拆解》来分享的好基友:海辛&Simon阿文无敌棒的海辛和阿文,也是我整个AI的启蒙人,我的偶像,这次属实是跟偶像面基了,也是圆了我的一个梦。海辛和阿文非常深入浅出的给我们分享了他们央视春晚AI舞蹈的全历程,从头到尾的所有的尝试,所有的坑,都一点一点给我们拆解,有无数的技巧和干货,还记得阿文在讲的过程中,那数次感叹的,“好累啊”hhhhhPS:海辛真的超好看,阿文也真的超帅!二.《超拟人大模型和个性化场景化的AI服务》来分享的好基友:Cara
3月17日 下午 10:30
其他

一手实测Claude3 - GPT4啊,你的时代终于要过去了

大半夜的,一石惊起千层浪。Claude3,正式上线。这个由OpenAI分裂出去的兄弟公司Anthropic,在悄然无息之间,就这么默默地把Claude3发了。没有所谓的发布会,没有什么华丽的舆论,就仅仅在X上发了个帖子。我发现现在的这些AI公司真挺有意思,都把X当成发布主阵地了。。。字很少,但是事挺大。一口气发了3个模型,Claude
3月5日 上午 5:48
其他

我跟12家大厂一起弄了个免费的AI大聚会 - 上海,我们来了

之前我就一直有一个想法:我想搞一场AI行业的交流会。不是那种很学术的、或者一股子割韭菜味的交流会。就是那种很轻松的大聚会形式的AI交流会。其实就是一起聚一聚,开开心心的聊一聊玩一玩,顺带学一点干货,一起交个朋友,给2024这个AI之年,开启一个崭新的起点。上一场,是今年1.6号,在北京,大家反响还是蛮好的~具体情况可以见:2024,我们真的用AI交了个朋友其实很多朋友,都在说,有没有可能,在别的城市,也可以聚,大家一起玩~那必须行啊!于是,我就又在上海,找了12家好基友公司"化缘"...结果是,大家都非常,非常的支持我。泪目...真的,很感动。所以,我也非常真心的希望大家。2024年3月16号,来上海玩!一起AI,交个朋友。要感谢的人太多,我就不在这一一谢过了。到时候3.16号那天,我当面给大家磕三个,以表谢意。但是因为场地、还有自己的精力真的有限,所以这个聚会活动,还是最多100人啦。依然是审核制,没有门票费用,不要钱。大家感兴趣的可以扫上面海报的二维码报名,我和会务组的小伙伴们,审核过以后,会加大家好友发邀请函,并且拉到3.16上海聚会的群里~AI啊,真是个有趣的物种。AI圈里的人啊,也真都是有趣的人。致坚守。致热爱。致各位真诚的陪伴。也致我们心中永不磨灭的童心。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。
2月27日 下午 7:39
其他

Stable Video正式开放公测 - 珍惜AI视频4s时代的余晖吧

在漫天的Sora和X一舟的热度下,其他的产品动向,好像都被淹没在信息海中。但是,还是有一些有趣的产品和有趣的动向的比如,曾经的AI视频御三家之一,Stability(就是那个开源了Stable
2月22日 下午 6:48
科技

OpenAI全新发布文生视频模型Sora - 现实,不存在了

现在是2点22分,跟朋友们打完LOL手游,准备倒头就睡。临睡前,刷了一眼X。然后,特么的,看到了一个消息,能给我震惊成傻逼的消息:OpenAI,发他们的文生视频大模型,Sora了。。。。。而且,是强到,能震惊我一万年的程度。。。https://openai.com/sora如果非要用三个词来总结Sora,那就是“60s超长长度”、“单视频多角度镜头”和“世界模型”我先放3个例子,再具体去说。我的脑海中,突然冒出了《三体》中杨冬的一句话:“物理学,不存在了”套用这句话。那就是。“现实,不存在了”文本、图片都已经被AI攻占,而现在,AI视频,这个人类最后的最坚固的堡垒,在OpenAI的Sora攻势下,也已经很难再分清,AI和现实的界限了。什么以前的AI视频工作流,全部成了往日泡影,全都滚犊子吧。都TM跪下,都给OpenAI喊爸爸。说回那三个最核心的特点:“60s超长长度”、“单视频多角度镜头”,还有那个最核心的,“世界模型”
2月16日 上午 5:56
其他

我们用了60个小时,做了一部AI短片 - 全流程复盘拆解

故事是这样的。年前的时候,我和@JessyJang一起花了60个小时,用AI做了一个我们真正意义上的短片故事
2月15日 下午 8:32