现在,市面上的AI工具越来越多,功能也更加强大了。从图片生成、视频生成,再到故事创作,各大互联网公司对AI技术的更新迭代,让创作变得简单。比如,字节跳动旗下剪映推出的AI创作平台“即梦AI”,集图片生成、智能画布、视频生成、故事创作4大功能,用户可以用AI作图,输入提示词生成图片,也可以生成视频,画面栩栩如生。近日,据钛媒体AGI独家获悉,“即梦AI”移动端已上架苹果APP Store应用商店。更早之前的7月31日,即梦AI安卓版已上架小米等各大安卓应用商店,版本号为1.0.0,可供用户下载使用。应用介绍显示,即梦AI是一个专为创意爱好者打造的AI表达平台,让你的想象力成为现实。主页面功能包括图片生成与视频生成,其中,图片创作可选择八款通用模型,视频生成也可以选择运镜角度,包括随机、推近、拉远、顺时针、逆时针,而视频速度则有快中慢三档。底部Tab键还可进入灵感社区,一键创作同款作品。截至目前,“即梦AI”已上线会员服务,用户可选择连续包月每月69元、单月79元,或连续包年659元,对应购买505个积分/月,从而生成约2020张图片或168个AI视频。每天登陆即梦AI可获得66积分,并在当天后清零。至于即梦AI背后的开发团队是“深圳市脸萌科技有限公司”,该公司是字节跳动在2018年收购的相机拍照工具《Faceu激萌》团队,交易总价约3亿美元。目前,脸萌科技隶属于字节跳动旗下的剪映业务,由剪映业务负责人张楠(Kelly Zhang)领导。话又说回来,在抖音的AI产品矩阵当中,即梦AI算是推出比较晚的AI产品。在此之前,抖音已经有豆包、Cici、MagicVideo、MagicAnimate等产品和模型。MagicVideo- V2于今年1月发布,是一款ai视频生成模型,可以文生视频、图生视频,也可以用来给视频换风格;而MagicAnimate于去年12月上线,可以让图片生成逼真的视频动态效果。抖音各种大模型项目遍地开花,与其加大投入大模型业务有关。去年2月,抖音开始组建大模型团队,由TikTok产品技术负责人朱文佳带队,主要发力语言和图像两种模态。紧接着11月,又有消息称,抖音成立新部门Flow,发力AI应用层,仍然由朱文佳担任业务负责人。如今,即梦AI移动端上线各大应用商店,表明抖音AI业务得到进一步发展。依托剪映在图片和视频创作领域的优势,即梦AI将可以迅速出圈。今年2月,全球知名人工智能公司OpenAI上线文生视频大模型Sora。一经发布,该款产品迅速火遍全球,成为大家的关注重点。只要给Sora一些提示词,它就可以生成1分钟的Ai视频内容。当时Sora生成的视频中最典型的案例,是一位时尚的女士穿着黑色皮夹克、长红裙和黑色靴子,手拿黑色手袋,在东京一条灯光温暖、霓虹灯闪烁、带有动感城市标志的街道上自信而随意地行走。如果不提前告诉你这是由Ai生成的,你绝对不会发现。Sora的上线引起的轰动效果可谓显著,国内各大互联网科技企业都不想掉队,争相加大投入视频生成模型。而在此之前,国内互联网公司已经有所成绩。比如阿里巴巴自研的视频生成模型 AnimateAnyone,可以让一张照片生成一段舞蹈视频,就有网友用这个AI模型让兵马俑跳科目三。而早在去年11月底,该研究论文便已经在海外视频播放量超 1 亿。今年3月,阿里一个高保真图像视频生成框架AtomoVideo,能让生成的视频更加逼真。此前2月份,阿里还推出了AI图片-音频-视频模型EMO,仅需一张人物肖像和音频,就可以肖像人物开口唱歌。另外还有腾讯的视频生成模型AnimateZero,可以实现精准地控制视频的外观和运动,比如更改车的颜色,或者将动漫人物的图片生成的视频,并融入眼睛变色、头发蓬松等细节。快手方面,今年7月初,在2024世界人工智能大会上,快手大模型首次集体亮相,其中就有视频生成大模型“可灵”。今年6月,快手自研的“可灵”视频生成大模型官网正式上线,至今不到两个月就已经迎来三次迭代升级。据了解,初次亮相的可灵大模型全面对标Sora,并在内容生产方面取得了新突破。比如此前Sora仅能生成60秒左右的高清视频,而可灵AI则将生成视频时长拉长至2分钟。可灵的画质、镜头控制、首尾帧控制也随着产品升级,而有了实质性的飞跃。
值得一提的是,在腾讯、阿里、抖音都没有向用户开放视频大模型的使用权限时,可灵率先全面开放内测,在快手旗下的快影App开放邀测体验。可以看出,国内其他互联网公司在视频生成模型方面取得一项又一项突破,这不免给抖音带来压力。抖音“即梦AI”上线各大应用商店,显然是主动出击,直面市场压力。我们也能看到,视频生成模型的功能和效果已经发生了翻天覆地的变化,场景识别和情感分析则能够更深入地理解视频内容,为用户创造出了前所未有的视觉体验。尽管大模型赛道十分火热,但成本依旧是困扰绝大多数人工智能企业的难题。相较于大型语言模型,像Sora这样的视频生成模型涉及到更复杂的数据处理和更高的计算要求,训练成本更高。据国盛证券报告《ChatGPT 需要多少算力》估算,大型语言模型(LLM)如GPT-3的单次训练成本约为140万美元。然而,对于更大规模的LLM,训练成本会显著增加,介于200万美元至1200万美元之间。LLM的训练需要使用大量的高端GPU,如英伟达的A100等。这些GPU的价格昂贵,且需要配置相应的服务器和存储设备。此外,由于训练过程中需要持续运行大量的计算任务,因此电费也是一项不可忽视的成本。以 ChatGPT 在1月的独立访客平均数1300万计算,其对应芯片需求为3万多片英伟达A100 GPU,初始投入成本约为8亿美元,每日电费在5万美元左右。同时,据澎湃新闻报道,Sora在训练阶段至少需要4200~10500块英伟达H100 GPU,并持续训练1个月。去年也有消息传出,抖音向英伟达订购了超过10亿美元的GPU。据虎嗅报道,按照某国内AI公司最近公布的AI图片生成最大折扣价算,生成1张图片的价格最低0.06元,1秒25帧,花费1.5元,120秒的视频成本高达180元。总之,AI视频生成的高成本是限制大模型企业的重要因素。因此,企业还需要探索多样化的商业模式以平衡成本与收益。
点关注,跟主编交个朋友 ↓↓↓
商务合作请联系微信/电话:18565716396
点右下角在看,下次可以优先收到我的文章 ↓