文 | 智能相对论
作者 | 陈泊丞
这是春晚舞台西安分会场《山河诗长安》的一幕:“李白”现世,带领观众齐颂《将进酒》,将中国人骨子里的豪情与浪漫演绎得淋漓尽致。
这又是浙江义乌商品市场里的另一幕:只会说几个英文单词的女老板秒变外语达人,无缝切换36国语言流畅介绍自家商品,疯狂带货。
这一幕幕不可思议的画面,成就了今天中国文化、商业的频频出圈。而一切的背后,都有着相同的支持:AI技术赋能数字内容生产和应用。
近年来,随着AI大模型技术的持续升级与赋能,数字内容生产与应用的趋势愈发强烈,现实场景与数字内容不断融合,悄然改变着整个内容创作行业的格局,甚至进一步推动了相关产业和商业的新变革。
技术创新重塑数字内容生产与应用新范式
数字人“李白”的精彩演绎、义乌女老板的AI带货——这些热门事件的背后,是技术创新突破所带来的结果。AI大模型的成熟应用,让越来越多不同形式的数字内容得以爆发,并广泛进入大众视野。
在6月21日举办的华为开发者大会(HDC 2024)上,华为云盘古大模型迎来5.0版本升级,其中盘古媒体大模型在语音生成、视频生成以及AI翻译上的技术创新就重塑了数字内容生产和应用的新范式。
对比过去的技术能力,新的技术所带来的效果是非常显著的。
一、语音生成进阶:只需三言两语,沉浸式、真实感的语音易如反掌
过去的语音生成依赖传统的声音克隆模型,由于模型比较小,精度低等原因,往往在实际操作上就要复杂得多。比如,在数据收集阶段,对目标人物的语音数据就要尽可能的多样化,包括不同的语速、语调、音量以及不同语境下的语音,需用到几百句话的录音。
然后到了预处理阶段,需要对收集到的语音数据进行清洗,通过人工标注等形式去除噪声、静音片段和其他不需要的部分。进而还要进行语音分割,将连续的语音信号切割成较小的语音片段(如音素或单词)。最后提取音频特征,再用于后续的声音建模。
以上,还只是数据收集和预处理,尚未进入真正的语音生成阶段。但其中的工作量和操作复杂度就已经很大了,对语音生成的效率和质量都是一个非常大的影响和挑战。
时至今日,随着技术的创新,基于更先进的模型,比如盘古媒体大模型的语音生成能力,这一问题得到了很好的解决。只需要几句话、几秒钟的声音,AI即可学习到个性化的音色、语调、表达韵律,从而获得高质量的个性化语音。同时,还支持喜怒哀乐等拟人情感语音,闲聊、新闻、直播等10多种语气风格,让生成的语音更真实、更有情感色彩,能沉浸式地应用到不同场景中。
比如,在视频译制中,AI将能做到配音演员的专业程度——通过盘古媒体大模型提供的视频翻译能力,AI可以把视频翻译为目标语言,并保留原始角色的音色、情感、语气。华为云也在积极联合伙伴逻辑智能,打造高感情语音克隆以及14国小语种配音,共同构建高感情超拟人多模态音频应用能力等。同时,再结合盘古媒体大模型的口型驱动模型,还可以实现音唇同步,尤其是在侧面、多人对话、物体遮挡以及人物移动等场景,也能做到很好的口型匹配。
二、视频生成跨越:只需几十张图,可控的、一致的视频唾手可得
传统的视频生成技术在资源需求、数据集、时序一致性、物理定律遵守、效率与质量平衡、可控性、逼真度和连贯性以及应用限制等方面都存在一定的局限性。如今,基于盘古媒体大模型,只需要训练几十张特定美学风格的图片,如吉卜利、二次元等风格,再输入实拍视频即可快速生成该风格的动漫视频。
除了按需时长生成稳定的动漫视频,再通过ID一致性模型,还能对生成画面中的关键角色进行一致性处理,确保视频中角色样貌特征在前一帧和后一帧中所呈现的效果始终一致,在侧脸、运动轨迹下的视觉效果合理一致,由此增强AI视频生成的可控性、一致性,让视频内容更合理、真实。
此外,业内对视频生成的真实度、复杂度也在聚焦增强。比如,OpenAI的Sora正在试图模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格一致,让AI创作的数字内容更加趋于现实创作。英伟达更是发布了一系列技术套件如ACE(NVIDIA Avatar Cloud Engine)、NeMo™以及RTX™等,去增强数字内容的真实感,让数字人物的互动、对话更加复杂、逼真。
三、AI翻译强化:准确性>93%,实时的、跨语言沟通指日可待
过去的机器翻译系统往往是基于统计模型或规则模型构建的,因此翻译结果大多无法与原文一致,显得生硬、不自然,并不具备应用到不同场景的条件。现如今,华为云通过AI实现多语种实时传译,准确性>93%,可应用于实时通话、云会议等需要实时翻译场景。
同时,基于盘古媒体大模型的语音复刻、AI文字翻译以及TTS技术,便可以实现语音的同声传译,成功实现跨语言母语沟通体验。甚至还可以结合数字人技术,让数字人来模拟用户说话,结合口型模型技术做到口型与声音精准匹配,让AI翻译、数字人与语音生成高度结合用于线上开会、跨国贸易交流等场景中。
技术的“瓶颈”在收缩?
技术的创新和突破带来了数字内容生产和应用的爆发,但另一方面随着生产和应用的进程加速,相应的技术瓶颈也在出现,并不断收缩、聚焦。目前,AI大模型在数字内容生产和应用上的问题主要呈现在三个层面。
其一,能源与计算效率瓶颈。 当前,大模型训练的算力当量还在进一步增大,从GPT-3到GPT-4算力当量增长了68倍。随着训练的token数、模型参数增加,大模型训练所需的计算量也需要随之增加。
更重要的是,其背后的成本投入是难以为继的。根据计算,训练一个5000亿参数规模的Dense模型,基础算力设施投入约10亿美金,无故障运行21个月,电费约5.3亿元——这远远超出了企业的承受范围。
但是,如果想要规模化地生产高质量的数字内容,大模型的精进又是必要的路径。在这个阶段,业内开始寻求更高效、更优的算力解决方案。像华为云昇腾AI云服务就在致力于提供方便、好用的算力服务,在算力层面不断革新计算能力和计算效率,提供从云化算力、模型开发、模型托管到生态的全栈服务。
其二,算法架构的优化挑战。 随着大模型参数的增加,想要实现更好的计算结果和输出更优的答案,那么其处理的时长就会不断延长的。但是,这在实际应用中是一个困扰数字内容生产和应用的显著问题,非常不利于数字内容的规模化、商业化发展。
由此,业内也开始在算法架构上进行优化,调整计算逻辑、处理方法来实现更优效果。其中,以稀疏激活机制为代表的MoE模型就是目前AI行业的一个焦点,类似于“术业有专攻”的理念,稀疏激活机制通过对数据任务进行拆解,分门别类,再分配给特定的“专家”(Experts)进行处理,最终综合加权输出——不仅实现了计算效率优化,也让输出结果更加全面、强大。
其三,安全与伦理问题。 大模型内部运行机制复杂,生产出来的内容欠缺可解释性和可控性,又易受对抗样本攻击,存在监管难题和安全漏洞。对此,在数字内容生产和应用中,相关的安全和伦理问题随着行业的广泛发展而日趋突显。
因此,在数字内容行业高速发展的阶段,尽管企业能吃上数字内容的红利,但也需要鉴别模型的安全性、可靠性,避免因模型的安全和伦理问题而引发负面舆论影响。在这样的挑战下,华为云盘古大模型也随即作出升级,在数据治理、安全合规等方面达到了较高标准。
以技术“造梦”,数字内容未来可期
新范式的明确带来更明确的技术方向,对于整个数字内容行业而言,这意味着未来的发展已经有了基础的雏形,前景仍是乐观的。但是,不可忽视的是,技术的瓶颈客观存在,且更加突出,摆在行业面前的依旧是一条较为严峻的发展之路。
尽管抛开技术瓶颈不谈,在具体的实践中,数字内容的生产和应用也不简单,往往都需要面对很多在技术之外的具像化问题,只有基于问题去一步步解决才能最终完成落地。
华为云团队在进行纪录片译制时就发现,项目实际开展起来会遇到各种各样的问题,比如环境声音太杂太乱,AI无法准确识别人声保证音译的完整度,或是随着场景的切换,人物的状态、口型都呈现出不同的样子,需要AI精准地匹配等等。
如果这些问题不一一解决,AI译制的效果就打了个大大的折扣。对此,华为云团队通过精准分析问题,采用不同的技术去解决各类细微问题,比如通过分离模型技术让环境声和人声分开,通过口型模型技术让声音与口型精准匹配等。
技术或许一直都有,但是如何用恰恰才是项目落地的关键。换句话说,在今天数字内容行业高速发展、技术创新加速迭代的阶段,只有实践了才能真正推动行业的发展。这是一个比拼项目的阶段,谁家的项目经验越丰富,越能知道相关的技术应该如何应用才能发挥出应有的效果。
目前,中影集团与华为云合作,将媒体大模型应用到影视工业,共同打造影视译制大模型,通过AI将视频译制成不同语言,并保留原始角色的音色、情感、语气,还能支持口型匹配,为影片译制提供全新的AI制作方式。
今天,数字内容迎来迸发,越来越多精彩内容面世的另一面恰恰是厂商们不断运用技术、验证技术、完善技术的过程。未来的项目之路任重而道远,同时也是行业走向成熟的必经之路。静待技术在创新中、实践中持续升级、完善,未来便更快能看到一个数字内容精彩纷呈,如同梦境一般的世界。
*本文图片均来源于网络
此内容为【智能相对论】原创,
仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。
部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。
•AI产业新媒体;
•澎湃新闻科技榜单月度top5;
•文章长期“霸占”钛媒体热门文章排行榜TOP10;
•著有《人工智能 十万个为什么》
•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
关注卢松松,会经常给你分享一些我的经验和观点。(1)想做副业、短视频的同学,看完本文一定对你有所帮助!(2)很多人说2024是视频号红利的一年,有分成收益,广告主也多,流量大。(3)松松一共做了10多个视频号,在视频号布局3年了,几乎啥都做过,有的收益千八百、有的收益1-2k,有的收益3-5k。(4
在大模型代表的新一轮技术浪潮下,智能化转型已然是毋庸置疑的趋势,科技大厂们纷纷给出了智能化的“道法术”,大大小小的企业也开始更新认知,想要从创新中挖掘出驱动增长的新质生产力。但现实和智能化的美好愿景之间,仍然横亘着一片鲜有人涉足的“荒海”,脚下还没有坚实的路。3月23日在天津举办的昇腾AI开发者创享
©自象限原创作者丨罗辑、苏奕编辑丨程心2024年开年,科技圈没有什么比Sora的出现更让人兴奋。如同ChatGPT在2023年初带来的LLM创业潮,Sora的发布也同样将视频生成模型推到了风口浪尖。科技巨头猛推产品,创业公司则乘风而上。3月13日,AI视频大模型公司爱诗科技完成亿元级人民币A1轮融资
最令家长们头大的问题大概就是给孩子辅导作业了吧,而包括学习机在内的一系列教育硬件产品的诞生,则很好地弥补了这一问题,成为了孩子们在家庭场景中学习的好帮手。随着用户需求的增长,教育智能硬件行业也实现了稳定发展。而在教育硬件赛道,学习机这一品类格外受人关注。说起学习机,相信绝大多人都不会感到陌生。从最早
关于AI,百度创始人、董事长兼首席执行官李彦宏的的态度很明确:“百度要做第一个用AI把全部产品重做一遍的公司。”不是整合,不是接入,而是重做,重构。随后,百度在2023年一口气发布了包括搜索、地图、网盘、文库等应用在内的10余款AI原生应用。而2024年以来,百度在AI领域做了几件大事。先是推出ER
每一次新旧代际转换时,都会上演这样的一幕:“畅想很多,落地很少”,AI原生应用似乎也不例外。关于AI原生应用的呼声已经持续一段时间,但普通用户对“AI原生”依然陌生。除了新业态普及的周期性,AI原生应用的爆发与否还涉及另一个议题,即怎么降低AI原生应用开发的难度和门槛。刚刚结束的华为开发者大会202
文|智能相对论作者|陈泊丞这是春晚舞台西安分会场《山河诗长安》的一幕:“李白”现世,带领观众齐颂《将进酒》,将中国人骨子里的豪情与浪漫演绎得淋漓尽致。这又是浙江义乌商品市场里的另一幕:只会说几个英文单词的女老板秒变外语达人,无缝切换36国语言流畅介绍自家商品,疯狂带货。这一幕幕不可思议的画面,成就了
图片|OpenAI官网©自象限原创作者丨罗辑、程心和OpenAI分道扬镳以后,Ilya“神秘而伟大”的事业终于揭开了面纱。6月20日,前OpenAI核心创始人IlyaStuskever,在官宣离职一个月后,Ilya在社交媒体平台公开了最新的动向:将成立新的实验室Superintellgence(以下
近期,苹果发布M4芯片,号称“比当今任何AIPC的任何神经引擎都强!”紧随其后微软携“Copilot+PCs”的概念加入AIPC激战。截至目前,包括联想、惠普、华为等多家主流PC厂商在内,已经至少推出了超50款AIPC产品。AI重塑行业的机遇,谁都不想错过。对于企业来说,能否积极拥抱AIPC十分关键
如果说2023年是大模型的资格赛,融资额度决定了能否晋级,2024年已然快进到了淘汰赛的阶段。字节跳动、阿里云、百度智能云、腾讯云等先后在5月中下旬加入“价格战”,轻量级模型直接免费,主力模型的API价格普遍下调了90%以上。曾经以“烧钱”著称的大模型,迅速进入到“白菜价”时代。当时就有人提出这样的
文/道哥当安卓机围绕AI大做文章时,果粉们都在等待苹果AI登场。这一天终于来了。6月11日凌晨1点,苹果WWDC2024(全球开发者大会)如期而至。不同于去年,此次大会苹果没有推出任何硬件产品,而是将焦点完全集中在了操作系统更新上,依次分享了VisionOS、iOS、iPadOS、macOS、wat
2024年高考今天拉开帷幕,据悉,重庆市高考新增了AI智能巡查系统。该系统能够实时分析研判考试异常行为,将问题消除在萌芽状态,保障考试公平公正。