我如何在手机上运行现实生活中的数字人物?
发布时间:2025-06-26 13:24编辑:bat365在线平台官网浏览(106)
道瓦塔尔(Taoavatar)是一项由陶波元元素团队在阿里巴巴开发的3D数字人类技术。这项技术可以提供3D数字人类的真实时间代表,并在手机或XR设备上提供强大的AI对话能力,从而为用户提供现实的虚拟交互式体验。如何实施?在本文中,我们将透露Taoavatar背后的黑色技术!今天,我们已正式宣布了MNN-Taoavatar,这是3D直播的开源人类数字应用!当前,该应用程序的源代码同时在MNN GitHub存储库中发布。开发人员可以自己下载,安装和体验。我们感谢大家与我们沟通,讨论和探索IA数字人类技术的无限可能性。什么是Taovatar?道瓦塔尔(Taoavatar)是陶波(Taoavatar)在数字人类技术领域的最后一个进步,结果详细的研究附件在相关文章中发表。文档标题:道瓦塔尔:阿富塔l,现实而完整的体系,可通过高斯爆发的纸张地址3D:https://arxiv.org/abs/2503.17032v1open地址来源:https://github.com/github.com/alibababa/alibababa/mnnn/mnn/manter/master/master/masper/marps/mreard.mreard.mreard.mreard.mreard.mreard.mreard.mreard.mreard.cc.com/marp.com in Splashes 3D,我们提供了一个现实且交互式的数字人体解决方案。多视频视频输入使您可以快速生成高富达数字人类图像。这些图像不仅准确地捕获了精致的表情和手势,而且清楚地显示了衣服和天然头发震颤的微妙褶皱,提供了自然而真实的视觉体验。道瓦塔尔还大大降低了数字人类建模的成本,并显着提高了效率模型CIA。罚款是好的,并为数字人类的大规模应用提供了基础。在中国的3D Vision会议中,Taoavatar成功被选为“最佳示范候选人” FOR出色的性能和广泛的适用性,吸引了广义的行业关注并捕捉了人类技术数字研究领域的重点。什么是mnn-taoavatar? MNN-TAOAVATAR是一种开源3D数字应用程序,它将许多关键的IA技术集成到实时接纳3D数字人类语音互动,这使用户可以在手机上与数字人类进行自然沟通,就好像他们正在与“活着”的人交谈。 MNN-Taoavatar不仅在手机上没有问题,而且与X R设备完全兼容。这是Android和Apple Pro Vision的电话体验:MNN-TAOAVATAR设备集成了许多关键技术,包括精确的语音识别功能,使您可以准确地了解其所有句子。高级大型语言模型,使您对自己的意图和情感有更深入的了解。自然和柔和的声音综合技术让您自然而然地反应。更令人惊讶的是,它可以根据声音来促进实际的面部表情变化,从而带来更加生动和现实的对话体验。这是现代算法模型提供的强大支持。基于Endrey AI推理引擎MNN,我们开发了一系列中央模块,其中包括具有大型语言模型的MNN-LLM,用于语音识别模型的MNN-ASR,用于语音综合模型的MNN-TT和用于数字人类渲染的MNN-NNR。在此阶段,市场上有MUWS数字解决方案,但是执行基于MNN的TAO的独特好处是什么?如今,大多数主要的数字人类解决方案主要基于云算法。这些解决方案基于强大的服务器和高性能图形卡的资源,以启用ASR(Audio-Voz-C),复杂的处理任务,例如Onnize),TTS(语音到语音,音频生成),A2B(混合音频形状,面部代表性,面部代表性)n由音频指导)应完成。即使某些开源解决方案允许本地运营,它们通常也需要配备高端硬件。例如,您需要一个需要RTX 3090或更高规范图形卡的设备,以确保执行无推理和表示任务问题。相比之下,MNN-Taoavatar可以执行所有先前的算法模型,以表现出极高的效率和便利性。 MNN-TAOAAVATAR提供了两个基本优势:实时Endrey对话和真正的实时终点。首先,真实的 - 时间真实对话要求ASR(自动语音识别),TTS(文本转换语音)和A2B(LIP Controller)的积分RTF(实际 - 时间因素)在一个内部进行控制,以实时在最终方面进行对话。 RTF值越低,生产速度越快。连续优化取得了以下进展:281 MB端侧模型的RTF为优化了在Endrey中用户声音的真实时间文本的转换,0.18。大端语言模型的预先速度最多可达到165个令牌/s,并且解码速度达到41个令牌/s,从而确保了软文本内容的产生。 1.34 GB的Mo RTFDELO TTS针对0.58进行了优化,即实时的两种文本织物和复制。使数字人物的面部运动更自然,真实的时间代表edside将表示过程分为两个主要步骤。首先,根据语音输入,面部表达运动的系数是通过算法模型精确提取的,然后最终可以完成并存在3D数字模型的表达系数和预先记录的数据。在这两个部分中渲染的性能是:368 MB端侧A2BS模型RE TF在0.34成功优化,实时转换为语音面的表示系数。 thrOUGH独立开发了高性能的NNR渲染,250,000点云模型在每秒60幅画(fps)中轻轻地重现,以使柔软自然的动画化。先前特定的Endanese模型的特征以及我们实现的技术指标如下(基于具有精英芯片Qualcomm Snapdragon 8的智能手机测试结果):一般MNN-Taoavatar流程。如果用户不输入任何音频,则MNN-Taoavatar USA MNN-NNR代表预定的数字人类模型的位置,并生成封闭的嘴唇屏幕,静态表达式或预先建立的动作。当用户开始输入语音时,系统将根据以下过程执行:MNN-TAOAVATAR根据此过程执行关键过程,使用户可以与自然,柔软和充满活力的数字人进行实时对话。此过程背后的MNN框架为技术实施和性能优化。接下来,我们将详细调查Arqui,详细研究Mnn-Taoavatar技术Techtura及其关键优化点。 MNN-TAOAAVATAR MNN-TAOAVATAR技术基于MNN发动机。集成了多种算法模块,例如MNN-LLM,MNNNR和SHERPA-MNN(包括MNN-ASR和MNN-TTS)。下图显示了应用程序中这些模块的体系结构图。 MNN:Liviano MNN推理引擎(移动神经元网络)是开源AI模型的强大推理引擎。它的主要好处包括:高性能推断:接受各种非均匀计算机方法,例如CPU/GPU/NPU。它可以轻松满足真实的时间应用,例如增强现实/虚拟现实(AR/VR),语音识别,大型语言模型(LLM)。乘法兼容性:C ++,PythoAdmitte多语言接口(例如N,Java和JavaScript),并与常规的系统平台完美集成。模型Liviano:IncorpatED量化和修剪工具有效地压缩了模型的大小,节省了重要的内存空间并减少了负载时间。 MNN-LLM:移动模型MNN-LLM显示基于MNN顶部开发的MNN-Transform。 ER模块的可功能模块用于允许AIGC任务,作为大型语言模型以及文学和艺术图形。包括以下关键技术:模型导出工具:将扩散扩散模型/传播转换为单击,从而大大简化了模型的实现和使用。模型量化机制:压缩大型模型,例如原始5.58 GB的QWEN2.5-1.5B,以1.2 GB为1.2 GB,保持高解码速度,达到每秒45个令牌。 KV缓存/LORA支持:借助KV缓存技术,MNN-LLM显着提高了对话响应速度。此外,Aplora技术授权允许该模型灵活地适应多种任务方案,而无需对整个模型感到不满,从而减少了该模型消耗计算机资源。 MNN转换器由三个主要部分组成:导出工具,量化工具,配件和电动机。导出工具负责将多个大型模型转换为MNN格式并创建所需的资源软件包。量化工具可以有效地减少MNN模型的大小,从而减少执行时间内的内存并加速执行。插头和电机模块提供了执行时间LLM/SP PREAD所需的必要特征,例如单词分割,KV和Lora Cache的管理。在小米14部手机的测试中(配备了Qualcomm Snapdragon 8 Gen 3),MNN-LLM表现出出色的CPU性能。您的preg speedramado是火焰的8.6倍,是fastllm的20.5倍。 MNN-LLM视角解码的速度也很好地工作,达到了火焰的2.3倍和FastLlm的8.9倍。 Sherpa-MNN:新的离线语音智能SOLMNN团队为提高语音识别性能的UTION已深入优化了原始的Sherpa-Onnx框架,并推出了Sherpa-MNN,该sherpa-MNN承认ASR(自动语音识别)和TTS(语音文本为语音)。一个线程执行量化传输的ASR模型(特定模型是Sherpa-onnx流式Zipformer-Zh-en-en-en-2023-02-20)。在此测试中,ONXRUNTIME的RTF(真实时间系数)为0.078,而MNN的RTF仅为0.035,比OnXRuntime快两倍。小包装尺寸:由于功能相同和性能更好,因此MNN量是五个onnxruntime。 (对于Android Architecturearm64,MNN的体积必须为3.3 MB,并且OnnxRuntime需要15 MB)。 MNNNR:MNNNR高效神经网络表示电动机是3D核心de Taoavatar表示,旨在用于移动设备上高质量数字模型的真实时间表示。它的主要技术优势包括:简单开发:通过分开从表示过程中的算法,开发人员可以更多地关注创新和算法优化。 Pytorch模型可以轻松以NNR模型导出,并在没有深度图形编程体验的情况下实施。非常轻:通过“编译”使用深度学习模型和表示形式的OUT -LINE计算机逻辑,整个软件包非常小,因为它只需要在执行时间内执行深度学习模型和表示形式(以Android为例,只需要200K)即可。然后是最初的集成,几乎不需要更改。商业功能的扩展由línease中的编译器管理。算法迭代只需要更新NNR文件,提供解耦算法和发动机集成迭代。高性能:与MNN的有效执行能力相结合,MNN-NNR通过引入“肮脏的机制”和技术来保证对表示过程的有效执行无副本的神学,从而实现了软渲染效果。为了使数字人类模型能够实现有效的表示,我们执行以下深度优化:如果您执行数据同步优化以消除同步数据所需的时间,则所有模型均在MNN GPU后端执行,并运行MNN在NNR执行时间中使用MNN使用的GPU后端,以共享同一上下文上下文上下文上下文。这样,将MNN张紧器数据直接存储到GPU内存中。 NNR执行时间实现了直接读取MNN张紧器GPU内存的解决方案,该解决方案可直接用于无需复制数据,以消除数据同步时间。 NNR编程优化执行时间实现了“肮脏的机制”。在这里,仅执行MNN模型,每个帧中的输入数据都会更改。在Taoavatar方案中,深度模型包括基本脱佛剂,对准器,变形剂,颜色计算和分类。必要的动态高斯数字数20 fps的人类重建的图像。因此,基本诽谤者,对准和变形只能在20 fps下工作。如果视图的视图几乎没有变化,则无需为所有图片进行高斯点的分类,因此分类模型通过另一个开关来控制其行为。这样,一般执行时间大大减少了,因为只有颜色保留在每张图片执行的真实模型中。使用MNN编译器对模型模型模型的优化,输入数据FP16的压缩可以将产量提高50%。测量SSIAS分类,MNN实现了基于GPU的基数分类算法,并使用自动调整技术来确保所有类型的GPU中的最佳性能。在对这些优化的支持下,MNN-NNR成功实现了,当动画模型更新时,可以在Acurrent 60 fps中发出图像D仅在较低的频率下(例如20 fps)。 3D高斯数字:小型型号还可以提供高质量传统高斯积分和大型存储量的重建成本。 Taoavatar使用多个新的优化解决方案。 StyleNet+MLP混合建模:通过强大的StyleNet教师网络,学习复杂的态度变化,并有效地烘烤“此信息”,将其烘烤到光MLP学生网络,从而大大降低计算机成本。动态高斯点云技术:在单个图片中重建的静态高斯点云已更新为高斯点的动态云技术,该技术使您可以重复使用多马尔科数据。这不仅大大提高了表示效应的稳定性和清晰度,而且还可以在表示过程中降低闪烁。高压缩资产的压缩算法:按250,000云点的顺序,模型的文件大小仅为160 MB,这使其成为现实y适合实施设备。通过相同材料重建的数字人类模型在不同的Goussian点云计数下显示出不同的清晰度,模型量和表示性能。测试是对几个人群计数模型进行的,以找到最佳的平衡点。在进行整体比较之后,250,000个高斯云数字人类是用于终端实现的理想配置解决方案。它不仅可以保证表示在表示期间的高分辨率,而且还可以精心控制单个100-200 MB ID的存储空间。使用硬件需求的过程ARE会执行许多优化工作,但是必须将多个模型集成到手机中。因此,手机性能仍然有一定的要求。 MNN-TAOAVATAR的建议配置是:您需要Qualcomm Snapdragon 8 Gen 3或CPU等效CPU。模型操作至少需要8 GB的内存。模型FILE必须至少有5 GB的空间。低性能设备可能会导致延迟,间歇性声音或有限的功能。您想自己体验简单的体验吗?按照下面的简单步骤操作。首先克隆项目代码:git克隆https://github.com/alibaba/mnn.gitcd apps/android/android/mnn3davatar and构建构建:连接并打开其在手机上的Android电话移动电话的应用。 https://github.com/alibaba/mnn/blob/master/apps/android/mnntaavatar/readme_cn.md taoavatar: https://arxiv.org/html/2503.17032V17032V1MNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN HTTPS://ARXIV.ORG/ABS/2506.10443TAOAVATAR Collection: https://modelscope.cn/collections/taoavatar-68d8a46f2e554ALLM型号:qwen2.5-1.5b mnn:https://github.com/alibababa/alibababa/mnnn/mnn/mnn/tree/master/master/master/master/3rd_party/3rd_partty/mmoder sy https://modelscope.cn/models/mnn/mnn/bert-vits2-mnn基本型号tts:bert-vits2:https://github.com/fishaudio/bert-vits2 soundodell声音动作模型:单元alker-mnn:https://modelscope.cn/models.cn/models.cn/models-mnnn/mnital-mnital-mnital-mnnn nn基本声音动作模型:uniteker:https://github.com/x-niper/uniteltalker/unitaltalker/unitallalker- https://modelscope.cn/models/mnn/taoavatar-nr-mnnasr: sherpa bilingual stream Recognition Model: https://modelscope.cn/models/mnn/sherpa-mnn --- zipfor- zh-en-en-en-2023-demin-en-en-en-2023-demin Taoavatar:请参阅http://china3dv.csig.org.org.cn/livedemo.html