We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
LAM (阿里巴巴) 团队和社区的朋友们,大家好!
为了帮助其他用户更好地理解和部署此项目,我制作了一个 YouTube 视频,详细记录了从在线 Demo 体验到本地 WSL2 环境下的 Ubuntu 环境部署、模型/数据准备、WebUI 修改和使用的全过程,并对最终效果进行了初步分析。
视频链接在这里: [https://youtu.be/pfF3D9hH16M]]
视频核心内容概览:
(00:10) 项目介绍:LAM (阿里开发) 功能 - 将参考视频中的动作、表情、口型迁移到静态(人像)图片。
(00:50) 在线 Demo (Hugging Face) 体验:
演示流程:选择人像图片 -> 选择参考视频 -> 运行推理。
提及处理过程涉及背景移除和人脸修复/增强 ([02:14])。
重要观察: 生成的视频虽然同步了动作和口型,但人物面部外观与输入图片有明显差异 ([03:30]),这可能是人脸修复步骤导致的。效果评价为“一般般”。
(04:01) 本地部署准备 (GitHub & 环境):
浏览 GitHub 仓库,查看安装指南、模型下载说明和官方提供的 WebUI (app_local.py)。
(05:19) 详细本地部署步骤 (Ubuntu):
安装系统基础依赖:编译工具 g++ 等。
安装指定版本的 CUDA Toolkit (12.1),包括下载、安装和配置系统环境变量 ([05:56] - [07:40])。(再次强调环境变量配置的重要性)。
克隆项目仓库。
创建并激活 Conda 环境。
安装 Python 依赖: 使用对应 CUDA 版本的安装脚本 (./install_cu121.sh 在视频中使用) ([08:40])。
重要依赖修复: 指出官方脚本可能缺少依赖,需要额外安装才能成功运行。
(09:36) 模型与数据准备:
提及需要下载核心模型和示例数据(图片/视频)。
可以通过官方提供的脚本下载。
演示了将预下载的模型和数据文件拷贝到项目目录。
需要解压下载的模型和数据压缩包 ([12:59])。
(11:06) 重要:本地 WebUI (app_lam.py) 修改:
指出运行本地 WebUI 需要修改 app_lam.py。
关键修改点: 需要删除 Hugging Face Space 相关代码块,并调整 Gradio 的 launch() 函数参数 (如 server_name="0.0.0.0") ([11:43] - [12:22])。
(13:34) 启动本地 WebUI:
运行修改后的 app_lam.py。
注意: 首次启动会自动下载额外的模型文件([13:57])。
(14:22) 本地 WebUI 演示:
界面与在线 Demo 类似,选择示例图片和视频。
运行推理,观察到 VRAM 占用不高。
播放生成的视频 ([15:50])。
(16:05) 效果分析 :
本地生成结果同样展示了面部外观与原图不一致的问题 ([16:17])。
生成的动画在动作、表情、口型同步上技术是成功的,但整体效果**“不是特别自然”** ([16:31])。
分析认为面部修复/增强步骤是导致外观变化和可能不自然感的主要原因。
提及当前开放的只是 base 模型,未来可能有更好的模型放出 ([16:56])。
提及项目未来计划支持音频驱动动画 ([17:20])。
推测与建议: 效果对于动漫/卡通化形象可能比真人照片更好,因为外观变化可能不那么突兀 ([17:56])。建议在类似虚拟人、展馆导览等场景应用。
LAM 项目在多模态人像动画方面做了非常有意义的探索。希望这份详尽的视频教程、部署记录和使用反馈能对项目的发展和社区用户有所帮助。感谢阿里巴巴团队的开源!
The text was updated successfully, but these errors were encountered:
Thanks for your tutorial! Welcome to contribute more.
Sorry, something went wrong.
No branches or pull requests
LAM (阿里巴巴) 团队和社区的朋友们,大家好!
为了帮助其他用户更好地理解和部署此项目,我制作了一个 YouTube 视频,详细记录了从在线 Demo 体验到本地 WSL2 环境下的 Ubuntu 环境部署、模型/数据准备、WebUI 修改和使用的全过程,并对最终效果进行了初步分析。
视频链接在这里: [https://youtu.be/pfF3D9hH16M]]
视频核心内容概览:
(00:10) 项目介绍:LAM (阿里开发) 功能 - 将参考视频中的动作、表情、口型迁移到静态(人像)图片。
(00:50) 在线 Demo (Hugging Face) 体验:
演示流程:选择人像图片 -> 选择参考视频 -> 运行推理。
提及处理过程涉及背景移除和人脸修复/增强 ([02:14])。
重要观察: 生成的视频虽然同步了动作和口型,但人物面部外观与输入图片有明显差异 ([03:30]),这可能是人脸修复步骤导致的。效果评价为“一般般”。
(04:01) 本地部署准备 (GitHub & 环境):
浏览 GitHub 仓库,查看安装指南、模型下载说明和官方提供的 WebUI (app_local.py)。
(05:19) 详细本地部署步骤 (Ubuntu):
安装系统基础依赖:编译工具 g++ 等。
安装指定版本的 CUDA Toolkit (12.1),包括下载、安装和配置系统环境变量 ([05:56] - [07:40])。(再次强调环境变量配置的重要性)。
克隆项目仓库。
创建并激活 Conda 环境。
安装 Python 依赖: 使用对应 CUDA 版本的安装脚本 (./install_cu121.sh 在视频中使用) ([08:40])。
重要依赖修复: 指出官方脚本可能缺少依赖,需要额外安装才能成功运行。
(09:36) 模型与数据准备:
提及需要下载核心模型和示例数据(图片/视频)。
可以通过官方提供的脚本下载。
演示了将预下载的模型和数据文件拷贝到项目目录。
需要解压下载的模型和数据压缩包 ([12:59])。
(11:06) 重要:本地 WebUI (app_lam.py) 修改:
指出运行本地 WebUI 需要修改 app_lam.py。
关键修改点: 需要删除 Hugging Face Space 相关代码块,并调整 Gradio 的 launch() 函数参数 (如 server_name="0.0.0.0") ([11:43] - [12:22])。
(13:34) 启动本地 WebUI:
运行修改后的 app_lam.py。
注意: 首次启动会自动下载额外的模型文件([13:57])。
(14:22) 本地 WebUI 演示:
界面与在线 Demo 类似,选择示例图片和视频。
运行推理,观察到 VRAM 占用不高。
播放生成的视频 ([15:50])。
(16:05) 效果分析 :
本地生成结果同样展示了面部外观与原图不一致的问题 ([16:17])。
生成的动画在动作、表情、口型同步上技术是成功的,但整体效果**“不是特别自然”** ([16:31])。
分析认为面部修复/增强步骤是导致外观变化和可能不自然感的主要原因。
提及当前开放的只是 base 模型,未来可能有更好的模型放出 ([16:56])。
提及项目未来计划支持音频驱动动画 ([17:20])。
推测与建议: 效果对于动漫/卡通化形象可能比真人照片更好,因为外观变化可能不那么突兀 ([17:56])。建议在类似虚拟人、展馆导览等场景应用。
LAM 项目在多模态人像动画方面做了非常有意义的探索。希望这份详尽的视频教程、部署记录和使用反馈能对项目的发展和社区用户有所帮助。感谢阿里巴巴团队的开源!
The text was updated successfully, but these errors were encountered: