Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

推理出来的视频,整体来说还不错。但是嘴型有时候会突然很快 #102

Open
wanghx1121 opened this issue May 9, 2024 · 32 comments

Comments

@wanghx1121
Copy link

@ZiqiaoPeng 作者你好,在使用hubert推理后,嘴型在某个阶段会突然很快。麻烦看一下。谢谢!~
在nerf中,使用同一个视频同样的参数推理,没有复现该问题

5.9.5.mp4
@ZiqiaoPeng
Copy link
Owner

看起来不是推理的问题,是视频拼接的问题,在那一帧应该是用的别的帧的图片,然后导致突然的抖动,可以检查一下特定帧对应的图片。

@ZiqiaoPeng ZiqiaoPeng reopened this May 9, 2024
@wanghx1121
Copy link
Author

看起来不是推理的问题,是视频拼接的问题,在那一帧应该是用的别的帧的图片,然后导致突然的抖动,可以检查一下特定帧对应的图片。

这个问题,应该怎么去定位 ,麻烦告知一下 @ZiqiaoPeng

@wanghx1121
Copy link
Author

看起来不是推理的问题,是视频拼接的问题,在那一帧应该是用的别的帧的图片,然后导致突然的抖动,可以检查一下特定帧对应的图片。

5.9.7.mp4

上述视频是推理完成后,自动生成的测试结果。也出现了这个问题!~

@wanghx1121
Copy link
Author

看起来不是推理的问题,是视频拼接的问题,在那一帧应该是用的别的帧的图片,然后导致突然的抖动,可以检查一下特定帧对应的图片。

5.9.7.mp4
上述视频是推理完成后,自动生成的测试结果。也出现了这个问题!~

@ZiqiaoPeng

@ZiqiaoPeng
Copy link
Owner

如果方便的话可以把原视频发送到我的邮箱pengziqiao@ruc.edu.cn,以对问题进行定位。

@wanghx1121
Copy link
Author

如果方便的话可以把原视频发送到我的邮箱pengziqiao@ruc.edu.cn,以对问题进行定位。

可以的。下面是nerf训练出来的结果:

5.9.8.mp4

@wanghx1121
Copy link
Author

pengziqiao@ruc.edu.cn

已发送邮件,请查收!~

@wanghx1121
Copy link
Author

如果方便的话可以把原视频发送到我的邮箱pengziqiao@ruc.edu.cn,以对问题进行定位。

请问你本地复现了吗? @ZiqiaoPeng

@jinqiupeter
Copy link

jinqiupeter commented May 9, 2024

Most likely it's because of your source video. Here is my result:

qs_cn_half.mp4

@ZiqiaoPeng
Copy link
Owner

wf_test.mp4

我使用hubert训练的结果没有问题,头部稳定,唇形同步,眼睛正常眨眼。

@wanghx1121
Copy link
Author

我使用hubert训练的结果没有问题,头部稳定,唇形同步,眼睛正常眨眼。

@ZiqiaoPeng 请问素材你做了特殊处理吗?能详细说一下你的预训练过程吗?谢谢!~

@StephanPan
Copy link

当推理帧和原始帧差异较大,结果会有双下巴,是需要训一下torso吗?还是贴脸的逻辑不太对?

test_result.mp4

@ZiqiaoPeng
Copy link
Owner

我使用hubert训练的结果没有问题,头部稳定,唇形同步,眼睛正常眨眼。

@ZiqiaoPeng 请问素材你做了特殊处理吗?能详细说一下你的预训练过程吗?谢谢!~

没有特殊处理,step1训练6w步,step2训练到10w步。

@wning13
Copy link

wning13 commented May 10, 2024

当推理帧和原始帧差异较大,结果会有双下巴,是需要训一下torso吗?还是贴脸的逻辑不太对?

test_result.mp4

我之前遇到过这个问题,当时尝试了在预处理数据的时候把靠上一部分的脖子区域标记成脸部,生成效果会好一些。

@wning13
Copy link

wning13 commented May 10, 2024

也可以试试用类似柏松融合的方案修复

@wanghx1121
Copy link
Author

我使用hubert训练的结果没有问题,头部稳定,唇形同步,眼睛正常眨眼。

@ZiqiaoPeng 请问素材你做了特殊处理吗?能详细说一下你的预训练过程吗?谢谢!~

没有特殊处理,step1训练6w步,step2训练到10w步。

我step1 训练20W步,step2 训练到40W步。复现了该问题。因为我的素材时长为5分钟,步数太少,像楼上所说,会出现双下巴 @ZiqiaoPeng

@HinaAnwar04
Copy link

Most likely it's because of your source video. Here is my result:

qs_cn_half.mp4

can you please share how you achieved such good results, you followed the same repo code for preprocessing or made any additional changes ? For training which asr_model you used hubert, ave or deepspeech and no of training iterations please?

@StephanPan
Copy link

有什么tricks可以提高清晰度吗,感觉预测的图像清晰度相较训练集有所下降?

@flysky126
Copy link

Most likely it's because of your source video. Here is my result:

qs_cn_half.mp4

这个是用May使用的模式训练出来的吗? 我训了新的id 嘴型对的没有那么好,是数据不够吗?

@alexcazacu
Copy link

有什么tricks可以提高清晰度吗,感觉预测的图像清晰度相较训练集有所下降?

@StephanPan When the output mp4 is merged with the target audio, the video is re-encoded, leading to a substantial loss in quality. To solve this, you can add "-c:v copy" to this ffmpeg command: https://github.com/ZiqiaoPeng/SyncTalk/blob/main/nerf_triplane/utils.py#L1101.

@StephanPan
Copy link

@alexcazacu thx for your suggestion. It's true that the ffmpeg may reduce the quality of image, but i found that the raw output of the model is of lower quality than the training images.

@samggggflynn
Copy link

Most likely it's because of your source video. Here is my result:

qs_cn_half.mp4

nice job. 请问一下,你这个训练素材多少时长? step1 和 step2 各训练了多少?

@samggggflynn
Copy link

有什么tricks可以提高清晰度吗,感觉预测的图像清晰度相较训练集有所下降?

遇到同样的问题,请问你找到原因或者解决了吗?增加数据和训练step有作用吗

@huyppppppp
Copy link

Most likely it's because of your source video. Here is my result:

qs_cn_half.mp4
请问这个使用多长的视频训练的呀,我训练出来,嘴部有抖动,你这个效果很好

@jinqiupeter
Copy link

Most likely it's because of your source video. Here is my result:
qs_cn_half.mp4

nice job. 请问一下,你这个训练素材多少时长? step1 和 step2 各训练了多少?

I trained with a 2-minute-long video, using the default steps (60k and 100k steps)

@samggggflynn
Copy link

samggggflynn commented May 13, 2024 via email

@StephanPan
Copy link

模型直出的效果下巴会有像素拉伸的效果,有人可以解答一下吗?

ngp_ep0015.mp4

@schxnhxlz
Copy link

模型直出的效果下巴会有像素拉伸的效果,有人可以解答一下吗?

ngp_ep0015.mp4

I have the same problem :/

@CSZHK
Copy link

CSZHK commented May 17, 2024

Most likely it's because of your source video. Here is my result:很可能是因为你的源视频。这是我的结果:

qs_cn_half.mp4

这个有做什么修改么,效果真不错

@CSZHK
Copy link

CSZHK commented May 19, 2024

https://github.com/ZiqiaoPeng/SyncTalk/assets/5602838/504b44a7-0a0d-4a9a-bc75-851bd968de4a
没有特殊处理,step1训练6w步,step2训练到10w步。为啥我的边框和抖动这么厉害,求帮忙看下

@schxnhxlz
Copy link

https://github.com/ZiqiaoPeng/SyncTalk/assets/5602838/504b44a7-0a0d-4a9a-bc75-851bd968de4a 没有特殊处理,step1训练6w步,step2训练到10w步。为啥我的边框和抖动这么厉害,求帮忙看下

I had a similiar issue with a person with long hair covering parts of the face. maybe also the glasses are decreasing the quality.

@zhouzhenneng
Copy link

当推理帧和原始帧差异较大,结果会有双下巴,是需要训一下torso吗?还是贴脸的逻辑不太对?
test_result.mp4

我之前遇到过这个问题,当时尝试了在预处理数据的时候把靠上一部分的脖子区域标记成脸部,生成效果会好一些。

请问有具体点的操作步骤吗,需要修改哪些文件呢

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests