-
Notifications
You must be signed in to change notification settings - Fork 8
dufo label的效果是否会影响训练 #10
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Comments
dufolabel会影响训练效果,正如我youtube视频中展示的 即使在av2数据里 dufo只是一个粗分割,效果也有很多误识别;其中我觉得误识别对效果影响不大,因为chamfer 能拉回来;但是漏识别就有比较大的问题了;模型训练过程 由loss会隐式的进行判断学习 如果可以的话,可以把数据给个demo 我看看 是不是对的 个人我测过三个公开数据集 基本都训的比较好 |
感谢您的回复,这是我制作的一个clip的数据,我放在我的NAS上了,通过链接可以直接下载,请查收: |
hello 我看到你的数据啦,首先有个比较大的问题是:
主要是dufo_label需要pose在传感器中心 才对;你能重新针对这个生成一次h5数据给我吗?(这样我再试试? 第二个发现的是,可能咱pose也没那么准?比如这个红绿只是把pose_flow加进去看一下static 有没有align 但是这里看到的 好像有点差距(不过我没量 所以上一个先解决先看看) |
hello,感谢您的回复! |
第一个是我用linefit给你示意图一下,主要是dufo是raycasting-based 而射线应该从真实传感器中心出发,这个axis的位置应该反应的是真实传感器位置才行。 |
好嘞,刚才仔细看了下您dufomap的论文,理解了您说的意思了,确实是不应该用后轴中心当做射线起点,我基于您说的思路,将点云的坐标转到了真实传感器中心为原点的坐标系下了,然后使用了采集到的绝对pose(原来是slam重建后更新的pose),新的数据链接是: |
I see 没事的,loss曲线并不是唯一标准 特别在数据噪音较大的情况,不知道你是否有val的结果,可以进行epoch下看看validation metric是否正确 这是waymo 论文中训练的 loss & val 曲线 (供你参考: 关于这个数据,现在在我看来 没啥太大的问题,dufo的误识别 在高速场景下(新的那篇HiMo) 确实比较大,所以seflow++ 我类似于针对这一点由做了优化 虽然我还没把代码放上来,但是你可以看到(Scania数据 是卡车高速场景)seflow表现确实比较差 |
这个并不是optimization-based而是feed-forward 也就是说是需要一定数据量的,论文里Fig.4 的10%也是 10k数据,而demo_data的数据只有157帧训练;所以这个训练并不能作为参考.... 针对batch size 如果batch size=2的话 对应的learning rate应该线性下降才行,你是一个gpu吗?总batch size是set_bz * #gpu;如果是一个的话 lr 需要对应缩小32倍。。。 |
收到,那我多做些数据集再跑下试试,目前测试是用的1张卡,后面数据多的话可以用8张卡来训练,感谢您的时间和解答🙏 |
没事,然后我卡车数据集的总数据量是60K左右(论文实验部分有写),大概是av2的50%数据量来着;你可以参考着看看,有问题再随时留言~ |
hello,我又来了😂我在大批量跑dufo label的时候发现有些数据会出现segmentation fault的问题(主要是这一行:mydufo.run(data['pc0'][range_mask], pose_array, cloud_transform = True))
|
大批量跑dufo是指一台机器吗?一台机器的L1 cache是共享的; 我大批量是在slurm下管理的:https://github.com/KTH-RPL/OpenSceneFlow/blob/main/assets/slurm/dufolabel_sbatch.py 用了五个机器来着.. 但是如果数据量不大,我建议直接单个跑就行,单个dufo把thread拉满 异常数据是指?点云没点?还是什么?如果是没点,可以直接做一层判断 丢弃这个数据(我对数据异常的filter out是在process的时候做的,https://github.com/KTH-RPL/OpenSceneFlow/tree/main/dataprocess 比如这里面两个都会判断点数是否足够100个(已经很少了) 不然都不会成为frame |
是用一台机器批量跑多条数据的,用的process.py,我验证了一下,是固定有一些场景的数据跑mydufo.run的时候会出现问题的,报错的信息是这样的:
我debug看了一下,这些数据的点数是正常的(30万左右),里面也没有nan、inf之类的值,我还在看这些数据与其他的数据有啥不同,希望能在跑mydufo.run之前过滤掉这些数据 |
如果可以 你可以直接筛选一个有问题的 我可以有空的时候看一下 异常数据
…On Tue, Mar 25, 2025 at 11:02 ShuaiPeng Hou ***@***.***> wrote:
是用一台机器批量跑多条数据的,用的process.py,我验证了一下,是固定有一些场景的数据跑mydufo.run的时候会出现问题的,我debug看了一下,这些数据的点数是正常的(30万左右),里面也没有nan、inf之类的值,我还在看这些数据与其他的数据有啥不同,希望能在跑mydufo.run之前过滤掉这些数据
—
Reply to this email directly, view it on GitHub
<#10 (comment)>, or
unsubscribe
<https://github.com/notifications/unsubscribe-auth/AIN2HBAVEPTL63MR3DEY7JL2WEZU3AVCNFSM6AAAAABZKJD4T2VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDONJQHA4DMMBSGE>
.
You are receiving this because you commented.Message ID:
***@***.***>
[image: houshuaipeng]*houshuaipeng* left a comment (KTH-RPL/SeFlow#10)
<#10 (comment)>
是用一台机器批量跑多条数据的,用的process.py,我验证了一下,是固定有一些场景的数据跑mydufo.run的时候会出现问题的,我debug看了一下,这些数据的点数是正常的(30万左右),里面也没有nan、inf之类的值,我还在看这些数据与其他的数据有啥不同,希望能在跑mydufo.run之前过滤掉这些数据
—
Reply to this email directly, view it on GitHub
<#10 (comment)>, or
unsubscribe
<https://github.com/notifications/unsubscribe-auth/AIN2HBAVEPTL63MR3DEY7JL2WEZU3AVCNFSM6AAAAABZKJD4T2VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDONJQHA4DMMBSGE>
.
You are receiving this because you commented.Message ID:
***@***.***>
|
我检查了一下数据,输入除了点云外就只有pose了,点云没问题,然后我看了下pose,目前用的是绝对pose,我换成相对于第一帧的相对pose后就可以正常跑了(我怀疑是绝对pose里的值太大了导致的),目前没问题啦,感谢您的回复 |
啊哈 那应该是我python binding的时候设置pose是float32 I see 那我后面更新一下 设一个警告比较好 谢谢告知~ |
对奥 跟你讨论让我想起来,最近我们也在做一个生成一个新的数据集,发现这个pose的精度得设到float64保存,主要是计算ego_motion的时候32在读取然后计算ego_motion会丢精度;但是这个现象我在av2, waymo, nus都没看到... emmm - group.create_dataset('pose', data=pose.astype(np.float32))
+ group.create_dataset('pose', data=pose.astype(np.float64)) 如果可以的话 你可以给我分享一下你的原始数据和你的生成script (h5py的) 我可以再仔细看一下 |
作者您好,非常感谢您的代码,我在用您的代码跑自己的数据集训练的时候发现loss下降的不是很好,尤其是cluster_based_pc0pc1和dynamic_chamfer_dis,然后我可视化看了一下dufomap的结果,看上去树叶会被判断为动态点云,怀疑是这个判断出错导致模型在计算loss的时候出现了问题,所以想请教您一下dufo label的效果是否会影响训练,模型在训练过程中会重新对动静态进行判断吗?期待您的回复
The text was updated successfully, but these errors were encountered: