[WIP] [Feature]Ensure Full Conversation Data #287

xiaohangguo · 2023-12-29T04:09:19Z

TODO LIST

任务目标

1.如果是最后一轮对话的 "input" 部分恰好等于 max_length，则将该轮对话的 "input" 和 "output" 一起移到下一个样本的开头。

2.如果是 "output" 部分中某个部分恰好等于 max_length，则按照默认行为处理，即将 "output" 放在下一个样本的开头。

测试样例

假设max_length=512

多轮对话，两条语料。
1.

{
    "conversation": [
        {
            "system": "System1",
            "input": "这是一个测试对话的开始。内容从0开始计数，直到第127个字符。",
            "output": "这是对话的回应部分。内容从第128个字符开始，一直到第509个字符，紧接着是对下一轮对话的开始。"
        },
        {
            "input": "这是第二轮对话的输入，内容从第510个字符开始，一直到第512个字符，然后超出最大长度，超出部分从第513个字符开始，一直到第530个字符。",
            "output": "这是对超出长度的回应。内容从第513个字符开始，一直到最后。"
        }
    ]
}

{
    "conversation": [
        {
            "system": "System1",
            "input": "这是另一个测试对话的开始。内容从0开始计数，直到第127个字符。",
            "output": "这是对话的回应部分。内容从第128个字符开始，一直到第500个字符，紧接着是对下一轮对话的开始。"
        },
        {
            "input": "这是第二轮对话的输入，内容从第501个字符开始，一直到第510个字符，然后超出最大长度，超出部分从第511个字符开始，一直到第530个字符。",
            "output": "这是对超出长度的回应。内容从第511个字符开始，一直到第512个字符，然后是超出部分，从第513个字符开始，一直到最后。"
        }
    ]
}

… into qwen_72b_config

…ure_full_conversation

xiaohangguo · 2024-03-05T01:58:42Z

TODO LIST

任务目标

1.如果是最后一轮对话的 "input" 部分恰好等于 max_length，则将该轮对话的 "input" 和 "output" 一起移到下一个样本的开头。

2.如果是 "output" 部分中某个部分恰好等于 max_length，则按照默认行为处理，即将 "output" 放在下一个样本的开头。

测试样例

假设max_length=512

多轮对话，两条语料。 1.

{
    "conversation": [
        {
            "system": "System1",
            "input": "这是一个测试对话的开始。内容从0开始计数，直到第127个字符。",
            "output": "这是对话的回应部分。内容从第128个字符开始，一直到第509个字符，紧接着是对下一轮对话的开始。"
        },
        {
            "input": "这是第二轮对话的输入，内容从第510个字符开始，一直到第512个字符，然后超出最大长度，超出部分从第513个字符开始，一直到第530个字符。",
            "output": "这是对超出长度的回应。内容从第513个字符开始，一直到最后。"
        }
    ]
}

{
    "conversation": [
        {
            "system": "System1",
            "input": "这是另一个测试对话的开始。内容从0开始计数，直到第127个字符。",
            "output": "这是对话的回应部分。内容从第128个字符开始，一直到第500个字符，紧接着是对下一轮对话的开始。"
        },
        {
            "input": "这是第二轮对话的输入，内容从第501个字符开始，一直到第510个字符，然后超出最大长度，超出部分从第511个字符开始，一直到第530个字符。",
            "output": "这是对超出长度的回应。内容从第511个字符开始，一直到第512个字符，然后是超出部分，从第513个字符开始，一直到最后。"
        }
    ]
}

2.如果是 "output" 部分中某个部分恰好等于 max_length，则按照默认行为处理，即将 "output" 放在下一个样本的开头。
这个需求是不是有问题？如果shuffle了以后虽然也能正常计算output 的loss，但是上下文关系好像乱了，对训练是不是一个负作用？

xiaohangguo and others added 19 commits December 1, 2023 13:36

add qwen_1.8b config

e2992e3

fix .gitignore

ed520ba

Merge branch 'main' into qwen_1_8b_config

6c011c7

deepseek config & deepseek templates

d058d9e

add qwen_72b config

9b08d54

remove superfluous config

4460f67

revert qwen-1.8b & deepseekcoder config

71fb36b

Merge branch 'main' into qwen_72b_config

4d595c9

[Fix] qwen 72b bos & stops word

f1209ed

Merge branch 'qwen_72b_config' of https://github.com/xiaohangguo/xtuner…

0f15318

… into qwen_72b_config

fix flake8 conflict

d3f79fb

fix qwen_1_8b_chat eos & stops word -> <|im_end|>

3d1f473

Merge branch 'main' into qwen_72b_config

569f5bf

update qwen_72b warmup

796222a

Merge branch 'main' into qwen_72b_config

893cbde

Delete .gitignore

8f7e2de

Restore .gitignore to leave it as is

bdf0231

Merge branch 'main' of https://github.com/xiaohangguo/xtuner into ens…

db6271c

…ure_full_conversation

Packer update init

b3bb678

xiaohangguo changed the title ~~[WIP] Ensure Full Conversation Data~~ [WIP] [Feature]Ensure Full Conversation Data Dec 29, 2023

[Bug] Not as expected pack

75bf0f3

检查其切割点是否位于input_ids部分

e34ee7a

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[WIP] [Feature]Ensure Full Conversation Data #287

[WIP] [Feature]Ensure Full Conversation Data #287

xiaohangguo commented Dec 29, 2023 •

edited

xiaohangguo commented Mar 5, 2024

TODO LIST

任务目标

测试样例

[WIP] [Feature]Ensure Full Conversation Data #287

Are you sure you want to change the base?

[WIP] [Feature]Ensure Full Conversation Data #287

Conversation

xiaohangguo commented Dec 29, 2023 • edited

TODO LIST

任务目标

测试样例

xiaohangguo commented Mar 5, 2024

TODO LIST

任务目标

测试样例

xiaohangguo commented Dec 29, 2023 •

edited