We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于模型base,3个问题麻烦请教下~
看了klon中的lora训练推理代码,我理解模型选择的chatglm2_lora base,是在chatglm2上基于silk-road/Chat_Suzumiya_Fusion数据集微调的的lora;但是Chat_Suzumiya_Fusion中只包括部分人物数据,生成一个新的人物,是直接抽取system prompt和对话记录后进行few-shot+知识库输出结果,还是需要将数据加入Chat_Suzumiya_Fusion数据重新训练呢?
形成模型输入格式:system prompt + story + history,Chat_Suzumiya_Fusion数据中应该只有前两个部分吧如下图,所以history在训练中没有,是推理中直接append上的,模型会将其作为story的一部分来理解?故事和历史的最大长度可以达到1500和1200,默认模型最大输入是2048?
The text was updated successfully, but these errors were encountered:
你去知乎上加一下我微信吧 https://www.zhihu.com/people/cheng-li-47
instruction数据确实没有去用到~
之前的训练代码生成没有被统一到新的重构框架中,我想趁着英文llama的训练 重构掉这部分训练数据生成的代码
Sorry, something went wrong.
okok,我知乎给您发私信了
No branches or pull requests
关于模型base,3个问题麻烦请教下~
看了klon中的lora训练推理代码,我理解模型选择的chatglm2_lora base,是在chatglm2上基于silk-road/Chat_Suzumiya_Fusion数据集微调的的lora;但是Chat_Suzumiya_Fusion中只包括部分人物数据,生成一个新的人物,是直接抽取system prompt和对话记录后进行few-shot+知识库输出结果,还是需要将数据加入Chat_Suzumiya_Fusion数据重新训练呢?
形成模型输入格式:system prompt + story + history,Chat_Suzumiya_Fusion数据中应该只有前两个部分吧如下图,所以history在训练中没有,是推理中直接append上的,模型会将其作为story的一部分来理解?故事和历史的最大长度可以达到1500和1200,默认模型最大输入是2048?
The text was updated successfully, but these errors were encountered: