1、文档预处理
将原始文档doc ppt pdf等格式转为适当的格式
2、生成结构化数据集
将预处理好的文本转化为(问题,回答)会或者(指令,输入,输出)
2.1 使用工具 easydataset,自动生成问答对,导出数据集
2.2人工标注:手动撰写指令 答案等
2.3人机协作:先用大模型自动生成大量指令和输入输出,然后人工核对优化等
3、数据格式
Alpaca格式
{
"instruction": "任务描述",
"input": "可选的任务输入",
"output": "期望的输出结果"
}
ShareGPT格式:主要用于多轮对话场景
{
"conversations": [
{"from": "human", "value": "用户说的话"},
{"from": "gpt", "value": "模型的回复"}
]
}
jsonl: 一种文本文件格式,每一行都是一个独立的JSON对象,是许多平台的标准格式。平台会自动按比例划分训练集、验证集和测试集(训练集:80-90% 验证集:10-15% 测试集:5-10%)