dpo_sample.jsonl 1.8 KB

12345
  1. {"instruction": "什么是机器学习?", "chosen": "机器学习是人工智能的一个分支,它让计算机能够从数据中自动学习规律,而无需显式编程。常见的类型包括监督学习、无监督学习和强化学习。", "rejected": "机器学习就是让机器自己思考。"}
  2. {"instruction": "Python 中 list 和 tuple 有什么区别?", "chosen": "list 是可变的,可以增删改元素,用方括号 [] 表示;tuple 是不可变的,创建后不能修改,用圆括号 () 表示。tuple 因为不可变所以可以作为字典的 key。", "rejected": "list 比 tuple 快。"}
  3. {"instruction": "请解释什么是过拟合。", "chosen": "过拟合是指模型在训练数据上表现很好,但在未见过的测试数据上表现很差。就像学生死记硬背了答案但没有真正理解,换一道题就不会了。常见的解决方法包括增加数据量、正则化、dropout 和早停。", "rejected": "过拟合就是模型太好了,不需要担心。"}
  4. {"instruction": "什么是梯度下降?", "chosen": "梯度下降是一种优化算法,用于最小化损失函数。它的核心思想是:沿着损失函数梯度的反方向更新参数,就像下山时朝着最陡的方向走,逐步找到最低点。学习率决定了每一步走多远。", "rejected": "梯度下降就是让数字变小。"}
  5. {"instruction": "解释一下 Transformer 的注意力机制。", "chosen": "注意力机制让模型在处理每个词时,能够关注到输入序列中所有其他词的信息。通过计算 Query、Key、Value 三个向量的相似度来决定关注的权重,多头注意力则从不同角度捕捉语义关系,这是 GPT、BERT 等模型的核心。", "rejected": "注意力机制就是让模型集中精神。"}