Agent与PE知识汇总

提示词工程A/B测试设计要点

提示词工程中的A/B测试是一种用于比较不同提示词效果的方法:

  1. 明确测试目的:在进行A/B测试之前,需要明确测试的目的是什么,例如是为了提高模型输出的准确性相关性多样性,还是为了改善用户体验提高特定任务的完成率等。明确的目的将有助于确定评估指标和选择合适的测试变量。
  2. 选择测试变量:确定要测试的提示词相关变量,如提示词的内容、结构、语言风格、长度等。每次测试应尽量只改变一个变量,以便准确评估该变量对结果的影响。例如,若想测试提示词的长度对模型输出的影响,那么其他方面如内容和语言风格应保持一致。
  3. 确保样本代表性和数量:用于测试的样本应能够代表实际应用场景中的用户请求或任务类型。同时,需要有足够的样本数量,以确保测试结果具有统计学意义。样本数量过少可能导致结果偏差,无法准确反映不同提示词的真实效果。
  4. 设置对照组:设立一个对照组,即使用当前默认或常用的提示词作为基准。将测试组(使用不同变量的提示词)与对照组进行对比,能够清晰地看出新提示词是否带来了显著的改进。
  5. 确定评估指标:根据测试目的确定合适的评估指标。常见的指标包括准确率、召回率、F1值、平均精度均值(mAP)、BLEU(用于文本生成任务的评估)等。对于用户体验相关的测试,还可以考虑用户满意度调查、任务完成时间、错误率等指标。
  6. 设计测试流程:规划好测试的具体流程,包括如何将测试样本分配到不同的组(通常采用随机分配的方式),如何记录和收集模型的输出结果,以及如何确保测试过程的稳定性和可重复性。在测试过程中,要尽量控制其他因素的干扰,确保只有提示词这一变量在影响结果。
  7. 统计分析:使用适当的统计方法对测试结果进行分析,以确定不同提示词之间的差异是否具有统计学意义。例如,可以使用t检验、方差分析等方法来比较不同组之间的评估指标均值是否存在显著差异。同时,计算置信区间,以了解结果的可靠性。
  8. 考虑伦理和法律问题:在进行A/B测试时,要确保测试过程和使用的数据符合伦理和法律要求,保护用户隐私和数据安全。如果测试涉及到用户参与,需要获得用户的知情同意。

评估指标

准确率(Accuracy)

  • 定义:准确率是指分类正确的样本数占总样本数的比例。计算公式为:$Accuracy=\frac{TP + TN}{TP + TN + FP + FN}$,其中$TP$(True Positive)表示真正例,即实际为正例且被预测为正例的样本数;$TN$(True Negative)表示真反例,即实际为反例且被预测为反例的样本数;$FP$(False Positive)表示假正例,即实际为反例但被预测为正例的样本数;$FN$(False Negative)表示假反例,即实际为正例但被预测为反例的样本数。
  • 适用场景:适用于各类分类任务,能直观地反映模型预测正确的比例。但当数据集中正负样本比例严重不平衡时,准确率可能会产生误导。

召回率(Recall)

  • 定义:召回率是指被正确预测的正例数占实际正例数的比例。计算公式为:$Recall=\frac{TP}{TP + FN}$。
  • 适用场景:在一些对正例识别要求较高的场景中非常重要,如疾病检测(希望尽可能检测出所有患病个体)、信息检索(尽可能找回所有相关文档)等,召回率高意味着模型能够找到更多真正的正例。

F1值(F1 - score)

  • 定义:F1值是准确率和召回率的调和平均数,它综合了准确率和召回率两个指标,计算公式为:$F1 = 2\times\frac{Accuracy\times Recall}{Accuracy + Recall}$。F1值的取值范围在(0)到(1)之间,值越高表示模型性能越好。
  • 适用场景:当需要综合考虑准确率和召回率,对模型进行全面评估时,F1值是一个很好的指标。尤其在正负样本不平衡的情况下,比单纯的准确率更能反映模型的实际性能。

平均精度均值(mAP,Mean Average Precision)

  • 定义:mAP主要用于多类别目标检测或信息检索等任务中。对于每个类别,计算其平均精度(AP),然后再对所有类别的AP取平均值得到mAP。AP的计算基于召回率和精度(Precision,$Precision=\frac{TP}{TP + FP}$)曲线,通过对不同召回率下的精度进行积分或求和得到。
  • 适用场景:在目标检测任务中,用于评估模型在不同类别目标检测上的综合性能,能够全面反映模型对不同类别目标的检测精度和召回情况。在信息检索领域,也可用于衡量系统返回相关结果的能力。

BLEU(Bilingual Evaluation Understudy)

  • 定义:BLEU是一种用于评估机器翻译质量的指标,它通过比较生成的翻译结果与参考翻译之间的n - gram重叠程度来计算得分。具体来说,它计算生成句子中与参考句子中匹配的n - gram(连续的n个单词或符号)的数量,并根据匹配的程度和句子长度等因素进行加权求和,最终得到一个介于(0)到(1)之间的分数,分数越高表示翻译质量越好。
  • 适用场景:主要应用于机器翻译领域,用于评估机器生成的译文与人工参考译文的相似程度,是衡量机器翻译系统性能的重要指标之一。也可在一些文本生成任务中作为参考指标,用于评估生成文本与标准文本的相似度。

北极星指标

(North Star Metric),也被称为"唯一关键指标"(One Metric That Matters,简称OMTM),是指在产品或业务发展过程中,能够最直观、最核心地反映产品或业务是否成功,以及是否朝着预期方向发展的一个关键指标。

特点

  • 宏观性和统领性:它是一个高层次的指标,能够从整体上反映产品或业务的健康状况和发展趋势,对其他具体指标具有引领和指导作用。
  • 唯一性和聚焦性:强调在众多可能的指标中,选择最重要的一个作为核心关注点,避免企业或团队在多个指标之间分散精力,确保所有的策略、决策和行动都围绕着提升这个指标展开。
  • 可衡量性和可跟踪性:必须是具体的、可量化的指标,可以通过数据进行准确测量和跟踪,以便及时了解产品或业务在不同时间点的表现,并据此做出调整和优化。

作用

  • 明确方向:为企业或团队提供清晰的目标方向,使所有人都能理解业务的核心目标是什么,以及自己的工作如何为实现这一目标做出贡献,有助于凝聚团队力量,避免内部工作方向的混乱和冲突。
  • 评估业务健康状况:通过持续监测北极星指标的变化,可以快速判断业务是在增长、停滞还是衰退,及时发现潜在的问题和机会,为决策提供有力依据。
  • 优化资源配置:帮助企业更有效地分配资源,将人力、物力、财力等资源集中投入到对提升北极星指标最有帮助的地方,避免资源浪费在一些无关紧要的事情上。
  • 促进跨部门协作:由于北极星指标是整个组织的共同目标,它能够打破部门壁垒,促进不同部门之间的沟通与协作,使各部门围绕共同的目标形成合力,提高整体运营效率。

例如,对于电商平台,北极星指标可能是"活跃购买用户数",这直接反映了平台的核心业务增长和商业价值;对于社交媒体平台,可能是"日活跃用户数"或"用户停留时长",体现了平台对用户的吸引力和用户参与度。