数据集筛选

tinyBenchmarks: evaluating LLMs with fewer examples

纯数学方法,聚类

三步走:

  • IRT 参数化:首先利用历史数据,通过 IRT 模型学习全量数据集中每个问题的潜在参数(主要是区分度 $\alpha$ 和 难度 $\beta$)。
  • 聚类抽样:将这些参数作为每个问题的特征向量进行聚类(Clustering)。
  • 选出代表:这样选出的 100 个例子能最大限度地覆盖不同难度和区分度的题目,避免了随机抽样的偏差。

IRT如何估算呢?

  • 部分 A:观测分(低偏差,高方差) 直接计算模型在那 100 个“锚点”问题上的加权平均分。这反映了当下的真实表现,但样本少导致波动大。
  • 部分 B:预测分(低方差,潜在偏差) 利用 IRT 模型。根据模型对这 100 题的回答,反向推断出该模型的**“潜在能力值” ($\theta$)。然后把这个能力值代入 IRT 公式,去预测**该模型在剩余所有未测试题目上的得分概率。
  • 混合 (IRT++) 最终得分 = $\lambda \times$ 观测分 + $(1-\lambda) \times$ 预测分
    • $\lambda$ 是一个通过统计学方法计算出的权重,用于在方差和偏差之间取得最佳平衡。
  • Open LLM Leaderboard (大规模数据)
    • 总模型数:约 400 个 (具体为 395 个 + 40 个特定微调模型)。
    • 训练集 (Train):约 300+ 个(较旧的模型)。
    • 测试集 (Test):约 40-80 个(最新发布的模型)。
    • 注:这是数据最丰富的一组,验证效果也最强。
  • HELM (小规模数据)
    • 总模型数:仅 37 个
    • 训练集:约 19-28 个(50% – 75%)。
    • 测试集:约 9-18 个
  • MMLU / AlpacaEval
    • 大致都在 100-300 个模型这个量级。

数据规模

作者认为100左右就比较好了,可以达到2%以内的误差控制

基准测试 (Benchmark)原始题量 (Original)缩减后题量 (Tiny)压缩比例备注
MMLU14,0421000.7%压缩了140倍
Open LLM LB~29,0006002%含6个任务,每个任务留100题
HELM~5,0001002%每个场景(Scenario)留100题
AlpacaEval 2.080510012%这是一个比较小的基准

metabench — A Sparse Benchmark of Reasoning and Knowledge in Large Language Models

1.数据预处理

去掉太简单太难的,方差过高的题目。 计算部分-整体相关性 (Point-biserial correlation):剔除那些与总分相关性极低甚至负相关的题目(即答对该题的模型反而总分较低的异常题)。

2.心理测量学建模:项目反应理论 (Item Response Theory, IRT)

  • 假设: 每个模型有一个潜在能力值 $(\theta,scalar ability)$,每个题目有其特性参数(如难度 $\delta$ 和区分度 $a$)。
  • 模型: 作者使用了 2PL、3PL 和 4PL(参数逻辑斯蒂)模型来拟合数据。
    • 例如 2PL 模型公式:$P(\text{correct}) = \sigma(a_i \theta_j – \delta_i)$。这意味着模型答对题目的概率取决于其能力值与题目难度的关系,以及题目的区分度

3.信息过滤 (Information Filtering)

  • 费雪信息量 (Fisher Information): 作者计算了每个题目在不同能力水平下的信息量。
  • 筛选策略: 并没有随机抽题,而是选择那些能提供最大费雪信息量的题目。这意味着选出的题目最能区分模型之间的细微能力差异。

SubLIME: Subset Selection via Rank Correlation Prediction for Data-Efficient LLM Evaluation

特征提取 -> 模型热身 -> 预测训练 -> 验证对比

  • 特征提取的时候,借助llm模型对数据集每一道题计算三个指标,难度,质量,分布等
  • 模型热身阶段来说,没有让全部模型跑全量测试,而是挑选了几个锚点模型,用这些锚点模型来跑完整数据集,然后用这几个模型的排名作为标准答案来训练
  • 训练排名预测模型,训练了一个神经网络,输入各个子集的特征+锚点的表现。预测这些排名和全量真实排名多像
  • 验证与对比 对于未知的模型测试。看子集和用全集测出来的排名的斯皮尔曼等级相关系数,越高越准。

Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data?

1.步骤1,初筛,筛选掉选择高度重复的样本。利用embadding相似度(语义)和排名相关性(效果),超过一定阈值的话剔除,只保留一个

2.步骤2,使用遗传算法,选出特定的自己预测在样本上的得分,误差越小越好 • 目的: 从过滤后的数据中搜索出最佳组合。

  • 将“挑选子集”建模为优化问题。使用遗传算法 (Genetic Algorithm) 进行迭代搜索,目标函数是最小化“子集得分”与“全集得分”之间的预测误差 (RMSE)
    1. 随机生成多个子集(种群)。
    2. 评估每个子集的预测能力。
    3. 通过锦标赛选择、交叉 (Crossover)、变异 (Mutation) 生成新一代子集。
    4. 不断迭代,直到找到表现最好的子集。

3.步骤3:基于归因的样本精选

  • 目的: 解决单纯遗传算法可能陷入局部最优的问题,提高搜索效率。
  • 手段: 计算每个样本对预测总分的贡献度 (Attribution)。将样本分为“高贡献”、“低贡献”和“随机”三组,在这些组内再次运行遗传算法进行精细化搜索,最终选出既具代表性又具多样性的测试集。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇