LLM 大海捞针测试
Needle-in-a-Haystack 召回率测试工具
01 — 生成测试集
V1 — 阿拉伯数字 (a|)
V2 — 中文大写数字 (自然语言)
上下文长度(字符)
插针数量
插针范围
随机偏移比例
生成
复制测试文本
复制标准答案 JSON
展开/收起预览
02 — 评估结果
模型名称
粘贴模型回答(JSON)
评分
03 — 历史记录与图表
历史记录
图表
导出 CSV
清空全部
#
时间
模型
模式
上下文长度
插针数
准确率
正确
缺失
幻觉
答错
编辑距离
操作