BixBench 任务中文详解¶

基于 HuggingFace 数据集 futurehouse/BixBench（train split）59 个 capsule、205 道题目整理。每个 capsule 对应一篇论文/数据集，所有子问题都在同一个 Jupyter notebook 环境中求解。 评分器：str_verifier（字符串精确匹配）/ range_verifier（数值区间）/ llm_verifier（LLM 判分）。 Agent 工具面：edit_cell(contents, idx)、list_workdir()、submit_answer(answer)；通过 notebook 可调用 bash、pip/mamba、R、BUSCO、mafft、clipkit、iqtree、phykit、samtools、bwa、gatk 等。

bix-1 · Bohring-Opitz 综合征血液 RNA-seq 差异表达与 GO 富集¶

Paper: https://doi.org/10.1172/jci.insight.167744
Data: CapsuleFolder-33b801bb-9b47-4a0a-9314-05325c82fde7.zip
研究假设：截短型 ASXL1 突变会引起血液中与造血相关过程（如 T 细胞、中性粒细胞活化）的特异性基因表达变化。答案：True（T 细胞活化 p-adj=3.23E-8，中性粒细胞活化 p-adj=1.90E-5）

bix-1-q1 · `str_verifier`¶

题面：用提供的 RNA-seq count + metadata，跑 DESeq2 找 padj<0.05 的 DEG，再用 clusterProfiler::enrichGO 配 simplify(similarity>0.7) 做 GO 富集，"regulation of T cell activation" 的 padj 值是多少（保留 4 位小数）？
方法路径：
载入 count 矩阵与样本表 → DESeq2::DESeqDataSetFromMatrix → DESeq()。
results(padj<0.05) 取 DEG 基因集。
背景集 = Gencode 全基因；clusterProfiler::enrichGO(OrgDb=org.Hs.eg.db, ont="BP") → simplify(cutoff=0.7)。
查找 Description == "regulation of T cell activation" 的 p.adjust，四舍五入到 4 位小数。
目标：该 GO term 的 p.adjust ≈ 0.0002
干扰项：7.820659E-05、0.0003、1.847038E-05

bix-1-q2 · `str_verifier`¶

题面：同上流程，"neutrophil activation" 的 padj 阈值是多少？
方法路径：同 q1；取 Description=="neutrophil activation"。
目标：1.9E-05
干扰项：3.23E-08、4.56E-04、2.15E-06

bix-2 · Bloom 综合征 CHIP 体细胞变异 VAF 分布¶

Paper: doi.org/10.3324/haematol.2024.285239
Data: CapsuleFolder-30b33e47-92d8-4372-a9f6-da32896493d0.zip
研究假设：BSyn 先证者/携带者低频体细胞 CHIP 变异（VAF<0.3）比例显著高于对照。答案：True（p 值 1.41E-06 ~ 1.60E-03）

bix-2-q1 · `range_verifier`¶

题面：BLM 基因突变个体中，VAF<0.3（体细胞）的 CHIP 变异占比是多少？
方法路径：
解析 variant 注释文件（过滤 Reference 调用、去除 Intronic/Intergenic/UTR）。
按样本 BLM 状态分组，取 BLM 突变 子集。
计算 VAF<0.3 的变异数 / 总 CHIP 变异数。
目标：比例区间 (0.01, 0.09)
干扰项：(0.10,0.19)、(0.20,0.39)、(0.40,0.99)

bix-2-q2 · `range_verifier`¶

题面：对照儿童组中，0.3 ≤ VAF ≤ 0.7 的 CHIP 变异占百分之几？
方法路径：同 q1；子集=Control Children；分子=0.3≤VAF≤0.7；以百分比输出。
目标：百分比区间 (60, 70)
干扰项：(40-50)、(50,60)、(70,80)

bix-3 · 帕罗西汀对正常小鼠基因表达影响¶

Paper: https://zenodo.org/records/4287588
Data: CapsuleFolder-94bcdbc9-c729-4661-9bc1-0057bbea39c4.zip
研究假设：帕罗西汀对非抑郁（对照）小鼠基因表达影响微乎其微。答案：True（仅"final blood vs baseline blood"对比中 DEG 数几乎为零）

bix-3-q1 · `range_verifier`¶

题面：仅控制组，用 DESeq2（design=~Tissue；contrast=final_blood vs baseline_blood），统计 FDR<0.05、|log2FC|>1、baseMean≥10 的基因数；若计数已归一化则先四舍五入为整数伪计数。
方法路径：
取 Control 样本；若 counts 非整数 → round()。
DESeqDataSetFromMatrix(design=~Tissue) → DESeq() → results(contrast=c("Tissue","final_blood","baseline_blood"))。
过滤 padj<0.05 & abs(log2FC)>1 & baseMean>=10 → 计数。
目标：DEG 数 (700, 1000)
干扰项：(7000,10000)、(2000,4000)、(300,500)

bix-3-q2 · `range_verifier`¶

题面：final blood vs baseline blood 中 DEG 比例的 95% Wilson 置信区间。
方法路径：DEG 数 / 总基因数 → statsmodels.stats.proportion.proportion_confint(method="wilson", alpha=0.05)。
目标：CI (0.03, 0.04)
干扰项：(0.02,0.03)、(0.4,0.5)、(0.1,0.3)

bix-3-q3 · `range_verifier`¶

题面：Control 样本，齿状回 vs baseline blood（padj<0.05 & |log2FC|>1）特有的 DEG 数（不在 dentate vs final blood 和 final vs baseline blood 结果中）。
方法路径：
对三组对比分别跑 DESeq2 → 取 DEG 集合 A、B、C。
目标 = |A − (B ∪ C)|。
目标：(700, 800)
干扰项：(100,300)、(900,1000)、(1000,2000)

bix-3-q4 · `range_verifier`¶

题面：三组对比（final vs baseline、dentate vs baseline、dentate vs final）中共同差异表达的基因数。
方法路径：DEG 集合 A ∩ B ∩ C 的大小。
目标：(400, 500)
干扰项：(900,1000)、(100,200)、(50,70)

bix-3-q5 · `llm_verifier`¶

题面：三组 DEG 数做 5% 阈值的二项检验，哪一组呈"微弱"效应？
方法路径：scipy.stats.binomtest(k=DEG_count, n=total, p=0.05) → 对比 p 值。
目标：Final vs Baseline Blood
干扰项：Dentate gyrus vs Baseline blood、Dentate gyrus vs Final blood、All of them

bix-4 · 真菌 vs 动物分子钟（DVMC）¶

Paper: 不可得
Data: CapsuleFolder-ec9eb551-feee-48f6-8494-fd85e1521881.zip
研究假设：真菌分子演化比动物更像时钟。答案：True（动物 DVMC 更高）

bix-4-q1 · `llm_verifier`¶

题面：用 PhyKIT 的 DVMC 函数，真菌基因中 DVMC<0.3 的比例。
方法路径：phykit dvmc -t <tree> 批量跑所有真菌 BUSCO 树 → 统计 DVMC<0.3 占比。
目标：57%
干扰项：28%、45%、79%

bix-4-q2 · `llm_verifier`¶

题面：动物基因 DVMC 的中位数。
方法路径：对动物树集合计算 DVMC → numpy.median。
目标：0.57
干扰项：0.31、0.65、0.82

bix-4-q3 · `llm_verifier`¶

题面：比较动物与真菌 DVMC 的 Mann–Whitney U 统计量。
方法路径：scipy.stats.mannwhitneyu(animal_dvmc, fungi_dvmc) → statistic。
目标：19808
干扰项：16032、18356、9340

bix-4-q4 · `llm_verifier`¶

题面：动物 DVMC 的标准差。
方法路径：numpy.std(animal_dvmc)。
目标：0.30
干扰项：0.15、0.28、0.56

bix-4-q5 · `llm_verifier`¶

题面：真菌 DVMC 的中位数。
方法路径：numpy.median(fungi_dvmc)。
目标：0.26
干扰项：0.52、0.35、0.65

bix-4-q6 · `llm_verifier`¶

题面：动物 DVMC 的最大值。
方法路径：max(animal_dvmc)。
目标：1.58
干扰项：1.22、1.05、0.95

bix-4-q7 · `llm_verifier`¶

题面：真菌 ortholog 324863at2759 的 DVMC 值。
方法路径：phykit dvmc -t 324863at2759.tre。
目标：0.45
干扰项：0.99、0.32、0.67

bix-5 · BOS 患者成纤维细胞 GO 富集（组织特异性）¶

Paper: https://doi.org/10.1172/jci.insight.167744
Data: CapsuleFolder-2a8a40d4-05b0-4eec-8bd2-825f61fc9f5d.zip
研究假设：ASXL1 突变引起的转录变化是组织特异的（成纤维细胞富集细胞结构相关通路）。答案：True（potassium ion transport p-adj=0.004，membrane potential p-adj=0.02）

bix-5-q1 · `llm_verifier`¶

题面：患者 vs 对照中统计上最富集的 GO BP 通路。
方法路径：DESeq2 → DEG → enrichGO(ont="BP") → 按 p.adjust 升序取 top1。
目标：potassium ion transmembrane transport
干扰项：Dendrite self-avoidance、Muscle contraction、Axon guidance

bix-5-q4 · `llm_verifier`¶

题面：ASXL1 突变成纤维细胞中最富集的过程。
方法路径：同 q1。
目标：Potassium ion transmembrane transport
干扰项：Muscle contraction、Axon guidance、Dendrite self-avoidance

bix-6 · CRISPR 激活筛选 T 细胞逃逸通路¶

Paper: https://www.nature.com/articles/s41467-022-29205-8
Data: CapsuleFolder-f4dcda89-678d-403d-b155-1483d0071765.zip
研究假设：免疫相关通路在允许肿瘤细胞逃避 T 细胞杀伤的基因集合中富集。答案：False（仅慢性第 2 轮有 2 条通路显著）

bix-6-q1 · `llm_verifier`¶

题面：在跨重复最小 p 值的 ORA 分析中，哪个条件富集最强？
方法路径：MAGeCK p-value → 跨 replicate 取 min → ORA → 比较各 condition。
目标：chronic round 2
干扰项：acute T cells、chronic round 3、chronic round 1

bix-6-q3 · `str_verifier`¶

题面：慢性 T 细胞三轮中都保持显著富集（padj<0.05）的通路数。
方法路径：对三轮分别 ORA，取交集。
目标：0
干扰项：4、2、1

bix-6-q4 · `range_verifier`¶

题面：慢性第 1 轮 replicate 间基因的 Spearman 相关系数。
方法路径：scipy.stats.spearmanr(rep1, rep2)。
目标：(0.001, 0.09)
干扰项：(0.1,0.3)、(0.4,0.5)、(0.5,1)

bix-6-q5 · `str_verifier`¶

题面：排除"无 T 细胞"对照后，免疫通路 padj<0.05 富集的条件占比。
方法路径：筛选 Immune* 通路 → 显著条件数 / 总条件数。
目标：25%
干扰项：0%、50%、75%

bix-6-q6 · `range_verifier`¶

题面：acute T cell 筛 S1 vs S2 的 MAGeCK p 值 Spearman 相关系数。
方法路径：scipy.stats.spearmanr(S1.pval, S2.pval)。
目标：(0, 0.09)
干扰项：(0.1,0.2)、(0.3,0.5)、(0.6,1)

bix-6-q7 · `llm_verifier`¶

题面：慢性第 2 轮最显著富集的通路。
方法路径：取该条件 ORA 结果首位。
目标：cGMP effects
干扰项：Nitric oxide stimulates guanylate cyclase、ABC transporter disorders、p53-Dependent G1 DNA Damage Response

bix-7 · Bloom 综合征生殖/体细胞 CHIP 变异总量¶

Paper: https://doi.org/10.3324/haematol.2024.285239
Data: CapsuleFolder-a02b761a-02b6-46b5-9d5e-2964d5a74960.zip
研究假设：BSyn/载体者生殖系变异与对照相当，但体细胞变异更多。答案：True

bix-7-q1 · `str_verifier`¶

题面：只看非 Reference 外显子变异，多少 BLM 状态组 CHIP 变异频率与对照显著不同。
方法路径：过滤 Intronic/Intergenic/UTR/Reference → 每组均值对照比较 → 校正 p 值计数。
目标：0
干扰项：1、2、3

bix-7-q2 · `range_verifier`¶

题面：滤除 Intronic/Intergenic/UTR 后每样本平均 CHIP 变异数。
方法路径：按样本 groupby → mean()。
目标：(40, 60)
干扰项：(25,35)、(120,150)、(230,260)

bix-7-q3 · `range_verifier`¶

题面：移除 Reference 调用后剩下多少 CHIP 变异。
方法路径：df[df.Zygosity != "Reference"].shape[0]。
目标：(10000, 20000)
干扰项：(20000,25000)、(40000,50000)、(50000,60000)

bix-8 · 膀胱癌 m6A 甲基化 vs mRNA 表达独立性¶

Paper: 10.17632/dj4sb8h3c3.1
Data: CapsuleFolder-48a6b469-9c9d-4bef-b5b4-f29b7d6fa046.zip
研究假设：m6A 修饰对膀胱癌发生有显著作用。答案：True（卡方检验表明 m6A 状态与 DEG 状态非独立）

bix-8-q1 · `str_verifier`¶

题面：高甲基化基因中表达上调比例。
方法路径：df[df.m6A=="Hyper" & df.DEG=="Up"].size / df[df.m6A=="Hyper"].size * 100。
目标：15.6%
干扰项：8.2%、23.4%、32.7%

bix-8-q2 · `range_verifier`¶

题面：m6A × DEG 列联表的卡方统计量。
方法路径：scipy.stats.chi2_contingency(table)。
目标：(900.5, 902.5)
干扰项：(561.2,563.2)、(119.7,121.7)、(433.1,435.1)

bix-8-q3 · `str_verifier`¶

题面：所有差异甲基化基因中，Hyper 与 Hypo 的比值。
方法路径：count(Hyper) / count(Hypo)，保留 2 位小数。
目标：1.33
干扰项：0.75、2.15、1.85

bix-8-q5 · `llm_verifier`¶

题面：卡方检验 p 值（科学计数法）。
方法路径：scipy.stats.chi2_contingency → p-value。
目标：p < 2.2e-16
干扰项：p > 0.05、p = 0.001、p = 0.0338

bix-8-q6 · `str_verifier`¶

题面：膀胱癌中显著高甲基化的基因数。
方法路径：df[df.m6A=="Hyper"].shape[0]。
目标：680
干扰项：511、11563、415

bix-8-q7 · `str_verifier`¶

题面：既 m6A Hyper 又表达上调的基因数。
方法路径：df[m6A==Hyper & DEG==Up].shape[0]。
目标：106
干扰项：12、562、383

bix-9 · 帕罗西汀在抑郁小鼠中的组织特异响应¶

Paper: https://zenodo.org/records/4287588
Data: CapsuleFolder-873bada5-b1f3-423a-87dc-9ddd486c4843.zip
研究假设：帕罗西汀引起组织特异的基因表达变化。答案：True（ANOVA 交互 Tissue×Response 显著）

bix-9-q3 · `llm_verifier`¶

题面：齿状回中好/差应答 vs 对照（p<0.05、lfc>0.5、counts≥10）DEG 的共享模式。
方法路径：三组 DEG 集合比较，分析交集。
目标：No overlap between any groups
干扰项：Complete overlap between all groups、Partial overlap between good and bad responders only、Complete overlap between good responders and controls only

bix-9-q4 · `str_verifier`¶

题面：单因素 ANOVA（Category=Tissue×Response）中 Category 效应的 p 值（科学计数法）。
方法路径：statsmodels.formula.api.ols("Expr ~ C(Category)").fit() → anova_lm。
目标：9.92E-35
干扰项：1.07E-16、4.26E-06、3.39E-12

bix-9-q5 · `llm_verifier`¶

题面：坏应答者 vs 对照中 DEG（lfc>0.5, baseMean>10）最多的组织。
方法路径：分别对三个组织跑 DESeq2 → 比较 DEG 计数。
目标：Dentate gyrus (brain)
干扰项：Baseline blood、Final blood、Equal numbers across all tissues

bix-10 · BCG 再接种与医护 COVID-19 严重度¶

Paper: https://zenodo.org/records/12737228
Data: CapsuleFolder-fbe0e950-76f2-4eb7-a216-a2d377970922.zip
研究假设：BCG 再接种降低医护 COVID-19 严重度。答案：False（OR=1.63，反而增加）

bix-10-q1 · `range_verifier`¶

题面：多变量有序 logistic 回归（含患者接触变量），BCG 接种对 COVID 严重度的 OR。
方法路径：statsmodels.miscmodels.ordinal_model.OrderedModel(AESEV ~ TRTGRP_cat + expect_interact_cat + patients_seen_cat).fit() → exp(coef[BCG])。
目标：(1.50, 1.54)
干扰项：(0.66,0.70)、(0.95,1.05)、(1.24,1.28)

bix-10-q2 · `range_verifier`¶

题面：有序 logit 中 expect_interact_cat 对 AESEV 的 OR（控制患者数和 BCG 状态）。
方法路径：同 q1 模型；取 expect_interact_cat 的 exp(coef)。
目标：(0.74, 0.77)
干扰项：(1.24,1.28)、(0.26,0.28)、(0.95,1.05)

bix-10-q3 · `str_verifier`¶

题面：在哪个 patients_seen 组，BCG vs 安慰剂间严重度存在显著差异（p<0.05）。
方法路径：按 patients_seen_cat 分子集 → scipy.stats.chi2_contingency。
目标：1-50
干扰项：51-100、>100、1-100

bix-10-q4 · `range_verifier`¶

题面："有患者接触意愿"人群中 BCG × 严重度的卡方 p 值。
方法路径：子集 expect_interact==True → 卡方。
目标：(0.024, 0.026)
干扰项：(0.123,0.125)、(0.047,0.049)、(0.366,0.368)

bix-10-q5 · `range_verifier`¶

题面：每周接触>100 患者组，vaccine × severity 的 p 值。
方法路径：子集 patients_seen==">100"；卡方。
目标：(0.43, 0.45)
干扰项：(0.03,0.04)、(0.32,0.35)、(0.14,0.16)

bix-10-q6 · `range_verifier`¶

题面：1-50 患者组 BCG × severity 卡方 p 值。
方法路径：子集 patients_seen=="1-50"；卡方。
目标：(0.023, 0.025)
干扰项：(0.326,0.328)、(0.444,0.446)、(0.052,0.054)

bix-10-q7 · `range_verifier`¶

题面：控制 BCG 与患者数时，"有接触 vs 无接触"对严重度 OR 的百分比下降。
方法路径：(1 - OR) × 100；OR 来自 q2 模型。
目标：(24, 26)
干扰项：(14,16)、(34,36)、(44,46)

bix-11 · 真菌 vs 动物 treeness（PhyKIT）¶

Paper: 不可得
Data: CapsuleFolder-cd811ead-7887-4369-b175-05aff4223765.zip
研究假设：真菌的 treeness 比动物高。答案：True

bix-11-q1 · `llm_verifier`¶

题面：真菌 vs 动物 treeness 中位数差值。
方法路径：phykit treeness -t <tree> 批量 → median(fungi) - median(animal)。
目标：0.05
干扰项：0.015、0.075、0.105

bix-11-q2 · `llm_verifier`¶

题面：真菌基因 treeness>0.06 的比例。
方法路径：(fungi_treeness > 0.06).mean()。
目标：35%
干扰项：15%、25%、45%

bix-11-q3 · `llm_verifier`¶

题面：动物基因 treeness 最大值。
方法路径：max(animal_treeness)。
目标：0.1126
干扰项：0.0884、0.1345、0.1562

bix-11-q4 · `llm_verifier`¶

题面：Mann–Whitney U 统计量。
方法路径：scipy.stats.mannwhitneyu(animal, fungi)。
目标：3556.0
干扰项：1247.5、2584.0、4891.0

bix-11-q5 · `llm_verifier`¶

题面：Mann–Whitney U 检验 p 值。
方法路径：同 q4；取 pvalue。
目标：0.0
干扰项：0.0341、0.0478、0.1205

bix-11-q6 · `llm_verifier`¶

题面：真菌 treeness 中位数。
方法路径：median(fungi_treeness)。
目标：0.0501
干扰项：0.0234、0.0612、0.0855

bix-12 · 真菌 vs 动物简约信息位点（parsimony informative sites）¶

Paper: 不可得
Data: CapsuleFolder-d38392ec-84b8-485d-ab02-b8788e6f1f43.zip
研究假设：真菌比动物有更多简约信息位点。答案：True

bix-12-q2 · `llm_verifier`¶

题面：真菌基因比对 parsimony informative sites 占比的中位数。
方法路径：phykit pis -a <aln> → % PIS → median。
目标：3.5%
干扰项：1.2%、4.9%、5.2%

bix-12-q3 · `llm_verifier`¶

题面：最低 PIS 百分比（真菌/动物之比）。
方法路径：min(fungi_pis_pct) / min(animal_pis_pct)。
目标：4.0
干扰项：0.5、1.0、3.0

bix-12-q4 · `llm_verifier`¶

题面：PIS 百分比 Mann–Whitney U 统计量。
方法路径：mannwhitneyu(animal_pct, fungi_pct)。
目标：6948.0
干扰项：4532.0、5891.0、7823.0

bix-12-q5 · `llm_verifier`¶

题面：任一动物基因比对中 PIS 的最大绝对数。
方法路径：max(animal_pis_count)。
目标：29
干扰项：24、36、48

bix-12-q6 · `llm_verifier`¶

题面：PIS 原始计数 Mann–Whitney U 统计量。
方法路径：mannwhitneyu(animal_pis, fungi_pis)。
目标：6748.0
干扰项：3245.0、4521.0、8932.0

bix-13 · 铜绿假单胞菌 QS 敲除株 DEG 数量¶

Paper: https://doi.org/10.17912/micropub.biology.001326
Data: CapsuleFolder-1d54e4a7-8b0f-4224-bd31-efcfded0d46c.zip
研究假设：rhlI 或 lasI 敲除影响数十个下游基因的表达。答案：True
菌株：JBX1=wt、JBX97=ΔrhlI、JBX98=ΔlasI、JBX99=ΔlasIΔrhlI

bix-13-q1 · `str_verifier`¶

题面：JBX97（|lfc|>1.5 & FDR<0.05）中也显著且仅在 JBX99 中显著（相对 JBX1）的 DEG 比例。
方法路径：DESeq2(design=~Replicate+Strain+Media) → per-strain DEG 集合 → 计算 |97 ∩ 99 − 98|/|97|。
目标：10.6%
干扰项：29.8%、0.9%、31.8%

bix-13-q2 · `str_verifier`¶

题面：相对 JBX1，仅在 JBX98 显著而不在 JBX97/JBX99 显著的 DEG 数。
方法路径：|98 − (97 ∪ 99)|，FDR(BH)=0.05。
目标：166
干扰项：190、464、137

bix-13-q3 · `str_verifier`¶

题面：DESeq2 收缩前 dispersion<1e-5 的基因数。
方法路径：dispersions(dds) < 1e-5 计数（design 含 Replicate+Strain+Media）。
目标：7
干扰项：8、9、6

bix-13-q4 · `str_verifier`¶

题面：仅在 JBX97 或 JBX98 显著的 DEG 总百分比（相对 JBX1）。
方法路径：(|97 ∪ 98| − 两者交集) / 总基因。
目标：8.1%
干扰项：12.4%、15.7%、4.8%

bix-13-q5 · `str_verifier`¶

题面：至少在一个单敲除株显著但在双敲除株不显著的 DEG 数。
方法路径：|(97 ∪ 98) − 99|。
目标：397
干扰项：156、512、89

bix-14 · Bloom 综合征 CHIP 变异效应分布¶

Paper: https://doi.org/10.1172/jci.insight.167744
Data: CapsuleFolder-7718a922-ce2c-4e59-900b-84fe06050ce6.zip
研究假设：BSyn/载体者 CHIP 变异效应类型分布与对照无显著差异。答案：True

bix-14-q1 · `range_verifier`¶

题面：BLM 载体组 VAF<0.3 变异中同义（synonymous）占比。
方法路径：过滤 VAF<0.3 & 载体 → sum(Effect=="synonymous")/total。
目标：(0.6, 0.7)
干扰项：(0.8, 0.9)、(0.3, 0.4)、(0.1,0.2)

bix-14-q2 · `range_verifier`¶

题面：VAF<0.3 下，对照父母组与 BSyn 先证者组 missense 频率之差。
方法路径：两组 missense 比例差。
目标：(0.2, 0.3)
干扰项：(0.0, 0.1)、(0.3, 0.4)、(0.1, 0.2)

bix-14-q3 · `str_verifier`¶

题面：过滤 Reference/Intronic/Intergenic/UTR 后 86 样本中非 Reference 外显子变异数。
方法路径：过滤后 shape[0]。
目标：4,550
干扰项：5,540、450、12,325

bix-16 · 癌细胞基因表达 vs 依赖性相关¶

Paper: 无
Data: CapsuleFolder-bda54b38-9b49-4009-aad6-d5f52675438a.zip
研究假设：高表达基因更关键/更高必需性。答案：False（仅 14.25% 基因呈正相关，3 个 r≥0.6）

bix-16-q1 · `str_verifier`¶

题面：哪个基因与必需性的 Spearman 负相关最强。
方法路径：每基因 spearmanr(expr, essentiality) → argmin(rho)。
目标：CDKN1A
干扰项：CCND1、KLF5、RNASEK

bix-16-q2 · `llm_verifier`¶

题面：log2(TPM+1) 分布的偏态特征。
方法路径：scipy.stats.skew + 目视 histogram。
目标：Right-skewed with a long tail
干扰项：Symmetrical with no skew、Left-skewed with a long tail、Bimodal with no clear skew

bix-16-q3 · `str_verifier`¶

题面：r≥0.6 的强正相关基因数。
方法路径：sum(rho >= 0.6)。
目标：3
干扰项：0、5、1

bix-16-q4 · `range_verifier`¶

题面：经 BH 校正后显著相关（任一方向）的基因百分比。
方法路径：BH 校正 q-value<0.05 计数 / 总基因 × 100。
目标：(20, 25)
干扰项：(10,15)、(0,10)、(30,35)

bix-17 · Bloom 综合征 CHIP 体细胞变异增多是否源于生殖系¶

Paper: https://doi.org/10.3324/haematol.2024.285239
Data: CapsuleFolder-1cf79c8c-fb8c-453c-8788-c8958ab6f152.zip
答案：True

bix-17-q2 · `str_verifier`¶

题面：BLM 载体者 CHIP 体细胞变异（VAF<0.3）计数的中位数（先除 Intronic/Intergenic/UTR/Reference）。
方法路径：过滤 → 按样本 groupby count → median。
目标：2
干扰项：1、3、4

bix-18 · P. aeruginosa QS 突变对群集运动的影响¶

Paper: https://doi.org/10.17912/micropub.biology.001326
Data: CapsuleFolder-d59734d2-a3e0-462a-a5fd-c8ddc11392b8.zip
答案：True（rhlR、lasR、rhlI、lasI 突变显著降低 swarming）

bix-18-q1 · `range_verifier`¶

题面：群集图像分析中最大平均面积对应的基因型的平均圆度。
方法路径：图像分割 → regionprops → 按 genotype 求 mean(area) 找最大组 → 该组 mean(circularity)。
目标：(0.07, 0.08)
干扰项：(1.00,1.01)、(0.80,0.81)、(0.32,0.33)

bix-18-q2 · `str_verifier`¶

题面：野生型平均 swarming 面积（最接近千）。
方法路径：mean(area[genotype=="wt"]) → 四舍五入到千位。
目标：82000
干扰项：32000、92000、30000

bix-18-q3 · `range_verifier`¶

题面：ΔlasR vs wt 平均面积百分比下降。
方法路径：(wt_mean - lasR_mean)/wt_mean * 100。
目标：(69, 72)
干扰项：(28,32)、(48,52)、(58,62)

bix-18-q4 · `range_verifier`¶

题面：rhlR- 圆度的 SEM。
方法路径：std/sqrt(n)。
目标：(0.031, 0.032)
干扰项：(0.051,0.052)、(0.081,0.082)、(0.011,0.012)

bix-18-q5 · `range_verifier`¶

题面：ΔlasR 平均面积占 wt 的比例（百分比）。
方法路径：lasR_mean/wt_mean * 100。
目标：(25, 30)
干扰项：(45,50)、(70,75)、(90,100)

bix-19 · OXTR 敲低 vs 鼠神经元损伤¶

Paper: https://zenodo.org/records/8036465
Data: CapsuleFolder-8c64b1fa-fdcc-41e2-be8d-2f0c8d5faaa1.zip
答案：False（功效不足，KD vs CTRL 差异不显著）

bix-19-q1 · `str_verifier`¶

题面：Cohen's d → 功效分析，80% power、α=0.05，两样本 t 检验所需每组样本量。
方法路径：
cohens_d = (mean_KD - mean_CTRL) / pooled_std。
statsmodels.stats.power.TTestIndPower().solve_power(effect_size=d, alpha=0.05, power=0.8)。
目标：337
干扰项：16、167、674

bix-19-q2 · `range_verifier`¶

题面：NeuN 计数 KD vs CTRL 的 Cohen's d。
方法路径：同上公式。
目标：(0.215, 0.217)
干扰项：(0.667,0.669)、(0.804,0.806)、(1.310,1.312)

bix-19-q3 · `range_verifier`¶

题面：KD 半球 NeuN 计数的 Shapiro-Wilk W 统计量。
方法路径：scipy.stats.shapiro(kd_counts).statistic。
目标：(0.955, 0.957)
干扰项：(0.773,0.775)、(0.950,0.952)、(0.722,0.724)

bix-19-q4 · `range_verifier`¶

题面：Hemisphere × Sex 二因素 ANOVA 交互 F 统计量。
方法路径：statsmodels.formula.api.ols("NeuN ~ Hemisphere*Sex").fit() → anova_lm。
目标：(1.065, 1.067)
干扰项：(0.191,0.193)、(1.311,1.313)、(3.750,3.752)

bix-19-q5 · `llm_verifier`¶

题面：同 q1（改写）。
方法路径：同 q1。
目标：337 samples
干扰项：16 samples、167 samples、674 samples

bix-20 · Bloom 综合征 CHIP 变异致病性分布¶

Paper: doi.org/10.3324/haematol.2024.285239
Data: CapsuleFolder-2ccdbe37-0a92-47b5-9bab-fa8a8c470799.zip
答案：True（各组间致病性分布无显著差异）

bix-20-q1 · `range_verifier`¶

题面：BSyn 先证者 VAF<0.3 的 CHIP 变异中良性占比（先过滤 Intronic/UTR/Reference）。
方法路径：sum(Pathogenicity=="Benign")/total。
目标：(0.80, 1.00)
干扰项：(0.60, 0.79)、(0.40, 0.59)、(0.20, 0.39)

bix-20-q2 · `range_verifier`¶

题面：对照儿童（非父母）的良性占比。
方法路径：同上，子集=对照儿童。
目标：(0.9, 1.0)
干扰项：(0.1, 0.2)、(0.3, 0.4)、(0.0, 0.1)

bix-20-q3 · `range_verifier`¶

题面：Carrier 组良性占比。
方法路径：同上。
目标：(0.80, 1.00)
干扰项：(0.60, 0.79)、(0.40, 0.59)、(0.20, 0.39)

bix-20-q4 · `range_verifier`¶

题面：父母（Mother/Father）良性占比。
方法路径：同上。
目标：(0.80, 1.00)
干扰项：(0.60, 0.79)、(0.40, 0.59)、(0.20, 0.39)

bix-21 · 动物 vs 真菌多次替代饱和度¶

Paper: 不可得
Data: CapsuleFolder-e3bde22d-915c-409b-8646-039e0215b171.zip
答案：True（动物饱和度低于真菌）

bix-21-q2 · `llm_verifier`¶

题面：真菌基因 saturation 中位数。
方法路径：phykit saturation -a <aln> -t <tree> → median。
目标：0.62
干扰项：0.45、0.38、0.75

bix-22 · 儿童免疫细胞基因长度 vs 表达量¶

Paper: https://zenodo.org/records/10000430
Data: CapsuleFolder-34a4ea96-c800-4c11-959e-57cdc4932c52.zip
答案：False（Pearson 相关弱但显著）

bix-22-q1 · `str_verifier`¶

题面：CD4/CD8/CD14/CD19 中基因长度与表达相关最弱（|r| 最小）的细胞。
方法路径：每细胞 pearsonr(gene_length, mean_expr) → argmin(|r|)。
目标：CD14
干扰项：CD8、CD4、CD19

bix-22-q2 · `range_verifier`¶

题面：CD4 中 Pearson 相关系数。
方法路径：pearsonr(gene_length, expr_mean)。
目标：(0.045, 0.055)
干扰项：(0.015,0.025)、(0.025,0.035)、(0.035,0.045)

bix-22-q3 · `range_verifier`¶

题面：CD8 中 Pearson r。
方法路径：同上。
目标：(0.03, 0.05)
干扰项：(0.15,0.25)、(0.01,0.02)、(0.06,0.08)

bix-22-q4 · `range_verifier`¶

题面：CD14 中 Pearson r。
方法路径：同上。
目标：(0.015, 0.025)
干扰项：(0.035,0.045)、(0.045,0.055)、(0.025,0.035)

bix-22-q6 · `range_verifier`¶

题面：只看 protein-coding 基因整体 Pearson r。
方法路径：合并所有细胞/样本 → pearsonr。
目标：(0.3, 0.4)
干扰项：(0.1,0.2)、(0.2,0.3)、(0.4,0.5)

bix-24 · CBD 处理 CRC 细胞代谢失调¶

Paper: https://zenodo.org/records/8353706 & https://www.mdpi.com/1422-0067/24/19/14743
Data: CapsuleFolder-b1b0ef00-cb15-4375-9aac-e1e53a7250c5.zip
答案：True（下调基因驱动代谢响应）

bix-24-q1 · `llm_verifier`¶

题面：下调 DEG 中 GO_Biological_Process_2021 最富集的代谢通路。
方法路径：DESeq2 → 下调 DEG → gseapy.enrichr(gene_sets="GO_Biological_Process_2021")。
目标：Canonical glycolysis
干扰项：Cellular response to hypoxia、Oxidative phosphorylation、Amino acid metabolism

bix-24-q2 · `llm_verifier`¶

题面：代谢效应主要由上调还是下调基因驱动（padj<0.05, |log2FC|>0.5）。
方法路径：对 up/down 分别做 GO BP → 比较代谢通路富集。
目标：Downregulation
干扰项：Upregulation、No consistent direction of change、No significant change in expression

bix-24-q6 · `llm_verifier`¶

题面：所有显著 DEG 中 GO BP 最富集的进程。
方法路径：全部 DEG → gseapy.enrichr(GO_Biological_Process_2021) → top1。
目标：Cellular response to decreased oxygen levels
干扰项：Glycolytic process、Canonical glycolysis、Carbohydrate catabolic process

bix-25 · 真菌/动物 treeness/RCV 差异¶

Paper: 不可得
Data: CapsuleFolder-964b67db-88d8-4286-9995-10ccc6ba4c39.zip
答案：True

bix-25-q1 · `llm_verifier`¶

题面：真菌 treeness/RCV 中位数。
方法路径：phykit treeness_over_rcv → median(fungi)。
目标：0.26
干扰项：0.18、0.34、0.42

bix-25-q4 · `llm_verifier`¶

题面：alignment gaps>70% 的基因中 treeness/RCV 最大值。
方法路径：筛选高 gap 基因 → max(treeness_over_rcv)。
目标：0.21
干扰项：0.09、0.33、0.45

bix-26 · QS 突变在不同培养基下的 KEGG 通路差异¶

Paper: https://doi.org/10.17912/micropub.biology.001326
Data: CapsuleFolder-0923d260-fe1b-4fb4-4398-79edf546e584.zip
答案：True

bix-26-q3 · `str_verifier`¶

题面：缺铁葡萄糖（FeMinus）条件上调基因富集"ABC transporters"的基因数（|lfc|>1.5, padj<0.05）。
方法路径：DESeq2 → upregulated 子集 → clusterProfiler::enrichKEGG → 取 "ABC transporters" 的 Count 或 GeneRatio 分子。
目标：11
干扰项：17.0、23、7

bix-26-q4 · `str_verifier`¶

题面：下调基因 KEGG（|lfc|>1.5, padj<0.05），在两种培养基条件下共同富集的通路数。
方法路径：两条件 downregulated KEGG 结果 → 通路名交集。
目标：5
干扰项：2、4、6

bix-26-q5 · `str_verifier`¶

题面：缺铁条件富集但 innate 条件不富集的通路数（|lfc|>1.5, padj<0.05）。
方法路径：|FeMinus_sig − Innate_sig|。
目标：3
干扰项：5、6、1

bix-27 · 阿尔茨海默病亚型聚类¶

Paper: https://doi.org/10.5061/dryad.ttdz08kxq
Data: CapsuleFolder-0f14ffa7-f02a-4d20-8142-dfc404195e56.zip
答案：True（基因表达可识别亚型）

bix-27-q2 · `range_verifier`¶

题面：层次聚类 k=3，50 次 bootstrap 70/30 训练测试 + 逻辑回归预测标签，在训练/测试共识聚类中始终被分到同一簇的样本数。
方法路径：
基因表达矩阵 → scipy.cluster.hierarchy.linkage → 3 clusters。
50 iterations：70/30 split → LogisticRegression predict test labels → 记录每样本 label。
统计训练/测试中 cluster 标签 mode 一致的样本数。
目标：(160, 180)
干扰项：(40,60)、(70,90)、(10,30)

bix-27-q4 · `llm_verifier`¶

题面：Reactome 富集通路最多簇里最显著的通路。
方法路径：每簇 ORA（Reactome）→ 通路计数最多簇 → top1 by p.adjust。
目标：Aerobic respiration and respiratory electron transport
干扰项：Vesicle-mediated transport in synapse、Base-excision repair、Sodium-calcium exchangers

bix-27-q5 · `range_verifier`¶

题面：log10(expr+1) 后 PCA，PC1 解释的方差百分比。
方法路径：sklearn.decomposition.PCA().fit(log10(X+1)) → explained_variance_ratio_[0]*100。
目标：(88, 89)
干扰项：(50,51)、(36,37)、(91,92)

bix-28 · 真菌 vs 动物长枝得分（long branch score）¶

Paper: 不可得
Data: CapsuleFolder-c66d3ed9-0a95-46be-a237-ed68498ea7f6.zip
答案：True

bix-28-q1 · `llm_verifier`¶

题面：long branch score 中位数 Mann–Whitney U 检验 p 值。
方法路径：phykit long_branch_score → mannwhitneyu(animal, fungi).pvalue。
目标：5.107 × 10⁻⁴⁷
干扰项：2.3 × 10⁻¹²、8.9 × 10⁻²³、1.2 × 10⁻⁵

bix-28-q2 · `llm_verifier`¶

题面：真菌 mean long branch score 的中位数。
方法路径：每个树取 mean(branch_scores) → 跨真菌树中位数。
目标：-25.0
干扰项：-18.5、-31.2、-12.3

bix-28-q3 · `llm_verifier`¶

题面：真菌基因 996662at2759 的 median long branch score。
方法路径：phykit long_branch_score -t 996662at2759.tre → median。
目标：-30.4551
干扰项：-22.1234、-38.789、-15.6789

bix-28-q4 · `llm_verifier`¶

题面：mean long branch scores 的 Mann–Whitney U。
方法路径：mannwhitneyu(animal_mean, fungi_mean).statistic。
目标：4639.0
干扰项：3245.0、5821.0、6932.0

bix-28-q5 · `llm_verifier`¶

题面：真菌 median long branch score 的均值。
方法路径：mean(per_tree_median)（真菌）。
目标：-26.9
干扰项：-20.3、-33.1、-14.7

bix-28-q6 · `llm_verifier`¶

题面：动物与真菌 mean long branch score 均值之差绝对值。
方法路径：|mean(animal_mean) - mean(fungi_mean)|。
目标：5.2
干扰项：2.8、8.4、11.6

bix-29 · 既往重病史 vs BCG 后 COVID 严重度¶

Paper: https://zenodo.org/records/12737228
Data: CapsuleFolder-b8c485ff-d146-4162-9403-9593c8847cfe.zip
答案：False（BCG 反而增加严重度 OR=1.63）

bix-29-q1 · `range_verifier`¶

题面：有序回归（控制 MHONGO、expect_interact、交互项）中 BCG 对 AESEV 的 OR。
方法路径：OrderedModel(AESEV ~ TRTGRP*MHONGO + patients_seen + ...).fit() → exp(coef[TRTGRP])。
目标：(1.62, 1.65)
干扰项：(0.73,0.75)、(0.9,1.1)、(0.2,0.25)

bix-29-q2 · `llm_verifier`¶

题面：每增加 1 项 MHONGO，严重度 OR 的百分比变化。
方法路径：exp(coef[MHONGO]) − 1。
目标：33-36% increase
干扰项：14-16% decrease、No significant change in severity odds、50-53% increase

bix-29-q3 · `llm_verifier`¶

题面：BCG × MHONGO 交互项的 OR。
方法路径：exp(coef[BCG:MHONGO])。
目标：No significant interaction effect (OR≈1.0)
干扰项：Strongly synergistic effect increasing severity、Strongly antagonistic effect decreasing severity、Variable effect depending on number of conditions

bix-29-q4 · `llm_verifier`¶

题面：patients_seen 对严重度的影响（控制 BCG、interact、交互项）。
方法路径：exp(coef[patients_seen])。
目标：No significant effect on severity (OR≈1.02)
干扰项：Strong positive correlation with severity、Moderate negative correlation with severity、Variable effect depending on vaccination status

bix-30 · 血清 miRNA 作为 DM1 生物标志物¶

Paper: 10.1371/journal.pone.0150501
Data: CapsuleFolder-3d4eb7bb-4fbc-4300-b79a-3eba7a6221bc.zip
答案：False（多重校正后无显著 miRNA）

bix-30-q1 · `str_verifier`¶

题面：多重校正前显著（p≤0.05）miRNA 百分比。
方法路径：log2 变换 → scipy.stats.ttest_ind 每 miRNA → p<=0.05 比例。
目标：28%
干扰项：15%、35%、42%

bix-30-q3 · `str_verifier`¶

题面：Bonferroni vs Benjamini-Yekutieli 校正后显著 miRNA 数之比（格式"Bonferroni:BY"）。
方法路径：statsmodels.stats.multitest.multipletests 分别用 bonferroni / fdr_by。
目标：0:0
干扰项：1:2、1:3、2:3

bix-30-q5 · `str_verifier`¶

题面：三种校正（BH、BY、Bonferroni）都显著的 miRNA 数。
方法路径：三套 padj<=0.05 的交集。
目标：0
干扰项：49、175、18

bix-30-q6 · `str_verifier`¶

题面：log2 + t-test，校正前显著 miRNA 数。
方法路径：sum(p<=0.05)。
目标：49
干扰项：25、175、0

bix-31 · CD4/CD8 性别特异性差异表达¶

Paper: https://zenodo.org/records/10000430
Data: CapsuleFolder-b1dbace7-f6e9-42ec-81e1-bcc24161cc27.zip
答案：True

bix-31-q1 · `str_verifier`¶

题面：两样本 t 检验：protein-coding 基因 log2FC(M vs F) 在 CD4/CD8 vs 其他细胞类型（p<0.05, |lfc|>0.5, baseMean>10，先 lfc shrinkage）的 t 统计量。
方法路径：DESeq2 + lfcShrink(type="apeglm") → 各细胞分组 LFC → ttest_ind(cd48_lfc, other_lfc)。
目标：18.93
干扰项：-0.45、6.50、222.38

bix-31-q2 · `range_verifier`¶

题面：protein-coding 的 FAM138A 性别差异 log2FC（|lfc|>0.5, baseMean>10, lfc shrinkage）。
方法路径：DESeq2 contrast=Sex → lfcShrink → 取 FAM138A。
目标：(-0.45, -0.35)
干扰项：(1.20, 1.30)、(0.10, 0.20)、(-1.5, -1.4)

bix-31-q3 · `str_verifier`¶

题面：CD4/CD8 中 M vs F 显著 DEG 数（padj<0.05, |lfc|>0.5, baseMean>10, shrink）。
方法路径：过滤后 shape[0]。
目标：197
干扰项：147、223、168

bix-31-q4 · `str_verifier`¶

题面：CD4/CD8 中 protein-coding vs non-coding 性别差异 Welch t-test p 值（shrink LFC）。
方法路径：scipy.stats.ttest_ind(pc_lfc, nc_lfc, equal_var=False)。
目标：6.5E-01
干扰项：1.55E-79、6.42E-97、1.67E-19

bix-32 · QS 单/双敲除 KEGG 通路富集¶

Paper: https://doi.org/10.17912/micropub.biology.001326
Data: CapsuleFolder-a94b7008-bb9a-4a46-ebfb-4afdfdd299d5.zip
答案：True

bix-32-q2 · `str_verifier`¶

题面：|lfc|>1.5，三株（97/98/99）中同方向共同 KEGG 富集通路数。
方法路径：per-strain KEGG sig set → 方向（up/down）一致的交集 → 计数。
目标：2
干扰项：0、4、6

bix-32-q3 · `llm_verifier`¶

题面：仅在双敲除 99 株上调（padj<0.05, lfc>1.5）的两个功能类别。
方法路径：strain99_up − (strain97_up ∪ strain98_up) → 取 KEGG 类别。
目标：Ribosome, riboflavin metabolism
干扰项：Nitrogen metabolism, two-component system、Sulfur metabolism, quorum sensing、Starch and sucrose metabolism, two-component system

bix-32-q4 · `llm_verifier`¶

题面：显著下调（p<0.05, lfc<-1.5）三株共同富集的细胞过程通路。
方法路径：3 株 down KEGG 交集。
目标：Biosynthesis of secondary metabolites, nitrogen cycle
干扰项：Fatty acid metabolism, two-component system、Two-component system, ribosome、Sulfur metabolism, phenazine biosynthesis

bix-33 · AAV9 mini-dystrophin 对外周免疫抗炎通路¶

Paper: https://doi.org/10.5281/zenodo.13935259
Data: CapsuleFolder-a5fba1a0-ad42-41da-a299-201655a5ffe8.zip
答案：False（未显示抗炎下调）

bix-33-q1 · `str_verifier`¶

题面：治疗后显著 DEG 最多的免疫细胞类型。
方法路径：sc-RNA-seq per-cell-type DE → argmax(DEG_count)。
目标：CD14 Monocytes
干扰项：Regulatory T cells (Tregs)、Natural Killer cells、Plasmacytoid dendritic cells

bix-33-q6 · `str_verifier`¶

题面：SOCS3 显著差异表达（padj<0.05）的细胞类型数。
方法路径：SOCS3 在每细胞型 padj 值 → 计数 <0.05。
目标：1
干扰项：2、3、4

bix-34 · 真菌 vs 动物 patristic distance¶

Paper: 不可得
Data: CapsuleFolder-17baa727-5eb7-4544-a466-3148a48b3cde.zip
答案：True（真菌约 1.95 倍）

bix-34-q1 · `llm_verifier`¶

题面：真菌 gene 平均 patristic distance 的均值。
方法路径：phykit patristic_distances -t <tree> → mean per gene → mean across fungi。
目标：1.67
干扰项：0.98、2.34、3.01

bix-34-q2 · `llm_verifier`¶

题面：真菌基因 981902at2759 的 median patristic distance。
方法路径：phykit patristic_distances → median。
目标：2.63
干扰项：1.89、3.41、4.15

bix-34-q3 · `llm_verifier`¶

题面：mean patristic distance 的 Mann–Whitney U 统计量。
方法路径：mannwhitneyu(animal_mean, fungi_mean).statistic。
目标：3516.0
干扰项：2234.0、4891.0、5623.0

bix-34-q4 · `llm_verifier`¶

题面：动物中 mean patristic distance 的 max − min。
方法路径：max(animal_mean) - min(animal_mean)。
目标：1.94
干扰项：1.12、2.67、3.38

bix-34-q5 · `llm_verifier`¶

题面：真菌/动物 median patristic distance 之比。
方法路径：median(fungi)/median(animal)。
目标：1.95
干扰项：1.23、2.67、3.42

bix-34-q6 · `llm_verifier`¶

题面：动物 mean patristic distance 均值。
方法路径：mean(animal_mean)。
目标：0.91
干扰项：0.54、1.28、1.65

bix-35 · 真菌 vs 动物演化速率（evo_rate）¶

Paper: 不可得
Data: CapsuleFolder-4cb6f8ce-4d81-40b2-8d9c-85868796ee73.zip
答案：True

bix-35-q1 · `llm_verifier`¶

题面：BUSCO 基因 156083at2759 在动物中的 evo_rate。
方法路径：phykit evolutionary_rate -t <tree>。
目标：0.0471
干扰项：0.0823、0.1205、0.0098

bix-35-q2 · `llm_verifier`¶

题面：跨全部基因动物 vs 真菌 evo_rate 的 Mann–Whitney U。
方法路径：mannwhitneyu(animal_rate, fungi_rate).statistic。
目标：3661
干扰项：2847、4523、5192

bix-35-q3 · `llm_verifier`¶

题面：真菌 BUSCO 基因 evo_rate 的最大值。
方法路径：max(fungi_rate)。
目标：1.8921
干扰项：1.2345、2.3456、0.9876

bix-35-q4 · `llm_verifier`¶

题面：真菌 − 动物 median evo_rate 的差（3 位小数）。
方法路径：round(median(fungi)-median(animal), 3)。
目标：0.397
干扰项：0.18、0.52、0.73

bix-36 · 免疫细胞 miRNA 表达谱跨类型 ANOVA¶

Paper: https://zenodo.org/records/10000430
Data: CapsuleFolder-48181cce-3928-4491-94b4-c23504a6aaa1.zip
答案：True（F 检验不显著）

bix-36-q1 · `range_verifier`¶

题面：剔除 PBMC 后，各细胞型 miRNA 表达一因素 ANOVA F 统计量。
方法路径：scipy.stats.f_oneway(*groups)。
目标：(0.76, 0.78)
干扰项：(5.1,5.3)、(3.0,3.2)、(8.3,8.5)

bix-36-q3 · `range_verifier`¶

题面：CD14 vs CD19 全局 miRNA log2FC 中位数。
方法路径：median(log2(CD14/CD19))。
目标：(-0.25, 0.25)
干扰项：(2.5,3)、(1.5,2)、(0.5,1)

bix-36-q4 · `range_verifier`¶

题面：剔除 PBMC 的 ANOVA p 值。
方法路径：同 q1；取 p。
目标：(0.55, 0.59)
干扰项：(0.001,0.01)、(0.05,0.09)、(0.1,0.2)

bix-36-q5 · `str_verifier`¶

题面：所有细胞型对比的 log2FC 分布形状（除 PBMC）。
方法路径：合并所有 LFC → Shapiro-Wilk / 目视。
目标：Normal
干扰项：Bimodal、Uniform、Skewed

bix-37 · 膀胱癌 ENO1 蛋白差异¶

Paper: 10.17632/dj4sb8h3c3.1
Data: CapsuleFolder-40cbef03-b5c3-4448-b00f-0ba2965dea9b.zip
答案：False（ENO1 差异不显著）

bix-37-q1 · `llm_verifier`¶

题面：ENO1 蛋白丰度 tumor vs normal 的 fold change。
方法路径：mean(tumor)/mean(normal)。
目标：4.81-fold increase in tumor
干扰项：2.27-fold increase in tumor、0.226-fold decrease in tumor、0.031-fold decrease in tumor

bix-37-q2 · `str_verifier`¶

题面：normal 样本 ENO1 蛋白基线（3 位有效数字）。
方法路径：mean(normal) → 3 sig-fig。
目标：7.29E+07
干扰项：350385456、20023、13455

bix-37-q3 · `str_verifier`¶

题面：ENO1 蛋白差异的 padj。
方法路径：例如 limma 或 t-test + BH。
目标：0.226
干扰项：0.031、4.81、2.27

bix-37-q4 · `str_verifier`¶

题面：ENO1 tumor vs normal log2FC（2 位小数）。
方法路径：log2(mean_tumor/mean_normal)。
目标：2.27
干扰项：4.81、0.226、-2.27

bix-38 · 真菌 vs 动物 tree length¶

Paper: 不可得
Data: CapsuleFolder-975f3e91-53b0-44b1-ac9f-20023d9c8cd0.zip
答案：True（真菌约 2x）

bix-38-q1 · `llm_verifier`¶

题面：真菌 / 动物 median tree length 倍数。
方法路径：phykit tree_length -t <tree> → median(fungi)/median(animal)。
目标：2x larger in fungi
干扰项：1.5x larger in fungi、3x larger in fungi、No significant difference

bix-38-q2 · `llm_verifier`¶

题面：动物 tree_length 方差。
方法路径：numpy.var(animal_tree_length)。
目标：0.55
干扰项：0.23、0.89、1.24

bix-38-q3 · `llm_verifier`¶

题面：真菌 tree_length >5.0 的比例。
方法路径：(fungi > 5.0).mean()。
目标：5%
干扰项：2%、10%、15%

bix-38-q5 · `llm_verifier`¶

题面：真菌 tree_length 超过动物均值的比例。
方法路径：(fungi > mean(animal)).mean()。
目标：94%
干扰项：78%、86%、99%

bix-38-q6 · `llm_verifier`¶

题面：配对 ortholog 的 fungi/animal tree_length 比值的中位数。
方法路径：per-ortholog ratio → median。
目标：2.178
干扰项：1.524、2.892、3.463

bix-39 · Bloom 综合征低频体细胞 CHIP 变异多寡¶

Paper: https://doi.org/10.3324/haematol.2024.285239
Data: CapsuleFolder-28a5984e-9061-4d6f-99a1-40f8753bc9f4.zip
答案：True

bix-39-q2 · `str_verifier`¶

题面：非 Reference 外显子中，BLM 载体者 VAF<0.3 的 CHIP 变异数 IQR。
方法路径：per-sample count → np.percentile(.,75)-np.percentile(.,25)。
目标：2.5
干扰项：3.5、1.5、4.0

bix-4 清单的后续 · bix-41 · 共培养恢复野生型 swarming¶

Paper: https://doi.org/10.17912/micropub.biology.001326
Data: CapsuleFolder-8b462015-86ab-434f-29e1-04dda1588031.zip
答案：True

bix-41-q1 · `str_verifier`¶

题面：Dunnett 检验（vs Strain 1，α=0.05），面积和圆度都"等价于"Strain 1 的共培养条件数。
方法路径：
statsmodels.sandbox.stats.multicomp.MultiComparison.tukeyhsd 或 R DescTools::DunnettTest。
分别对 Area、Circularity 做 Dunnett → 两指标都 p>0.05 的条件数。
目标：6
干扰项：4、9、3

bix-41-q3 · `range_verifier`¶

题面：Strain 98 与 Strain 1 的平均圆度差。
方法路径：mean(circ_98) - mean(circ_1)。
目标：(0.42, 0.43)
干扰项：(0.53,0.54)、(0.62,0.63)、(0.72,0.73)

bix-41-q4 · `str_verifier`¶

题面：Dunnett 下两指标都与 Strain 1 显著不同的共培养比例条件数。
方法路径：两指标都 p<0.05 计数。
目标：4
干扰项：5、6、7

bix-41-q5 · `str_verifier`¶

题面：哪种 Strain 287:98 比例与 Strain 1 面积和圆度最相似。
方法路径：对每个比例计算 |mean_area − mean_area_1| + |mean_circ − mean_circ_1| → argmin。
目标：5:1
干扰项：1:1、3:1、10:1

bix-42 · 多组学结肠癌存活预测¶

Paper: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305268
Data: CapsuleFolder-27821d45-94e6-4f4e-a914-e66ffaefdd3f.zip
答案：False（多模态未超过单甲基化）

bix-42-q1 · `str_verifier`¶

题面：vital/gene expr/methylation 三者都无缺失的患者数。
方法路径：df.dropna(subset=[...]).shape[0]。
目标：267
干扰项：447、328、39

bix-42-q2 · `llm_verifier`¶

题面：RNA 表达分布偏态。
方法路径：scipy.stats.skew + histogram。
目标：Highly right-skewed
干扰项：Highly left-skewed、Minimally left-skewed、Normally distributed

bix-43 · CBD/顺铂联用 CRC 细胞周期调控¶

Paper: https://zenodo.org/records/8353706 & https://www.mdpi.com/1422-0067/24/19/14743
Data: CapsuleFolder-15ff11e5-2db1-45b6-b3a3-46bc2a74b821.zip
答案：True

bix-43-q1 · `llm_verifier`¶

题面：CBD/顺铂 vs DMSO 的 GO_BP_2021 富集最显著通路。
方法路径：DESeq2 → DEG → gseapy.enrichr(GO_Biological_Process_2021) → top by padj。
目标：Negative regulation of epithelial cell proliferation
干扰项：Fatty acid metabolism、mRNA processing、Immune system response

bix-43-q2 · `str_verifier`¶

题面：Reactome_2022 中 p53-mediated cell cycle 的 odds ratio（p<0.05, |lfc|>0.5, baseMean>10）。
方法路径：gseapy.enrichr(gene_sets="Reactome_2022") → 该条目 Odds Ratio。
目标：6.02
干扰项：4.86、15.34、9.45

bix-43-q3 · `str_verifier`¶

题面：CBD/顺铂 vs DMSO 显著 DEG 数（padj<0.05, |lfc|>0.5, baseMean>10）。
方法路径：过滤后计数。
目标：677
干扰项：1761、955、2757

bix-43-q4 · `str_verifier`¶

题面：'TP53 Regulates Transcription Of Cell Cycle Genes' 富集中 DEG 占比（X/Y）。
方法路径：gseapy.enrichr → Overlap 字段。
目标：8/49
干扰项：6/44、3/9、4/17

bix-43-q5 · `llm_verifier`¶

题面：Reactome_2022 富集的主要细胞机制。
方法路径：top Reactome term 含义。
目标：TP53-mediated cell cycle regulation
干扰项：Cell adhesion and matrix organization、Immune system activation、Metabolic pathway regulation

bix-45 · RCV 动物 vs 真菌¶

Paper: 不可得
Data: CapsuleFolder-ebc7c8a6-ba34-46db-bf8c-b3e310434ba9.zip
答案：True

bix-45-q1 · `llm_verifier`¶

题面：RCV 动物 vs 真菌 Mann–Whitney U p 值。
方法路径：phykit rcv -a <aln> → mannwhitneyu(animal, fungi).pvalue。
目标：7.6968e-54
干扰项：3.1415e-9、1.2345e-12、9.8765e-23

bix-45-q2 · `llm_verifier`¶

题面：真菌 RCV 中位数。
方法路径：median(fungi_rcv)。
目标：0.22
干扰项：0.15、0.31、0.08

bix-45-q5 · `llm_verifier`¶

题面：配对 ortholog RCV（fungi-animal）差的中位数。
方法路径：per-ortholog 差 → median。
目标：0.12
干扰项：0.05、0.2、0.3

bix-45-q6 · `llm_verifier`¶

题面：真菌 RCV 75 分位数。
方法路径：numpy.percentile(fungi_rcv, 75)。
目标：0.27
干扰项：0.2、0.35、0.42

bix-46 · QS 突变下特定基因 LFC¶

Paper: https://doi.org/10.17912/micropub.biology.001326
Data: CapsuleFolder-d37acffb-d802-4ce0-8caa-66f50667367a.zip
答案：True

bix-46-q1 · `str_verifier`¶

题面：ΔrhlI(#97) 相对 wt(#1) 的 mexG log2FC（2 位小数）。
方法路径：DESeq2 result → mexG row → round(log2FC, 2)。
目标：-4.96
干扰项：-4.01、-2.09、-5.45

bix-46-q4 · `str_verifier`¶

题面：ΔrhlI 中吩嗪通路基因 PA14_35160 的 log2FC。
方法路径：DESeq2 result → PA14_35160。
目标：-4.10
干扰项：-2.85、-1.95、-0.62

bix-47 · Bloom 综合征 CHIP 基因分布聚类¶

Paper: https://doi.org/10.3324/haematol.2024.285239
Data: CapsuleFolder-4a336d0c-3d6b-440a-bfb0-437b26a00af3.zip
答案：True（层次聚类下分布无显著差异）

bix-47-q2 · `str_verifier`¶

题面：affected/carrier 中非 Reference 变异数最多患者的年龄。
方法路径：per-sample count → argmax → 查 metadata age。
目标：27.2
干扰项：23.3、33.5、36.3

bix-47-q3 · `str_verifier`¶

题面：最年长男性载体中非 Reference 变异最多的基因。
方法路径：子集=最大 age 男性 carrier → gene groupby count → argmax。
目标：NOTCH1
干扰项：FLT3、CUX1、DNMT3A

bix-49 · BOS 血液 vs 成纤维 RNA-seq¶

Paper: https://doi.org/10.1172/jci.insight.167744
Data: CapsuleFolder-4ef3fcd8-1c35-466f-9d93-49b92f4ea760.zip
答案：True（血液 DEG 2118 > 成纤维 177）

bix-49-q1 · `str_verifier`¶

题面：apeglm shrink LFC 后显著上调基因中最大 log2FC（2 位小数）。
方法路径：DESeq2::lfcShrink(type="apeglm") → 过滤 padj<0.05 & lfc>0 → max。
目标：4.80
干扰项：3.82、2.87、3.30

bix-49-q2 · `str_verifier`¶

题面：GRIK5 的 padj（apeglm shrink）。
方法路径：shrink 后 results → GRIK5 padj。
目标：7.04E-26
干扰项：8.93E-10、8.44E-07、1.42E-05

bix-49-q3 · `str_verifier`¶

题面：shrink 后显著上调基因数（padj<0.05, lfc>0）。
方法路径：过滤计数。
目标：1166
干扰项：952、2118、1054

bix-49-q4 · `str_verifier`¶

题面：shrink 后 padj<0.05 总 DEG 数。
方法路径：sum(padj<0.05)。
目标：2118
干扰项：1766、472、177

bix-49-q5 · `str_verifier`¶

题面：GRIK5 的 log2FC（shrink，2 位）。
方法路径：GRIK5 log2FC after shrink。
目标：3.83
干扰项：2.88、4.80、3.46

bix-51 · 卡瑞利珠单抗治疗肝癌缓解与人口学¶

Paper: 无
Data: CapsuleFolder-93f63fb8-b56c-4ad1-8d3b-d651e2107423.zip
答案：False（仅年龄显著）

bix-51-q1 · `range_verifier`¶

题面：仅用年龄的 logistic，65 岁患者获得 PR 的预测概率。
方法路径：sklearn LogisticRegression 或 statsmodels.api.Logit → predict_proba([[65]])。
目标：(0.38, 0.40)
干扰项：(0.65,0.75)、(0.45,0.55)、(0.15,0.25)

bix-51-q2 · `range_verifier`¶

题面：仅 BMI 的 logistic 模型 AIC。
方法路径：statsmodels Logit → model.aic。
目标：(111.80, 111.82)
干扰项：(104.13,104.15)、(114.85,114.87)、(105.16,105.20)

bix-51-q3 · `range_verifier`¶

题面：BMI+Age+Gender 联合模型中 Age 的 p 值。
方法路径：statsmodels Logit summary 取 Age p。
目标：(0.0024, 0.0026)
干扰项：(0.1362,0.1364)、(0.2624,0.2626)、(0.0021,0.0023)

bix-51-q4 · `range_verifier`¶

题面：联合模型 Age 系数（log-odds/年）。
方法路径：model.params["Age"]。
目标：(-0.085, -0.075)
干扰项：(-0.07, -0.05)、(0.162, 0.164)、(-0.6132, -0.6128)

bix-51-q5 · `range_verifier`¶

题面：BMI 零假设检验 p 值。
方法路径：仅 BMI 模型的 p-value。
目标：(0.085, 0.087)
干扰项：(0.0024,0.0026)、(0.9587,0.9589)、(0.1363,0.1365)

bix-51-q6 · `range_verifier`¶

题面：仅年龄模型 AIC。
方法路径：model.aic。
目标：(103.1, 105.1)
干扰项：(111.2,113.2)、(114.0,116.0)、(106.6,108.6)

bix-51-q8 · `range_verifier`¶

题面：简单 Age 模型的 Age 系数。
方法路径：同 q4 但单变量。
目标：(-0.064, -0.084)
干扰项：(-0.012,-0.032)、(0.053,0.073)、(-0.154,-0.174)

bix-52 · 鸟类年龄相关 CpG 染色体分布¶

Paper: https://doi.org/10.5061/dryad.wm37pvmw8
Data: CapsuleFolder-4dceea58-7d66-4576-bfc6-88c026d5b7a9.zip
答案：False（分布非均匀）

bix-52-q1 · `range_verifier`¶

题面：Zebra Finch 中过滤（甲基化 >90% 或 <10%）后 CpG 密度，染色体 W 与 1 的比。
方法路径：per-chrom CpG 计数 / 长度 → density_W/density_1。
目标：(0.47, 0.67)
干扰项：(1.47,1.67)、(14.7,16.7)、(0.05,0.07)

bix-52-q2 · `range_verifier`¶

题面：Jackdaw 全基因组平均每 bp CpG 密度（过滤后）。
方法路径：total_cpg / total_genome_bp。
目标：(1.03e-07, 1.23e-07)
干扰项：(1.03E-08,1.23E-08)、(5.23E-07,5.43E-07)、(5.23E-08,5.43E-08)

bix-52-q3 · `range_verifier`¶

题面：Zebra Finch 均匀性卡方统计量。
方法路径：scipy.stats.chisquare(observed, expected=uniform)。
目标：(48, 50)
干扰项：(42,44)、(55,57)、(32,34)

bix-52-q5 · `range_verifier`¶

题面：Zebra Finch 染色体 Z 的过滤 CpG 密度。
方法路径：Z 染色体 CpG 计数 / Z 长度。
目标：(0.9e-7, 1.1e-7)
干扰项：(6.0e-5, 6.2e-5)、(0.9e-6,1.1e-6)、(2.1e-7,2.3e-7)

bix-52-q6 · `llm_verifier`¶

题面：Jackdaw 中年龄相关 CpG 密度最高的染色体。
方法路径：per-chrom density → argmax。
目标：Chromosome W
干扰项：Chromosome 1、Chromosome 32、Chromosome Z

bix-52-q7 · `str_verifier`¶

题面：Zebra Finch 中过滤掉的 CpG 位点数（不满足 >90% 或 <10%）。
方法路径：n_removed = total - n_kept。
目标：19,159
干扰项：458、24,527、569

bix-53 · UBE2M 巨噬细胞敲低与氧化应激¶

Paper: https://zenodo.org/records/14063261
Data: CapsuleFolder-308d53bf-1513-4a09-913b-3a1112f94e7b.zip
答案：False（仍有 oxidative stress 通路富集）

bix-53-q2 · `llm_verifier`¶

题面：KL vs WL DEG（p<0.05, |lfc|>1, baseMean>10, shrink）；剔除 KL3/WL3 后 DEG 数变化方向。
方法路径：两次 DESeq2（含/不含 rep3）→ 比较 DEG 数。
目标：Increases the number of differentially expressed genes
干扰项：Decreases the number of differentially expressed genes、No change in the number of significant genes、All genes become non-significant

bix-53-q3 · `str_verifier`¶

题面：KEGG_2019_Mouse glutathione metabolism 在 KD 中贡献基因数（格式 X/Y）。
方法路径：gseapy.enrichr(gene_sets="KEGG_2019_Mouse") → Overlap 字段。
目标：22/64
干扰项：9/64、9/22、22/9

bix-53-q4 · `str_verifier`¶

题面：WikiPathways_2019_Mouse top20 中 oxidative stress 相关通路数。
方法路径：gseapy.enrichr(gene_sets="WikiPathways_2019_Mouse") → 名称匹配 "oxidative"。
目标：4.25E-04（注：该题 ideal 字段实际记录为 p 值）
干扰项：6.25E-07、1.08E-04、6.46E-05

bix-53-q5 · `str_verifier`¶

题面：WikiPathways top20 中 oxidative 占比（1 位小数）。
方法路径：sum(name.contains("oxidative"))/20。
目标：0.1
干扰项：0.25、0.5、0.8

bix-53-q6 · `llm_verifier`¶

题面：KEGG_2019_Mouse 中 KD 模型最显著富集通路。
方法路径：gseapy.enrichr(KEGG) → top1 by padj。
目标：Leishmaniasis
干扰项：TNF signaling pathway、Chemokine signaling pathway、Cytokine-cytokine receptor interaction

bix-54 · QS 双菌共培养最优比例与最大适合度¶

Paper: https://doi.org/10.17912/micropub.biology.001326
Data: CapsuleFolder-9e52daf6-ca58-43e8-e732-fbac3459d295.zip
答案：True（最优比约 0.91，面积超越野生型）

bix-54-q1 · `range_verifier`¶

题面：自然样条 lm(Area~ns(Frequency_rhlI, df=4)) 预测最大 swarming 面积对应的 rhlI 频率。
方法路径：R splines::ns(df=4) → 拟合 → argmax of predicted。
目标：(0.88, 1.0)
干扰项：(0.70,0.75)、(0.81,0.85)、(0.50,0.56)

bix-54-q2 · `range_verifier`¶

题面：三次多项式 R²。
方法路径：lm(Area~poly(Freq,3)) → summary$r.squared。
目标：(0.58, 0.59)
干扰项：(0.35,0.36)、(0.80,0.81)、(0.78,0.79)

bix-54-q3 · `range_verifier`¶

题面：自然样条模型预测峰值面积的 95% CI 下界。
方法路径：predict(..., interval="confidence") → 取 lwr 的 argmax 行。
目标：(157500, 158000)
干扰项：(114500,115000)、(137000,137500)、(159500,160000)

bix-54-q4 · `range_verifier`¶

题面：自然样条模型整体 F 检验 p 值。
方法路径：summary(fit)$fstatistic → pf(F, df1, df2, lower.tail=FALSE)。
目标：(1.13e-10, 1.13e-12)
干扰项：(6.99e-07,6.99e-09)、(0.000428,0.042)、(0.0028,0.28)

bix-54-q5 · `range_verifier`¶

题面：自然样条预测最大面积对应的 ΔrhlI:ΔlasI 比例。
方法路径：同 q1（相同频率）。
目标：(0.90, 0.99)
干扰项：(0.70,0.79)、(0.80,0.89)、(0.50,0.59)

bix-54-q6 · `range_verifier`¶

题面：自然样条模型 R²。
方法路径：summary(fit)$r.squared。
目标：(0.80, 0.81)
干扰项：(0.35,0.36)、(0.58,0.59)、(0.78,0.79)

bix-54-q7 · `range_verifier`¶

题面：quadratic、cubic、natural spline 三模型最优者在最优比例下预测的最大面积（mm²）。
方法路径：三模型 R² 对比 → 最优模型 → max(predict())。
目标：(184000, 185000)
干扰项：(113000,114000)、(137000,138000)、(210000,211000)

bix-55 · BUSCO eukaryota_odb10 单拷贝 ortholog 共享¶

Paper: 不可得
Data: CapsuleFolder-451a5322-db12-4026-8d8d-24647a85c4b1.zip
答案：True

bix-55-q1 · `llm_verifier`¶

题面：BUSCO (eukaryota_odb10) 在 4 个蛋白组中 complete & 共有的单拷贝 ortholog 数。
方法路径：busco -i proteome.faa -m prot --offline -l eukaryota_odb10 → 合并 complete set 交集。
目标：101
干扰项：89、123、145

bix-56 · BUSCO 跨物种氨基酸聚合¶

Paper: 不可得
Data: CapsuleFolder-302f0f4f-a9d7-460d-9488-d7cc7832bdf9.zip
答案：True

bix-56-q1 · `llm_verifier`¶

题面：所有单拷贝 ortholog 序列合计氨基酸数。
方法路径：BUSCO 提取蛋白 → 合并 → sum(len(seq))。
目标：13809
干扰项：11245、15623、12890

bix-57 · MAFFT auto 比对 gap 比例¶

Paper: 不可得
Data: CapsuleFolder-ff43cd5b-6f9e-410b-8d53-a5bb11b5b531.zip
答案：True

bix-57-q1 · `llm_verifier`¶

题面：MAFFT --auto 比对后 gap 字符占比（%）。
方法路径：mafft --auto input.fa > aln.fa → sum(count('-'))/total_positions * 100。
目标：4.8
干扰项：3.2、6.1、5.5

bix-58 · ClipKIT 修剪比对的长度缩减¶

Paper: 不可得
Data: CapsuleFolder-cdb0c58b-c9e1-47a7-9ad1-6abc48335c3f.zip
答案：True

bix-58-q1 · `llm_verifier`¶

题面：ClipKIT 修剪后长度缩减百分比最大的 ortholog ID。
方法路径：clipkit <aln> → 对每基因计算 (orig_len - trimmed_len)/orig_len → argmax。
目标：1014314
干扰项：1018517、1003258、1065019

bix-60 · PhyKIT treeness 综合评估¶

Paper: 不可得
Data: CapsuleFolder-1aea473d-db97-4c12-9a1e-6c850ddc9110.zip
答案：True

bix-60-q1 · `llm_verifier`¶

题面：5 棵树 PhyKIT treeness 均值 × 1000 后四舍五入。
方法路径：phykit treeness -t *.tre → mean × 1000 → round。
目标：19
干扰项：25、12、33

bix-61 · MDR vs 零售肉 E. coli WGS（6 个子 capsule）¶

Paper: 不可得
数据: 6 个 CapsuleFolder，每个对应 pipeline 的一步
共享假设：MDR E. coli 突变率更高、Ts 多于 Tv。答案：True（MDR=101817 SNP，meat=94440）

bix-61-q1 · `llm_verifier`（Capsule `dcee15c0-...`）¶

题面：Trimmomatic PE 给定参数下完全丢弃的 reads 数。
方法路径： trimmomatic PE in_1.fq in_2.fq out_1P.fq out_1U.fq out_2P.fq out_2U.fq ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36 → 解析 log 中 "Dropped" 字段。
目标：344895
干扰项：341095、348695、352495

bix-61-q2 · `llm_verifier`（Capsule `37829656-...`）¶

题面：MDR SRR35233585 的平均测序深度（4 位小数，BWA-MEM 比对）。
方法路径：
bwa mem -R "@RG\tID:SRR35233585\tSM:SRR35233585\tPL:ILLUMINA\tLB:lib1\tPU:unit1" ref.fa R1 R2 | samtools sort -o mdr.bam。
samtools depth mdr.bam | awk '{s+=$3; n++} END{print s/n}'。
目标：12.1283
干扰项：10.3421、14.2156、11.0198

bix-61-q3 · `llm_verifier`（Capsule `53a80e13-...`）¶

题面：GATK HaplotypeCaller 调用下 MDR 样本中真 SNP 数。
方法路径： gatk HaplotypeCaller -I mdr.bam -O mdr.vcf → bcftools view -v snps 并排除 multi-nt → count。
目标：101817
干扰项：98234、105432、95621

bix-61-q4 · `llm_verifier`（Capsule `fb42b6d8-...`）¶

题面：MDR 中 indel 总数（insertion + deletion）。
方法路径：bcftools view -v indels mdr.vcf → count。
目标：3173
干扰项：2973、3373、3573

bix-61-q5 · `llm_verifier`（Capsule `5ddf0a38-...`）¶

题面：MDR 的 Ts/Tv（2 位小数）。
方法路径：bcftools stats mdr.vcf | grep "ts/tv"。
目标：2.68
干扰项：2.45、2.91、2.33

bix-61-q6 · `llm_verifier`（Capsule `2e6ab559-...`）¶

题面：一句话描述 MDR 与 meat 株积累突变的差异。
方法路径：汇总 SNP 计数（MDR=101817, meat=94440）→ 文字描述。
目标：The MDR strain accumulates mutations at a rate of 101,817 SNPs which is higher than the retail meat strain (94,440 SNPs).
干扰项：The MDR strain accumulates mutation at a lower rate than the retail meat strain、The MDR strain and the retail meat strain accumulate mutations at the same rate.、The retail meat strain accumulates mutations at a higher rate than the MDR strain.

附录：评分器与方法路径速查¶

评分器¶

模式	工作方式	适合题型
`str_verifier`	字符串归一化（去空白/百分号/千分位）后精确匹配	计数、比值、固定格式科学计数
`range_verifier`	数值位于给定区间 `(low, high)` 内视为正确	相关系数、p 值、比例、面积
`llm_verifier`	用 `OPEN_ENDED_GRADING_PROMPT` 调 LLM 裁判	概念判断、通路名、方向

主要 Python / R 工具链¶

领域	关键包
差异表达	`DESeq2`、`apeglm` shrink、`limma`
GO / KEGG / Reactome	`clusterProfiler::enrichGO/simplify`、`gseapy.enrichr`（GO_Biological_Process_2021、Reactome_2022、KEGG_2019_Mouse、WikiPathways_2019_Mouse）
统计检验	`scipy.stats`（Mann–Whitney、Welch t、ANOVA、chi2、Shapiro、Pearson/Spearman）、`statsmodels` OLS、Logit、OrderedModel
多重校正	`statsmodels.stats.multitest.multipletests`（BH/BY/Bonferroni）、Wilson 区间
系统发生	PhyKIT（treeness、rcv、evo_rate、DVMC、long_branch_score、patristic_distances、saturation、tree_length、pis）、BUSCO、MAFFT、ClipKIT、IQ-TREE
WGS	Trimmomatic PE、BWA-MEM、samtools、bcftools、GATK HaplotypeCaller
图像 / 形态	`scikit-image regionprops`、自定义 circularity
机器学习	`sklearn.LogisticRegression`、`PCA`、层次聚类 + 共识
R 依赖	`tidyverse`、`ggplot2`、`splines::ns`、`DescTools::DunnettTest`

常见阈值约定¶

差异表达：padj<0.05；|log2FC| 多为 0.5 或 1；baseMean≥10；偶尔要求 lfcShrink(type="apeglm")。
GO simplify：similarity > 0.7 去冗余。
VAF 分界：体细胞 VAF<0.3。
QS 株命名：JBX1=wt、JBX97=ΔrhlI、JBX98=ΔlasI、JBX99=ΔlasIΔrhlI。
MDR 测序编号：SRR35233585（MDR），SRR35228486（零售肉）。

BixBench 任务中文详解¶

bix-1 · Bohring-Opitz 综合征血液 RNA-seq 差异表达与 GO 富集¶

bix-1-q1 · str_verifier¶

bix-1-q2 · str_verifier¶

bix-2 · Bloom 综合征 CHIP 体细胞变异 VAF 分布¶

bix-2-q1 · range_verifier¶

bix-2-q2 · range_verifier¶

bix-3 · 帕罗西汀对正常小鼠基因表达影响¶

bix-3-q1 · range_verifier¶

bix-3-q2 · range_verifier¶

bix-3-q3 · range_verifier¶

bix-3-q4 · range_verifier¶

bix-3-q5 · llm_verifier¶

bix-4 · 真菌 vs 动物 分子钟（DVMC）¶

bix-4-q1 · llm_verifier¶

bix-4-q2 · llm_verifier¶

bix-4-q3 · llm_verifier¶

bix-4-q4 · llm_verifier¶

bix-4-q5 · llm_verifier¶

bix-4-q6 · llm_verifier¶

bix-4-q7 · llm_verifier¶

bix-5 · BOS 患者成纤维细胞 GO 富集（组织特异性）¶

bix-5-q1 · llm_verifier¶

bix-5-q4 · llm_verifier¶

bix-6 · CRISPR 激活筛选 T 细胞逃逸通路¶

bix-6-q1 · llm_verifier¶

bix-6-q3 · str_verifier¶

bix-6-q4 · range_verifier¶

bix-6-q5 · str_verifier¶

bix-6-q6 · range_verifier¶

bix-6-q7 · llm_verifier¶

bix-7 · Bloom 综合征生殖/体细胞 CHIP 变异总量¶

bix-7-q1 · str_verifier¶

bix-7-q2 · range_verifier¶

bix-7-q3 · range_verifier¶

bix-8 · 膀胱癌 m6A 甲基化 vs mRNA 表达独立性¶

bix-8-q1 · str_verifier¶

bix-8-q2 · range_verifier¶

bix-8-q3 · str_verifier¶

bix-8-q5 · llm_verifier¶

bix-8-q6 · str_verifier¶

bix-8-q7 · str_verifier¶

bix-9 · 帕罗西汀在抑郁小鼠中的组织特异响应¶

bix-9-q3 · llm_verifier¶

bix-9-q4 · str_verifier¶

bix-9-q5 · llm_verifier¶

bix-10 · BCG 再接种与医护 COVID-19 严重度¶

bix-10-q1 · range_verifier¶

bix-10-q2 · range_verifier¶

bix-10-q3 · str_verifier¶

bix-10-q4 · range_verifier¶

bix-10-q5 · range_verifier¶

bix-10-q6 · range_verifier¶

bix-10-q7 · range_verifier¶

bix-11 · 真菌 vs 动物 treeness（PhyKIT）¶

bix-11-q1 · llm_verifier¶

bix-11-q2 · llm_verifier¶

bix-11-q3 · llm_verifier¶

bix-11-q4 · llm_verifier¶

bix-11-q5 · llm_verifier¶

bix-11-q6 · llm_verifier¶

bix-12 · 真菌 vs 动物 简约信息位点（parsimony informative sites）¶

bix-12-q2 · llm_verifier¶

bix-12-q3 · llm_verifier¶

bix-12-q4 · llm_verifier¶

bix-12-q5 · llm_verifier¶

bix-12-q6 · llm_verifier¶

bix-13 · 铜绿假单胞菌 QS 敲除株 DEG 数量¶

bix-13-q1 · str_verifier¶

bix-13-q2 · str_verifier¶

bix-13-q3 · str_verifier¶

bix-13-q4 · str_verifier¶

bix-13-q5 · str_verifier¶

bix-14 · Bloom 综合征 CHIP 变异效应分布¶

bix-14-q1 · range_verifier¶

bix-14-q2 · range_verifier¶

bix-14-q3 · str_verifier¶

bix-16 · 癌细胞基因表达 vs 依赖性相关¶

bix-16-q1 · str_verifier¶

bix-16-q2 · llm_verifier¶

bix-1-q1 · `str_verifier`¶

bix-1-q2 · `str_verifier`¶

bix-2-q1 · `range_verifier`¶

bix-2-q2 · `range_verifier`¶

bix-3-q1 · `range_verifier`¶

bix-3-q2 · `range_verifier`¶

bix-3-q3 · `range_verifier`¶

bix-3-q4 · `range_verifier`¶

bix-3-q5 · `llm_verifier`¶

bix-4 · 真菌 vs 动物分子钟（DVMC）¶

bix-4-q1 · `llm_verifier`¶

bix-4-q2 · `llm_verifier`¶

bix-4-q3 · `llm_verifier`¶

bix-4-q4 · `llm_verifier`¶

bix-4-q5 · `llm_verifier`¶

bix-4-q6 · `llm_verifier`¶

bix-4-q7 · `llm_verifier`¶

bix-5-q1 · `llm_verifier`¶

bix-5-q4 · `llm_verifier`¶

bix-6-q1 · `llm_verifier`¶

bix-6-q3 · `str_verifier`¶

bix-6-q4 · `range_verifier`¶

bix-6-q5 · `str_verifier`¶

bix-6-q6 · `range_verifier`¶

bix-6-q7 · `llm_verifier`¶

bix-7-q1 · `str_verifier`¶

bix-7-q2 · `range_verifier`¶

bix-7-q3 · `range_verifier`¶

bix-8-q1 · `str_verifier`¶

bix-8-q2 · `range_verifier`¶

bix-8-q3 · `str_verifier`¶

bix-8-q5 · `llm_verifier`¶

bix-8-q6 · `str_verifier`¶

bix-8-q7 · `str_verifier`¶

bix-9-q3 · `llm_verifier`¶

bix-9-q4 · `str_verifier`¶

bix-9-q5 · `llm_verifier`¶

bix-10-q1 · `range_verifier`¶

bix-10-q2 · `range_verifier`¶

bix-10-q3 · `str_verifier`¶

bix-10-q4 · `range_verifier`¶

bix-10-q5 · `range_verifier`¶

bix-10-q6 · `range_verifier`¶

bix-10-q7 · `range_verifier`¶

bix-11-q1 · `llm_verifier`¶

bix-11-q2 · `llm_verifier`¶

bix-11-q3 · `llm_verifier`¶

bix-11-q4 · `llm_verifier`¶

bix-11-q5 · `llm_verifier`¶

bix-11-q6 · `llm_verifier`¶

bix-12 · 真菌 vs 动物简约信息位点（parsimony informative sites）¶

bix-12-q2 · `llm_verifier`¶

bix-12-q3 · `llm_verifier`¶

bix-12-q4 · `llm_verifier`¶

bix-12-q5 · `llm_verifier`¶

bix-12-q6 · `llm_verifier`¶

bix-13-q1 · `str_verifier`¶

bix-13-q2 · `str_verifier`¶

bix-13-q3 · `str_verifier`¶

bix-13-q4 · `str_verifier`¶

bix-13-q5 · `str_verifier`¶

bix-14-q1 · `range_verifier`¶

bix-14-q2 · `range_verifier`¶

bix-14-q3 · `str_verifier`¶

bix-16-q1 · `str_verifier`¶

bix-16-q2 · `llm_verifier`¶

bix-16-q3 · `str_verifier`¶

bix-16-q4 · `range_verifier`¶

bix-17-q2 · `str_verifier`¶

bix-18-q1 · `range_verifier`¶

bix-18-q2 · `str_verifier`¶

bix-18-q3 · `range_verifier`¶

bix-18-q4 · `range_verifier`¶

bix-18-q5 · `range_verifier`¶

bix-19-q1 · `str_verifier`¶

bix-19-q2 · `range_verifier`¶

bix-19-q3 · `range_verifier`¶

bix-19-q4 · `range_verifier`¶

bix-19-q5 · `llm_verifier`¶

bix-20-q1 · `range_verifier`¶