BixBench 任务中文详解
基于 HuggingFace 数据集 futurehouse/BixBench(train split)59 个 capsule、205 道题目整理。
每个 capsule 对应一篇论文/数据集,所有子问题都在同一个 Jupyter notebook 环境中求解。
评分器:str_verifier(字符串精确匹配)/ range_verifier(数值区间)/ llm_verifier(LLM 判分)。
Agent 工具面:edit_cell(contents, idx)、list_workdir()、submit_answer(answer);通过 notebook 可调用 bash、pip/mamba、R、BUSCO、mafft、clipkit、iqtree、phykit、samtools、bwa、gatk 等。
bix-1 · Bohring-Opitz 综合征血液 RNA-seq 差异表达与 GO 富集
- Paper: https://doi.org/10.1172/jci.insight.167744
- Data:
CapsuleFolder-33b801bb-9b47-4a0a-9314-05325c82fde7.zip
- 研究假设:截短型 ASXL1 突变会引起血液中与造血相关过程(如 T 细胞、中性粒细胞活化)的特异性基因表达变化。答案:True(T 细胞活化 p-adj=3.23E-8,中性粒细胞活化 p-adj=1.90E-5)
bix-1-q1 · str_verifier
- 题面:用提供的 RNA-seq count + metadata,跑 DESeq2 找 padj<0.05 的 DEG,再用
clusterProfiler::enrichGO 配 simplify(similarity>0.7) 做 GO 富集,"regulation of T cell activation" 的 padj 值是多少(保留 4 位小数)?
- 方法路径:
- 载入 count 矩阵与样本表 →
DESeq2::DESeqDataSetFromMatrix → DESeq()。
results(padj<0.05) 取 DEG 基因集。
- 背景集 = Gencode 全基因;
clusterProfiler::enrichGO(OrgDb=org.Hs.eg.db, ont="BP") → simplify(cutoff=0.7)。
- 查找
Description == "regulation of T cell activation" 的 p.adjust,四舍五入到 4 位小数。
- 目标:该 GO term 的
p.adjust ≈ 0.0002
- 干扰项:
7.820659E-05、0.0003、1.847038E-05
bix-1-q2 · str_verifier
- 题面:同上流程,"neutrophil activation" 的 padj 阈值是多少?
- 方法路径:同 q1;取 Description=="neutrophil activation"。
- 目标:1.9E-05
- 干扰项:
3.23E-08、4.56E-04、2.15E-06
bix-2 · Bloom 综合征 CHIP 体细胞变异 VAF 分布
- Paper: doi.org/10.3324/haematol.2024.285239
- Data:
CapsuleFolder-30b33e47-92d8-4372-a9f6-da32896493d0.zip
- 研究假设:BSyn 先证者/携带者 低频体细胞 CHIP 变异(VAF<0.3)比例显著高于对照。答案:True(p 值 1.41E-06 ~ 1.60E-03)
bix-2-q1 · range_verifier
- 题面:BLM 基因突变个体中,VAF<0.3(体细胞)的 CHIP 变异占比是多少?
- 方法路径:
- 解析 variant 注释文件(过滤 Reference 调用、去除 Intronic/Intergenic/UTR)。
- 按样本 BLM 状态分组,取
BLM 突变 子集。
- 计算
VAF<0.3 的变异数 / 总 CHIP 变异数。
- 目标:比例区间 (0.01, 0.09)
- 干扰项:
(0.10,0.19)、(0.20,0.39)、(0.40,0.99)
bix-2-q2 · range_verifier
- 题面:对照儿童组中,0.3 ≤ VAF ≤ 0.7 的 CHIP 变异占百分之几?
- 方法路径:同 q1;子集=Control Children;分子=0.3≤VAF≤0.7;以百分比输出。
- 目标:百分比区间 (60, 70)
- 干扰项:
(40-50)、(50,60)、(70,80)
bix-3 · 帕罗西汀对正常小鼠基因表达影响
- Paper: https://zenodo.org/records/4287588
- Data:
CapsuleFolder-94bcdbc9-c729-4661-9bc1-0057bbea39c4.zip
- 研究假设:帕罗西汀对非抑郁(对照)小鼠基因表达影响微乎其微。答案:True(仅"final blood vs baseline blood"对比中 DEG 数几乎为零)
bix-3-q1 · range_verifier
- 题面:仅控制组,用 DESeq2(design=~Tissue;contrast=final_blood vs baseline_blood),统计 FDR<0.05、|log2FC|>1、baseMean≥10 的基因数;若计数已归一化则先四舍五入为整数伪计数。
- 方法路径:
- 取 Control 样本;若 counts 非整数 →
round()。
DESeqDataSetFromMatrix(design=~Tissue) → DESeq() → results(contrast=c("Tissue","final_blood","baseline_blood"))。
- 过滤
padj<0.05 & abs(log2FC)>1 & baseMean>=10 → 计数。
- 目标:DEG 数 (700, 1000)
- 干扰项:
(7000,10000)、(2000,4000)、(300,500)
bix-3-q2 · range_verifier
- 题面:final blood vs baseline blood 中 DEG 比例的 95% Wilson 置信区间。
- 方法路径:DEG 数 / 总基因数 →
statsmodels.stats.proportion.proportion_confint(method="wilson", alpha=0.05)。
- 目标:CI (0.03, 0.04)
- 干扰项:
(0.02,0.03)、(0.4,0.5)、(0.1,0.3)
bix-3-q3 · range_verifier
- 题面:Control 样本,齿状回 vs baseline blood(padj<0.05 & |log2FC|>1)特有的 DEG 数(不在 dentate vs final blood 和 final vs baseline blood 结果中)。
- 方法路径:
- 对三组对比分别跑 DESeq2 → 取 DEG 集合 A、B、C。
- 目标 =
|A − (B ∪ C)|。
- 目标:(700, 800)
- 干扰项:
(100,300)、(900,1000)、(1000,2000)
bix-3-q4 · range_verifier
- 题面:三组对比(final vs baseline、dentate vs baseline、dentate vs final)中共同差异表达的基因数。
- 方法路径:DEG 集合 A ∩ B ∩ C 的大小。
- 目标:(400, 500)
- 干扰项:
(900,1000)、(100,200)、(50,70)
bix-3-q5 · llm_verifier
- 题面:三组 DEG 数做 5% 阈值的二项检验,哪一组呈"微弱"效应?
- 方法路径:
scipy.stats.binomtest(k=DEG_count, n=total, p=0.05) → 对比 p 值。
- 目标:Final vs Baseline Blood
- 干扰项:
Dentate gyrus vs Baseline blood、Dentate gyrus vs Final blood、All of them
bix-4 · 真菌 vs 动物 分子钟(DVMC)
- Paper: 不可得
- Data:
CapsuleFolder-ec9eb551-feee-48f6-8494-fd85e1521881.zip
- 研究假设:真菌分子演化比动物更像时钟。答案:True(动物 DVMC 更高)
bix-4-q1 · llm_verifier
- 题面:用 PhyKIT 的
DVMC 函数,真菌基因中 DVMC<0.3 的比例。
- 方法路径:
phykit dvmc -t <tree> 批量跑所有真菌 BUSCO 树 → 统计 DVMC<0.3 占比。
- 目标:57%
- 干扰项:
28%、45%、79%
bix-4-q2 · llm_verifier
- 题面:动物基因 DVMC 的中位数。
- 方法路径:对动物树集合计算 DVMC →
numpy.median。
- 目标:0.57
- 干扰项:
0.31、0.65、0.82
bix-4-q3 · llm_verifier
- 题面:比较动物与真菌 DVMC 的 Mann–Whitney U 统计量。
- 方法路径:
scipy.stats.mannwhitneyu(animal_dvmc, fungi_dvmc) → statistic。
- 目标:19808
- 干扰项:
16032、18356、9340
bix-4-q4 · llm_verifier
- 题面:动物 DVMC 的标准差。
- 方法路径:
numpy.std(animal_dvmc)。
- 目标:0.30
- 干扰项:
0.15、0.28、0.56
bix-4-q5 · llm_verifier
- 题面:真菌 DVMC 的中位数。
- 方法路径:
numpy.median(fungi_dvmc)。
- 目标:0.26
- 干扰项:
0.52、0.35、0.65
bix-4-q6 · llm_verifier
- 题面:动物 DVMC 的最大值。
- 方法路径:
max(animal_dvmc)。
- 目标:1.58
- 干扰项:
1.22、1.05、0.95
bix-4-q7 · llm_verifier
- 题面:真菌 ortholog
324863at2759 的 DVMC 值。
- 方法路径:
phykit dvmc -t 324863at2759.tre。
- 目标:0.45
- 干扰项:
0.99、0.32、0.67
bix-5 · BOS 患者成纤维细胞 GO 富集(组织特异性)
- Paper: https://doi.org/10.1172/jci.insight.167744
- Data:
CapsuleFolder-2a8a40d4-05b0-4eec-8bd2-825f61fc9f5d.zip
- 研究假设:ASXL1 突变引起的转录变化是组织特异的(成纤维细胞富集细胞结构相关通路)。答案:True(potassium ion transport p-adj=0.004,membrane potential p-adj=0.02)
bix-5-q1 · llm_verifier
- 题面:患者 vs 对照 中统计上最富集的 GO BP 通路。
- 方法路径:DESeq2 → DEG →
enrichGO(ont="BP") → 按 p.adjust 升序取 top1。
- 目标:potassium ion transmembrane transport
- 干扰项:
Dendrite self-avoidance、Muscle contraction、Axon guidance
bix-5-q4 · llm_verifier
- 题面:ASXL1 突变成纤维细胞中最富集的过程。
- 方法路径:同 q1。
- 目标:Potassium ion transmembrane transport
- 干扰项:
Muscle contraction、Axon guidance、Dendrite self-avoidance
bix-6 · CRISPR 激活筛选 T 细胞逃逸通路
- Paper: https://www.nature.com/articles/s41467-022-29205-8
- Data:
CapsuleFolder-f4dcda89-678d-403d-b155-1483d0071765.zip
- 研究假设:免疫相关通路在允许肿瘤细胞逃避 T 细胞杀伤的基因集合中富集。答案:False(仅慢性第 2 轮有 2 条通路显著)
bix-6-q1 · llm_verifier
- 题面:在跨重复最小 p 值的 ORA 分析中,哪个条件富集最强?
- 方法路径:MAGeCK p-value → 跨 replicate 取 min → ORA → 比较各 condition。
- 目标:chronic round 2
- 干扰项:
acute T cells、chronic round 3、chronic round 1
bix-6-q3 · str_verifier
- 题面:慢性 T 细胞三轮中都保持显著富集(padj<0.05)的通路数。
- 方法路径:对三轮分别 ORA,取交集。
- 目标:0
- 干扰项:
4、2、1
bix-6-q4 · range_verifier
- 题面:慢性第 1 轮 replicate 间基因的 Spearman 相关系数。
- 方法路径:
scipy.stats.spearmanr(rep1, rep2)。
- 目标:(0.001, 0.09)
- 干扰项:
(0.1,0.3)、(0.4,0.5)、(0.5,1)
bix-6-q5 · str_verifier
- 题面:排除"无 T 细胞"对照后,免疫通路 padj<0.05 富集的条件占比。
- 方法路径:筛选
Immune* 通路 → 显著条件数 / 总条件数。
- 目标:25%
- 干扰项:
0%、50%、75%
bix-6-q6 · range_verifier
- 题面:acute T cell 筛 S1 vs S2 的 MAGeCK p 值 Spearman 相关系数。
- 方法路径:
scipy.stats.spearmanr(S1.pval, S2.pval)。
- 目标:(0, 0.09)
- 干扰项:
(0.1,0.2)、(0.3,0.5)、(0.6,1)
bix-6-q7 · llm_verifier
- 题面:慢性第 2 轮最显著富集的通路。
- 方法路径:取该条件 ORA 结果首位。
- 目标:cGMP effects
- 干扰项:
Nitric oxide stimulates guanylate cyclase、ABC transporter disorders、p53-Dependent G1 DNA Damage Response
bix-7 · Bloom 综合征生殖/体细胞 CHIP 变异总量
- Paper: https://doi.org/10.3324/haematol.2024.285239
- Data:
CapsuleFolder-a02b761a-02b6-46b5-9d5e-2964d5a74960.zip
- 研究假设:BSyn/载体者生殖系变异与对照相当,但体细胞变异更多。答案:True
bix-7-q1 · str_verifier
- 题面:只看非 Reference 外显子变异,多少 BLM 状态组 CHIP 变异频率与对照显著不同。
- 方法路径:过滤 Intronic/Intergenic/UTR/Reference → 每组均值对照比较 → 校正 p 值计数。
- 目标:0
- 干扰项:
1、2、3
bix-7-q2 · range_verifier
- 题面:滤除 Intronic/Intergenic/UTR 后每样本平均 CHIP 变异数。
- 方法路径:按样本 groupby →
mean()。
- 目标:(40, 60)
- 干扰项:
(25,35)、(120,150)、(230,260)
bix-7-q3 · range_verifier
- 题面:移除 Reference 调用后剩下多少 CHIP 变异。
- 方法路径:
df[df.Zygosity != "Reference"].shape[0]。
- 目标:(10000, 20000)
- 干扰项:
(20000,25000)、(40000,50000)、(50000,60000)
bix-8 · 膀胱癌 m6A 甲基化 vs mRNA 表达独立性
- Paper: 10.17632/dj4sb8h3c3.1
- Data:
CapsuleFolder-48a6b469-9c9d-4bef-b5b4-f29b7d6fa046.zip
- 研究假设:m6A 修饰对膀胱癌发生有显著作用。答案:True(卡方检验表明 m6A 状态与 DEG 状态非独立)
bix-8-q1 · str_verifier
- 题面:高甲基化基因中表达上调比例。
- 方法路径:
df[df.m6A=="Hyper" & df.DEG=="Up"].size / df[df.m6A=="Hyper"].size * 100。
- 目标:15.6%
- 干扰项:
8.2%、23.4%、32.7%
bix-8-q2 · range_verifier
- 题面:m6A × DEG 列联表的卡方统计量。
- 方法路径:
scipy.stats.chi2_contingency(table)。
- 目标:(900.5, 902.5)
- 干扰项:
(561.2,563.2)、(119.7,121.7)、(433.1,435.1)
bix-8-q3 · str_verifier
- 题面:所有差异甲基化基因中,Hyper 与 Hypo 的比值。
- 方法路径:count(Hyper) / count(Hypo),保留 2 位小数。
- 目标:1.33
- 干扰项:
0.75、2.15、1.85
bix-8-q5 · llm_verifier
- 题面:卡方检验 p 值(科学计数法)。
- 方法路径:
scipy.stats.chi2_contingency → p-value。
- 目标:p < 2.2e-16
- 干扰项:
p > 0.05、p = 0.001、p = 0.0338
bix-8-q6 · str_verifier
- 题面:膀胱癌中显著高甲基化的基因数。
- 方法路径:
df[df.m6A=="Hyper"].shape[0]。
- 目标:680
- 干扰项:
511、11563、415
bix-8-q7 · str_verifier
- 题面:既 m6A Hyper 又表达上调的基因数。
- 方法路径:
df[m6A==Hyper & DEG==Up].shape[0]。
- 目标:106
- 干扰项:
12、562、383
bix-9 · 帕罗西汀在抑郁小鼠中的组织特异响应
- Paper: https://zenodo.org/records/4287588
- Data:
CapsuleFolder-873bada5-b1f3-423a-87dc-9ddd486c4843.zip
- 研究假设:帕罗西汀引起组织特异的基因表达变化。答案:True(ANOVA 交互 Tissue×Response 显著)
bix-9-q3 · llm_verifier
- 题面:齿状回中好/差应答 vs 对照(p<0.05、lfc>0.5、counts≥10)DEG 的共享模式。
- 方法路径:三组 DEG 集合比较,分析交集。
- 目标:No overlap between any groups
- 干扰项:
Complete overlap between all groups、Partial overlap between good and bad responders only、Complete overlap between good responders and controls only
bix-9-q4 · str_verifier
- 题面:单因素 ANOVA(Category=Tissue×Response)中 Category 效应的 p 值(科学计数法)。
- 方法路径:
statsmodels.formula.api.ols("Expr ~ C(Category)").fit() → anova_lm。
- 目标:9.92E-35
- 干扰项:
1.07E-16、4.26E-06、3.39E-12
bix-9-q5 · llm_verifier
- 题面:坏应答者 vs 对照中 DEG(lfc>0.5, baseMean>10)最多的组织。
- 方法路径:分别对三个组织跑 DESeq2 → 比较 DEG 计数。
- 目标:Dentate gyrus (brain)
- 干扰项:
Baseline blood、Final blood、Equal numbers across all tissues
bix-10 · BCG 再接种与医护 COVID-19 严重度
- Paper: https://zenodo.org/records/12737228
- Data:
CapsuleFolder-fbe0e950-76f2-4eb7-a216-a2d377970922.zip
- 研究假设:BCG 再接种降低医护 COVID-19 严重度。答案:False(OR=1.63,反而增加)
bix-10-q1 · range_verifier
- 题面:多变量有序 logistic 回归(含患者接触变量),BCG 接种对 COVID 严重度的 OR。
- 方法路径:
statsmodels.miscmodels.ordinal_model.OrderedModel(AESEV ~ TRTGRP_cat + expect_interact_cat + patients_seen_cat).fit() → exp(coef[BCG])。
- 目标:(1.50, 1.54)
- 干扰项:
(0.66,0.70)、(0.95,1.05)、(1.24,1.28)
bix-10-q2 · range_verifier
- 题面:有序 logit 中
expect_interact_cat 对 AESEV 的 OR(控制患者数和 BCG 状态)。
- 方法路径:同 q1 模型;取
expect_interact_cat 的 exp(coef)。
- 目标:(0.74, 0.77)
- 干扰项:
(1.24,1.28)、(0.26,0.28)、(0.95,1.05)
bix-10-q3 · str_verifier
- 题面:在哪个 patients_seen 组,BCG vs 安慰剂间严重度存在显著差异(p<0.05)。
- 方法路径:按 patients_seen_cat 分子集 →
scipy.stats.chi2_contingency。
- 目标:1-50
- 干扰项:
51-100、>100、1-100
bix-10-q4 · range_verifier
- 题面:"有患者接触意愿"人群中 BCG × 严重度的卡方 p 值。
- 方法路径:子集 expect_interact==True → 卡方。
- 目标:(0.024, 0.026)
- 干扰项:
(0.123,0.125)、(0.047,0.049)、(0.366,0.368)
bix-10-q5 · range_verifier
- 题面:每周接触>100 患者组,vaccine × severity 的 p 值。
- 方法路径:子集 patients_seen==">100";卡方。
- 目标:(0.43, 0.45)
- 干扰项:
(0.03,0.04)、(0.32,0.35)、(0.14,0.16)
bix-10-q6 · range_verifier
- 题面:1-50 患者组 BCG × severity 卡方 p 值。
- 方法路径:子集 patients_seen=="1-50";卡方。
- 目标:(0.023, 0.025)
- 干扰项:
(0.326,0.328)、(0.444,0.446)、(0.052,0.054)
bix-10-q7 · range_verifier
- 题面:控制 BCG 与患者数时,"有接触 vs 无接触"对严重度 OR 的百分比下降。
- 方法路径:(1 - OR) × 100;OR 来自 q2 模型。
- 目标:(24, 26)
- 干扰项:
(14,16)、(34,36)、(44,46)
bix-11 · 真菌 vs 动物 treeness(PhyKIT)
- Paper: 不可得
- Data:
CapsuleFolder-cd811ead-7887-4369-b175-05aff4223765.zip
- 研究假设:真菌的 treeness 比动物高。答案:True
bix-11-q1 · llm_verifier
- 题面:真菌 vs 动物 treeness 中位数差值。
- 方法路径:
phykit treeness -t <tree> 批量 → median(fungi) - median(animal)。
- 目标:0.05
- 干扰项:
0.015、0.075、0.105
bix-11-q2 · llm_verifier
- 题面:真菌基因 treeness>0.06 的比例。
- 方法路径:
(fungi_treeness > 0.06).mean()。
- 目标:35%
- 干扰项:
15%、25%、45%
bix-11-q3 · llm_verifier
- 题面:动物基因 treeness 最大值。
- 方法路径:
max(animal_treeness)。
- 目标:0.1126
- 干扰项:
0.0884、0.1345、0.1562
bix-11-q4 · llm_verifier
- 题面:Mann–Whitney U 统计量。
- 方法路径:
scipy.stats.mannwhitneyu(animal, fungi)。
- 目标:3556.0
- 干扰项:
1247.5、2584.0、4891.0
bix-11-q5 · llm_verifier
- 题面:Mann–Whitney U 检验 p 值。
- 方法路径:同 q4;取
pvalue。
- 目标:0.0
- 干扰项:
0.0341、0.0478、0.1205
bix-11-q6 · llm_verifier
- 题面:真菌 treeness 中位数。
- 方法路径:
median(fungi_treeness)。
- 目标:0.0501
- 干扰项:
0.0234、0.0612、0.0855
- Paper: 不可得
- Data:
CapsuleFolder-d38392ec-84b8-485d-ab02-b8788e6f1f43.zip
- 研究假设:真菌比动物有更多简约信息位点。答案:True
bix-12-q2 · llm_verifier
- 题面:真菌基因比对 parsimony informative sites 占比的中位数。
- 方法路径:
phykit pis -a <aln> → % PIS → median。
- 目标:3.5%
- 干扰项:
1.2%、4.9%、5.2%
bix-12-q3 · llm_verifier
- 题面:最低 PIS 百分比(真菌/动物之比)。
- 方法路径:
min(fungi_pis_pct) / min(animal_pis_pct)。
- 目标:4.0
- 干扰项:
0.5、1.0、3.0
bix-12-q4 · llm_verifier
- 题面:PIS 百分比 Mann–Whitney U 统计量。
- 方法路径:
mannwhitneyu(animal_pct, fungi_pct)。
- 目标:6948.0
- 干扰项:
4532.0、5891.0、7823.0
bix-12-q5 · llm_verifier
- 题面:任一动物基因比对中 PIS 的最大绝对数。
- 方法路径:
max(animal_pis_count)。
- 目标:29
- 干扰项:
24、36、48
bix-12-q6 · llm_verifier
- 题面:PIS 原始计数 Mann–Whitney U 统计量。
- 方法路径:
mannwhitneyu(animal_pis, fungi_pis)。
- 目标:6748.0
- 干扰项:
3245.0、4521.0、8932.0
bix-13 · 铜绿假单胞菌 QS 敲除株 DEG 数量
- Paper: https://doi.org/10.17912/micropub.biology.001326
- Data:
CapsuleFolder-1d54e4a7-8b0f-4224-bd31-efcfded0d46c.zip
- 研究假设:rhlI 或 lasI 敲除影响数十个下游基因的表达。答案:True
- 菌株:JBX1=wt、JBX97=ΔrhlI、JBX98=ΔlasI、JBX99=ΔlasIΔrhlI
bix-13-q1 · str_verifier
- 题面:JBX97(|lfc|>1.5 & FDR<0.05)中也显著且仅在 JBX99 中显著(相对 JBX1)的 DEG 比例。
- 方法路径:
DESeq2(design=~Replicate+Strain+Media) → per-strain DEG 集合 → 计算 |97 ∩ 99 − 98|/|97|。
- 目标:10.6%
- 干扰项:
29.8%、0.9%、31.8%
bix-13-q2 · str_verifier
- 题面:相对 JBX1,仅在 JBX98 显著而不在 JBX97/JBX99 显著的 DEG 数。
- 方法路径:
|98 − (97 ∪ 99)|,FDR(BH)=0.05。
- 目标:166
- 干扰项:
190、464、137
bix-13-q3 · str_verifier
- 题面:DESeq2 收缩前 dispersion<1e-5 的基因数。
- 方法路径:
dispersions(dds) < 1e-5 计数(design 含 Replicate+Strain+Media)。
- 目标:7
- 干扰项:
8、9、6
bix-13-q4 · str_verifier
- 题面:仅在 JBX97 或 JBX98 显著的 DEG 总百分比(相对 JBX1)。
- 方法路径:
(|97 ∪ 98| − 两者交集) / 总基因。
- 目标:8.1%
- 干扰项:
12.4%、15.7%、4.8%
bix-13-q5 · str_verifier
- 题面:至少在一个单敲除株显著但在双敲除株不显著的 DEG 数。
- 方法路径:
|(97 ∪ 98) − 99|。
- 目标:397
- 干扰项:
156、512、89
bix-14 · Bloom 综合征 CHIP 变异效应分布
- Paper: https://doi.org/10.1172/jci.insight.167744
- Data:
CapsuleFolder-7718a922-ce2c-4e59-900b-84fe06050ce6.zip
- 研究假设:BSyn/载体者 CHIP 变异效应类型分布与对照无显著差异。答案:True
bix-14-q1 · range_verifier
- 题面:BLM 载体组 VAF<0.3 变异中同义(synonymous)占比。
- 方法路径:过滤 VAF<0.3 & 载体 →
sum(Effect=="synonymous")/total。
- 目标:(0.6, 0.7)
- 干扰项:
(0.8, 0.9)、(0.3, 0.4)、(0.1,0.2)
bix-14-q2 · range_verifier
- 题面:VAF<0.3 下,对照父母组与 BSyn 先证者组 missense 频率之差。
- 方法路径:两组 missense 比例差。
- 目标:(0.2, 0.3)
- 干扰项:
(0.0, 0.1)、(0.3, 0.4)、(0.1, 0.2)
bix-14-q3 · str_verifier
- 题面:过滤 Reference/Intronic/Intergenic/UTR 后 86 样本中非 Reference 外显子变异数。
- 方法路径:过滤后
shape[0]。
- 目标:4,550
- 干扰项:
5,540、450、12,325
bix-16 · 癌细胞基因表达 vs 依赖性相关
- Paper: 无
- Data:
CapsuleFolder-bda54b38-9b49-4009-aad6-d5f52675438a.zip
- 研究假设:高表达基因更关键/更高必需性。答案:False(仅 14.25% 基因呈正相关,3 个 r≥0.6)
bix-16-q1 · str_verifier
- 题面:哪个基因与必需性的 Spearman 负相关最强。
- 方法路径:每基因
spearmanr(expr, essentiality) → argmin(rho)。
- 目标:CDKN1A
- 干扰项:
CCND1、KLF5、RNASEK
bix-16-q2 · llm_verifier
- 题面:log2(TPM+1) 分布的偏态特征。
- 方法路径:
scipy.stats.skew + 目视 histogram。
- 目标:Right-skewed with a long tail
- 干扰项:
Symmetrical with no skew、Left-skewed with a long tail、Bimodal with no clear skew
bix-16-q3 · str_verifier
- 题面:r≥0.6 的强正相关基因数。
- 方法路径:
sum(rho >= 0.6)。
- 目标:3
- 干扰项:
0、5、1
bix-16-q4 · range_verifier
- 题面:经 BH 校正后显著相关(任一方向)的基因百分比。
- 方法路径:BH 校正 q-value<0.05 计数 / 总基因 × 100。
- 目标:(20, 25)
- 干扰项:
(10,15)、(0,10)、(30,35)
bix-17 · Bloom 综合征 CHIP 体细胞变异增多是否源于生殖系
- Paper: https://doi.org/10.3324/haematol.2024.285239
- Data:
CapsuleFolder-1cf79c8c-fb8c-453c-8788-c8958ab6f152.zip
- 答案:True
bix-17-q2 · str_verifier
- 题面:BLM 载体者 CHIP 体细胞变异(VAF<0.3)计数的中位数(先除 Intronic/Intergenic/UTR/Reference)。
- 方法路径:过滤 → 按样本 groupby count →
median。
- 目标:2
- 干扰项:
1、3、4
bix-18 · P. aeruginosa QS 突变对群集运动的影响
- Paper: https://doi.org/10.17912/micropub.biology.001326
- Data:
CapsuleFolder-d59734d2-a3e0-462a-a5fd-c8ddc11392b8.zip
- 答案:True(rhlR、lasR、rhlI、lasI 突变显著降低 swarming)
bix-18-q1 · range_verifier
- 题面:群集图像分析中最大平均面积对应的基因型的平均圆度。
- 方法路径:图像分割 →
regionprops → 按 genotype 求 mean(area) 找最大组 → 该组 mean(circularity)。
- 目标:(0.07, 0.08)
- 干扰项:
(1.00,1.01)、(0.80,0.81)、(0.32,0.33)
bix-18-q2 · str_verifier
- 题面:野生型平均 swarming 面积(最接近千)。
- 方法路径:
mean(area[genotype=="wt"]) → 四舍五入到千位。
- 目标:82000
- 干扰项:
32000、92000、30000
bix-18-q3 · range_verifier
- 题面:ΔlasR vs wt 平均面积百分比下降。
- 方法路径:
(wt_mean - lasR_mean)/wt_mean * 100。
- 目标:(69, 72)
- 干扰项:
(28,32)、(48,52)、(58,62)
bix-18-q4 · range_verifier
- 题面:rhlR- 圆度的 SEM。
- 方法路径:
std/sqrt(n)。
- 目标:(0.031, 0.032)
- 干扰项:
(0.051,0.052)、(0.081,0.082)、(0.011,0.012)
bix-18-q5 · range_verifier
- 题面:ΔlasR 平均面积占 wt 的比例(百分比)。
- 方法路径:
lasR_mean/wt_mean * 100。
- 目标:(25, 30)
- 干扰项:
(45,50)、(70,75)、(90,100)
bix-19 · OXTR 敲低 vs 鼠神经元损伤
- Paper: https://zenodo.org/records/8036465
- Data:
CapsuleFolder-8c64b1fa-fdcc-41e2-be8d-2f0c8d5faaa1.zip
- 答案:False(功效不足,KD vs CTRL 差异不显著)
bix-19-q1 · str_verifier
- 题面:Cohen's d → 功效分析,80% power、α=0.05,两样本 t 检验所需每组样本量。
- 方法路径:
cohens_d = (mean_KD - mean_CTRL) / pooled_std。
statsmodels.stats.power.TTestIndPower().solve_power(effect_size=d, alpha=0.05, power=0.8)。
- 目标:337
- 干扰项:
16、167、674
bix-19-q2 · range_verifier
- 题面:NeuN 计数 KD vs CTRL 的 Cohen's d。
- 方法路径:同上公式。
- 目标:(0.215, 0.217)
- 干扰项:
(0.667,0.669)、(0.804,0.806)、(1.310,1.312)
bix-19-q3 · range_verifier
- 题面:KD 半球 NeuN 计数的 Shapiro-Wilk W 统计量。
- 方法路径:
scipy.stats.shapiro(kd_counts).statistic。
- 目标:(0.955, 0.957)
- 干扰项:
(0.773,0.775)、(0.950,0.952)、(0.722,0.724)
bix-19-q4 · range_verifier
- 题面:Hemisphere × Sex 二因素 ANOVA 交互 F 统计量。
- 方法路径:
statsmodels.formula.api.ols("NeuN ~ Hemisphere*Sex").fit() → anova_lm。
- 目标:(1.065, 1.067)
- 干扰项:
(0.191,0.193)、(1.311,1.313)、(3.750,3.752)
bix-19-q5 · llm_verifier
- 题面:同 q1(改写)。
- 方法路径:同 q1。
- 目标:337 samples
- 干扰项:
16 samples、167 samples、674 samples
bix-20 · Bloom 综合征 CHIP 变异致病性分布
- Paper: doi.org/10.3324/haematol.2024.285239
- Data:
CapsuleFolder-2ccdbe37-0a92-47b5-9bab-fa8a8c470799.zip
- 答案:True(各组间致病性分布无显著差异)
bix-20-q1 · range_verifier
- 题面:BSyn 先证者 VAF<0.3 的 CHIP 变异中良性占比(先过滤 Intronic/UTR/Reference)。
- 方法路径:
sum(Pathogenicity=="Benign")/total。
- 目标:(0.80, 1.00)
- 干扰项:
(0.60, 0.79)、(0.40, 0.59)、(0.20, 0.39)
bix-20-q2 · range_verifier
- 题面:对照儿童(非父母)的良性占比。
- 方法路径:同上,子集=对照儿童。
- 目标:(0.9, 1.0)
- 干扰项:
(0.1, 0.2)、(0.3, 0.4)、(0.0, 0.1)
bix-20-q3 · range_verifier
- 题面:Carrier 组良性占比。
- 方法路径:同上。
- 目标:(0.80, 1.00)
- 干扰项:
(0.60, 0.79)、(0.40, 0.59)、(0.20, 0.39)
bix-20-q4 · range_verifier
- 题面:父母(Mother/Father)良性占比。
- 方法路径:同上。
- 目标:(0.80, 1.00)
- 干扰项:
(0.60, 0.79)、(0.40, 0.59)、(0.20, 0.39)
bix-21 · 动物 vs 真菌 多次替代饱和度
- Paper: 不可得
- Data:
CapsuleFolder-e3bde22d-915c-409b-8646-039e0215b171.zip
- 答案:True(动物饱和度低于真菌)
bix-21-q2 · llm_verifier
- 题面:真菌基因 saturation 中位数。
- 方法路径:
phykit saturation -a <aln> -t <tree> → median。
- 目标:0.62
- 干扰项:
0.45、0.38、0.75
bix-22 · 儿童免疫细胞基因长度 vs 表达量
- Paper: https://zenodo.org/records/10000430
- Data:
CapsuleFolder-34a4ea96-c800-4c11-959e-57cdc4932c52.zip
- 答案:False(Pearson 相关弱但显著)
bix-22-q1 · str_verifier
- 题面:CD4/CD8/CD14/CD19 中基因长度与表达相关最弱(|r| 最小)的细胞。
- 方法路径:每细胞
pearsonr(gene_length, mean_expr) → argmin(|r|)。
- 目标:CD14
- 干扰项:
CD8、CD4、CD19
bix-22-q2 · range_verifier
- 题面:CD4 中 Pearson 相关系数。
- 方法路径:
pearsonr(gene_length, expr_mean)。
- 目标:(0.045, 0.055)
- 干扰项:
(0.015,0.025)、(0.025,0.035)、(0.035,0.045)
bix-22-q3 · range_verifier
- 题面:CD8 中 Pearson r。
- 方法路径:同上。
- 目标:(0.03, 0.05)
- 干扰项:
(0.15,0.25)、(0.01,0.02)、(0.06,0.08)
bix-22-q4 · range_verifier
- 题面:CD14 中 Pearson r。
- 方法路径:同上。
- 目标:(0.015, 0.025)
- 干扰项:
(0.035,0.045)、(0.045,0.055)、(0.025,0.035)
bix-22-q6 · range_verifier
- 题面:只看 protein-coding 基因整体 Pearson r。
- 方法路径:合并所有细胞/样本 →
pearsonr。
- 目标:(0.3, 0.4)
- 干扰项:
(0.1,0.2)、(0.2,0.3)、(0.4,0.5)
bix-24 · CBD 处理 CRC 细胞代谢失调
- Paper: https://zenodo.org/records/8353706 & https://www.mdpi.com/1422-0067/24/19/14743
- Data:
CapsuleFolder-b1b0ef00-cb15-4375-9aac-e1e53a7250c5.zip
- 答案:True(下调基因驱动代谢响应)
bix-24-q1 · llm_verifier
- 题面:下调 DEG 中 GO_Biological_Process_2021 最富集的代谢通路。
- 方法路径:
DESeq2 → 下调 DEG → gseapy.enrichr(gene_sets="GO_Biological_Process_2021")。
- 目标:Canonical glycolysis
- 干扰项:
Cellular response to hypoxia、Oxidative phosphorylation、Amino acid metabolism
bix-24-q2 · llm_verifier
- 题面:代谢效应主要由上调还是下调基因驱动(padj<0.05, |log2FC|>0.5)。
- 方法路径:对 up/down 分别做 GO BP → 比较代谢通路富集。
- 目标:Downregulation
- 干扰项:
Upregulation、No consistent direction of change、No significant change in expression
bix-24-q6 · llm_verifier
- 题面:所有显著 DEG 中 GO BP 最富集的进程。
- 方法路径:全部 DEG →
gseapy.enrichr(GO_Biological_Process_2021) → top1。
- 目标:Cellular response to decreased oxygen levels
- 干扰项:
Glycolytic process、Canonical glycolysis、Carbohydrate catabolic process
bix-25 · 真菌/动物 treeness/RCV 差异
- Paper: 不可得
- Data:
CapsuleFolder-964b67db-88d8-4286-9995-10ccc6ba4c39.zip
- 答案:True
bix-25-q1 · llm_verifier
- 题面:真菌 treeness/RCV 中位数。
- 方法路径:
phykit treeness_over_rcv → median(fungi)。
- 目标:0.26
- 干扰项:
0.18、0.34、0.42
bix-25-q4 · llm_verifier
- 题面:alignment gaps>70% 的基因中 treeness/RCV 最大值。
- 方法路径:筛选高 gap 基因 →
max(treeness_over_rcv)。
- 目标:0.21
- 干扰项:
0.09、0.33、0.45
bix-26 · QS 突变在不同培养基下的 KEGG 通路差异
- Paper: https://doi.org/10.17912/micropub.biology.001326
- Data:
CapsuleFolder-0923d260-fe1b-4fb4-4398-79edf546e584.zip
- 答案:True
bix-26-q3 · str_verifier
- 题面:缺铁葡萄糖(FeMinus)条件上调基因富集"ABC transporters"的基因数(|lfc|>1.5, padj<0.05)。
- 方法路径:DESeq2 → upregulated 子集 →
clusterProfiler::enrichKEGG → 取 "ABC transporters" 的 Count 或 GeneRatio 分子。
- 目标:11
- 干扰项:
17.0、23、7
bix-26-q4 · str_verifier
- 题面:下调基因 KEGG(|lfc|>1.5, padj<0.05),在两种培养基条件下共同富集的通路数。
- 方法路径:两条件 downregulated KEGG 结果 → 通路名交集。
- 目标:5
- 干扰项:
2、4、6
bix-26-q5 · str_verifier
- 题面:缺铁条件富集但 innate 条件不富集的通路数(|lfc|>1.5, padj<0.05)。
- 方法路径:
|FeMinus_sig − Innate_sig|。
- 目标:3
- 干扰项:
5、6、1
bix-27 · 阿尔茨海默病亚型聚类
- Paper: https://doi.org/10.5061/dryad.ttdz08kxq
- Data:
CapsuleFolder-0f14ffa7-f02a-4d20-8142-dfc404195e56.zip
- 答案:True(基因表达可识别亚型)
bix-27-q2 · range_verifier
- 题面:层次聚类 k=3,50 次 bootstrap 70/30 训练测试 + 逻辑回归预测标签,在训练/测试共识聚类中始终被分到同一簇的样本数。
- 方法路径:
- 基因表达矩阵 →
scipy.cluster.hierarchy.linkage → 3 clusters。
- 50 iterations:70/30 split →
LogisticRegression predict test labels → 记录每样本 label。
- 统计训练/测试中 cluster 标签 mode 一致的样本数。
- 目标:(160, 180)
- 干扰项:
(40,60)、(70,90)、(10,30)
bix-27-q4 · llm_verifier
- 题面:Reactome 富集通路最多簇里最显著的通路。
- 方法路径:每簇 ORA(Reactome)→ 通路计数最多簇 → top1 by p.adjust。
- 目标:Aerobic respiration and respiratory electron transport
- 干扰项:
Vesicle-mediated transport in synapse、Base-excision repair、Sodium-calcium exchangers
bix-27-q5 · range_verifier
- 题面:log10(expr+1) 后 PCA,PC1 解释的方差百分比。
- 方法路径:
sklearn.decomposition.PCA().fit(log10(X+1)) → explained_variance_ratio_[0]*100。
- 目标:(88, 89)
- 干扰项:
(50,51)、(36,37)、(91,92)
bix-28 · 真菌 vs 动物 长枝得分(long branch score)
- Paper: 不可得
- Data:
CapsuleFolder-c66d3ed9-0a95-46be-a237-ed68498ea7f6.zip
- 答案:True
bix-28-q1 · llm_verifier
- 题面:long branch score 中位数 Mann–Whitney U 检验 p 值。
- 方法路径:
phykit long_branch_score → mannwhitneyu(animal, fungi).pvalue。
- 目标:5.107 × 10⁻⁴⁷
- 干扰项:
2.3 × 10⁻¹²、8.9 × 10⁻²³、1.2 × 10⁻⁵
bix-28-q2 · llm_verifier
- 题面:真菌 mean long branch score 的中位数。
- 方法路径:每个树取
mean(branch_scores) → 跨真菌树中位数。
- 目标:-25.0
- 干扰项:
-18.5、-31.2、-12.3
bix-28-q3 · llm_verifier
- 题面:真菌基因
996662at2759 的 median long branch score。
- 方法路径:
phykit long_branch_score -t 996662at2759.tre → median。
- 目标:-30.4551
- 干扰项:
-22.1234、-38.789、-15.6789
bix-28-q4 · llm_verifier
- 题面:mean long branch scores 的 Mann–Whitney U。
- 方法路径:
mannwhitneyu(animal_mean, fungi_mean).statistic。
- 目标:4639.0
- 干扰项:
3245.0、5821.0、6932.0
bix-28-q5 · llm_verifier
- 题面:真菌 median long branch score 的均值。
- 方法路径:
mean(per_tree_median)(真菌)。
- 目标:-26.9
- 干扰项:
-20.3、-33.1、-14.7
bix-28-q6 · llm_verifier
- 题面:动物与真菌 mean long branch score 均值之差绝对值。
- 方法路径:
|mean(animal_mean) - mean(fungi_mean)|。
- 目标:5.2
- 干扰项:
2.8、8.4、11.6
bix-29 · 既往重病史 vs BCG 后 COVID 严重度
- Paper: https://zenodo.org/records/12737228
- Data:
CapsuleFolder-b8c485ff-d146-4162-9403-9593c8847cfe.zip
- 答案:False(BCG 反而增加严重度 OR=1.63)
bix-29-q1 · range_verifier
- 题面:有序回归(控制 MHONGO、expect_interact、交互项)中 BCG 对 AESEV 的 OR。
- 方法路径:
OrderedModel(AESEV ~ TRTGRP*MHONGO + patients_seen + ...).fit() → exp(coef[TRTGRP])。
- 目标:(1.62, 1.65)
- 干扰项:
(0.73,0.75)、(0.9,1.1)、(0.2,0.25)
bix-29-q2 · llm_verifier
- 题面:每增加 1 项 MHONGO,严重度 OR 的百分比变化。
- 方法路径:exp(coef[MHONGO]) − 1。
- 目标:33-36% increase
- 干扰项:
14-16% decrease、No significant change in severity odds、50-53% increase
bix-29-q3 · llm_verifier
- 题面:BCG × MHONGO 交互项的 OR。
- 方法路径:
exp(coef[BCG:MHONGO])。
- 目标:No significant interaction effect (OR≈1.0)
- 干扰项:
Strongly synergistic effect increasing severity、Strongly antagonistic effect decreasing severity、Variable effect depending on number of conditions
bix-29-q4 · llm_verifier
- 题面:patients_seen 对严重度的影响(控制 BCG、interact、交互项)。
- 方法路径:
exp(coef[patients_seen])。
- 目标:No significant effect on severity (OR≈1.02)
- 干扰项:
Strong positive correlation with severity、Moderate negative correlation with severity、Variable effect depending on vaccination status
bix-30 · 血清 miRNA 作为 DM1 生物标志物
- Paper: 10.1371/journal.pone.0150501
- Data:
CapsuleFolder-3d4eb7bb-4fbc-4300-b79a-3eba7a6221bc.zip
- 答案:False(多重校正后无显著 miRNA)
bix-30-q1 · str_verifier
- 题面:多重校正前显著(p≤0.05)miRNA 百分比。
- 方法路径:log2 变换 →
scipy.stats.ttest_ind 每 miRNA → p<=0.05 比例。
- 目标:28%
- 干扰项:
15%、35%、42%
bix-30-q3 · str_verifier
- 题面:Bonferroni vs Benjamini-Yekutieli 校正后显著 miRNA 数之比(格式"Bonferroni:BY")。
- 方法路径:
statsmodels.stats.multitest.multipletests 分别用 bonferroni / fdr_by。
- 目标:0:0
- 干扰项:
1:2、1:3、2:3
bix-30-q5 · str_verifier
- 题面:三种校正(BH、BY、Bonferroni)都显著的 miRNA 数。
- 方法路径:三套
padj<=0.05 的交集。
- 目标:0
- 干扰项:
49、175、18
bix-30-q6 · str_verifier
- 题面:log2 + t-test,校正前显著 miRNA 数。
- 方法路径:
sum(p<=0.05)。
- 目标:49
- 干扰项:
25、175、0
bix-31 · CD4/CD8 性别特异性差异表达
- Paper: https://zenodo.org/records/10000430
- Data:
CapsuleFolder-b1dbace7-f6e9-42ec-81e1-bcc24161cc27.zip
- 答案:True
bix-31-q1 · str_verifier
- 题面:两样本 t 检验:protein-coding 基因 log2FC(M vs F) 在 CD4/CD8 vs 其他细胞类型(p<0.05, |lfc|>0.5, baseMean>10,先 lfc shrinkage)的 t 统计量。
- 方法路径:DESeq2 +
lfcShrink(type="apeglm") → 各细胞分组 LFC → ttest_ind(cd48_lfc, other_lfc)。
- 目标:18.93
- 干扰项:
-0.45、6.50、222.38
bix-31-q2 · range_verifier
- 题面:protein-coding 的 FAM138A 性别差异 log2FC(|lfc|>0.5, baseMean>10, lfc shrinkage)。
- 方法路径:DESeq2 contrast=Sex →
lfcShrink → 取 FAM138A。
- 目标:(-0.45, -0.35)
- 干扰项:
(1.20, 1.30)、(0.10, 0.20)、(-1.5, -1.4)
bix-31-q3 · str_verifier
- 题面:CD4/CD8 中 M vs F 显著 DEG 数(padj<0.05, |lfc|>0.5, baseMean>10, shrink)。
- 方法路径:过滤后
shape[0]。
- 目标:197
- 干扰项:
147、223、168
bix-31-q4 · str_verifier
- 题面:CD4/CD8 中 protein-coding vs non-coding 性别差异 Welch t-test p 值(shrink LFC)。
- 方法路径:
scipy.stats.ttest_ind(pc_lfc, nc_lfc, equal_var=False)。
- 目标:6.5E-01
- 干扰项:
1.55E-79、6.42E-97、1.67E-19
bix-32 · QS 单/双敲除 KEGG 通路富集
- Paper: https://doi.org/10.17912/micropub.biology.001326
- Data:
CapsuleFolder-a94b7008-bb9a-4a46-ebfb-4afdfdd299d5.zip
- 答案:True
bix-32-q2 · str_verifier
- 题面:|lfc|>1.5,三株(97/98/99)中同方向共同 KEGG 富集通路数。
- 方法路径:per-strain KEGG sig set → 方向(up/down)一致的交集 → 计数。
- 目标:2
- 干扰项:
0、4、6
bix-32-q3 · llm_verifier
- 题面:仅在双敲除 99 株上调(padj<0.05, lfc>1.5)的两个功能类别。
- 方法路径:
strain99_up − (strain97_up ∪ strain98_up) → 取 KEGG 类别。
- 目标:Ribosome, riboflavin metabolism
- 干扰项:
Nitrogen metabolism, two-component system、Sulfur metabolism, quorum sensing、Starch and sucrose metabolism, two-component system
bix-32-q4 · llm_verifier
- 题面:显著下调(p<0.05, lfc<-1.5)三株共同富集的细胞过程通路。
- 方法路径:3 株 down KEGG 交集。
- 目标:Biosynthesis of secondary metabolites, nitrogen cycle
- 干扰项:
Fatty acid metabolism, two-component system、Two-component system, ribosome、Sulfur metabolism, phenazine biosynthesis
bix-33 · AAV9 mini-dystrophin 对外周免疫抗炎通路
- Paper: https://doi.org/10.5281/zenodo.13935259
- Data:
CapsuleFolder-a5fba1a0-ad42-41da-a299-201655a5ffe8.zip
- 答案:False(未显示抗炎下调)
bix-33-q1 · str_verifier
- 题面:治疗后显著 DEG 最多的免疫细胞类型。
- 方法路径:sc-RNA-seq per-cell-type DE →
argmax(DEG_count)。
- 目标:CD14 Monocytes
- 干扰项:
Regulatory T cells (Tregs)、Natural Killer cells、Plasmacytoid dendritic cells
bix-33-q6 · str_verifier
- 题面:SOCS3 显著差异表达(padj<0.05)的细胞类型数。
- 方法路径:SOCS3 在每细胞型 padj 值 → 计数
<0.05。
- 目标:1
- 干扰项:
2、3、4
bix-34 · 真菌 vs 动物 patristic distance
- Paper: 不可得
- Data:
CapsuleFolder-17baa727-5eb7-4544-a466-3148a48b3cde.zip
- 答案:True(真菌约 1.95 倍)
bix-34-q1 · llm_verifier
- 题面:真菌 gene 平均 patristic distance 的均值。
- 方法路径:
phykit patristic_distances -t <tree> → mean per gene → mean across fungi。
- 目标:1.67
- 干扰项:
0.98、2.34、3.01
bix-34-q2 · llm_verifier
- 题面:真菌基因
981902at2759 的 median patristic distance。
- 方法路径:
phykit patristic_distances → median。
- 目标:2.63
- 干扰项:
1.89、3.41、4.15
bix-34-q3 · llm_verifier
- 题面:mean patristic distance 的 Mann–Whitney U 统计量。
- 方法路径:
mannwhitneyu(animal_mean, fungi_mean).statistic。
- 目标:3516.0
- 干扰项:
2234.0、4891.0、5623.0
bix-34-q4 · llm_verifier
- 题面:动物中 mean patristic distance 的 max − min。
- 方法路径:
max(animal_mean) - min(animal_mean)。
- 目标:1.94
- 干扰项:
1.12、2.67、3.38
bix-34-q5 · llm_verifier
- 题面:真菌/动物 median patristic distance 之比。
- 方法路径:
median(fungi)/median(animal)。
- 目标:1.95
- 干扰项:
1.23、2.67、3.42
bix-34-q6 · llm_verifier
- 题面:动物 mean patristic distance 均值。
- 方法路径:
mean(animal_mean)。
- 目标:0.91
- 干扰项:
0.54、1.28、1.65
bix-35 · 真菌 vs 动物 演化速率(evo_rate)
- Paper: 不可得
- Data:
CapsuleFolder-4cb6f8ce-4d81-40b2-8d9c-85868796ee73.zip
- 答案:True
bix-35-q1 · llm_verifier
- 题面:BUSCO 基因
156083at2759 在动物中的 evo_rate。
- 方法路径:
phykit evolutionary_rate -t <tree>。
- 目标:0.0471
- 干扰项:
0.0823、0.1205、0.0098
bix-35-q2 · llm_verifier
- 题面:跨全部基因动物 vs 真菌 evo_rate 的 Mann–Whitney U。
- 方法路径:
mannwhitneyu(animal_rate, fungi_rate).statistic。
- 目标:3661
- 干扰项:
2847、4523、5192
bix-35-q3 · llm_verifier
- 题面:真菌 BUSCO 基因 evo_rate 的最大值。
- 方法路径:
max(fungi_rate)。
- 目标:1.8921
- 干扰项:
1.2345、2.3456、0.9876
bix-35-q4 · llm_verifier
- 题面:真菌 − 动物 median evo_rate 的差(3 位小数)。
- 方法路径:
round(median(fungi)-median(animal), 3)。
- 目标:0.397
- 干扰项:
0.18、0.52、0.73
bix-36 · 免疫细胞 miRNA 表达谱跨类型 ANOVA
- Paper: https://zenodo.org/records/10000430
- Data:
CapsuleFolder-48181cce-3928-4491-94b4-c23504a6aaa1.zip
- 答案:True(F 检验不显著)
bix-36-q1 · range_verifier
- 题面:剔除 PBMC 后,各细胞型 miRNA 表达一因素 ANOVA F 统计量。
- 方法路径:
scipy.stats.f_oneway(*groups)。
- 目标:(0.76, 0.78)
- 干扰项:
(5.1,5.3)、(3.0,3.2)、(8.3,8.5)
bix-36-q3 · range_verifier
- 题面:CD14 vs CD19 全局 miRNA log2FC 中位数。
- 方法路径:
median(log2(CD14/CD19))。
- 目标:(-0.25, 0.25)
- 干扰项:
(2.5,3)、(1.5,2)、(0.5,1)
bix-36-q4 · range_verifier
- 题面:剔除 PBMC 的 ANOVA p 值。
- 方法路径:同 q1;取 p。
- 目标:(0.55, 0.59)
- 干扰项:
(0.001,0.01)、(0.05,0.09)、(0.1,0.2)
bix-36-q5 · str_verifier
- 题面:所有细胞型对比的 log2FC 分布形状(除 PBMC)。
- 方法路径:合并所有 LFC → Shapiro-Wilk / 目视。
- 目标:Normal
- 干扰项:
Bimodal、Uniform、Skewed
bix-37 · 膀胱癌 ENO1 蛋白差异
- Paper: 10.17632/dj4sb8h3c3.1
- Data:
CapsuleFolder-40cbef03-b5c3-4448-b00f-0ba2965dea9b.zip
- 答案:False(ENO1 差异不显著)
bix-37-q1 · llm_verifier
- 题面:ENO1 蛋白丰度 tumor vs normal 的 fold change。
- 方法路径:
mean(tumor)/mean(normal)。
- 目标:4.81-fold increase in tumor
- 干扰项:
2.27-fold increase in tumor、0.226-fold decrease in tumor、0.031-fold decrease in tumor
bix-37-q2 · str_verifier
- 题面:normal 样本 ENO1 蛋白基线(3 位有效数字)。
- 方法路径:
mean(normal) → 3 sig-fig。
- 目标:7.29E+07
- 干扰项:
350385456、20023、13455
bix-37-q3 · str_verifier
- 题面:ENO1 蛋白差异的 padj。
- 方法路径:例如
limma 或 t-test + BH。
- 目标:0.226
- 干扰项:
0.031、4.81、2.27
bix-37-q4 · str_verifier
- 题面:ENO1 tumor vs normal log2FC(2 位小数)。
- 方法路径:
log2(mean_tumor/mean_normal)。
- 目标:2.27
- 干扰项:
4.81、0.226、-2.27
bix-38 · 真菌 vs 动物 tree length
- Paper: 不可得
- Data:
CapsuleFolder-975f3e91-53b0-44b1-ac9f-20023d9c8cd0.zip
- 答案:True(真菌约 2x)
bix-38-q1 · llm_verifier
- 题面:真菌 / 动物 median tree length 倍数。
- 方法路径:
phykit tree_length -t <tree> → median(fungi)/median(animal)。
- 目标:2x larger in fungi
- 干扰项:
1.5x larger in fungi、3x larger in fungi、No significant difference
bix-38-q2 · llm_verifier
- 题面:动物 tree_length 方差。
- 方法路径:
numpy.var(animal_tree_length)。
- 目标:0.55
- 干扰项:
0.23、0.89、1.24
bix-38-q3 · llm_verifier
- 题面:真菌 tree_length >5.0 的比例。
- 方法路径:
(fungi > 5.0).mean()。
- 目标:5%
- 干扰项:
2%、10%、15%
bix-38-q5 · llm_verifier
- 题面:真菌 tree_length 超过动物均值的比例。
- 方法路径:
(fungi > mean(animal)).mean()。
- 目标:94%
- 干扰项:
78%、86%、99%
bix-38-q6 · llm_verifier
- 题面:配对 ortholog 的
fungi/animal tree_length 比值的中位数。
- 方法路径:per-ortholog ratio →
median。
- 目标:2.178
- 干扰项:
1.524、2.892、3.463
bix-39 · Bloom 综合征低频体细胞 CHIP 变异多寡
- Paper: https://doi.org/10.3324/haematol.2024.285239
- Data:
CapsuleFolder-28a5984e-9061-4d6f-99a1-40f8753bc9f4.zip
- 答案:True
bix-39-q2 · str_verifier
- 题面:非 Reference 外显子中,BLM 载体者 VAF<0.3 的 CHIP 变异数 IQR。
- 方法路径:per-sample count →
np.percentile(.,75)-np.percentile(.,25)。
- 目标:2.5
- 干扰项:
3.5、1.5、4.0
bix-4 清单的后续 · bix-41 · 共培养恢复野生型 swarming
- Paper: https://doi.org/10.17912/micropub.biology.001326
- Data:
CapsuleFolder-8b462015-86ab-434f-29e1-04dda1588031.zip
- 答案:True
bix-41-q1 · str_verifier
- 题面:Dunnett 检验(vs Strain 1,α=0.05),面积和圆度都"等价于"Strain 1 的共培养条件数。
- 方法路径:
statsmodels.sandbox.stats.multicomp.MultiComparison.tukeyhsd 或 R DescTools::DunnettTest。
- 分别对 Area、Circularity 做 Dunnett → 两指标都 p>0.05 的条件数。
- 目标:6
- 干扰项:
4、9、3
bix-41-q3 · range_verifier
- 题面:Strain 98 与 Strain 1 的平均圆度差。
- 方法路径:
mean(circ_98) - mean(circ_1)。
- 目标:(0.42, 0.43)
- 干扰项:
(0.53,0.54)、(0.62,0.63)、(0.72,0.73)
bix-41-q4 · str_verifier
- 题面:Dunnett 下两指标都与 Strain 1 显著不同的共培养比例条件数。
- 方法路径:两指标都 p<0.05 计数。
- 目标:4
- 干扰项:
5、6、7
bix-41-q5 · str_verifier
- 题面:哪种 Strain 287:98 比例与 Strain 1 面积和圆度最相似。
- 方法路径:对每个比例计算
|mean_area − mean_area_1| + |mean_circ − mean_circ_1| → argmin。
- 目标:5:1
- 干扰项:
1:1、3:1、10:1
bix-42 · 多组学结肠癌存活预测
- Paper: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305268
- Data:
CapsuleFolder-27821d45-94e6-4f4e-a914-e66ffaefdd3f.zip
- 答案:False(多模态未超过单甲基化)
bix-42-q1 · str_verifier
- 题面:vital/gene expr/methylation 三者都无缺失的患者数。
- 方法路径:
df.dropna(subset=[...]).shape[0]。
- 目标:267
- 干扰项:
447、328、39
bix-42-q2 · llm_verifier
- 题面:RNA 表达分布偏态。
- 方法路径:
scipy.stats.skew + histogram。
- 目标:Highly right-skewed
- 干扰项:
Highly left-skewed、Minimally left-skewed、Normally distributed
bix-43 · CBD/顺铂联用 CRC 细胞周期调控
- Paper: https://zenodo.org/records/8353706 & https://www.mdpi.com/1422-0067/24/19/14743
- Data:
CapsuleFolder-15ff11e5-2db1-45b6-b3a3-46bc2a74b821.zip
- 答案:True
bix-43-q1 · llm_verifier
- 题面:CBD/顺铂 vs DMSO 的 GO_BP_2021 富集最显著通路。
- 方法路径:DESeq2 → DEG →
gseapy.enrichr(GO_Biological_Process_2021) → top by padj。
- 目标:Negative regulation of epithelial cell proliferation
- 干扰项:
Fatty acid metabolism、mRNA processing、Immune system response
bix-43-q2 · str_verifier
- 题面:Reactome_2022 中 p53-mediated cell cycle 的 odds ratio(p<0.05, |lfc|>0.5, baseMean>10)。
- 方法路径:
gseapy.enrichr(gene_sets="Reactome_2022") → 该条目 Odds Ratio。
- 目标:6.02
- 干扰项:
4.86、15.34、9.45
bix-43-q3 · str_verifier
- 题面:CBD/顺铂 vs DMSO 显著 DEG 数(padj<0.05, |lfc|>0.5, baseMean>10)。
- 方法路径:过滤后计数。
- 目标:677
- 干扰项:
1761、955、2757
bix-43-q4 · str_verifier
- 题面:'TP53 Regulates Transcription Of Cell Cycle Genes' 富集中 DEG 占比(X/Y)。
- 方法路径:
gseapy.enrichr → Overlap 字段。
- 目标:8/49
- 干扰项:
6/44、3/9、4/17
bix-43-q5 · llm_verifier
- 题面:Reactome_2022 富集的主要细胞机制。
- 方法路径:top Reactome term 含义。
- 目标:TP53-mediated cell cycle regulation
- 干扰项:
Cell adhesion and matrix organization、Immune system activation、Metabolic pathway regulation
bix-45 · RCV 动物 vs 真菌
- Paper: 不可得
- Data:
CapsuleFolder-ebc7c8a6-ba34-46db-bf8c-b3e310434ba9.zip
- 答案:True
bix-45-q1 · llm_verifier
- 题面:RCV 动物 vs 真菌 Mann–Whitney U p 值。
- 方法路径:
phykit rcv -a <aln> → mannwhitneyu(animal, fungi).pvalue。
- 目标:7.6968e-54
- 干扰项:
3.1415e-9、1.2345e-12、9.8765e-23
bix-45-q2 · llm_verifier
- 题面:真菌 RCV 中位数。
- 方法路径:
median(fungi_rcv)。
- 目标:0.22
- 干扰项:
0.15、0.31、0.08
bix-45-q5 · llm_verifier
- 题面:配对 ortholog RCV(fungi-animal)差的中位数。
- 方法路径:per-ortholog 差 →
median。
- 目标:0.12
- 干扰项:
0.05、0.2、0.3
bix-45-q6 · llm_verifier
- 题面:真菌 RCV 75 分位数。
- 方法路径:
numpy.percentile(fungi_rcv, 75)。
- 目标:0.27
- 干扰项:
0.2、0.35、0.42
bix-46 · QS 突变下特定基因 LFC
- Paper: https://doi.org/10.17912/micropub.biology.001326
- Data:
CapsuleFolder-d37acffb-d802-4ce0-8caa-66f50667367a.zip
- 答案:True
bix-46-q1 · str_verifier
- 题面:ΔrhlI(#97) 相对 wt(#1) 的 mexG log2FC(2 位小数)。
- 方法路径:DESeq2 result → mexG row →
round(log2FC, 2)。
- 目标:-4.96
- 干扰项:
-4.01、-2.09、-5.45
bix-46-q4 · str_verifier
- 题面:ΔrhlI 中吩嗪通路基因 PA14_35160 的 log2FC。
- 方法路径:DESeq2 result → PA14_35160。
- 目标:-4.10
- 干扰项:
-2.85、-1.95、-0.62
bix-47 · Bloom 综合征 CHIP 基因分布聚类
- Paper: https://doi.org/10.3324/haematol.2024.285239
- Data:
CapsuleFolder-4a336d0c-3d6b-440a-bfb0-437b26a00af3.zip
- 答案:True(层次聚类下分布无显著差异)
bix-47-q2 · str_verifier
- 题面:affected/carrier 中非 Reference 变异数最多患者的年龄。
- 方法路径:per-sample count → argmax → 查 metadata age。
- 目标:27.2
- 干扰项:
23.3、33.5、36.3
bix-47-q3 · str_verifier
- 题面:最年长男性载体中非 Reference 变异最多的基因。
- 方法路径:子集=最大 age 男性 carrier → gene groupby count → argmax。
- 目标:NOTCH1
- 干扰项:
FLT3、CUX1、DNMT3A
bix-49 · BOS 血液 vs 成纤维 RNA-seq
- Paper: https://doi.org/10.1172/jci.insight.167744
- Data:
CapsuleFolder-4ef3fcd8-1c35-466f-9d93-49b92f4ea760.zip
- 答案:True(血液 DEG 2118 > 成纤维 177)
bix-49-q1 · str_verifier
- 题面:apeglm shrink LFC 后显著上调基因中最大 log2FC(2 位小数)。
- 方法路径:
DESeq2::lfcShrink(type="apeglm") → 过滤 padj<0.05 & lfc>0 → max。
- 目标:4.80
- 干扰项:
3.82、2.87、3.30
bix-49-q2 · str_verifier
- 题面:GRIK5 的 padj(apeglm shrink)。
- 方法路径:shrink 后 results → GRIK5 padj。
- 目标:7.04E-26
- 干扰项:
8.93E-10、8.44E-07、1.42E-05
bix-49-q3 · str_verifier
- 题面:shrink 后显著上调基因数(padj<0.05, lfc>0)。
- 方法路径:过滤计数。
- 目标:1166
- 干扰项:
952、2118、1054
bix-49-q4 · str_verifier
- 题面:shrink 后 padj<0.05 总 DEG 数。
- 方法路径:
sum(padj<0.05)。
- 目标:2118
- 干扰项:
1766、472、177
bix-49-q5 · str_verifier
- 题面:GRIK5 的 log2FC(shrink,2 位)。
- 方法路径:GRIK5 log2FC after shrink。
- 目标:3.83
- 干扰项:
2.88、4.80、3.46
bix-51 · 卡瑞利珠单抗治疗肝癌缓解与人口学
- Paper: 无
- Data:
CapsuleFolder-93f63fb8-b56c-4ad1-8d3b-d651e2107423.zip
- 答案:False(仅年龄显著)
bix-51-q1 · range_verifier
- 题面:仅用年龄的 logistic,65 岁患者获得 PR 的预测概率。
- 方法路径:
sklearn LogisticRegression 或 statsmodels.api.Logit → predict_proba([[65]])。
- 目标:(0.38, 0.40)
- 干扰项:
(0.65,0.75)、(0.45,0.55)、(0.15,0.25)
bix-51-q2 · range_verifier
- 题面:仅 BMI 的 logistic 模型 AIC。
- 方法路径:
statsmodels Logit → model.aic。
- 目标:(111.80, 111.82)
- 干扰项:
(104.13,104.15)、(114.85,114.87)、(105.16,105.20)
bix-51-q3 · range_verifier
- 题面:BMI+Age+Gender 联合模型中 Age 的 p 值。
- 方法路径:
statsmodels Logit summary 取 Age p。
- 目标:(0.0024, 0.0026)
- 干扰项:
(0.1362,0.1364)、(0.2624,0.2626)、(0.0021,0.0023)
bix-51-q4 · range_verifier
- 题面:联合模型 Age 系数(log-odds/年)。
- 方法路径:
model.params["Age"]。
- 目标:(-0.085, -0.075)
- 干扰项:
(-0.07, -0.05)、(0.162, 0.164)、(-0.6132, -0.6128)
bix-51-q5 · range_verifier
- 题面:BMI 零假设检验 p 值。
- 方法路径:仅 BMI 模型的 p-value。
- 目标:(0.085, 0.087)
- 干扰项:
(0.0024,0.0026)、(0.9587,0.9589)、(0.1363,0.1365)
bix-51-q6 · range_verifier
- 题面:仅年龄模型 AIC。
- 方法路径:
model.aic。
- 目标:(103.1, 105.1)
- 干扰项:
(111.2,113.2)、(114.0,116.0)、(106.6,108.6)
bix-51-q8 · range_verifier
- 题面:简单 Age 模型的 Age 系数。
- 方法路径:同 q4 但单变量。
- 目标:(-0.064, -0.084)
- 干扰项:
(-0.012,-0.032)、(0.053,0.073)、(-0.154,-0.174)
bix-52 · 鸟类年龄相关 CpG 染色体分布
- Paper: https://doi.org/10.5061/dryad.wm37pvmw8
- Data:
CapsuleFolder-4dceea58-7d66-4576-bfc6-88c026d5b7a9.zip
- 答案:False(分布非均匀)
bix-52-q1 · range_verifier
- 题面:Zebra Finch 中过滤(甲基化 >90% 或 <10%)后 CpG 密度,染色体 W 与 1 的比。
- 方法路径:per-chrom CpG 计数 / 长度 →
density_W/density_1。
- 目标:(0.47, 0.67)
- 干扰项:
(1.47,1.67)、(14.7,16.7)、(0.05,0.07)
bix-52-q2 · range_verifier
- 题面:Jackdaw 全基因组平均每 bp CpG 密度(过滤后)。
- 方法路径:
total_cpg / total_genome_bp。
- 目标:(1.03e-07, 1.23e-07)
- 干扰项:
(1.03E-08,1.23E-08)、(5.23E-07,5.43E-07)、(5.23E-08,5.43E-08)
bix-52-q3 · range_verifier
- 题面:Zebra Finch 均匀性卡方统计量。
- 方法路径:
scipy.stats.chisquare(observed, expected=uniform)。
- 目标:(48, 50)
- 干扰项:
(42,44)、(55,57)、(32,34)
bix-52-q5 · range_verifier
- 题面:Zebra Finch 染色体 Z 的过滤 CpG 密度。
- 方法路径:Z 染色体 CpG 计数 / Z 长度。
- 目标:(0.9e-7, 1.1e-7)
- 干扰项:
(6.0e-5, 6.2e-5)、(0.9e-6,1.1e-6)、(2.1e-7,2.3e-7)
bix-52-q6 · llm_verifier
- 题面:Jackdaw 中年龄相关 CpG 密度最高的染色体。
- 方法路径:per-chrom density → argmax。
- 目标:Chromosome W
- 干扰项:
Chromosome 1、Chromosome 32、Chromosome Z
bix-52-q7 · str_verifier
- 题面:Zebra Finch 中过滤掉的 CpG 位点数(不满足 >90% 或 <10%)。
- 方法路径:
n_removed = total - n_kept。
- 目标:19,159
- 干扰项:
458、24,527、569
bix-53 · UBE2M 巨噬细胞敲低与氧化应激
- Paper: https://zenodo.org/records/14063261
- Data:
CapsuleFolder-308d53bf-1513-4a09-913b-3a1112f94e7b.zip
- 答案:False(仍有 oxidative stress 通路富集)
bix-53-q2 · llm_verifier
- 题面:KL vs WL DEG(p<0.05, |lfc|>1, baseMean>10, shrink);剔除 KL3/WL3 后 DEG 数变化方向。
- 方法路径:两次 DESeq2(含/不含 rep3)→ 比较 DEG 数。
- 目标:Increases the number of differentially expressed genes
- 干扰项:
Decreases the number of differentially expressed genes、No change in the number of significant genes、All genes become non-significant
bix-53-q3 · str_verifier
- 题面:KEGG_2019_Mouse glutathione metabolism 在 KD 中贡献基因数(格式 X/Y)。
- 方法路径:
gseapy.enrichr(gene_sets="KEGG_2019_Mouse") → Overlap 字段。
- 目标:22/64
- 干扰项:
9/64、9/22、22/9
bix-53-q4 · str_verifier
- 题面:WikiPathways_2019_Mouse top20 中 oxidative stress 相关通路数。
- 方法路径:
gseapy.enrichr(gene_sets="WikiPathways_2019_Mouse") → 名称匹配 "oxidative"。
- 目标:4.25E-04(注:该题 ideal 字段实际记录为 p 值)
- 干扰项:
6.25E-07、1.08E-04、6.46E-05
bix-53-q5 · str_verifier
- 题面:WikiPathways top20 中 oxidative 占比(1 位小数)。
- 方法路径:
sum(name.contains("oxidative"))/20。
- 目标:0.1
- 干扰项:
0.25、0.5、0.8
bix-53-q6 · llm_verifier
- 题面:KEGG_2019_Mouse 中 KD 模型最显著富集通路。
- 方法路径:
gseapy.enrichr(KEGG) → top1 by padj。
- 目标:Leishmaniasis
- 干扰项:
TNF signaling pathway、Chemokine signaling pathway、Cytokine-cytokine receptor interaction
bix-54 · QS 双菌共培养最优比例与最大适合度
- Paper: https://doi.org/10.17912/micropub.biology.001326
- Data:
CapsuleFolder-9e52daf6-ca58-43e8-e732-fbac3459d295.zip
- 答案:True(最优比约 0.91,面积超越野生型)
bix-54-q1 · range_verifier
- 题面:自然样条
lm(Area~ns(Frequency_rhlI, df=4)) 预测最大 swarming 面积对应的 rhlI 频率。
- 方法路径:R
splines::ns(df=4) → 拟合 → argmax of predicted。
- 目标:(0.88, 1.0)
- 干扰项:
(0.70,0.75)、(0.81,0.85)、(0.50,0.56)
bix-54-q2 · range_verifier
- 题面:三次多项式 R²。
- 方法路径:
lm(Area~poly(Freq,3)) → summary$r.squared。
- 目标:(0.58, 0.59)
- 干扰项:
(0.35,0.36)、(0.80,0.81)、(0.78,0.79)
bix-54-q3 · range_verifier
- 题面:自然样条模型预测峰值面积的 95% CI 下界。
- 方法路径:
predict(..., interval="confidence") → 取 lwr 的 argmax 行。
- 目标:(157500, 158000)
- 干扰项:
(114500,115000)、(137000,137500)、(159500,160000)
bix-54-q4 · range_verifier
- 题面:自然样条模型整体 F 检验 p 值。
- 方法路径:
summary(fit)$fstatistic → pf(F, df1, df2, lower.tail=FALSE)。
- 目标:(1.13e-10, 1.13e-12)
- 干扰项:
(6.99e-07,6.99e-09)、(0.000428,0.042)、(0.0028,0.28)
bix-54-q5 · range_verifier
- 题面:自然样条预测最大面积对应的 ΔrhlI:ΔlasI 比例。
- 方法路径:同 q1(相同频率)。
- 目标:(0.90, 0.99)
- 干扰项:
(0.70,0.79)、(0.80,0.89)、(0.50,0.59)
bix-54-q6 · range_verifier
- 题面:自然样条模型 R²。
- 方法路径:
summary(fit)$r.squared。
- 目标:(0.80, 0.81)
- 干扰项:
(0.35,0.36)、(0.58,0.59)、(0.78,0.79)
bix-54-q7 · range_verifier
- 题面:quadratic、cubic、natural spline 三模型最优者在最优比例下预测的最大面积(mm²)。
- 方法路径:三模型 R² 对比 → 最优模型 →
max(predict())。
- 目标:(184000, 185000)
- 干扰项:
(113000,114000)、(137000,138000)、(210000,211000)
bix-55 · BUSCO eukaryota_odb10 单拷贝 ortholog 共享
- Paper: 不可得
- Data:
CapsuleFolder-451a5322-db12-4026-8d8d-24647a85c4b1.zip
- 答案:True
bix-55-q1 · llm_verifier
- 题面:BUSCO (eukaryota_odb10) 在 4 个蛋白组中 complete & 共有的单拷贝 ortholog 数。
- 方法路径:
busco -i proteome.faa -m prot --offline -l eukaryota_odb10 → 合并 complete set 交集。
- 目标:101
- 干扰项:
89、123、145
bix-56 · BUSCO 跨物种氨基酸聚合
- Paper: 不可得
- Data:
CapsuleFolder-302f0f4f-a9d7-460d-9488-d7cc7832bdf9.zip
- 答案:True
bix-56-q1 · llm_verifier
- 题面:所有单拷贝 ortholog 序列合计氨基酸数。
- 方法路径:BUSCO 提取蛋白 → 合并 →
sum(len(seq))。
- 目标:13809
- 干扰项:
11245、15623、12890
bix-57 · MAFFT auto 比对 gap 比例
- Paper: 不可得
- Data:
CapsuleFolder-ff43cd5b-6f9e-410b-8d53-a5bb11b5b531.zip
- 答案:True
bix-57-q1 · llm_verifier
- 题面:MAFFT
--auto 比对后 gap 字符占比(%)。
- 方法路径:
mafft --auto input.fa > aln.fa → sum(count('-'))/total_positions * 100。
- 目标:4.8
- 干扰项:
3.2、6.1、5.5
bix-58 · ClipKIT 修剪比对的长度缩减
- Paper: 不可得
- Data:
CapsuleFolder-cdb0c58b-c9e1-47a7-9ad1-6abc48335c3f.zip
- 答案:True
bix-58-q1 · llm_verifier
- 题面:ClipKIT 修剪后长度缩减百分比最大的 ortholog ID。
- 方法路径:
clipkit <aln> → 对每基因计算 (orig_len - trimmed_len)/orig_len → argmax。
- 目标:1014314
- 干扰项:
1018517、1003258、1065019
bix-60 · PhyKIT treeness 综合评估
- Paper: 不可得
- Data:
CapsuleFolder-1aea473d-db97-4c12-9a1e-6c850ddc9110.zip
- 答案:True
bix-60-q1 · llm_verifier
- 题面:5 棵树 PhyKIT treeness 均值 × 1000 后四舍五入。
- 方法路径:
phykit treeness -t *.tre → mean × 1000 → round。
- 目标:19
- 干扰项:
25、12、33
bix-61 · MDR vs 零售肉 E. coli WGS(6 个子 capsule)
- Paper: 不可得
- 数据: 6 个 CapsuleFolder,每个对应 pipeline 的一步
- 共享假设:MDR E. coli 突变率更高、Ts 多于 Tv。答案:True(MDR=101817 SNP,meat=94440)
bix-61-q1 · llm_verifier(Capsule dcee15c0-...)
- 题面:Trimmomatic PE 给定参数下完全丢弃的 reads 数。
- 方法路径:
trimmomatic PE in_1.fq in_2.fq out_1P.fq out_1U.fq out_2P.fq out_2U.fq ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
→ 解析 log 中 "Dropped" 字段。
- 目标:344895
- 干扰项:
341095、348695、352495
bix-61-q2 · llm_verifier(Capsule 37829656-...)
- 题面:MDR SRR35233585 的平均测序深度(4 位小数,BWA-MEM 比对)。
- 方法路径:
bwa mem -R "@RG\tID:SRR35233585\tSM:SRR35233585\tPL:ILLUMINA\tLB:lib1\tPU:unit1" ref.fa R1 R2 | samtools sort -o mdr.bam。
samtools depth mdr.bam | awk '{s+=$3; n++} END{print s/n}'。
- 目标:12.1283
- 干扰项:
10.3421、14.2156、11.0198
bix-61-q3 · llm_verifier(Capsule 53a80e13-...)
- 题面:GATK HaplotypeCaller 调用下 MDR 样本中真 SNP 数。
- 方法路径:
gatk HaplotypeCaller -I mdr.bam -O mdr.vcf → bcftools view -v snps 并排除 multi-nt → count。
- 目标:101817
- 干扰项:
98234、105432、95621
bix-61-q4 · llm_verifier(Capsule fb42b6d8-...)
- 题面:MDR 中 indel 总数(insertion + deletion)。
- 方法路径:
bcftools view -v indels mdr.vcf → count。
- 目标:3173
- 干扰项:
2973、3373、3573
bix-61-q5 · llm_verifier(Capsule 5ddf0a38-...)
- 题面:MDR 的 Ts/Tv(2 位小数)。
- 方法路径:
bcftools stats mdr.vcf | grep "ts/tv"。
- 目标:2.68
- 干扰项:
2.45、2.91、2.33
bix-61-q6 · llm_verifier(Capsule 2e6ab559-...)
- 题面:一句话描述 MDR 与 meat 株积累突变的差异。
- 方法路径:汇总 SNP 计数(MDR=101817, meat=94440)→ 文字描述。
- 目标:The MDR strain accumulates mutations at a rate of 101,817 SNPs which is higher than the retail meat strain (94,440 SNPs).
- 干扰项:
The MDR strain accumulates mutation at a lower rate than the retail meat strain、The MDR strain and the retail meat strain accumulate mutations at the same rate.、The retail meat strain accumulates mutations at a higher rate than the MDR strain.
附录:评分器与方法路径速查
评分器
| 模式 |
工作方式 |
适合题型 |
str_verifier |
字符串归一化(去空白/百分号/千分位)后精确匹配 |
计数、比值、固定格式科学计数 |
range_verifier |
数值位于给定区间 (low, high) 内视为正确 |
相关系数、p 值、比例、面积 |
llm_verifier |
用 OPEN_ENDED_GRADING_PROMPT 调 LLM 裁判 |
概念判断、通路名、方向 |
主要 Python / R 工具链
| 领域 |
关键包 |
| 差异表达 |
DESeq2、apeglm shrink、limma |
| GO / KEGG / Reactome |
clusterProfiler::enrichGO/simplify、gseapy.enrichr(GO_Biological_Process_2021、Reactome_2022、KEGG_2019_Mouse、WikiPathways_2019_Mouse) |
| 统计检验 |
scipy.stats(Mann–Whitney、Welch t、ANOVA、chi2、Shapiro、Pearson/Spearman)、statsmodels OLS、Logit、OrderedModel |
| 多重校正 |
statsmodels.stats.multitest.multipletests(BH/BY/Bonferroni)、Wilson 区间 |
| 系统发生 |
PhyKIT(treeness、rcv、evo_rate、DVMC、long_branch_score、patristic_distances、saturation、tree_length、pis)、BUSCO、MAFFT、ClipKIT、IQ-TREE |
| WGS |
Trimmomatic PE、BWA-MEM、samtools、bcftools、GATK HaplotypeCaller |
| 图像 / 形态 |
scikit-image regionprops、自定义 circularity |
| 机器学习 |
sklearn.LogisticRegression、PCA、层次聚类 + 共识 |
| R 依赖 |
tidyverse、ggplot2、splines::ns、DescTools::DunnettTest |
常见阈值约定
- 差异表达:padj<0.05;|log2FC| 多为 0.5 或 1;baseMean≥10;偶尔要求
lfcShrink(type="apeglm")。
- GO simplify:
similarity > 0.7 去冗余。
- VAF 分界:体细胞 VAF<0.3。
- QS 株命名:JBX1=wt、JBX97=ΔrhlI、JBX98=ΔlasI、JBX99=ΔlasIΔrhlI。
- MDR 测序编号:SRR35233585(MDR),SRR35228486(零售肉)。