大家好,我是邓飞。
前几天NCBI推给我一篇棉花GWAS的文章:

1,数据和性状
论文研究的是棉花萌发的GWAS分析,两年在 7 种环境条件下种植 259 份陆地棉种质资源,测定发芽势、发芽率、发芽指数、活力指数等 8 项种子活力相关性状。群体内 8 个性状均存在丰富表型变异,且各性状间相关性显著。通过相关性分析、主成分分析与随机森林重要性评估,筛选出与种子活力关联程度最高、关系最紧密的 3 个性状:发芽指数、发芽势与活力指数。基于上述 3 个性状开展全基因组关联分析,挖掘调控棉花种子萌发活力的关键位点与基因。
试验材料和多环境:选用 259 份遗传多样性丰富的陆地棉自然种质,连续 2 年设置 7 个独立种植环境,最大程度模拟大田不同温光、土壤条件,规避单一环境带来的表型偏差,提升后续位点稳定性。
性状主要是种子活力:统一标准测定发芽势 (GP)、发芽率、发芽指数 (GI)、活力指数 (VI) 等 8 个萌发指标,覆盖萌发速度、整齐度、幼苗健壮度全维度。
2,表型数据分析:
2.1,相关性分析
参考博客:R语言的相关性分析处理多个性状并可视化
计算 8 个性状两两皮尔逊相关系数,筛选与整体活力水平高度联动的指标;

2.2,主成分分析和随机森林筛选重要性状
参考博客:PCA分析给出每个主成分的解释百分比
降维提取表型主成分,判断各性状对种子活力总变异的贡献度,剔除信息重叠、贡献率低的冗余指标;区别于传统统计学,引入机器学习量化各性状对 “种子活力” 表型的解释权重,客观筛选出发芽指数、发芽势、活力指数3 个核心代表性状,仅用 3 个指标开展后续 GWAS,兼顾效率与代表性。

2.3 遗传力分析和BLUP值计算
参考博客:农业数据分析一文打尽:遗传力和试验设计

3,基因型数据分析
3.1 群体结构和进化树分析
参考博客:群体遗传三剑客第一剑:主成分分析PCA;群体遗传三剑客第二篇:Admixture群体结构分析;群体遗传三剑客:PCA、Admixture、进化树

3.2 GWAS分析
采用 GEMMA 软件标准 MLM 模型,同时纳入群体结构 + 亲缘关系矩阵两大协变量,有效控制自然群体中存在的群体分层、材料亲缘干扰,大幅降低 GWAS 假阳性,是作物自然群体 GWAS 金标准模型。
参考博客:GWAS分析中SNP解释百分比PVE | 第四篇,MLM模型中如何手动计算PVE?;根红苗正的GWAS软件:GEMMA

3.3 基因注释
参考博客:显著性位点如何注释附近的基因?

3.4 对注释的基因进行GO和KEGG分析
参考博客:GWAS分析中的GO和KEGG富集分析教程

里面的分析内容,如果有相关的试验和数据,分析重现完全没问题。