首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >GWAS分析在作物分析的流程和要点

GWAS分析在作物分析的流程和要点

作者头像
邓飞
发布2026-06-26 20:20:29
发布2026-06-26 20:20:29
920
举报

大家好,我是邓飞。

前几天NCBI推给我一篇棉花GWAS的文章:

1,数据和性状

论文研究的是棉花萌发的GWAS分析,两年在 7 种环境条件下种植 259 份陆地棉种质资源,测定发芽势、发芽率、发芽指数、活力指数等 8 项种子活力相关性状。群体内 8 个性状均存在丰富表型变异,且各性状间相关性显著。通过相关性分析、主成分分析与随机森林重要性评估,筛选出与种子活力关联程度最高、关系最紧密的 3 个性状:发芽指数、发芽势与活力指数。基于上述 3 个性状开展全基因组关联分析,挖掘调控棉花种子萌发活力的关键位点与基因。

试验材料和多环境:选用 259 份遗传多样性丰富的陆地棉自然种质,连续 2 年设置 7 个独立种植环境,最大程度模拟大田不同温光、土壤条件,规避单一环境带来的表型偏差,提升后续位点稳定性。

性状主要是种子活力:统一标准测定发芽势 (GP)、发芽率、发芽指数 (GI)、活力指数 (VI) 等 8 个萌发指标,覆盖萌发速度、整齐度、幼苗健壮度全维度。

2,表型数据分析:

2.1,相关性分析

参考博客:R语言的相关性分析处理多个性状并可视化

计算 8 个性状两两皮尔逊相关系数,筛选与整体活力水平高度联动的指标;

2.2,主成分分析和随机森林筛选重要性状

参考博客:PCA分析给出每个主成分的解释百分比

降维提取表型主成分,判断各性状对种子活力总变异的贡献度,剔除信息重叠、贡献率低的冗余指标;区别于传统统计学,引入机器学习量化各性状对 “种子活力” 表型的解释权重,客观筛选出发芽指数、发芽势、活力指数3 个核心代表性状,仅用 3 个指标开展后续 GWAS,兼顾效率与代表性。

2.3 遗传力分析和BLUP值计算

参考博客:农业数据分析一文打尽:遗传力和试验设计

3,基因型数据分析

3.1 群体结构和进化树分析

参考博客:群体遗传三剑客第一剑:主成分分析PCA;群体遗传三剑客第二篇:Admixture群体结构分析;群体遗传三剑客:PCA、Admixture、进化树

3.2 GWAS分析

采用 GEMMA 软件标准 MLM 模型,同时纳入群体结构 + 亲缘关系矩阵两大协变量,有效控制自然群体中存在的群体分层、材料亲缘干扰,大幅降低 GWAS 假阳性,是作物自然群体 GWAS 金标准模型。

参考博客:GWAS分析中SNP解释百分比PVE | 第四篇,MLM模型中如何手动计算PVE?;根红苗正的GWAS软件:GEMMA

3.3 基因注释

参考博客:显著性位点如何注释附近的基因?

3.4 对注释的基因进行GO和KEGG分析

参考博客:GWAS分析中的GO和KEGG富集分析教程

里面的分析内容,如果有相关的试验和数据,分析重现完全没问题。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档