找回密码
 立即注册
首页 业界区 安全 plink 基础

plink 基础

那虻 2025-5-31 23:58:05
一、PLINK 核心功能

  • 数据管理与格式转换
    • 支持格式:PLINK 支持多种基因型数据格式,包括文本格式(.ped + .map)、二进制格式(.bed + .bim + .fam)及 VCF 格式。
    • 转换示例:
    1. # VCF 转二进制格式
    2. plink --vcf input.vcf --make-bed --out binary_data
    3. # 二进制转文本格式
    4. plink --bfile binary_data --recode --out text_data
    复制代码
    文件结构:
    • .ped 文件:包含样本基因型信息(家系、个体、基因型等)。
    • .map 文件:记录 SNP 的染色体位置、物理位置等元数据。
  • 数据质控(QC)
    PLINK 提供多维度质控参数,确保数据可靠性:
    • 样本与 SNP 过滤:
    • --geno:过滤 SNP 缺失率(如 --geno 0.1 表示缺失率 >10% 的 SNP 被剔除)。
    • --mind:过滤样本缺失率(如 --mind 0.1 剔除缺失率 >10% 的样本)。
    • 遗传*衡检验:
    • --maf:过滤最小等位基因频率(如 --maf 0.05 保留 MAF ≥5% 的 SNP)。
    • --hwe:哈迪-温伯格*衡检验(如 --hwe 1e-6 剔除显著偏离*衡的 SNP)。
    • 性别一致性检查:
    • --check-sex:验证样本遗传性别与记录是否一致。
  • 关联分析(GWAS)
    PLINK 支持多种统计模型用于 GWAS:
    • 连续性状:使用 --linear 参数进行线性回归分析。
    • 二分类性状:使用 --logistic 参数进行逻辑回归分析。
    • 协变量调整:通过 --covar 指定协变量文件(如年龄、性别)。
    1. plink --bfile data --linear --pheno pheno.txt --covar covariates.txt --out gwas_results
    复制代码
  • 群体遗传分析
    • 主成分分析(PCA):通过 --pca 参数生成主成分,用于群体分层校正。
    1. plink --bfile data --pca 3 --out pca_results
    复制代码
    • 亲缘关系计算:--genome 参数生成 IBD(Identity by Descent)矩阵,检测样本间亲缘性。
    • 连锁不*衡(LD)分析:--indep-pairwise 参数用于 LD 过滤。
二、关键参数与命令速查
参数功能示例--bfile指定二进制输入文件前缀--bfile mydata--pheno指定表型文件--pheno trait.txt--maf过滤次等位基因频率--maf 0.01--adjust多重检验校正(Bonferroni/FDR)--adjust fdr--recode转换输出格式(如 VCF 或文本)--recode vcf--threads多线程加速--threads 8三、典型应用场景

  • GWAS 全流程
  • 数据预处理:格式转换与缺失过滤。
  • 质控:剔除低质量 SNP 和样本。
  • 关联分析:运行线性/逻辑回归模型。
  • 结果校正:多重检验校正与曼哈顿图绘制。
  • 群体遗传结构分析
    • PCA 分析:检测群体分层并生成可视化结果(需结合 R/ggplot2)。
    • LD 过滤:通过 --indep-pairwise 50 5 0.1 保留独立性 SNP。
  • 精细定位与功能注释
    • 精细定位(Fine Mapping):结合 LD 结构和功能注释筛选候选 SNP。
    • 基因注释工具集成:如 VEP、ANNOVAR 等。
四、高级功能与扩展

  • 版本更新(PLINK 2.0)
    • 性能优化:提升大规模数据计算速度(如 IBS 矩阵计算)。
• 新功能:支持多等位位点处理、混合模型分析等。

  • 与其他工具集成
    • GCTA:用于遗传力估计和复杂性状分析。
    • Haploview:可视化 LD 区块。
    • R 语言扩展:通过 qqman 包绘制曼哈顿图。
五、安装与资源

  • 安装方法
    • Linux/Mac:
    1. wget https://s3.amazonaws.com/plink1-assets/plink_linux_x86_64.zip
    2. unzip plink_linux_x86_64.zip && chmod +x plink
    复制代码
    • Windows:直接下载二进制文件。
  • 学习资源
    • 官方文档:PLINK 1.9 文档。
    • 案例教程:GWAS 全流程分析指南(CSDN、GitHub 社区)。
    • 开源社区:nf-core、GWAS Central 提供流程模板。
六、注意事项
• 数据规模:处理百万级 SNP 时建议使用二进制格式以节省存储。
• 版本兼容性:PLINK 1.9 与 2.0 的命令参数存在差异,需注意版本适配。
• 错误排查:日志文件(.log)可帮助定位数据格式或参数错误。
*交系数计算:
PLINK 计算*交系数主要通过两种方法实现:基于纯合性分析(--het)和基于连续纯合片段(ROH)检测。以下是具体操作及解读:
一、基于纯合性分析(--het命令)

  • 核心命令
    1. plink --file [输入文件前缀] --het --out [输出前缀]  # 适用于文本格式(.ped/.map)
    2. plink --bfile [二进制文件前缀] --het --out [输出前缀]  # 适用于二进制格式(.bed/.bim/.fam)
    复制代码
关键参数:
• --allow-extra-chr:处理非数字染色体(如性染色体)
• --noweb:跳过版本检查(可选)

  • 输出文件解读
    生成的 .het 文件包含以下字段:
列名说明示例值FID/IID家系/个体IDDOR1/DOR1O(HOM)观测纯合子数49,002,256E(HOM)期望纯合子数(理论计算值)4.714e+07N(NM)非缺失基因型总数55,370,187F*交系数(核心结果)0.2262F值意义:
• 理论范围:0(无*交)到 1(完全*交)
• 负值处理:若出现负值(如 -0.5),可能因杂合子过多(提示样本污染或分型错误)
二、基于连续纯合片段(ROH)检测

  • ROH检测命令
    1. plink --file [输入文件前缀] \
    2.           --homozyg-snp 30 \        # 要求ROH中至少包含30个连续SNP
    3.           --homozyg-kb 1000 \       # ROH最小长度1000 kb
    4.           --homozyg-density 1000 \  # 每1 Mb区域至少1个SNP
    5.           --homozyg-gap 1000 \      # 允许ROH中断的最大间隔(kb)
    6.           --homozyg-window-snp 50 \ # 滑动窗口包含50个SNP
    7.           --homozyg-window-het 1 \  # 窗口内允许的杂合子数
    8.           --homozyg-window-missing 1 \  # 窗口内允许的缺失基因型数
    9.           --out [输出前缀]
    复制代码
输出文件:
• .hom:每个ROH的详细位置
• .hom.indiv:个体ROH统计(总长度、*交系数F)

  • 基因组*交系数(FROH)计算
    通过ROH总长度占基因组比例计算:
  1. FROH = (ROH总长度) / (基因组总长度)
复制代码
应用场景:
• 历史推断:长ROH(>10 Mb)反映*期*交,短ROH( 0.25)优化核心育种群
• 工具联动:PLINK + R(绘制F值分布图)
</ol>详细的参数说明或实战案例,参考 PLINK 官方文档 。

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册