vcf文件说明
1. 什么是VCF
CVF是用于描述SNP,INDEL和SV结果的文本文件。做过DNA重测序,群体遗传进化,BSA,GWAS等项目的人都会遇到VCF文件,这个文件记录了所有样品基因组中所有位置变异(主要包括SNP和InDel)信息。后续几乎所有的分析内容都是基于此文件,比如进化树分析、群体结构分析、PCA分析、GWAS关联分析等等。
官方说明: http://www.internationalgenome.org/wiki/Analysis/vcf4.0/
下面是一个典型VCF文件的示例(部分):
2. 整体说明信息(Meta-information lines)
VCF文件分为两部分内容:以“#”开头的 注释 部分;没有“#”开头的 主体 部分。去掉了头部的注释行,只留下了代表每一行意义的注释行。
VCF文件的开头是整体注释信息,通常以##作为起始,其后一般接以FILTER,INFO,FORMAT等字样。例如:
3. Variation
FORMAT [9] 和 R01 [10]:这两行合起来提供了’R01(某个基因名)′这个sample的基因型的信息。’NA12878′代表这该名称的样品,是由BAM文件中的@RG下的 SM 标签决定的。