• 广东会GDH·(中国)集团广东会GDH

    广东会GDH基因遗传病基因检测机构排名,三甲医院的选择

    基因检测就找广东会GDH基因!

    热门搜索
    • 癫痫
    • 精神分裂症
    • 鱼鳞病
    • 白癜风
    • 唇腭裂
    • 多指并指
    • 特发性震颤
    • 白化病
    • 色素失禁症
    • 狐臭
    • 斜视
    • 视网膜色素变性
    • 脊髓小脑萎缩
    • 软骨发育不全
    • 血友病

    客服电话

    4001601189

    在线咨询

    CONSULTATION

    一键分享

    CLICK SHARING

    返回顶部

    BACK TO TOP

    分享基因科技,实现人人健康!
    ×
    查病因,阻遗传,哪里干?广东会GDH基因正确有效服务好! 靶向用药怎么搞,广东会GDH基因测基因,优化疗效 风险基因哪里测,广东会GDH基因
    当前位置:    致电4001601189! > 基因课堂 > 基因价值 > 基因测序技术 >

    【广东会GDH基因检测】基因解码基础:VCF格式文件是怎么贮存基因信息的?

    【广东会GDH基因】基因解码基础:VCF格式文件是怎么贮存基因信息的? 广东会GDH基因导读: 正确理解并应用基因信息包含两个阶段,一是基因测序阶段,一个是建立《人的基因序列变化与人体疾病表征》的关系两个阶段。尽管后者有数据库比对法和基因解码法,但是获取基因序列,并对基因序列进行正确记录和传递是第一个阶段。本文介绍了用来来贮存人体基因序列的一种格式文件,

    广东会GDH基因检测】基因解码基础:VCF格式文件是怎么贮存基因信息的?


    遗传病、罕见病基因检测导读:

    正确理解并应用基因信息包含两个阶段,一是基因测序阶段,一个是建立《人的基因序列变化与人体疾病表征》的关系两个阶段。尽管后者有数据库比对法和基因解码法,但是获取基因序列,并对基因序列进行正确记录和传递是第一个阶段。本文介绍了用来来贮存人体基因序列的一种格式文件,理解VCF格式文件及其贮存基因序列的方式,是基因库比对方法和基因解码的基础。

    1. 什么是VCF?

    VCF是用于描述SNP,INDEL和SV结果的文本文件。在GATK软件中得到贼好的支持,当然SAMtools得到的结果也是VCF格式,和GATK的VCF格式有点差别。

    2. VCF的主体结构

    先给出一个VCF文件的范例:

    ##fileformat=VCFv4.0
    ##FILTER=<ID=LowQual,Description="QUAL < 50.0">
    ##FORMAT=<ID=AD,Number=.,Type=Integer,Description="Allelic depths for the ref and alt alleles in the order listed">
    ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth (only filtered reads used for calling)">
    ##FORMAT=<ID=GQ,Number=1,Type=Float,Description="Genotype Quality">
    ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
    ##FORMAT=<ID=PL,Number=3,Type=Float,Description="Normalized, Phred-scaled likelihoods for AA,AB,BB genotypes where A=ref and B=alt; not applicable if site is not biallelic">
    ##INFO=<ID=AC,Number=.,Type=Integer,Description="Allele count in genotypes, for each ALT allele, in the same order as listed">
    ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency, for each ALT allele, in the same order as listed">
    ##INFO=<ID=AN,Number=1,Type=Integer,Description="Total number of alleles in called genotypes">
    ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP Membership">
    ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
    ##INFO=<ID=DS,Number=0,Type=Flag,Description="Were any of the samples downsampled?">
    ##INFO=<ID=Dels,Number=1,Type=Float,Description="Fraction of Reads Containing Spanning Deletions">
    ##INFO=<ID=HRun,Number=1,Type=Integer,Description="Largest Contiguous Homopolymer Run of Variant Allele In Either Direction">
    ##INFO=<ID=HaplotypeScore,Number=1,Type=Float,Description="Consistency of the site with two (and only two) segregating haplotypes">
    ##INFO=<ID=MQ,Number=1,Type=Float,Description="RMS Mapping Quality">
    ##INFO=<ID=MQ0,Number=1,Type=Integer,Description="Total Mapping Quality Zero Reads">
    ##INFO=<ID=QD,Number=1,Type=Float,Description="Variant Confidence/Quality by Depth">
    ##INFO=<ID=SB,Number=1,Type=Float,Description="Strand Bias">
    ##INFO=<ID=VQSLOD,Number=1,Type=Float,Description="log10-scaled probability of variant being true under the trained gaussian mixture model">
    ##UnifiedGenotyperV2="analysis_type=UnifiedGenotyperV2 input_file=[TEXT CLIPPED FOR CLARITY]"
    #CHROM  POS ID      REF ALT QUAL    FILTER  INFO    FORMAT  NA12878
    chr1    873762  .       T   G   5231.78 PASS    AC=1;AF=0.50;AN=2;DP=315;Dels=0.00;HRun=2;HaplotypeScore=15.11;MQ=91.05;MQ0=15;QD=16.61;SB=-1533.02;VQSLOD=-1.5473 GT:AD:DP:GQ:PL   0/1:173,141:282:99:255,0,255
    chr1    877664  rs3828047   A   G   3931.66 PASS    AC=2;AF=1.00;AN=2;DB;DP=105;Dels=0.00;HRun=1;HaplotypeScore=1.59;MQ=92.52;MQ0=4;QD=37.44;SB=-1152.13;VQSLOD= 0.1185 GT:AD:DP:GQ:PL  1/1:0,105:94:99:255,255,0
    chr1    899282  rs28548431  C   T   71.77   PASS    AC=1;AF=0.50;AN=2;DB;DP=4;Dels=0.00;HRun=0;HaplotypeScore=0.00;MQ=99.00;MQ0=0;QD=17.94;SB=-46.55;VQSLOD=-1.9148 GT:AD:DP:GQ:PL  0/1:1,3:4:25.92:103,0,26
    chr1    974165  rs9442391   T   C   29.84   LowQual AC=1;AF=0.50;AN=2;DB;DP=18;Dels=0.00;HRun=1;HaplotypeScore=0.16;MQ=95.26;MQ0=0;QD=1.66;SB=-0.98 GT:AD:DP:GQ:PL  0/1:14,4:14:60.91:61,0,255

    从范例上看,VCF文件分为两部分内容:以“#”开头的注释部分;没有“#”开头的主体部分。

    值得注意的是,注释部分有很多对VCF的介绍信息。实际上不需要本文章,只是看看这个注释部分就有效明白了VCF各行各列代表的意义。我们先讲VCF文件主题部分的结构,如下所示:

    [HEADER LINES]
    #CHROM  POS ID      REF ALT QUAL    FILTER  INFO          FORMAT          NA12878
    chr1    873762  .       T   G   5231.78 PASS    [ANNOTATIONS] GT:AD:DP:GQ:PL  0/1:173,141:282:99:255,0,255
    chr1    877664  rs3828047   A   G   3931.66 PASS    [ANNOTATIONS] GT:AD:DP:GQ:PL  1/1:0,105:94:99:255,255,0
    chr1    899282  rs28548431  C   T   71.77   PASS    [ANNOTATIONS] GT:AD:DP:GQ:PL  0/1:1,3:4:25.92:103,0,26
    chr1    974165  rs9442391   T   C   29.84   LowQual [ANNOTATIONS] GT:AD:DP:GQ:PL  0/1:14,4:14:60.91:61,0,255

    以上去掉了头部的注释行,只留下了代表每一行意义的注释行。主体部分中每一行代表一个Variant的信息。

    3. VCF格式文件怎么记录一个人的基因信息?

    CHROM 和 POS:记录的是基因序列染色体和坐标,如果是INDEL的话,位置是INDEL的第一个碱基位置,有这两个参数,就可以将测序结果与人体的特定的一个基因信息固定下来。

    ID:数据库中已经有过的变异序列的代码。比如在dbSNP中有该SNP的代码,则会在此行给出;若没有,则用’.’表示这是一个受检者所特有的突变序列,在其他人身上没有。由于这是是用一个"."来表示,经过测序后,这样的点有很多,数据库比对就无法对这一突变对体的影响进行分析,需要采用新的分析策略。

    REF 和 ALT:参考序列的DNA字母 和 可能出现的不同的DNA字母。

    QUAL:Phred格式(Phred_scaled)的质量值,表示在该位点存在variant的可能性;该值越高,则variant的可能性越大;计算方法:Phred值 = -10 * log (1-p) p为variant存在的概率; 通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%。

    FILTER:使用上一个QUAL值来进行过滤的话,是不够的。GATK能使用其它的方法来进行过滤,过滤结果中通过则该值为”PASS”;若variant不高效,则该项不为”PASS”或”.”。

    INFO: 这一行是variant的详细信息,内容很多,以下再具体详述。

    FORMAT 和 NA12878:这两行合起来提供了’NA12878’这个sample的基因型的信息。’NA12878’代表这该名称的样品,是由BAM文件中的@RG下的 SM 标签决定的。

    4. 基因型信息

    chr1    873762  .       T   G   [CLIPPED] GT:AD:DP:GQ:PL    0/1:173,141:282:99:255,0,255
    chr1    877664  rs3828047   A   G   [CLIPPED] GT:AD:DP:GQ:PL    1/1:0,105:94:99:255,255,0
    chr1    899282  rs28548431  C   T   [CLIPPED] GT:AD:DP:GQ:PL    0/1:1,3:4:25.92:103,0,26

    看上面贼后两列数据,这两列数据是对应的,前者为格式,后者为格式对应的数据。

    GT:样品的基因型(genotype)。两个数字中间用’/’分开,这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele; 1 表示样品中variant的allele; 2表示有第二个variant的allele。因此: 0/0 表示sample中该位点为纯合的,和ref一致; 0/1 表示sample中该位点为杂合的,有ref和variant两个基因型; 1/1 表示sample中该位点为纯合的,和variant一致。

    AD 和 DP:AD(Allele Depth)为sample中每一种allele的reads覆盖度,在diploid中则是用逗号分割的两个值,前者对应ref基因型,后者对应variant基因型; DP(Depth)为sample中该位点的覆盖度。

    GQ:基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越大;计算方法:Phred值 = -10 * log (1-p) p为基因型存在的概率。

    PL:指定的三种基因型的质量值(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。和之前不一致,该值越大,表明为该种基因型的可能性越小。 Phred值 = -10 * log (p) p为基因型存在的概率。

    5. VCF第8列的信息

    该列信息贼多了,都是以 “TAG=Value”,并使用”;”分隔的形式。其中很多的注释信息在VCF文件的头部注释中给出。以下是这些TAG的解释

    AC,AF 和 AN:AC(Allele Count) 表示该Allele的数目;AF(Allele Frequency) 表示Allele的频率; AN(Allele Number) 表示Allele的总数目。对于1个diploid sample而言:则基因型 0/1 表示sample为杂合子,Allele数为1(双倍体的sample在该位点只有1个等位基因发生了突变),Allele的频率为0.5(双倍体的sample在该位点只有50%的等位基因发生了突变),总的Allele为2; 基因型 1/1 则表示sample为纯合的,Allele数为2,Allele的频率为1,总的Allele为2。

    DP:reads覆盖度。是一些reads被过滤掉后的覆盖度。

    Dels:Fraction of Reads Containing Spanning Deletions。进行SNP和INDEL calling的结果中,有该TAG并且值为0表示该位点为SNP,没有则为INDEL。

    FS:使用Fisher’s正确检验来检测strand bias而得到的Fhred格式的p值。该值越小越好。一般进行filter的时候,可以设置 FS < 10~20。

    HaplotypeScore:Consistency of the site with at most two segregating haplotypes

    InbreedingCoeff:Inbreeding coefficient as estimated from the genotype likelihoods per-sample when compared against the Hard-Weinberg expectation

    MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed

    MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT alle in the same order as listed

    MQ:RMS Mapping Quality

    MQ0:Total Mapping Quality Zero Reads

    MQRankSum:Z-score From Wilcoxon rank sum test of Alt vs. Ref read mapping qualities

    QD:Variant Confidence/Quality by Depth

    RPA:Number of times tandem repeat unit is repeated, for each allele (including reference)

    RU:Tandem repeat unit (bases)

    ReadPosRankSum:Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias

    STR:Variant is a short tandem repeat

    (责任编辑:广东会GDH基因)
    顶一下
    (0)
    0%
    踩一下
    (0)
    0%
    推荐内容:
    来了,就说两句!
    请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
    评价:
    表情:
    用户名: 验证码: 点击我更换图片

    Copyright © 2013-2033 网站由广东会GDH基因医学技术(北京)有限公司,湖北广东会GDH基因医学检验实验室有限公司所有 京ICP备16057506号-1;鄂ICP备46208663号-1

    设计制作 基因解码基因检测信息技术部

    网站首页
    广东会GDH