博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
人类基因组在三大基因数据库中的不同版本
阅读量:6054 次
发布时间:2019-06-20

本文共 905 字,大约阅读时间需要 3 分钟。

在数据分析中,经常需要下载物种的参考基因组序列,这时有很多数据库可以选择,比如NCBI, Ensembl, UCSC这三个通用的数据库,或者该物种特有的数据库,

比如模式生物拟南芥等有专门的数据库。

在NCBI, Ensembl 和 UCSC中对于同一个物种,编号不统一,在这里整理一下它们之间的关系,以人类基因组为例:

在NCBI中,对于不同的拼装版本,以NCBI Build Number 进行区分,而相同的版本之间又有微小的区别,以Version 表示不同的小版本,

在下面的连接中可以看到人类基因组之前的版本,

比如BUILD.36.1, NCBI Build Number 为36, Version 为1, 从BUILD 37.1 开始,又有了新的命名方式,GRCh37

有个CRC的组织(http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/),该组织是由EBI,NCBI等组织联合起来的学术团体,对基因组的不同拼装版本进行简短而统一的命名,h表示人类,37

表示版本号,对于同一个版本,会有小的修改,此时用p加上编号进行标识,比如Build 37.3 又命名为GRCh37.p5 ,p代表patch, 补丁;

目前比较常用的版本有GRCh37 和CRCh38 两个版本;

在Ensembl 中,有不同的release ,比如

人类基因组从release-76到release-83对应 GRCh38, 从release-55到release-75对应GRCh37

这个从命名方式可以看出来,以release-83为例:

人类基因组第一条染色体命名为 Homo_sapiens.GRCh38.dna.chromosome.1.fa.gz,其中的CRCh38就表示拼装的版本

 

在UCSC中,

hg38对应GRCh38

hg19对应GRCh37

还有一点需要注意的是, Ensembl下载下来的fasta序列, 其标识符中不包含chr,

比如人类基因组1号染色体,在UCSC和NCBI中下载下来的标识符为>chr1,而Ensembl 中为>1

 

转载地址:http://hozrx.baihongyu.com/

你可能感兴趣的文章
谷歌三大核心技术(二)Google MapReduce中文版
查看>>
类练习题2:按照给定格式显示时间
查看>>
MySQL数据库设置远程访问权限方法总结
查看>>
struct2源码解读(2)之struct2初始化
查看>>
跟我学Spring Cloud(Finchley版)-18-Zuul深入
查看>>
新闻手机客户端最终决战拼的是什么
查看>>
数据持久化———CoreData
查看>>
Spring 的基础知识汇总
查看>>
Android Studio 工程依赖
查看>>
Review of Arterki-High-leverage side- combination plier.
查看>>
FTP服务器匿名用户登录失败解决方法
查看>>
集群03
查看>>
【简报】JavaScrip的SVG图形库:jsDraw2DX
查看>>
四大最值得推荐的信息安全从业者认证
查看>>
第一周的作业
查看>>
实验四 交换机SPAN功能配置
查看>>
arp欺骗
查看>>
决心书
查看>>
java手机号验证!
查看>>
socket网络编程之TCP、UDP
查看>>