昆虫学报 ›› 2024, Vol. 67 ›› Issue (3): 346-357.doi: 10.16380/j.kcxb.2024.03.005
李坤泽1,#, 宋宇轩1,#, 臧贺1, 荆欣1, 范小雪1, 陈颖1, 那志豪1, 陈大福1,2,3, 付中民1,2,3,*, 郭睿1,2,3,*
LI Kun-Ze 1,#, SONG Yu-Xuan 1,#, ZANG He 1, JING Xin1, FAN Xiao-Xue1, CHEN Ying1, NA Zhi-Hao1, CHEN Da-Fu1,2,3, FU Zhong-Min1,2,3,*, GUO Rui1,2,3,*
摘要: 【目的】将已获得的中华蜜蜂Apis cerana cerana转录组纳米孔长读段数据比对到东方蜜蜂A. cerana参考基因组,进行注释基因的结构优化,鉴定未注释的新基因和新转录本并进行功能注释以及预测其SSR位点、完整ORF和转录因子(transcription factor, TF)家族及成员的分析验证,完善现有的东方蜜蜂参考基因组序列和功能注释。【方法】基于已获得的高质量的接种蜜蜂球囊菌Ascosphaera apis的中华蜜蜂工蜂4, 5和6日龄幼虫肠道转录组纳米孔测序数据,使用gffcompare软件将已鉴定到的全长转录本比对到东方蜜蜂参考基因组以优化已注释基因的结构;采用gffcompare软件鉴定参考基因组上未注释的新基因和新转录本,再通过比对Nr, KOG, eggNOG, GO和KEGG数据库进行功能注释;使用MISA, TransDecoder v3.0.0和animalTFDB 2.0软件分别预测SSR位点、完整ORF和TF家族及成员。【结果】共对东方蜜蜂参考基因组上已注释的4 648个基因结构进行了优化,对1 336个基因同时延长了5′UTR和3′UTR,分别延长了1 688个基因的5′UTR和1 624个基因的3′UTR;共鉴定到2 148个新基因,其中分别有818, 298, 587, 359和333个新基因可注释到Nr, KOG, eggNOG, GO和KEGG数据库;共鉴定到35 432条新转录本,其中分别有30 974, 21 222, 29 025, 19 852和9 214条新转录本可注释到上述5个数据库;共发掘出22 541个SSR位点,其中单、双、三和六碱基重复的SSR数量分别为12 078, 7 140, 2 825和43个,混合SSR的数量为2 964个,分布频率最高的类型是单碱基重复(153.37个/Mb);共预测到58个TF家族及1 611个成员;共预测出28 775个完整ORF,其中编码长度分布在100~200个氨基酸的ORF(38.99%)最多。【结论】研究结果优化了东方蜜蜂参考基因组上已注释基因的结构,并补充了参考基因组上未注释的新基因、新转录本、SSR、完整ORF及TF。