真核生物的基因通常包含可编码的外显子(exon)和不可编码的内含子(intron)。长度≤51个核苷酸(nt)的外显子被称为微外显子(microexon)。微外显子在多种生物学过程中发挥重要作用,能够增加转录本多样性、影响蛋白质结构,并参与调控网络的复杂化过程。在动物中,微外显子已被证实可以调控蛋白质结合域功能、参与发育过程并帮助生物适应环境变化。然而,植物中的微外显子,特别是长度≤15 nt的极小微外显子的研究较少。由于其长度过短,鉴定和功能研究存在困难,容易在基因组注释和转录组研究中缺失,导致基因结构模型错误。
前期,中国科学院昆明植物研究所喻辉辉等开发了精准鉴定植物微外显子的方法,发现植物微外显子具有特殊的剪接模式,在基因功能和系统进化中具有重要作用。同时,他们还开发了不依赖于转录组数据的植物微外显子预测方法,显著提高了基因组注释的准确性。相关研究成果发表于Nature Communications(Yu et al., 2022),并被编辑选为亮点论文。
基于此,喻辉辉研究员联合美国内布拉斯加大学Chi Zhang和Hongfeng Yu教授团队,成功构建了首个植物微外显子数据库MEPDB(Database of MicroExons in Plants)。相关成果近期在线发表于国际权威植物学期刊New Phytologist。该数据库包含132个植物基因组的20,224个微外显子,主要功能包括:
1. 微外显子簇与物种浏览
数据库首页展示45个保守微外显子簇和132个植物物种列表,其中16个物种配有物种图片,并包含JBrowse基因组浏览器(10个物种包含RNA-seq数据)。用户可通过点击簇或物种名称查看对应微外显子的详细信息。
2. 微外显子详情展示
单个微外显子页面显示其ID、基因组坐标、长度、相位、微外显子标签序列等信息。数据整合自参考基因组注释、RNA-seq证据及MEPmodeler预测结果,并通过JBrowse可视化基因结构。
3. 在线预测工具
集成MEPmodeler在线预测服务,支持用户提交200 nt至1 Mb的基因组序列(粘贴或上传FASTA文件),返回微外显子位置、标签坐标及预测评分。结果可下载为CSV格式(含序列和评分)。
4. 数据下载功能
提供批量下载页面,包含全部20,224个微外显子的基本信息、注释、预测结果及RNA-seq数据,支持标准化格式以便整合至其他数据库。所有数据同步存档于Zenodo开放平台。
该研究由美国能源部(项目编号:DE-SC0024337,资助对象:Chi Zhang和Hongfeng Yu)、内布拉斯加大豆委员会(项目编号:725,资助对象:Chi Zhang)和中国国家自然科学基金(项目编号:32470237,资助对象:喻辉辉)共同资助。
 
图1 微外显子标签和微外显子预测方法
文章链接
数据库链接
|