kl800.com省心范文网

生物信息复习题

生 物 信 息 复 习 题

一,什么是生物信息学?
生物信息学是 80 年代末随着人类基因组计划启动,DNA 数据猛增而逐渐兴 起的一门新 兴 交叉学科, 生物信息学是利用计算机对生命科学研究中的生物信息进行存储、 检索和分析的 一门科学。从研究内容看,基因组学、蛋白质结构模拟及药物设计是生物信息学的三个重要 组成部分,并有机地结合在一起。

二,生物信息学的两个阶段
1,基因组时代-全基因组信息 人类全部 23 对染色体,3×109 核苷酸,3-4 万个人类基因。5%DNA 编码蛋白,95% 为 junk DNA。 (1)生物信息数据库建立及基因组信息传输网络的形成 (2)基因组序列的提取和分析 2,后基因组时代-功能基因组-蛋白质组 功能基因表达和蛋白质调控

三,当前生物信息学主要研究目标,任务,内容 1,研究目标:
(1)解读生物体中 DNA 的遗传信息,揭示基因组信息的复杂性和规律性 (2)揭示人体生理和病理的分子基础,为人类疾病的诊断、预防和治疗提供最合理而有效 的方法和途径。 (2)认识生命的本质和起源

2,研究任务:
近期任务: (1)大规模基因组测序中的分子数据收集、管理、分析和挖掘 (2)新基因和新 SNPS(单核苷酸多态性)的发现与鉴定 (3)完整基因组的比较研究 (4)大规模基因功能表达谱的分析 (5)生物大分子的结构模拟与药物设计 (6)生物信息分析技术与方法研究 开发高性能的分析工具和实用软件 生物分子序列比较工具 基因识别工具 生物分子结构预测工具 基因表达数据分析工具 远期任务: 读懂人类基因组,发现人类遗传语言的根本规律,从而阐明若干生 物学中的重大自然哲学 问题,像生命的起源与进化等。这一研究的关键和核心是了解非编码 区 (1)非编码区信息结构分析 (2)遗传密码起源和生物进化的研究 生物信息学中实质任务是:数据挖掘 (1)分类 Classifying (2)关联 Associating (3)建模与模拟 Modelling & Simulating (4)预测与检验 Predicting & Testing

3,研究内容:
(1) 生物分子数据的收集与管理 、

(2) 、数据库搜索及序列比较 (3) 、基因组序列分析 (4) 、基因表达数据的分析与处理 (5) 、蛋白质结构预测

四,存贮生物分子的数据库
基因组数据库,蛋白质序列数据库,蛋白质结构数据库

五,蛋白质结构
1,蛋白质的一级结构 多肽链形成、主链的构象角肽键,肽,二肽,多肽。 氨基酸的侧链 2,蛋白质的二级结构 1951 年,Pauling 提出了蛋白质的α -螺旋结构。 (1)周期性的二级结构 α 螺旋、β 折叠 (2)非周期性的二级结构 连接规则二级结构间的区域统称为环区: β 转角, β 发夹和Ω 环,无规卷曲。 (3)蛋白质超二级结构 模体(motif), 3,蛋白质的三级结构 1)结构域是蛋白质三级结构的基本结构单位和功能单位 2)蛋白质结构域和三级结构的分类 4,蛋白质的四级结构 蛋白质往往由多条链构成,亚基,寡聚蛋白,多聚蛋白。 1)四级结构的组成 2)蛋白质空间构象和功能的关系 蛋白质的变构作用 蛋白质结构预测: 两种方法: (1)分子力学的能量极小化法,计算出蛋白质分子的天然空间结构。 (2)基于知识的预测方法:根据已有蛋白质空间结构和一级结构之间的关系,逐级从一级 预测二级结构,再到三维模型,排除不合理模型,修正结构。

六,基因组重复序列有哪些
1,高度重复序列 重复数大于百万次,在人类基因组中占 25% 1)正向重复(direct repeats)又叫顺向重复 5‘ GTGAGTGAccGTGA 3’ 2)反向重复(inverted repeats) a) 发夹结构(hairpin structure) 5‘ GTGAGccgcCTCAC 3’ 3’ CACTCcctcGAGTG 5’ b)回文结构 (Palindromic sequence) 5‘ GTGAGCTCAC 3’ 3’ CACTCGAGTG 5’

3)卫星 DNA (satellite DNA) 属于高度重复 DNA 序列,占人体基因组的 10%。由 2-70 bp,可变数串联重复序列(VNTR, variable number tandem repeats) 小卫星 DNA(minisatellite): 6-12 bp 串联重复序列 微卫星 DNA(microsatellite): 2-6 bp 串联重复序列 4)a-卫星 DNA 为灵长类所独有, 5 ) 端粒 DNA 在染色体上的定位,复制,末端保护以及控制细胞寿命等方面起重要作用。 2,中度重复序列 长约 300bp, 基因组中约有 10-百万次重复 大多与单拷贝基因间隔排列,少数成串联排列,约占基因组的 12%。 一部分编码 rRNA,tRNA,组蛋白及免疫蛋白等结构基因,tRNA 基因一般都分布于基因组中, 而 rRNA 常集中于核仁形成区。 另外一部分可能与基因调控有关。 根据基因长度分为两个类型: SINEs (short interspersed nuclear elements) LINEs (long interspersed nuclear elements) 3,轻度重复序列 基因组中含有 2-10 次重复 酵母 tRNA 基因、人和小鼠的珠蛋白基因等。

七,生物信息常用数据库类型
大量的生物学数据按照一定的目标与功能分类整理,形成各种不同的数据库。 生物信息数据库分类: 1)核酸和蛋白质一级结构数据库(序列测定) 2)基因组数据库(基因组作图) 3)生物大分子三维空间结构数据库(X-衍射和 核磁共振测定) 一次数据库和二次数据库 通用数据库和特定数据库

八,三大核酸数据库
GenBank (http://www.ncbi.nlm.nih.gov/) EMBL (http://www.embl-heidelberg.de/) DDBJ (http://www.ddbj.nig.ac.jp/) 蛋白质序列数据库 PIR (http://pir.georgetown.edu/) SWISS-PROT (http://www.expasy.ch/sprot/) 蛋白质结构数据库 PDB (http://www.rcsb.org/pdb/)

九,NCBI 子数据库及其作用 十,主要数据库格式
FASTA 用于各种 FASTA 工具 简要说明之后就是序列没有注释信息, GenBank GenBank 用纯文本文件 注释、作者 、版本等信息 SwissProt 用于 SWISS-PROT 数据库 包括注释信息 ASN.1 国际标准 半结构化格式 用于 NCBI 数据 只有序列

XML

eXtensible Markup Language

类似 HTML

国际标准 半结构化

十一,Entrez 查询
NCBI 的集成检索工具 Entrez,一次检索可查询到多个数据库的信息 数据库之间的联系:相近性和硬连接 相近性: 序列相近性:BLAST(Basic local alignment search tool) 结构相近性:VAST(vector alignment search tool) 文献相近性:关键词加权 硬连接: 不同数据库之间条目存在逻辑关系,即建立硬连接。

十二,SRS-思考题

EMBL 的主要检索工具

Quick search, standard , extended search

1,NCBI 包含哪些数据库?如何检索到你所要的信息?, 2,如何发现 GenBank 等分子数据库中的错误? 3,何解决不同数据库中基因的同名异物 / 同物异名问题? 十三,序列对位排列的主要用途
1,分子进化分析 (课程后续内容), 通过序列比对,根据序列的相似性,分析亲缘关系远近,分析生命起源过程。 (课程后续内 容) 2,基因识别 序列比对 1)根据已知基因序列预测未知序列中的基因。 2)Blast 搜索,根据相似性分数预测基因 3,数据库搜索, 4,序列基序鉴定, 5,功能预测 通过序列比对,根据序列的保守区域和位点,确定基因所具有的功能。 6,结构预测 acetylglucosamin 结合蛋白的序列对位排列和三级结构。 对位排列中黄色区域是最可能建立同样三级结构的区域。图中显示了 4 个二硫键。

十四,序列比对作用 十五,什么是序列对位排列
通过插入间隔(gap)的方法使不同长度的序列对齐(长度一致) 优化的序列排列应使间隔的数目达到最小,同时使相似性区域的长度达到最大 例如: 对序列 X = CGATCAG(长度为 7)和序列 Y = CGTCAG(长度为 6) ,只需插入一个间 隔即可。 排列后的两个序列为: X = C G A T C A G Y = C G - T C A G 对上面两个序列 X 和 Y,增加一个序列 :

Z = CGGATCAG (长度为 8) 排列后的三个序列为: X = C G - A T C A G Y = C G - - T C A G Z = C G G A T C A G

十六,Blast 搜索查询同源序列的子程序
GenBank ,swiss-prot 等,基于序列两两配对进行搜索。 Blast 包括 5 个子程序: Blastp(蛋白质), Blastn(核酸), Blastx tBlast, tBlastx

十七,Blast 基本思想
通过产生数量更少的但质量更好的增强点来提高速度。

十八,多重序列比对方法
基于渐进的比对的思想,在序列两两比对的基础上逐步优化多序列比对的结果。 所用程序: ClustalW (PC 为 ClustalX) 点阵分析法 点阵方法提供了一种快速的序列对位排列的可视化方法 动态规划法 词或 K 串方法

十九,基因结构
1 真核生物的基因具有不连续性。 内含子:GT-AG 法则 外显子: 2 外显子和内含子之间的连接部位附近的碱基组成非常保守, 显然与 RNA 前体的剪接有关。 3 外显子与内含子是相对的,有时一个基因的内含子是另一个基因的外显子。

二十,编码区的确定---实验
由核糖体翻译成蛋白质的 DNA 序列。 原核基因:编码区是一段不包含终止子的连续序列。 真核基因:编码区是由内含子隔开的若干个可读框架。 一段 DNA 序列通常包含许多可读框,但大多不编码蛋白质。 确认可读框是否编码蛋白质:1)信号搜索;2)内容搜索。 原核 DNA 序列辅助信号为:核糖体结合位点,转录和翻译的起始信号和终止信号。 真核 DNA 辅助信号有:翻译的起始位点,内含子的剪接位点,翻译的终止位点,poly(A)位 点。 真核基因组 DNA 序列中预测蛋白质编码区,棘手的是确定内含子;如是 cDNA,仅确定起始子 和终止子即可。 蛋白质编码区的统计特征是判定序列编码的一个重要标准。

二十一,蛋白质结构
一级结构二级结构三级结构四级结构氨基酸序列 主要由氢键稳固的局部构象,如?-helix, ?-sheet 等 三维构象 多个多肽链的组合

二十二,ExPAsy 网站
基于 aa 组成辩识蛋白质: 1)ExPASy 程序:根据氨基酸组成和一些物理性质,在 SWISS-PROT 或 TrEMBL 数据库中搜索 相似的蛋白。 2)PROPSEARCH: 不同理化性质分析蛋白质

二十三,中心法则(基因表达信息流的传递)

二十四,蛋白质分子进化
直系同源:不同生物之间的基因起源相同、功能相同 同源蛋白质 (基因) 旁系同源:同一生物内的基因功能不同、起源相同 如:珠蛋白:a-珠蛋白, b-珠蛋白, 肌红蛋白 异同点及概念 直系同源(orthology) (1)在进化上起源于一个始祖基因并垂直传递; (2)分布于两种或两种以上物种的基因组; (3)功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换; (4)结构相似; (5)组织特异性与亚细胞分布相似。 旁系同源(paralogy)是指同一基因组中, 由于始祖基因的加倍而横向产生的几个同源基因。 直系同源与旁系同源的共性是同源,都源于各自的始祖基因。 区别: (1)直系同源强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向 加倍; (2)功能上,直系同源要求功能高度相似,旁系同源对功能没有严格要求,可能相似,但 也可能并不相似,甚至于没有功能。 以上两个概念代表了两个不同的进化事件用于分子进化分析中的序列必须是直系同源的, 才能真实反映进化过程。

二十五,蛋白质组,蛋白质组学概念
蛋白质组是指“由一个细胞或一个组织的基因组所表达的全部相应的蛋白质” 。 蛋白质组的概念与基因组的概念有许多差别, 它随着组织、 甚至环境状态的不同而改变. 在 转录时,一个基因可以多种 mRNA 形式剪接,一个蛋白质组不是一个基因组的直接产物,蛋 白质组中蛋白质的数目可以超过基因组的数目. 蛋白质组学指应用各种技术手段来研究蛋白质组的一门新兴科学, 其目的是从整体的角度分 析细胞内动态变化的蛋白质组成成份、 表达水平与修饰状态, 了解蛋白质之间的相互作用与 联系,揭示蛋白质功能与细胞生命活动规律。

二十六,蛋白质组研究技术路线
蛋白点分离 → 2D 电泳 酶解 → 蛋白酶酶解成肽片段 MS → 肽序列标签

二十七,双向电泳概念原理
双向凝胶电泳是利用不同蛋白质的物理、 化学性质的差异, 把复杂蛋白混合物中的蛋白质在 二维平面上展开。 原理:第一向,变性的等电聚焦点泳,根据蛋白质的等电点进行分离 第二向,SDS 聚丙烯酰胺电泳,根据蛋白质分子量进行分离

二十八,人类基因组计划概念,目标,具体任务
概念: 由美国科学家在 1985 年率先提出,旨在阐明人类24条染色体(22对常染色体 +XY)上全部的 DNA 所携带的遗传信息,即人类基因组 30 亿个核苷酸对的序列,发现所有 人类基因并搞清其在染色体上的位置, 破译人类全部遗传信息的一项国际性研究项目, 是人 类第一次系统全面地解读和研究人类遗传物质 DNA 的全球性合作计划。 其最终目标是:通过国际合作,以达到: 1)阐明人类基因组全部 DNA 序列; 2)识别基因; 3)建立储存这些信息的数据库; 4)开发数据分析工具; 5)研究 HGP 实验所带来的伦理、法律和社会问题。 人类基因组计划具体任务:建立四张图谱 遗传图谱 物理图谱 序列图谱 转录图谱

二十九,遗传图谱(标记)
建立人类遗传图的关键是要有足够的高度多态的遗传标记 (与疾病的易感性有关) 第一代遗传标记:RFLP(限制性酶切片段长度多态性) 第二代遗传标记: STR(短串联重复序列) 第三代遗传标记:SNP(单核苷酸多态性)

三十,物理图谱
物理图谱(physical map)是确定各遗传标志之间物理距离(bp,kb 或 Mb)的图谱。表示有 关构成基因组的全部基因的排列和间距的信息, 它是通过对构成基因组的 DNA 分子进行测定 而绘制的。 绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统 地排列出来。 物理图的绘制需要筛选大量的物理标记进行分析。 1995 年, 第一张以称为序列标签位点 STS 为物理标记的物理图谱问世,它包括了 94%的基因组和 1500 多个标记位点。这样,物理图 就把人类庞大基因组分成具有界标的 1500 个小区域。

三十一,基因图谱
基因图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、 位置 及表达模式等信息的图谱。 在人类基因组中鉴别出占具 2%~5%长度的全部基因的位置、结构与功能,最主要的方法是通 过基因的表达产物 mRNA 反追到染色体的位置。

三十二,人类基因组计划与生物信息学相互促进的关系
人类基因组计划(Human Genome Project, HGP)是美国在 1990 年提出实施的一项伟大的科学 计划,与阿波罗登月计划、曼哈顿原子弹计划同称为人类自然科学史上的三大计划。在人类 基因组计划中,人们准备用 15 年时间,投入 30 亿美元,完成人类全部 24 条染色体中 3× 109 个碱基对(bp,base pair)的序列测定,其主要任务包括作图(遗传图谱、物理图谱的建 立及转录图谱的绘制)、测序和基因识别,还包括模式生物(如大肠杆菌、酵母、线虫、小鼠

等)基因组的作图和测序,以及信息系统的建立。 随着人类基因组计划的提出和实施, 实验数据和可利用信息急剧增加, 人类基因组计划提供 了以往不可想象的巨量的生物学信息资源。基因组信息的收集、储存、分发、分析显得越来 越紧迫和重要, 信息的管理和分析成为人类基因组计划实施过程中的一项重要工作, 人类基 因组计划向信息学提出了巨大的挑战。 值得庆幸的是, 人类基因组计划一开始就与计算机技 术、信息高速公路同步发展,信息技术为生物信息学的发展提供了非常好的条件,为生物信 息学的研究和应用提供了非常好的支撑。 生物信息学与人类基因组计划紧密结合, 互相渗透, 生物信息学成为基因组计划不可分割的一部分。 事实证明, 人类基因组计划在生物信息学的 支持下,前进步伐大大加快,已经提前完成计划,功能基因组研究也已经全面展开。而人类 基因组计划反过来又大大促进了生物信息学的发展,HGP 丰富了生物信息学的研究内容,促 进生物信息学新思想、新方法的产生,生物信息学在最近 10 年迅速发展的历程证明了这一 点.

三十三,可能具有重要功能意义的 SNP 位点
位于外显子区并改变氨基酸序列的 SNP 位于基因表达调控区如启动子、增强子、转录因子结合区、加尾信号的 SNP 位于外显子和内含子交界区域的 SNP

三十四,人类基因组应用
人类基因组与生物技术产业 一个人类基因有可能带动和形成一个生物技术产业。 例如基因工程的胰岛素、干扰素等 基因的开发研究 基因组药物、基因芯片、基因诊断、基因治疗、实验室仪器试剂、基因数据库和分析软件等 人类基因组为药物开发提供了新源泉 迄今已应用的人类药物靶标约 500 种,包括受体、酶、信号转导分子等。开发成功的药物约 2000 种。 估计人类基因组中 3-4 万个基因中,约 5000 个基因产物可成为潜在的药物靶标

三十五,系统发生树基本概念
系统发生树(phylogenetic tree)——又称 Evolutionary tree 进化树,描述物种之间进 化关系, 描述一群有机体发生或进化顺序的拓扑结构, 它可以用来研究不同物种间的进化关 系。

三十六,直系同源与旁系同源
直系同源与旁系同源 Orthologs(直系同源): Homologous sequences in different species that arose from a common ancestral gene during speciation; may or may not be responsible for a similar function. Paralogs(旁系同源): Homologous sequences within a single species that arose by gene duplication. 。 以上两个概念代表了两个不同的进化事件。用于分子进化分析中的序列必须是直系同源的, 才能真实反映进化过程。

三十七,建成方法 系统发生树的构建方法分为两大类:
基于距离(distance method)的构建方法 非加权组平均法 邻近归并法 (neighbor joining method,NJ)

Fitch-Margoliash 法 最小进化方法 (minimum evolution,ME) 基于离散特征(discrete character method)的构建方法 最大简约法 (maximum parsimony ,MP) 最大似然法 (maximum likelihood ,ML) 进化简约法 (evolutionary parsimony,EP) 相容性方法 (compatibility)

构建分子系统树的主要方法
1). 距离矩阵法 (Distance Matrix) 2). 最大简约法 (Maximum Parsimony) 3). 最大似然法 (Maximum Likelihood)

三十八,核酸系列分析---实验
核酸序列分析 【实验目的】 1、 掌握核酸序列检索的基本步骤; 2、 熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析); 3、 掌握使用 DNAclub 软件进行核酸序列的基本分析; 【实验内容】 1、使用 Entrez 信息查询系统检索人瘦素 (leptin) 的 mRNA、基因组 DNA、外显子等核 酸序列,连接提取该序列内容,阅读序列格式的解释,理解其含义; 2、使用 DNAclub 对上述核酸序列进行分析 3、使用 DNAclub 软件对人瘦素 (leptin) 的 mRNA 序列进行可读框架分析; 4、使用 NCBI 查询系统进行人瘦素 (leptin) 的基因组序列分析 【实验方法】 1、 调 用 Internet 浏 览 器 , 并 在 其 地 址 栏 输 入 Entrez 网 址 : http://www.ncbi.nlm.nih.gov/gquery/ 在输入栏输入 homo sapiens leptin; 点击 go 后显示与 LEP 相关的序列信息,查找人 leptin 的 mRNA 序列,点击序列接受号后显示序 列详细信息;阅读并理解 Genbank 注释信息。 2、或:进入 NCBI 主页,http://www.ncbi.nlm.nih.gov/ , 在 Search 后的选择栏中 选择 nucleotide;在输入栏输入 homo sapiens leptin;点击 search 后显示与 LEP 相关的 序列信息,查找人 leptin 的 mRNA 或基因,点击序列接受号后显示序列详细信息; 3、将序列转为 FASTA 格式保存 4、 将上述核酸序列输入 DNAClub 软件进行序列基本分析(反向或互补序列转换, 开放阅 读框寻找,序列翻译,酶切位点查找); 5、根据基因定位信息(Gene ID: 3952)查找人瘦素的基因组 DNA (Contig) 的序列识 别号 NC_000007,点击序列接受号显示序列详细信息; 6、分析人瘦素 (leptin) 的基因组序列;查找外显子与内含子序列。 【作业】 1、归纳对人瘦素 (leptin) 的核酸序列分析的结果,列出主要的分析结果; 2、写出人 leptin mRNA 序列酶切位点 3 个。 蛋白质序列分析和结构预测 【实验目的】 1、掌握蛋白质序列检索的操作方法; 2、熟悉蛋白质基本性质分析;

3、熟悉基于序列同源性分析的蛋白质功能预测,了解基于 motif、 结构位点、结构功 能域数据库的蛋白质功能预测; 4、了解蛋白质结构预测。 【实验内容】 1、使用 Entrez 信息查询系统检索人瘦素 (leptin)蛋白质序列; 2、 使用 EXPASY 中有关工具对上述蛋白质序列进行分子质量、 氨基酸组成等基本性质分 析; 3、对瘦素蛋白质序列进行基于 NCBI/Blast 软件的蛋白质同源性分析; 4、对瘦素蛋白质序列进行 motif 结构分析、翻译后修饰等的预测 【实验方法】 1、 瘦素蛋白质序列的检索: ( 1 ) 调 用 Internet 浏 览 器 并 在 其 地 址 栏 输 入 Entrez 网 址 http://www.ncbi.nlm.nih.gov/Entrez 在输入栏输入 homo sapiens leptin; 点击 go 后显示与 LEP 相关的序列信息,查找人 leptin 的蛋白序列,点击序列接受号后显示序 列详细信息;阅读并理解 Genbank 注释信息。 或:进入 NCBI 主页,http://www.ncbi.nlm.nih.gov/ , 在 Search 后的选择栏中 选择 protein;在输入栏输入 homo sapiens leptin;点击 search 后显示与 LEP 相关的 序列信息,查找人 leptin 的蛋白序列,点击序列接受号后显示序列详细信息; (2)将序列转为 FASTA 格式保存; 2 、 进 入 EXPASY 网 站 使 用 有 关 软 件 进 行 蛋 白 质 序 列 分 析 和 结 构 预 测 。 http://www.expasy.ch/tools/ (1) 选择 Protparam 程序和 Compute pI/Mw 对蛋白质序列进行氨基酸组成、 分子质 量和等电点等基本性质分析; (2)蛋白质的同源性搜索分析,使用 Similarity searches 的 BLAST; (3)在 Pattern and profile searches 中选择 interPro Scan 进行结构域或 motif 搜索。 (4)在 post-translational modification prediction 选择 signalP 对蛋白质序 列进行信号肽预测分析 【作业】 1、 电子版, 在线提交使用上述软件对瘦素蛋白质序列进行基本性质分析、 同源性分 析、motif 结构分析以及信号肽折叠位点预测的结果 2、 实验报告写出:预测的人瘦素蛋白的基本性质,序列分析和结构预测的结果 多序列比对及系统进化树的构建 【实验目的】 1、掌握使用 Clustalx 进行序列多重比对的操作方法; 2、熟悉构建分子系统发生树的基本过程,掌握使用相关软件构建系统发生树的操作方 法。 【实验原理】

在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一 个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有 助于了解生物进化的历史和进化机制。 对于一个完整的进化树分析需要以下几个步骤: ⑴ 要对所分析的多序列目标进行比对。 ⑵ 要构建一个进化树(phyligenetic tree) 。 ⑶ 对进化树进行评估,主要采用 Bootstrap 法。进化树的构建是一个统计学问题, 所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果采用了一个适当的方 法,那么所构建的进化树就会接近真实的“进化树” 。模拟的进化树需要一种数学方法来 对其进行评估。 CLUSTALX 和 MEGA 软件能够实现上述的建树步骤。CLUSTALX 是 Windows 界面下的多 重序列比对软件。MEGA 是多个软件的压缩包,功能极其强大,主要包括五个方面的功能软 件:i,DNA 和蛋白质序列数据的分析软件。ii,序列数据转变成距离数据后,对距离数据 分析的软件。 iii,对基因频率和连续的元素分析的软件。iv,把序列的每个碱基/氨基 酸独立看待 (碱基/氨基酸只有 0 和 1 的状态) 时,对序列进行分析的软件。v, 按照 DOLLO 简约性算法对序列进行分析的软件。vi,绘制和修改进化树的软件。 【实验内容】 1、使用 CLUSTALX 软件对一组蛋白质序列(leptin.txt)进行多重序列比对; 2、使用 MEGA 软件包构建上述 DNA 分子系统发生树。 【实验方法】 一、用 CLUSTALX 软件对已知序列做多序列比对。 1、在 NCBI 数据库搜索人 leptin 的同源蛋白序列 2、下载 leptin 的同源蛋白序列 8-10 条,以 FASTA 格式保存为 leptin.txt 文件。 2、双击进入 CLUSTALX 程序,点 FILE 进入 LOAD SEQUENCE,打开 leptin.txt 文件。 3、点 ALIGNMENT,在默认 alignment parameters 下,点击 Do complete Alignment 。在 新出现的窗口中点击 ALIGN 进行比对, 这时输出两个文件 (默认输出文件格式为 Clustal 格式) :比对文件 test.aln 和向导树文件 test.dnd。 二、用 MEGA 软件推导进化树 1、查找并下载 Mega 软件 2、安装 Mega 软件

3、应用 Mega 软件构建分子系统树: 1)双击打开 Mega 软件, File 下拉框中选 Convert to mega format,将多重比对的.aln 在 文件转换为.meg 文件,保存文件。 2) 再次打开 Mega 软件, 选择 click me to activate a data file, 选转换后保存的.meg 文件 打开,进行相关序列分析。 3)系统进化分析:参照 MEGA 操作说明书进行。

【实验报告】 1、提交使用 CLUSTALX 及 MEGA 软件进行多重序列比对及构建系统发生 树的结果; 2、写出从 Genbank 下载的 leptin 同源序列的 Accession number。 3、总结使用 MEGA 软件构建系统发生树的主要步骤。


生物信息学_复习题及答案(打印).doc

生物信息学_复习题及答案(打印) - 一、名词解释: 1.生物信息学: 研究大量

生物信息学复习题及答案(陶士珩).doc

生物信息复习题及答案(陶士珩) - 生物信息复习题 名词解释 1. Homo

生物信息学 复习题及答案(打印).doc

生物信息复习题及答案(打印) - 一、名词解释: 名词解释: 1.生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒 生物信息学: ...

生物信息学复习题.doc

生物信息复习题 - 生物信息学 蛋白质结构分析与预测 1、说出至少一种蛋白质结

生物信息学及应用复习题.doc

生物信息学及应用复习题 - 《生物信息学及应用》课程复习题 1、生物信息学的基本定义,阐述它的主要研究目标、研究内容及研究方法。 生物信息学:Bioinformatics is ...

生物信息学复习题已附答案.doc

生物信息复习题已附答案 - 本卷的答案仅做参考,如有疑问欢迎提出。后面的补充复习题要靠你们 自己整理答案了。 生物信息复习题 一、填空题 1、识别基因主要...

中科院生物信息学期末考试复习题资料_图文.doc

中科院生物信息学期末考试复习题资料 - 中科院生物信息学期末考试复习题 陈润生老师部分: 1.什么是生物信息学,如何理解其含义?为什么在大规模测序研究中,生物信息 学...

中科院生物信息学期末考试复习题_图文.doc

中科院生物信息学期末考试复习题 - 中科院生物信息学期末考试复习题 陈润生老师部分: 1.什么是生物信息学,如何理解其含义?为什么在大规模测序研究中,生物信息 学至...

生物信息学期末复习题_图文.doc

生物信息学期末复习题 - 生物信息复习题 名词解释 1、生物信息学 : 广义指

生物信息练习题目.doc

生物信息练习题目 - 读书破万卷 下笔如有神 一、名词解释(每小题 4 分,共

生物信息学期末复习题.doc

生物信息学期末复习题 - 生物信息复习题 名词解释 1、生物信息学 : 广义指

生物信息学复习资料.doc

生物信息复习资料 - 南京师范大学《生物信息学》期末复习重点哦。老师给的,自己

《生物信息学》练习题.doc

生物信息学》练习题_教育学_高等教育_教育专区。1、 在Genbank中查找以

生物信息学复习参考题.doc

生物信息复习参考题 - 生物信息复习参考题 1、 国外常用生物信息站点包括哪些? 2、 生物信息学定义与应用领域。 3、 蛋白序列比对常使用的两种打分矩阵及其不...

中科院生物信息学复习题_图文.doc

中科院生物信息复习题 - 1.什么是生物信息学,如何理解其含义? 答:生物信息学有三个方面的含义: 1) 生物信息学是一个学科领域,包含着基因组信息的获取、处理...

生物信息复习题.doc

生物信息复习题 - URL FTP HTML TCP/IP Phylogenet

生物信息学复习题及答案(陶士珩).doc

生物信息复习题及答案(陶士珩) - 生物信息复习题 一、 名词解释 生物信息学, 二级数据库, FASTA 序列格式, genbank 序列格式, Entrez,BLAST, 查询序列(qu...

生物信息学复习题百度文库合集.doc

生物信息复习题百度文库合集 - 把能够下载的几个文档合在一起,略有删改,希望对

《生物信息学》练习题剖析.doc

生物信息学》练习题剖析 - 1、 在Genbank中查找以下6个植物蛋白序列:

生物信息学课程复习题_图文.doc

生物信息学课程复习题 - 生物信息学课程习题 第一章 绪论 一、填空 1、在年,