本文主要是給大家介紹了python從gbff文件上直接獲取cds編碼序列實例詳細說明,感興趣的小伙伴可以參考借鑒一下,希望可以有一定的幫助,祝愿大家多多的發展,盡早漲薪。
什么叫GBFF文檔
GenBank純文本文件類型(GenBankflatfile,通稱GBFF)
GBFF是GenBank數據庫系統的相關信息企業
GBFF編碼序列文檔由多帶帶的編碼序列具體內容構成。
編碼序列具體內容由字段名構成,每一個字段由關鍵字逐漸,后邊為字段名的實際表明。
字段名分多個曾孫字段名,依次關鍵字或特點表說明符逐漸。
每一個編碼序列具體內容以雙斜杠“//*作完畢標識
每一個編碼序列具體內容所代表的意義
1、LOCUS(編碼)編碼序列的功效、編碼序列長短、種類、職業由來、上傳時間
2、DEFINITION(表明)含有的生理意義的總結敘述
3、ACCESSION(序號)具備統一性和永久
4、VERSION(版本信息)文章編號、版本信息
5、KEYWORDS(關鍵字)敘述編碼序列“.”表明沒有敘述具體內容
6、SOURCE(信息來源)編碼序列由來微生物的英文縮寫,或分子結構種類
7、REFERENCE(參考文獻)與本數據有關的參考文獻,按發表時間排名
8、FEATURES(特點表)敘述遺傳基因和遺傳基因的產物,以及與序列相關的生物學特性,其中包括
a.特點關鍵字(Featurekey)簡要說明功能組的關鍵詞
b.特點位置(Location)指明在特點表中的什么地方找到相關特點
c.限定詞(Qualifiers)相關特性的輔助信息
9、ORIGIN(堿基排列順序)類似于FASTA格式給出了所記錄的編碼序列
最后直接上代????,更改輸入和輸出文件即可使用
import re FILE_PATH='./input.gb' OUT_FILE_PATH='./output.fasta' d={} g={} tem=[] def con_spl(list_,n=2): return[list_[i:i+n]for i in range(0,len(list_),n)] with open(FILE_PATH,'r')as f: while True: text_line=f.readline().strip('t').split() if text_line: if text_line[0]=='DEFINITION': c=''.join(i for i in text_line[2:]) d[c]=[] g[c]=[] print(text_line) elif text_line[0]=='CDS': cds=re.findall(r"d+d*?",text_line[1]) if len(cds)==2: d[c].append(cds) else: for i in con_spl(cds): d[c].append(i) elif text_line[0]=='ORIGIN': while text_line[0]!='//': for i in text_line[1:]: tem.append(i) text_line=f.readline().strip('t').split() e=''.join(i for i in tem) g[c].append(e) else: pass elif f.readline().strip('t').split(): continue else: break with open(OUT_FILE_PATH,'w')as f: for i,o in d.items(): G=''.join(g<I>) p='' for u in o: u1=int(u[0]) u2=int(u[1])+1 p+=G[u1:u2] print('>',i,sep='',file=f) print(p,file=f)
綜上所述,這篇文章就為大家介紹到這里了,希望可以給大家帶來幫助。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/128695.html
此篇文章關鍵給大家介紹了應用Python腳本制作獲取基因組測序指定位置編碼序列的實例詳細說明,感興趣的小伙伴值得借鑒參考一下,也希望能有一定的幫助,祝愿大家多多的發展,盡早漲薪 前言 在基因組分析中,大家常常會有這樣一個要求,便是在一個fasta文件中獲取某些編碼序列出去。有時候這種編碼序列注定是完備的編碼序列,而有時候只是為原fasta文件中某一段編碼序列中的一部分。尤其是當信息量許多時,應...
摘要:兄弟連區塊鏈教程源代碼分析命令及子命令實現,年下半年,區塊鏈行業正逐漸褪去發展之初的浮躁回歸理性,表面上看相關人才需求與身價似乎正在回落。 兄弟連區塊鏈教程Fabric1.0源代碼分析Peer peer chaincode命令及子命令實現,2018年下半年,區塊鏈行業正逐漸褪去發展之初的浮躁、回歸理性,表面上看相關人才需求與身價似乎正在回落。但事實上,正是初期泡沫的漸退,讓人們更多...
摘要:字符編碼表,碼位碼元將編碼字符集中的碼位轉換成有限比特長度的整型值的序列。字符編碼方案,碼元序列化也稱為常說的序列化。每個字節里的二進制數就是字節序列。另一個情況則是壓縮字節序列的值,如或進程長度編碼等無損壓縮技術。 《流暢的Python》筆記。本篇主要講述不同編碼之間的轉換問題,比較繁雜,如果平時處理文本不多,或者語言比較單一,沒有多語言文本處理的需求,則可以略過此篇。 1. 前言 ...
摘要:通過工廠模式創建自定義服務同樣可以注入依賴,但不能注入作用域對象。名字必須符合規范你的服務名字龍傲天使用方法關聯對應的和使用和方法創建服務,常用于返回一個常量。 服務 Service 服務這個概念其實并不陌生,比如在Java語言中便有這樣的概念,其作用就是對外提供某個特定的功能,如消息服務,菜單服務等,是一個獨立的模塊。 angular的服務是這樣定義的:Angular service...
摘要:所以如果像上述這樣引入模塊的時候,調用函數必須加上模塊名通常情況下鼓勵每個語句只導入一個包方便理解和閱讀代碼。 今天我們學習Python的高級特性、模塊和IO操作,通過學習這些,我們可以更快的了解Python,使用Python。 高級特性中會講述列表生成式、生成器、和一些高級函數,學習這些方便我們快速的生成列表,節省我們使用Python的時間,更快的使用Python達成我們的目的。 模...
閱讀 926·2023-01-14 11:38
閱讀 899·2023-01-14 11:04
閱讀 758·2023-01-14 10:48
閱讀 2063·2023-01-14 10:34
閱讀 965·2023-01-14 10:24
閱讀 844·2023-01-14 10:18
閱讀 512·2023-01-14 10:09
閱讀 590·2023-01-14 10:02