宏基因组TPM定量

        在RNA-Seq分析中,为了获取基因表达量差异,于是产生了RPKM、FPKM、TPM定量方法,去除测序深度和基因长度的影响。RPKM用于单端测序;FPKM用于双端测序。而TPM计算方法类似于RPKM,但更具有优势,是目前使用的较多的定量方法。详细的解释及计算公式:

https://www.jianshu.com/p/1940c5954c81

(建议学习一下,至少了解清楚TPM计算过程,否则得到比对结果后自己不知道怎么算TPM)

简单来说,TPM定量分为三步:

1. 基因长度标准化。测序reeads数除以基因长度length,得到RPK

2. 进行百万转换。因为计算的单位为M

3. 测序深度标准化。reads数除以总reads数即总RPK

宏基因组的定量用TPM是个不错的选择。

进行宏基因组的TPM定量,需要文件预测的CDS序列文件对应的fastq(cleandata)

软件安装:BWA和Samtools

#傻瓜式安装conda
#samtools
conda install -c bioconda samtools

#bwa 
conda install -c bioconda bwa
#如果你会自己编译环境可以不用conda安装,反正能装上并且能使用就行

以bwa构建CDS序列索引进行比对

#构建索引
bwa index Unigene.fasta

#例如我有5个样本A,B,C,D,E
for i in {A,B,C,D,E} \
do bwa mem -k 19 – t 24 Unigene.fasta \        
${i}_clean_R1.fastq ${i}_clean_R2.fastq > ./${i}.sam \ #压缩的fastq文件也可以,即后缀为gz
done

samtools提取比对到clean上的reads数

#Samtools转换sam文件为bam文件 1.3版本前 单个样本举例,多样本for循环
samtools view -bS sample.sam > sample.bam
samtools sort sample.bam > sample_sort.bam
samtools index sample_sort.bam

#1.3版本后(sort将sam转化为bam与排序同时进行)
samtools sort sample.sam > sample_sort.bam
samtools index sample_sort.bam

#获取每个ORF比对的read数
for i in {A,B,C,D,E} \
do samtools idxstats ${i}_sort.bam > ${i}_mapped.txt \
done
#注意,这一步之前需要经过sort和index

获得的txt结果有四列,从左至右分别是:基因名、基因长度、mapped_read、unmapped_read

 因为输出的文件不含表头,我们手动添加一个

for i in {A,B,C,D,E} \
do \
sed -i "1 i GeneID\t\length\tmapped_read\tunmapped_read " ${i}_mapped.txt \
done

 因为TPM计算是不需要unmapped_read的,所以只保留前面三列

for i in {A,B,C,D,E} \
do \
cut -f 1-3 ${i}_read.txt > ${i}_read_cut.txt \
done

这时候的文件就是我们需要的了,只需根据公式来计算即可以获得TPM ,这里我贴上用R语言和python计算的代码,比较简单。

R的脚本:

#读取文件
df <- read.delim("BJS_read.txt",header = T,row.names = 1)
#截取需要的部分
df_cut <- df[,1:2]
#计算RPK
df_cut$RPK <- df_cut$mapped_read*1000/df_cut$length
n <- nrow(df_cut)
result <- df_cut[-n,]#文件最后一行存在一个*行,含有NULL,需要去除掉才能计算,否则结果都为NULL
TotalRPK <- sum(result$RPK)
result$TPM <- (result$RPK*10e6)/TotalRPK
write.csv(result,file = "BJS_TPM.csv")

 python:

import pandas as pd
import argparse

# 命令行参数解析
parser = argparse.ArgumentParser()
parser.add_argument('inputfile', help='Input file name')
parser.add_argument('outputfile', help='Output file name')
args = parser.parse_args()

# 读取数据
count = pd.read_table(args.inputfile, index_col=0)

# 过滤不需要的行
count = count[count.index != '*']

# 计算 RPK 和 TPM
count['RPK'] = (count['mapped_read'] * 1000) / count['length']
total_rpk = count['RPK'].sum()
count['TPM'] = (count['mapped_read'] * 10e6) / total_rpk

# 选择需要的列
result = count[['RPK', 'TPM']]

# 保存结果
result.to_csv(args.outputfile, index=True, sep="\t")

两个的结果都一样,需要注意的是由sam文件到最后的txt文件的最后一行会含有一个*的行,代表的是未匹配到任何CDS的reads,需要在计算中将其去除。

最终会得到每个样本的TPM文件,可以使用python或者R中的merge函数将所有的样本TPM拼接到一起,得到一个最终的表格。

扫码关注微生物多组学公众号,后期会更新更多的组学干货。您的关注使我们最大的鼓励。

微生物多组学
关注 关注
  • 15
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 14
    评论
关于Count,FPKM,TPM,RPKM等表达量的计算及转换 | 干货
BioinfoDu
03-22 1699
今天使用count值转化TPM,或是使用FPKM转换成TPM。这样的教程,我们在前面已经出国一起相对比较详细的教程了,一文了解Count、FPKM、RPKM、TPM | 相互间的转化,在这个教程中,我们也归纳了各个数值的含义。自己也是这样的,一个人的时间和精力是有限的,我们不可能有那么多的精力。因此,做学习笔记就有很大的帮助,当自己使用的时候有地方找寻。本教程涉及的数据、代码和文件等在社群中可获得!!
宏基因组定量、功能注释和高级分析代码
刘永鑫的博客——宏基因组公众号
11-17 4307
今天是第1283期日报。Nature子刊:Salmon不比对快速定量宏基因组基因Nature Methods[IF:28.467]① Salmon是一种准确快速定量转录本丰度的方法;② ...
关于Count,FPKM,TPM,RPKM等表达量的计算
最新发布
BioinfoDu
03-22 1116
通俗讲,把比对到的某个基因的Fragment数目,除以基因的长度,其比值再除以所有基因的总长度。TPM的全称为Transcripts per million,Transcripts Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)。自己也是这样的,一个人的时间和精力是有限的,我们不可能有那么多的精力。此外,这个方法只能获得是gene的表达量,若你想获得transcript的表达量,自己未成功。
RPKM、 FPKM、TPM、CPM
m0_68600081的博客
10-14 2413
个人学习笔记5,不解答
Nature子刊:刘洋彧、Rob Knight等评测不同宏基因组物种定量方法及其对结果的影响...
刘永鑫的博客——宏基因组公众号
05-15 990
Zheng Sun, Shi Huang, Meng Zhang, Qiyun Zhu, Niina Haiminen, Anna Paola Carrieri, Yoshiki Vázq...
宏基因组测序流程(不完全版)
羊城迷鹿的博客
09-18 2万+
文章目录所做工作收获宏基因组分析流程Step1.去除宿主污染Step2.去除接头序列Step3.对序列进行进一步质控Step4.对read进行进一步拼接(contig)Step5.对contig进行orf预测Step6.查找orf区翻译出来的氨基酸序列对应的蛋白质家族 所做工作 Step1.去除宿主污染 Step2.去除接头序列 Step3.对序列进⾏进⼀步质控 Step4.对read进⾏进⼀步拼...
Nature子刊:Salmon不比对快速宏基因组基因定量
刘永鑫的博客——宏基因组公众号
10-12 3521
文章目录Salmon:使用双阶段推理对转录本表达进行快速且有偏差意识的量化导读摘要主要结果图1. Salmon与同类软件对比的表现扩展阅读猜你喜欢写在后面 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-z99b05b8-1570846968290)(http://210.75.224.110/Note/LiuYongXin/170306NM/0.jpg)] Salm...
R语言 | 计算基因表达量 TPM R脚本
weixin_42083461的博客
10-22 2893
因此,为了消除测序数据中的技术偏差,需要使用归一化,而不是直接使用Row reads count,例如RPKM(每千碱基每百万次映射的转录的读数)、FPKM(每百万个片段的每千基的转录的片段)和TPM(每百万条的转录)。FPKM与RPKM密切相关,但用片段(Pair reads) 取代了单端测序(这种命名的原因是历史的,因为最初的读取是单端的,但随着 pair-end 测序的出现,现在谈论片段更有意义,因此也就是FPKM).目前TPM计算方式更加科学,被研究人员普遍认可。
R语言基因表达量转换(TPM、FPKM、RPKM)
Squirrelity的博客
07-01 6972
基因表达量转换,正在更新
宏基因组Bin及后续分析的具体步骤(十分详细,手把手教会)
Nusery的博客
09-01 6066
详细的BINNING流程和思路
MIntO:一个模块化的微生物宏基因组和宏转录组整合分析工具
刘永鑫的博客——宏基因组公众号
12-30 456
论文信息论文题目:MIntO: A modular and scalable pipeline for microbiome metagenomic and metatranscriptomic data integration期刊:Frontiers in BioinformaticsIF:N/A发表时间:2022MIntOMIntO的分析流程:同时输入宏基因组和宏转录组数据.首先对其进行质量控...
tpm源码 IBM TPM 1682
03-15
tpm源码 IBM TPM 1682 ,可以在VS中编译 ,linux中编码
tpm.rar_tpm
09-20
Chip num is this value or a valid tpm idx.
TPM 2.0 规范 完整版
10-05
这是TPM 2.0 的完整规范文档,包括代码注解。 TPM-Rev-2.0-Part-1-Architecture-01.38 TPM-Rev-2.0-Part-2-Structures-01.38 TPM-Rev-2.0-Part-3-Commands-01.38 TPM-Rev-2.0-Part-3-Commands-01.38-code TPM-Rev-...
TPM secure boot tpm daemon
04-17
利用TPM搭建一个可信环境,实现可信链的建立,以及一级一级的传递.
TPM设备管理,TPM的发展历史
04-17
TPM是一种通过全体人员共同参与,以达到生产维护和设备保养效率最大化的生产模式。 它是一项持续改进的活动,应该由生产、维修和工程等全体人员共同担当责任。
衡量基因相对表达量的RPKM、FPKM、TPM详解
热门推荐
qq_43337249的博客
10-24 2万+
衡量基因相对表达量的RPKM和FPKM、及TPM 1.RPKM(Reads Per Kilobase per Million)和FPKM(Fragments Per Kilobase per Million) 1.引入“每一千碱基(per kilobase)”的原因在于,不同的RNA可能有不同长度,长度越长,对应的reads就越多。当每个RNA都除以自身长度(以1000碱基,即kb为单位)时,就可以比较同一个样本中不同基因的相对表达量了。 2.引入“每一百万reads”的原因是,不同的样本可能测序的深度不一
微生物组学研究手段概览2——宏基因组和宏转录组
weixin_44098300的博客
12-24 7508
原创: 林二狗&nbsp; 宇宙实验媛&nbsp;&nbsp; 宏基因组 宏基因组测序是将环境总DNA提取出来,随机打断成300/500bp的小片段,然后在片段两端加入通用引物进行PCR扩增测序,然后对测序数据进行质控,再将高质量序列拼接,根据数据库参考信息,对基因序列进行预测和功能注释,最终获得重要的宏基因组信息,如序列组成(GC含量、基因组大小等)、物种组成、功能组成和群落特征等...
tpm vendor
08-25
TPM供应商是指提供TPM(Trusted Platform Module,可信平台模块)的制造商或厂商。TPM是一种安全芯片,旨在保护计算机设备的安全和隐私。TPM供应商负责设计、开发和制造TPM芯片,并确保其符合相关的技术和安全标准。 TPM芯片是一个独立的硬件模块,通常集成在计算机的主板或网络设备中。它具有安全存储和处理功能,用于存储和管理密码、证书、密钥以及其他关键的安全信息。TPM供应商需要确保TPM芯片的可靠性和安全性,以防止信息泄露、数据篡改和未经授权的访问。 TPM供应商在TPM芯片的设计和制造过程中必须遵守相关的技术和安全标准。他们需要进行各种测试和验证,以确保TPM芯片的正常运行和安全性。此外,TPM供应商还负责提供技术支持和更新,以确保TPM芯片能够持续地满足用户的需求和安全要求。 TPM供应商的产品主要面向企业和组织,尤其是对安全和隐私要求较高的行业。这些行业包括金融、医疗、能源等。通过使用TPM芯片,企业和组织可以加强对其计算机设备和数据的保护,减少被黑客攻击或恶意软件入侵的风险。 总之,TPM供应商在保护数据和设备安全方面扮演着重要的角色。他们通过设计、制造和提供TPM芯片,为企业和组织提供了一种强大的安全解决方案,以应对不断增加的网络威胁和安全挑战。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 宏基因组TPM定量 7348
  • 宏基因组Bin及后续分析的具体步骤(十分详细,手把手教会) 6050
  • ubuntu下的动态链接库(.so )问题 1265
  • 宏基因组流程-质控(Trimmomatic) 1087
  • 宏基因组流程-质控(Fastp) 1077

分类专栏

  • 宏基因组 1篇
  • 生物信息学 1篇

最新评论

  • 宏基因组Bin及后续分析的具体步骤(十分详细,手把手教会)

    不想变甜的苦瓜: 深度计算第一个代码块的最后一行写错了,不应该是sorted的

  • 宏基因组流程-质控(Fastp)

    CSDN-Ada助手: 恭喜您发布了第5篇博客“宏基因组流程-质控(Fastp)”!持续创作不易,您的坚持与努力可嘉。建议您在下一步的创作中,可以尝试深入探讨Fastp工具的优缺点,或者结合实际案例展示其应用场景,让读者更加深入了解该工具的使用方法和效果。期待您的更多精彩内容,加油!

  • 宏基因组流程-质控(Trimmomatic)

    CSDN-Ada助手: 推荐 MySQL入门 技能树:https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql

  • 宏基因组Bin及后续分析的具体步骤(十分详细,手把手教会)

    微生物多组学: 没有明确规范,你看看几篇bins的文章。你会发现他们筛选的阈值不会是一样的。这个得看自己研究需要来定。一般污染最高很少超过10%,完整度大于50算是比较宽松的筛选了

  • 宏基因组Bin及后续分析的具体步骤(十分详细,手把手教会)

    Sh1von_: bins筛选的两种策略的具体文献来源是?

大家在看

  • 985计算机在读大学生告诉你今年志愿填报是否值得入坑计算机 922
  • leetcode经典题目分析(Java + Python + Golang + C++):两数之和 21
  • 【偷懒代码】SCAU 8645 归并排序(非递归算法) 19
  • 一篇文章搞定Java数组初始化,从此告别迷惑 946
  • 【偷懒代码】SCAU 8640 希尔(shell)排序

最新文章

  • 宏基因组流程-质控(Trimmomatic)
  • 宏基因组流程-质控(Fastp)
  • 宏基因组Bin及后续分析的具体步骤(十分详细,手把手教会)
2024年2篇
2023年1篇
2022年2篇
2021年1篇

目录

目录

评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码拉萨网络营销公司哈尔滨建设网站报价恩施模板制作哪家好海北建设网站推荐雅安SEO按天扣费北京百度网站优化排名推荐石家庄网站排名优化多少钱佛山外贸网站制作南昌百度网站优化价格海口如何制作网站双龙如何制作网站公司忻州网站优化排名公司酒泉外贸网站建设哪家好菏泽企业网站改版公司茂名百度标王公司定西外贸网站设计推荐坂田模板网站建设报价云浮网站搭建公司徐州外贸网站设计公司昆明百度竞价包年推广推荐铁岭网站建设设计天门营销型网站建设多少钱普洱至尊标王推荐绥化网站优化推广价格同乐百姓网标王推广张掖网站推广价格宣城外贸网站设计哪家好潮州企业网站制作公司贵阳百度竞价包年推广公司茂名网站设计哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化