找回密码
 立即注册
首页 业界区 安全 Smart-seq2分析

Smart-seq2分析

班嘉淑 2025-6-1 20:32:50
1、概述

Smart-seq2是一种单细胞RNA测序技术,用于分析单个细胞的基因表达情况,并可以对单个细胞的基因表达进行分析。
1.png

2.png

2、基本原理

Smart-seq2利用了莫罗尼小鼠白血病病毒逆转录酶(MMLV-RT)的两个特性:

  • 该逆转录酶在合成到cDNA的3’端时会随机引入几个不依赖于模板的碱基,多数情况下是三个胞嘧啶。
  • 逆转录酶是RNA指导的DNA聚合酶,以RNA为模板,以dNTP为底物进行反转录。
通过设计oligo(dT)VN Primer作为逆转录引物,利用MMLVRT的模板转换活性,在cDNA的3’端添加一段接头序列,通过该接头序列进行反转录,生成cDNA第一条链。当逆转录酶到达mRNA5’末端时,会连续在末端添加几个胞嘧啶(C)残基。然后添加TSO(template-switching oligo)引物,退火后结合在第一条链的3’端与poly(C)突出杂交,合成第二条链。这样得到的cDNA经过PCR扩增,然后再纯化后用于测序。
优势


  • 能够得到全长cDNA,用于分析可变剪切等。
  • 覆盖范围广,可检测到稀有转录本。
  • 检测灵敏度高,起始量低,1-1000个细胞或10pg-10ng total RNA即可高效扩增。
局限性


  • 只能分析带Poly(A)的RNA
  • 不是链特异性的
Pipeline FeaturesDescriptionSourceAssay Typepaired-end plate-based Smart-seq2 Overall workflowQuality control module and transcriptome quantification moduleCode available from GithubWorkflow languageWDLopenWDLGenomic reference sequenceGRCh38 human genome primary sequenceGENCODEGene ModelGENCODE v27 PRI GTF and Fasta filesGENCODEAlignerHISAT2Kim, et al.,2015; HISAT2 toolQCMetrics determined using Picard command line toolsPicard ToolsEstimation of gene expressionRSEM (rsem-calculate-expression) is used to estimate the gene expression profile. The input of RSEM is a bam file aligned by HISAT2.Li and Dewey, 2011Data Input File FormatFile format in which sequencing data is providedFASTQData Output File FormatFile formats in which Smart-seq2 pipeline output is providedBAM, Zarr version 23、数据预处理

首先,需要对原始测序数据进行质控和比对。质控可以使用FastQCMultiQC工具来检查数据质量。比对可以使用HISAT2工具,将测序数据比对到参考基因组1。
# 质控fastqc -t 6 -o ./fastqc_result ./RAW/SRR*fastq.gzmultiqc ./fastqc_result
# 比对hisat2 -p 10 -x genome_index -1 sample_1.fastq.gz -2 sample_2.fastq.gz -S output.samsamtools sort -O bam -@ 10 -o output.bam output.samsamtools index output.bam4、表达矩阵构建与seurat对象创建

使用featureCounts工具对比对后的BAM文件进行定量,生成基因表达矩阵2。
featureCounts -T 10 -p -t exon -g gene_name -a annotation.gtf -o counts.txt *.bam 基本批量运行流程如下:
  1. #!/bin/bash
  2. # 检查是否安装了GNU Parallel
  3. if ! command -v parallel &> /dev/null; then
  4.     echo "GNU Parallel could not be found, please install it first."
  5.     exit 1
  6. fi
  7. # 创建namelist文件,列出所有样本文件夹名称
  8. ls -d */ > namelist
  9. # 定义进一步处理RNA序列的函数
  10. process_rna() {
  11.     local sample=$1
  12.     # 去除末尾的斜杠
  13.     sample=$(echo "$sample" | sed 's:/*$::')
  14.     echo "${sample} RNA processing start"
  15.    
  16.     if [ ! -d "${sample}" ]; then
  17.         echo "Directory ${sample}does not exist, skipping."
  18.         return
  19.     fi
  20.    
  21.     cd "${sample}" || { echo "Failed to enter ${sample}"; continue; }
  22.    
  23.     source /data5/xxx/zengchuanj/Software/MACS3/MyPythonEnv/bin/activate
  24.     trim_galore -j 20 --phred33 --gzip --trim-n -o result --paired *.fastq.gz
  25.    
  26.     cd result
  27.    
  28.     source /data5/tan/zengchuanj/conda/bin/activate
  29.     conda activate HiC-Pro
  30.     fastp -i "../${sample}_clean_R1.fastq.gz" -I "../${sample}_clean_R2.fastq.gz" -o "${sample}_clean_R1.fq.gz" -O "${sample}_clean_R2.fq.gz" -q 20 -w 16 -n 5
  31.     fastqc -t 10 "${sample}_clean_R1.fq.gz" "${sample}_clean_R2.fq.gz"
  32.     hisat2 -p 20 -x /data5/tan/zengchuanj/pipeline/HIC/juicer/references/mm10/mm10 -1 ${sample}_clean_R1_val_1.fq.gz -2 ${sample}_clean_R2_val_2.fq.gz 2>"${sample}_hisat.txt" | samtools view -o "${sample}_outname.bam"
  33.     samtools sort -@ 20 -o ${sample}.sort.bam ${sample}_outname.bam
  34.     ##featurecounts定量
  35.     # 使用ensamble的GTF
  36.     echo ${sample} 'Feature counts start'
  37.     ### (ucsc的话 -t exon)
  38.     # 根据gene与exon调整参数
  39.     featureCounts -p --countReadPairs -T 20 -t gene -a /data5/xxx/zengchuanj/xxx/references/GTF/Mus_musculus.GRCm38.102.gtf -o ${sample}_count.txt ${sample}.sort.bam
  40.     echo "${sample} RNA processing finish"
  41.     cd ../../..
  42. }
  43. # 使用parallel并行处理每个样本,并限制最大线程数为15
  44. export -f process_rna
  45. # 并行进一步处理RNA序列
  46. parallel -j 10 process_rna ::: $(cat namelist)
复制代码
[code]# 定义一个用于处理Smart-seq数据并创建Seurat对象的函数process_smart_to_seurat_data
您需要登录后才可以回帖 登录 | 立即注册