单细胞数据解读与获取示范
在单细胞测序数据分析中,barcodes、features和matrix是三个最核心的基础文件,它们共同构成了所有分析的基石。特性维度细胞条形码 (barcodes,BC)表达矩阵 (Matrix)核心角色细胞身份证核心数据账本功能定位定位数据属于哪个细胞分析每个细胞中基因表达量有多少数据结构表达矩阵的列名 (Column Names)一个二维表格:行是基因,列是细胞,元素是表达量文件表现通常为 barcodes.tsv文件,每行是一个条形码序列通常为 matrix.mtx文件(稀疏矩阵格式),存储非零表达值依赖关系表达矩阵的列数由有效的细胞条形码数量决定表达矩阵的列标识完全依赖于细胞条形码文件一、进入GEO官网:https://www.ncbi.nlm.nih.gov/geo/
在GEO(Gene Expression Omnibus)数据库中下载单细胞数据时,最常见的数据存储和提供形式主要有以下四种类型:
[*]10x Genomics 标准格式(最主流)
在GEO的数据集中,我们通常会找到一个包含以下三个核心文件的文件夹(通常以 *_filtered_feature_bc_matrix.tar.gz或类似名称的压缩包提供):
barcodes.tsv(.gz): 包含所有检测到的细胞条形码(Cell Barcode),每个条形码代表一个可能的细胞。
features.tsv(.gz) 或 genes.tsv(.gz): 包含所有被检测的基因(或转录本、抗体标签)的标识符和名称。
matrix.mtx(.gz): 以稀疏矩阵格式存储的基因表达计数矩阵,行对应基因,列对应细胞。
[*]H5 格式(高效二进制格式)
这是一种用于存储大规模数据的二进制文件格式。在单细胞上下文中,它通常是将上述10x标准格式的三个文件整合到了一个单一的 .h5文件中。
典型命名: *_filtered_feature_bc_matrix.h5
优势: 文件单一,便于管理和传输,存储效率高。
[*]R 数据文件(可直接使用的分析对象)
部分数据提交者会将已初步处理好的单细胞数据直接保存为R语言特有的数据文件格式,供其他研究者快速载入。
.rds文件: 存储单个R对象(如一个Seurat对象或表达矩阵)。使用 readRDS()函数读取。
.RData或 .rda文件: 可存储一个或多个R对象。使用 load()函数读取,对象会被载入当前工作环境。
优势: 读取速度极快,且能保留完整的对象结构和中间分析结果。
[*]压缩文本矩阵(通用表格格式)
这是一种比较传统和通用的数据提供方式,将表达矩阵保存为纯文本表格,并进行压缩以减小体积。
格式: 通常是 .txt.gz或 .csv.gz文件。
内容: 行是基因,列是细胞(或样本),表格内的值为表达量。有时也可能提供转置后的格式(行是细胞,列是基因)。
如何读取: 可以使用 data.table::fread()、read.delim()等函数读取,或在Excel中打开(不推荐用于大型数据)。读取后通常需要转换为矩阵或数据框,才能用于创建Seurat对象。
二、以”GSE234527”为例子:读取一个10× Genomics格式文件
1、搜索“GSE234527”:
https://img2024.cnblogs.com/blog/3759180/202601/3759180-20260121123657887-331894325.png
2、在补充材料里下载(点击“custom”)
https://img2024.cnblogs.com/blog/3759180/202601/3759180-20260121123924694-1133424711.png
https://img2024.cnblogs.com/blog/3759180/202601/3759180-20260121124039761-881689954.png
3、在桌面解压缩,分类整理:数据来自五个不同样本,分成五类,每个样本包含多个细胞
修改前:
https://img2024.cnblogs.com/blog/3759180/202601/3759180-20260121124325950-1188440356.png
修改后:
https://img2024.cnblogs.com/blog/3759180/202601/3759180-20260121124353751-1811031607.png
https://img2024.cnblogs.com/blog/3759180/202601/3759180-20260121124431297-142476487.png
*修改的目的是为了更好地用R语言进行数据处理
详细过程请参考:https://www.bilibili.com/video/BV1Ct421j7X3?spm_id_from=333.788.videopod.sections&p=4
(B站:生信幻想家——单细胞数据分析)
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! 喜欢鼓捣这些软件,现在用得少,谢谢分享! 感谢发布原创作品,程序园因你更精彩 谢谢分享,辛苦了 不错,里面软件多更新就更好了 前排留名,哈哈哈 喜欢鼓捣这些软件,现在用得少,谢谢分享! 感谢分享,下载保存了,貌似很强大 前排留名,哈哈哈 谢谢分享,试用一下 谢谢分享,试用一下 这个有用。 这个有用。 感谢发布原创作品,程序园因你更精彩 yyds。多谢分享 感谢分享
页:
[1]