找回密码
 立即注册
高效处理日均5000亿+数据:58集团基于Apache SeaTunnel的数据集成平台架构优化
视频链接:58集团大数据平台基于Apache SeaTunnel的架构演进 https://www.bilibili.com/video/BV19GUPYcEgB/?vd_source=e139ecc995ab936267a7991b9de55f6c 引言 在数字化时代,数据已成为企业最宝贵的资产之一。58集团作为中国领先的生 ...
疝镜泛 2025-6-10 19:11
303 0 0
Apache Dolphinscheduler数据质量源码分析
Apache DolphinScheduler 是一个分布式、易扩展的可视化数据工作流任务调度系统,广泛应用于数据调度和处理领域。 在大规模数据工程项目中,数据质量的管理至关重要,而 DolphinScheduler 也提供了数据质量检查的计算能力。本文将对 Apac ...
擒揭 2025-6-10 19:11
129 0 0
Pgloader极简教程
目录 [*]简介 [*]安装 [*]安装概述 [*]CentOS编译安装 [*]使用 [*]命令行 [*]配置文件迁移 [*]可能遇到的错误 [*]更多配置参考 [*]总结 [*]引用 简介 pgloader是一个数据同步工具,用来将数据从其它地方迁移到postgresql中,支持 ...
煅圆吧 2025-6-10 19:10
98 0 0
读数据质量管理:数据可靠性与数据质量问题解决之道10数据平台
1.       数据平台 1.1.         让你能够从摄取数据到分析数据的整个过程中全面管理数据的技术组合 1.2.         数据平台的要求随着业务的变化而变化 1.3.         数据栈分为6层 [*]1.3.1.     ...
零幸 2025-6-10 19:09
30 0 0
读数据质量管理:数据可靠性与数据质量问题解决之道08扩展异常检测
1. Python和机器学习扩展异常检测 1.1. 机器学习有助于大规模数据可观测性和数据监控 [*]1.1.1. 配备了机器学习的检测器可以更灵活地应用到更多的数据表上,从而消除了随着数据仓库或数据湖的增长进行手动检查和手动操作的需要 [*] ...
古修蟑 2025-6-10 19:09
27 0 0
大数据调度组件之Apache DolphinScheduler
Apache DolphinScheduler 是一个分布式易扩展的可视化 DAG 工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 主要特性 [*]易于部署,提供四种部署方式,包括Standalone、Clust ...
栓州 2025-6-10 19:09
869 0 0
读数据质量管理:数据可靠性与数据质量问题解决之道04收集与清洗
1.       收集数据 1.1.         数据收集和清洗是生产管道中的第一步 [*]1.1.1.           数据转换和测试则在生产管道中解决数据质量问题 1.2.         在收集数据时,管道的任何地方可能都没有入 ...
柴古香 2025-6-10 19:08
39 0 0
Mysql篇-语句执行计划详解(explain)
概述 使用 explain 输出 SELECT 语句执行的详细信息,包括以下信息: [*]表的加载顺序 [*]sql 的查询类型 [*]可能用到哪些索引,实际上用到哪些索引 [*]读取的行数 Explain 执行计划包含字段信息如下:分别是 id、select_type、table、 ...
骛扼铮 2025-6-10 19:08
700 0 0
5.7 与 8.0 对相同文件的 LOAD DATA 语句结果不同
5.7 与 8.0 对相同文件的 LOAD DATA 语句结果不同 问题描述 某客户现场支持,由MySQL 5.7.21升级MySQL 8.0.25后,通过LOAD DATA导入文件,当同一会话连续导入不同的编码(UTF8/GB18030)文件时会出现乱码。数据库版本未升级之前,相同 ...
斜素欣 2025-6-10 19:08
321 0 0
使用 Infinispan 缓存功能支持多个 Redis 数据库
使用 Infinispan 缓存功能支持多个 Redis 数据库      在 Infinispan 15 中,我们提供了大量命令,可以在不更改代码的情况下将 Redis 服务器替换为 Infinispan。在本教程中,您将了解 Infinispan 缓存别名如何帮助您将多个 Redis ...
瞿佳悦 2025-6-10 19:08
665 0 0
最受欢迎数据库客户端-Navicat Premium最新版(17.1.5) MacOS版免费下载 | 2025年
该版本为MacOS专用,最新稳定版,相比旧版本,性能更高、资源占用更小、修复了频繁崩溃的bug。 navicat最新破解版本都需要关闭SIP,如何关闭可参考这篇文章 Navicat Premium 是一款非常强大的数据库管理工具,允许您在一个应用程序中同时 ...
注思 2025-6-10 19:08
469 0 0
新兴数据仓库设计与实践手册:从分层架构到实际应用(二)
本手册将分为三部分发布,以帮助读者逐步深入理解数据仓库的设计与实践。 [*]第一部分介绍数据仓库的整体架构概述; [*]第二部分深入讨论ETL在数仓中的应用理论,ODS层的具体实现与应用; [*]第三部分将围绕DW数据仓库层、ADS层和数据仓 ...
涣爹卮 2025-6-10 19:07
344 0 0
DataOps for LLM 的数据工程技术架构实践
导读 在 LLM 蓬勃发展的今天,数据工程已成为支持大规模 AI 模型训练的基石。DataOps 作为数据工程的重要方法论,通过优化数据集成、转换和自动化运维,加速数据到模型的闭环流程。本文聚焦新一代数据 & AI 集成工具- Apache SeaTunnel ...
泡市 2025-6-10 19:07
637 0 0
【全面解读】Apache SeaTunnel常见问题全攻略
使用SeaTunnel需要安装Spark或者Flink这样的引擎么? 不需要,SeaTunnel 支持 Zeta、Spark 和 Flink 作为同步引擎的选择,您可以选择之一就行,社区尤其推荐使用 Zeta 这种专为同步场景打造的新一代超高性能同步引擎。Zeta 被社区用户 ...
艺轫 2025-6-10 19:07
730 0 0
【GreatSQL优化器-02】索引和Sargable谓词
【GreatSQL优化器-02】索引和Sargable谓词 一、Sargable谓词介绍 GreatSQL的优化器在有过滤条件的时候,需要先把条件按照是否有索引来进行区分,可以用索引来加速查询的条件称为Sargable,其中 arge 来源于 Search Argument(搜索参数 ...
枢覆引 2025-6-10 19:07
258 0 0
【GreatSQL优化器-03】查询开销估算
【GreatSQL优化器-03】查询开销估算 一、cost和read_time介绍 GreatSQL的优化器在创建执行计划的时候是根据每张表的行数和数据分布以及读数据硬盘消耗等信息来判断先查询哪张表后查询哪张表,要不要使用索引,这些表资源信息就被称为co ...
僻嘶 2025-6-10 19:07
157 0 0
Windows直接解压的方式安装redis
首先下载 redis 安装包:https://github.com/MSOpenTech/redis/releases解压安装包到相应文件夹,任何盘符都行,例如D:\ide\redis3.0.504 使用命令行启动 Redis 服务运行 cmd,cd 进入对应目录D:\ide\redis3.0.504,执行:redis-server. ...
昝琳怡 2025-6-10 19:07
333 0 0
10月月报 | Apache DolphinScheduler进展总结
各位热爱 Apache DolphinScheduler 的小伙伴们,社区10月份月报更新啦!这里将记录 DolphinScheduler 社区每月的重要更新,欢迎关注! 月度Merge之星 感谢以下小伙伴10月份为 Apache DolphinScheduler 所做的精彩贡献(排名不分先后): ...
裆趾针 2025-6-10 19:06
210 0 0
Whalestudio助力西南某商业银行数据中台建设 | 实践探索
在数字化转型的浪潮下,银行业对数据的依赖日益加深。为提升数据管理和应用水平,西南某城商行于2022年启动了数据中台建设,采用创新技术手段优化其数据服务体系。 本文将深入探讨该行如何借助Whalestudio平台构建数据中台,以及在实际应 ...
唯棉坜 2025-6-10 19:06
820 0 0
7、listener监听
启动远程图形界面登录的工具 监听 监听的启动 判断监听是否启动 -- LISTEN:表示监听已经启动 -- 1440:监听对应的进程编号 -- ::: 表示所有的IP地址都启动1521端口 查看监听状态 查看监听进程 监听表现为一个进程,默认端口号:1521 ...
汤流婉 2025-6-10 19:06
877 0 0

快速发帖

还可输入 80 个字符
您需要登录后才可以发帖 登录 | 立即注册

本版积分规则