找回密码
 立即注册
首页 业界区 业界 XML数据库与db4o的简要对比

XML数据库与db4o的简要对比

粒浊 2025-5-29 20:19:04
前两天,我公布了正在开发的XML数据库的一些信息,下面这个文章演示了什么是XML数据库,以及如何使用它。
XML数据库一睹为快

http://www.cnblogs.com/chenxizhang/archive/2009/08/09/1542354.html
 
文章发表之后,得到了很多朋友的反馈和积极参与讨论,我这里就不一一列举了。期间有多位朋友提到了另外一个开源的面向对象的数据库:db4o
该数据库的主页在:http://www.db4o.com/
我今天抽时间对该数据库进行了一些了解,也下载了它的完整源代码,还不及细看,但它的架构很不错,下午在看的时候有一个重要的方面对我触动挺大。我暂时不做太多的评论,但不否认地说,我的第一印象就是眼前一亮。
db4o是一个面向对象的数据库,虽然这个概念并不新,但我觉得概念新不新并不重要,db40能被开发出来,而且做的确实很不错,这本身很值得欣赏。我自己也是觉得,实践和时间才是检验真理的唯一标准,要敢于动手。呵呵
我想很多朋友都比较关心,如果用XML存储数据,那么性能怎么样,会不会很慢呢?我在上一篇文章的评论中多次强调以下几点
1. 据我的经验,读取本地磁盘文件,通常比读取真正的关系型数据库要来得快。
2. XML文件本身不是慢的原因,如果慢的话,则需要考虑更好的设计。而且XML提供了很好的编程接口,其实它反倒是比别的文件有更好的优势。例如,你可以假想一下,你如果要读一个平面文件(例如ini文件),或者CSV文件的情况,那可能就更慢了。
对照db4o提供的官方学习材料(很不错的,赞一个先),我做了一些练习。db4o的数据库文件只有一个,是二进制格式的。但即便在大容量写入和读取的时候,性能表现也很不错。这一点就是看出算法的重要性了。我为什么要这么说呢,因为要在一个文件中,抽取出来特定的部分,往往都是相当不容易的。二进制的读写问题本身就是毁誉参半的。
大家试想一下吧,如果一个文件已经有1GB,然后我要在期间一半的位置写入另外一个对象(例如要修改),这将是一间非常不容易的事情,因为所有内容都在一个文件里面。坦白地说,这也就是我为什么要开发这个XML数据库的根本原因吧。我觉得如果还是用独立的一个或者为数很少的几个二进制文件,那么与传统的关系型数据库就区别不大了,而且再怎么优化,估计还是有瓶颈的。
我当然没有办法猜想到db4o的开发小组当时的考虑,也许在当时这是一个比较好的方案。
为了说明这个问题,我写了一个简单的演示程序来对db4o和XML数据库的大容量写入和读取进行对比。我分别向他们插入100000(十万)个对象。然后又各自读取了将近35000(三万五千)个对象。
第一部分:业务实体类(这是摘自db4o的文档)
  1.    /// <summary>
  2. /// 这是一个很简单的类型,摘自db4o的官方案例
  3. /// </summary>
  4. public class Pilot
  5. {
  6. public Pilot() { }
  7. string _name;
  8. int _points;
  9. public Pilot(string name, int points)
  10. {
  11. _name = name;
  12. _points = points;
  13. }
  14. public string Name
  15. {
  16. get
  17. {
  18. return _name;
  19. }
  20. set { _name = value; }
  21. }
  22. public int Points
  23. {
  24. get
  25. {
  26. return _points;
  27. }
  28. set { _points = value; }
  29. }
  30. public void AddPoints(int points)
  31. {
  32. _points += points;
  33. }
  34. override public string ToString()
  35. {
  36. return string.Format("{0}/{1}", _name, _points);
  37. }
  38. }
复制代码
第二部分:测试代码
  1.     class Program
  2. {
  3. static void Main(string[] args)
  4. {
  5. //这个测试程序主要用来比较与db4o这个数据库的操作及姓能上的差别
  6. //创建db4o数据库,并插入100000(十万个)对象
  7. Console.WriteLine("db4o数据库测试结果");
  8. IObjectContainer db = Db4oFactory.OpenFile("test.yps");
  9. try
  10. {
  11. Stopwatch watch = new Stopwatch();
  12. watch.Start();
  13. for (int i = 0; i < 100000; i++)
  14. {
  15. Pilot pilot1 = new Pilot("Michael Schumacher", i);
  16. db.Store(pilot1);
  17. }
  18. watch.Stop();
  19. Console.WriteLine("\t插入1000000个对象,耗时:{0}秒", watch.ElapsedMilliseconds / 1000);
  20. watch.Start();
  21. var query = from p in db.Query<Pilot>()
  22. where p.Points % 3 == 0
  23. select p;
  24. Console.WriteLine("\t读取{0}个对象", query.ToArray().Count());
  25. watch.Stop();
  26. Console.WriteLine("\t读取耗时:{0}秒", watch.ElapsedMilliseconds / 1000);
  27. }
  28. finally
  29. {
  30. db.Close();
  31. }
  32. Console.WriteLine("XMLDatabase测试结果");
  33. //创建XMLDatabase,并插入100000(十个)对象
  34. using (XDatabase xdb = XDatabase.CreateInstance("Test", "E:\\Temp")) {
  35. try
  36. {
  37. Stopwatch watch = new Stopwatch();
  38. watch.Start();
  39. XTable<Pilot> table = xdb.Create<Pilot>("Pilots", new[] { "Name" });
  40. for (int i = 0; i < 100000; i++)
  41. {
  42. Pilot pilot1 = new Pilot("Ares Chen", i);
  43. table.Insert(pilot1);
  44. }
  45. xdb.SubmitChanges();
  46. watch.Stop();
  47. Console.WriteLine("\t插入1000000个对象,耗时:{0}秒", watch.ElapsedMilliseconds / 1000);
  48. watch.Start();
  49. var query = from p in table.Select()
  50. where p.Points % 3==0
  51. select p;
  52. Console.WriteLine("\t读取{0}个对象",query.ToArray().Count());
  53. watch.Stop();
  54. Console.WriteLine("\t读取耗时:{0}秒", watch.ElapsedMilliseconds / 1000);
  55. }
  56. finally
  57. {
  58. }
  59. }
  60. Console.Read();
  61. }
  62. }
复制代码
第三部分:测试结果

1.png

我将执行顺序倒过来,再执行一次,结果如下
2.png

 
第四部分:文件比较

3.png

XML数据库是每个表单独存放一个XML文件(我还在考虑如何分布式存放,例如一个表可以有N个XML文件),插入这一百万个对象之后,大约是4.08MB
4.png

而且该文件,就是一个很直观的XML文件
5.png

 
而db4o是将所有对象放在一个数据库文件的,文件名是无关紧要的。
 
6.png

它的文件大小为9.07MB左右
7.png

而该文件是一个典型的二进制文件,如果我们一定要打开来看,大致如下
8.png

 
 
 
 
 
 
 
 
【备注】以上的对比是作为技术研究目的而做的。其实我前面就分析过了,db4o使用一个二进制文件的方式来做,有这样的性能已经是很了不起的了,它的算法应该是很不错的。我还不知道它是否支持多个文件,因为看它的文档说它最大支持的单数据库大小为250GB(这有点雷人,但我断定不可能有人这么用的),如果说250GB的数据,全部在一个文件里面的话,这太可拍了。
最后,用一个文件存储所有的数据库并无一无是处。它的一个最大的好处就是备份和管理方便,因为就只有一个文件。而正在开发的XML数据库,这方面就会有劣势,因为我的想法是通过不同的目录保存不同的东西,例如Tables里面放所有的表数据,Schemas里面放所有的架构文件,Blobs里面放所有的大对象(例如图片),还有一个专门的rels目录,记录了这些文件的关系。这样一来就会有一些风险,因为文件很多。这方面还需要多思考思考。
XML数据库的开发工作在继续进行,大家有什么好的建议和想法,我欢迎留言。由于日常我还有其他的工作要忙,一般晚上再统一回复吧。
本文由作者:陈希章 于  2009/8/11 20:26:05发布在:博客园,转载请注明出处

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册