设为首页 加入收藏

TOP

大数据量的处理(二)
2014-11-24 03:15:54 来源: 作者: 【 】 浏览:5
Tags:数据 处理
cktime, getsliceerr, retransmitrate, repeatrate,I from a; commit; END LOOP; end;
注意:实际上,这一部分我是将1-20000分成20份 ,开了20个线程同时执行,每个线程负责向1000个分区中copy数据(向每个分区录入86400条),这时候明白我为什么要创建表A了吧!

然后,就不管他了,玩游戏看电影去了,两天假结束,想起来去看了一眼插入到什么程度了,发现磁盘有的线程还在执行,有的线程由于表空间写满到32Gb无法再拓展而终止了。

看了一下序列已经被调用到6亿多,说明插入进去了6亿多条是数据。

首先是数据占用的空间问题,与估算的相差太多,我开始插入了上百万的数据,通过查看这上百万数据占用的空间估算出17亿数据占用的空间在180G左右,,而我准备出将近200G的磁盘空间以为足够了呢,结果差了这么多,分析下原因,最主要的一点是索引占用的空间:

我原来在预估的时候忘记了为表创建索引,以为没什么大影响,有10G空间足够索引占用了,可是事实大错特错了,通过下面的语句查看了下空间的占用情况:

1、表占用空间(0.008G   这是A表里的86400条数据占用的空间)
select segment_name, sum(bytes)/1024/1024/1024 GB from user_segments where segment_type='TABLE'  group by segment_name;
2、索引占用空间(17.24GB)
select segment_name ,sum(bytes)/1024/1024/1024 GB from user_segments where segment_type IN('INDEX PARTITION','INDEX') group by segment_name;
3、分区表TABLE PARTITION占用空间(63.5GB)
select segment_name,sum(bytes)/1024/1024/1024 GB from user_segments where segment_type='TABLE PARTITION' group by segment_name;
结果分别如下:

\

\

\

注:第三个图中的SEGMENT_NAME的值为T_STREAM 是上文创建的那个分区表。

我们看到结果发现,实际上表数据占用的空间是64GB,跟原来估算的几乎一致,多出来的部分是被索引占了,总共占用了将近100GB的空间,吓死哥了尴尬

缘何索引占用了这么多的空间?可能是我创建索引的方式不对?后续研究补充!

我们的程序采用的策略是首先将17亿条记录手动录入到数据库中,然后当监测到流指标时候对响应的数据进行update操作,也就是一般每秒执行20000个update语句,测试下性能:

declare
j  number ;
begin
  for i in 2000000..2020000 loop
update t_stream
   set 
       streamid = 2,
       streamtype = 2,
       favailability = 2,
       bandwidth = 2,
       validbandwidth = 2,
       mdi_df = 2,
       mdi_mlr = 2,
       delay_time = 2,
       ipinterval = 2,
       ipjitter = 2,
       time = sysdate,
       mlt15 = 2,
       mlt24 = 2,
       mls = 2,
       slicenum = 2,
       cachedtime = 2,
       stucktime = 2,
       getsliceerr = 2,
       retransmitrate = 2,
       repeatrate = 2
        where  id = i ;
  end loop;
  end ;

这种单纯以主键进行修改的时候他要进行全表扫描(所有的分区需要扫描到),效率很低,大约70s执行完,这才只是6亿数据。

所以我们要让他在执行update语句的时候尽量扫描单个分区,也就是说把那个分区字段当参数传递过来,如下语句所示:

declare
j  number ;
begin
  j:=1;
  for i in 2000000..2020000 loop
update aaa
   set 
       streamid = 2,
       streamtype = 2,
       favailability = 2,
       bandwidth = 2,
       validbandwidth = 2,
       mdi_df = 2,
       mdi_mlr = 2,
       delay_time = 2,
       ipinterval = 2,
       ipjitter = 2,
       time = sysdate,
       mlt15 = 2,
       mlt24 = 2,
       mls = 2,
       slicenum = 2,
       cachedtime = 2,
       stucktime = 2,
       getsliceerr = 2,
       retransmitrate = 2,
       repeatrate = 2
        where  id = i ;
        j:=j+1;
  end loop;
  end ;

测试这个代码块执行时间为3s,而且虽然现在是6亿数据,但是就是17亿数据执行时间也差不多是3s的,因为它扫描的永远只是20000个分区。而且我的电脑才四核处理器,服务器上24核呢。执行的肯定会比我电脑快多了吧,所以实现预定需求不成问题。

2、后来由于Oracle是收费的,不让用了,汗一个,接下来研究Mysql。

Mysql在建表以及分区的时候遇到两个问题:

问题一:建分区的时候总提示语法错误,无论怎么改都不让我创建分区,Mysql这么火的数据库不可能不支持分区啊。后来一查才知道Mysq5.0版本不支持分区,是从5.1才开始支持表的分区的尴尬,于是把我的数据库版本更换成5.5的,分区成功创建。

问题二:在Mysql上建20000个分区的过程中发现每次执行到中途就报错停止了,查询了解到Mysql的表分区数量是有限制的,每个表最多能有1024个分区。

这对我们影响不太大,大不了我就建1000个分区,每个分区存放86400*20条数据,相信每个分区百万条数据不算什么。

3、首先sqlite数据库不支持分区只好建立20000个表,由于sqlite不支持存储过程,我也没找到sqlite怎样写循环语句。但是建立20000个表 和 录入那么多的数据我们不可能一条一条的去执行写语句执行,所以需要另想办法,我的解决过程:

首先我想到可以用调用批处理文件的方式插入数据和建表:

建一个 批量建表.bat文件,文件内容如下:

@ECHO OFF 
For /L %%i in (1,1,20000) do (sqlite3.exe hc.db 
 

createTable.bat 内容如下:

create table 1%(ID integer primary key autoincrement,
  STREAMID       NUMBER(10),
  STREAMTYPE     NUMBER(1),
  FAVAILABILITY  NUMBER(5),
  BANDWIDTH      NUMBER(4),
  VALIDBANDWIDTH NUMBER(4),
  MDIDF          NUMBER(5),
  MDIMLR         NUMBER(5),
  DELAY_TIME     NUMBER(5),
  IPINTERVAL     NUMBER(
首页 上一页 1 2 3 下一页 尾页 2/3/3
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇表统计信息过旧导致执行慢的sql优.. 下一篇巧用函数索引性能调优

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容:

·C++中智能指针的性能 (2025-12-25 03:49:29)
·如何用智能指针实现c (2025-12-25 03:49:27)
·如何在 C 语言中管理 (2025-12-25 03:20:14)
·C语言和内存管理有什 (2025-12-25 03:20:11)
·为什么C语言从不被淘 (2025-12-25 03:20:08)