Table SQLLDR_NOPAR:
3017264Rows successfully loaded.
5111Rows not loaded due to data errors.
0 Rows not loaded because all WHEN clauseswere failed.
0 Rowsnot loaded because all fields were null.
Dateconversion cache disabled due to overflow (default size: 1000)
Partition P1: 1509091 Rows loaded.
Partition P2: 1508173 Rows loaded.
Bind array size not used in direct path.
Column array rows : 5000
Stream buffer bytes: 256000
Read buffer bytes: 1048576
Total logical records skipped: 0
Total logical records read: 3022375
Total logical records rejected: 5111
Total logical records discarded: 0
Total stream buffers loaded by SQL*Loader mainthread: 1301
Total stream buffers loaded by SQL*Loader loadthread: 3901
Run began on Mon Jan 07 23:20:54 2013
Run ended on Mon Jan 07 23:21:28 2013
Elapsed time was: 00:00:33.81
CPU time was: 00:00:25.32
分析
| Load Mode |
Elapsed time(ss.99) |
| Direct |
33.81 |
| Direct + parallel |
35.91 |
笔者做了多次试验,除了第一次消耗时间较长(因为表空间自动拓展),后面的实验中两种模式的用时大致相同。自己猜测在使用Direct 直接路径加载的情况下,多线程并不能提高效率。
在Util中找到关于sql*loader command line的描述
PARALLEL(parallel load)
Default: false
PARALLELspecifies whether direct loads canoperate in multiple concurrent sessions
to load data into the same table.
parallel这个参数用来设定使用direct loads的时候是否使用并发的session去加载数据到相同的表中。
于是测试了多文件,多session加载数据的情况。
D:\flatfile>sqluldr2 user=zdrygk/zdrygk@orclquery=sfxx2 degree=8 file=d:\flatfile\ldrfiles%t.dat field=0x23 size=300MB
0rows exported at 2013-01-08 00:07:26, size 0 MB.
output file d:\flatfile\ldrfiles1357574846.dat closed at 707972 rows,size 304 MB.
output file d:\flatfile\ldrfiles1357574861.dat closed at 697498 rows,size 604 MB.
output file d:\flatfile\ldrfiles1357574876.dat closed at 701379 rows,size 904 MB.
output file d:\flatfile\ldrfiles1357574891.dat closed at 692556 rows,size 1204 MB.
222868rows exported at 2013-01-08 00:08:31, size 1300 MB.
output file d:\flatfile\ldrfiles1357574906.dat closed at 222868 rows,size 1300 MB.
一共5个文件。
多文件并行测试
如果指定了parallel选项,sqlldr运行的时候会对表加4级锁,允许多个sqlldr session同时对同一个表执行加载作用。在我们执行了truncate 操作后对表进行并行加载操作。
parallelpar1文件
USERID=zdrygk/zdrygk
CONTROL='D:\flatfile\multifile\paral\sqlldr_paral_1.ctl'
DATA='D:\flatfile\multifile\ldrfiles1357574846.dat'
LOG='D:\flatfile\multifile\paral\sqlldr_paral_1.log'
DIRECT=true
parallel=true
ERRORS=10000
parallel par2、3、4、5的内容大致相同。
在windows下只能打开多个窗口,通过复制粘贴的方法保证并行了。
执行
sqlldrparfile=D:\flatfile\multifile\paral\sqlldr_paral_1.par
sqlldrparfile=D:\flatfile\multifile\paral\sqlldr_paral_2.par
sqlldrparfile=D:\flatfile\multifile\paral\sqlldr_paral_3.par
sqlldr parfile=D:\flatfile\multifile\paral\sqlldr_paral_4.par
sqlldrparfile=D:\flatfile\multifile\paral\sqlldr_paral_5.par
最后得到了5个log文件关键内容:
log1
Run began on Tue Jan 08 01:51:11 2013
Run ended on Tue Jan 08 01:51:21 2013
Elapsed time was: 00:00:09.42
CPU time was: 00:00:06.43
…
中间的几个log文件省略
log5
Run began on Tue Jan 08 01:51:34 2013
Run ended on Tue Jan 08 01:51:38 2013
Elapsed time was: 00:00:03.27
CPU time was: 00:00:02.03
因为最后一个sqlldr session 是最后一个执行结束的,所以需要计算并行sqlldr的执行消耗时间,只需要使用log5中的结束时间减去log1中的开始时间即可。
01:51:38-01:51:11=22秒
因为不是使用程序执行这几个sqlldr程序,复制、粘贴、执行之间会有空隙。真实用时应该比22秒这个数字要小的多。
多文件非并行测试
因为如果没有指定parallel选项,sqlldr运行的时候会对表加6级锁,其他sqlldr session会无法工作,所以只能串行的执行sqlldr操作。在我们执行了truncate操作之后对