Lua数据结构和内存占用分析 - linux编程基础

TOP

Lua数据结构和内存占用分析(一)

2018-10-26 12:11:31 【大中小】浏览:503次

　　由于lua是一个跨平台的脚本语言，会根据平台位数(16bit\32bit)、平台类型(Linux\Windows)、语言标准(C89\C99)、以及编译参数等开启预编译选项，导致基本数据结构的字长和类型会动态变化，以linux_ x86_64 进行编译为基础进行分析介绍，lua版本5.3.4。并根据我们开发过程中一些常见的情景进行分析：

　　Lua的基本数据表示方式是type + union的方式，根据不同类型映射到union的不同结构上面, 统一的表示结构lua_TValue：

　　但由于lua_Integer和lua_Number在当前平台预处理后，分别定义成long long 和 double类型，所以为方便理解，上述结构经过转义：

　　在lua5.1版本中，统一使用lua_Number来表示整数和浮点数，而double能够表示的整数大小有限，大概2^52的长度，所以用lua_Number表示一些类型为int64_t的全局唯一id长度不够，类似物品id、角色id。在lua5.3中，上述问题不再存在。

　　lua简单数据类型bool、整型、浮点型都是统一用lua_TValue来表示，消耗内存为sizeof(lua_TValue) = 16字节。因此相对C\C++表示整型的char\short\int\int64_t来说，这种数据结构的表示法虽然比较统一，但比较消耗内存。还有一些复杂的数据结构，统一封装在GCObject中。由于5.1和5.3表示法略有差异，5.1方便理解，如下：

　　在开发过程中，最常用的数据结构是sting和table类型，那么现在主要分析这两种数据结构的内存占用。

　　String又细分为短字符串LUA_TSHRSTR和长字符串LUA_TLNGSTR两种，默认长度小于40的为LUA_TSHRSTR，使用全局stringtable进行管理。即所有短字符串都在stringtable中存放，相同字符串只会有一份实际数据拷贝，每份相同的TString对象只是存放一个hash值，用来索引stringtable。而长字符串则跟普通的GCObject没有差别，相同字符串在内存都是单独一份数据拷贝。在Lua5.1中，没有区分长短字符串，所有的字符串统一在stringtable中存在唯一拷贝。猜想这种改变一是因为长字符串出现相同的情况比较少，二是lua5.1的方式长字符串TString计算Hash是抽取部分字符进行运算，这样的计算方式可能被伪造导致不同字符串的hash值一样，但要是所有字符全用来计算hash又比较耗时。

　　下面是一个string类型的GCObject的内存表示，根据长短字符串表示方式不一样：

下面分别对比四种情景来分析内存占用的不同。因为lua在使用 .. 连接字符串时，底层会调用luaV_concat -> luaS_newStr新建字符串，这里对比下在创建短字符串和长字符串后的内存消耗：

通过对比：在创建相同字符串时，因为短字符串在StringTable只有一份拷贝，而长字符串每次都会产生新的数据拷贝，所以消耗内存差异明显。 0.58K VS 771.48K

通过对比：在创建不同字符串时，不论长短字符串，都会有一份不同字符串的拷贝，所以都需要消耗大量内存。1052K VS 1145K

问题一：在对比情景2和情景4时，长字符串都是一份拷贝，为什么内存消耗差异较大？(791K vs 1145K)

答：这是因为使用连字符 .. 时，情景4里面的变量i转为字符串，相当于生成了10000份不同的短字符串拷贝，导致多消耗了300K左右内存，所以在开发中可以适当避免 .. 产生大量字符串的产生。可以考虑使用string.format来格式化字符串。具体效果如下：

问题二：以情景2为例，最终内存消耗771.48K，这个可以在开发前估算吗？

答：string实际是GCObject对象，所以有些公共的字段。以”Lua”这个字符串为例，TString的内存结构：

在情景2中，实际字符串长度为54。那么内存占用 = sizeof(TString) + 1 + 实际长度 = 25 + 实际长度 = 25 + 54 = 79。理论内存：10000 * 79/ 1024 = 771.48K, 理论跟实际消耗值几乎一致。

　　但由于我们之前也用过lua5.1.4，这个版本所有字符串均引用StringTable一份数据拷贝，理论上不论长短字符串，只要相同的数据只会有一份拷贝。(由于lua5.1.4版本在调用collectgarbage("collect")进行一次完整gc后，luaC_fullgc会调用setthreshold打开自动gc，这里容易踩坑，上述代码运行发现内存消耗明显低于lua5.3版本，非常困惑。所以修改代码在collectgarbage("collect")后，重新调用collectgarbage("stop")关闭自动gc)。修改后在lua5.1.4下面执行对比如下：

最大差别在于相同长字符串创建的内存消耗，Lua5.1.4由于统一用stringtable保存一份拷贝，所以内存消耗可以忽略不记，但Lua5.3.4由于会产生不同副本拷贝，消耗明显。

对于短字符串，只会在stringtable中存在一份拷贝，对内存没有什么影响。对于长字符串，需要分两种场合看：

for i =1, 1000 do

Tab[i] = {ccccccccccccccccccccccccccccccccccccccc=i}

end

或者

Tab[1] = {ccccccccccccccccccccccccccccccccccccccc=1}

Tab[2] = {ccccccccccccccccccccccccccccccccccccccc=2}

Tab[3] = {ccccccccccccccccccccccccccccccccccccccc=3}

...

Tab[100] = {ccccccccccccccccccccccccccccccccccccccc=100}

对于这两种情况，由于lua程序进行代码文件词法分析时，第一种调用一次luaS_newlstr创建”ccccccccccccccccccccccccccccccccccccccc”, 而第二种会调用100次。正如我们前面的分析，长字符串每次调用都会生成一份新的拷贝，所以第二种情况会有N份的字符

首页上一页 1 2 3 4 下一页尾页 1/4/4
【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：C语言双向循环链表api（源自glust..	下一篇：Python字符串必学函数