C++编程笔记丨世界上最简单的无锁哈希表 - c++编程基础

TOP

C++编程笔记丨世界上最简单的无锁哈希表(一)

2019-04-03 16:12:29 【大中小】浏览:224次

无锁哈希表（Lock-Free Hash Table ）可以提高多线程下的性能表现，但是因为实现一个无锁哈希表本身的复杂度不小。（ps：真正的复杂在于出错之后的调试，因为多线程下的调试本身就很复杂，引入无锁数据结构之后，传统的看堆栈信息和打印log都基本上没有意义了。堆栈中的数据可能被并发访问破坏，而打印log本身可能会改变程序执行时对数据访问的时序。一个比较可行的做法是实现一个无锁版本和一个传统数据结构+锁的版本，出错后通过替换来定位是无锁数据结构本身的bug还是其他逻辑的bug）。所以对一个项目而言，无锁数据结构基本上是一把双刃剑。

据我所知，第一个用于实际开发的无锁哈希表是 Dr. Cliff Click 为Java而写。在2007年他发布了这个无锁哈希表的源码并且在Google做了关于它G的报告（视频）。我承认，在我第一次看这个报告的时候，我对它的大部分内容都不理解。Dr. Cliff Click是这个领域的先驱。(Maged M. Michael 在IBM做了大量关于无锁数据结构的研究。这个是2002年的一篇论文，关于哈希表，http://www.research.ibm.com/people/m/michael/spaa-2002.pdf)

很幸运，6年时间足够我理解Dr. Cliff Click所做的研究。事实上，你不必做一些前沿的探索，去实现一个完美的无锁哈希表。在这里我将分享我实现的这个版本。我相信有使用C++进行多线程开发经验的程序员，可以通过这篇博客梳理以前的经验，并且完全理解它。

约束

作为一个程序员，平时我们实现一个数据结构会本能的尽可能通用。这不是一件坏事，但是当我们把通用当作一个更重要的目标时，它可能会阻碍我们。在这里我走向另一个极端，实现了一个尽可能简单的，仅用于一些特殊环境的哈希表，下面是它的设计约束：

（1）table 只接受类型为32位整数的key和value

（2）所有key必须非零

（3）所有的value必须非零

（4）table的最大数目固定且必须是2的幂

（5）唯一可用的操作是SetItem和getItem

（6）有没有删除操作

当然你掌握了这种算法实现机制之后，可以在此基础上进行扩展，而不受这些限制的约束。（rehash，删除和遍历，这些都会增加复杂度，而且有引发新的ABA问题的可能性）。

实现方法

有很多种方法来实现一个哈希表。这里我选择了用我以前的帖子中描述的ArrayOfItems类做一个简单的修改，（前置扩展阅读） A Lock-Free… Linear Search?

这个哈希表被我称为HashTable1，和ArrayOfItems一样，它采用了一个巨大的key-value pairs数组实现。

struct Entry

{

    mint_atomic32_t key;

    mint_atomic32_t value;

};

Entry *m_entries;

在hashtable1中，仅仅只有数组本身而没有使用链接来处理碰撞。数组全部初始化为0,key为0时对应的节点为空。插入时，会通过线性搜索找到一个空节点。

ArrayOfItems和HashTable1之间唯一的区别是，ArrayOfItems是从0开始做线性搜索，而HashTable1使用MurmurHash3′s integer finalizer算法得到一个hash值，然后以这个hash值为起点开始搜索()

inline static uint32_t integerHash(uint32_t h)

{

    h ^= h >> 16;

    h *= 0x85ebca6b;

    h ^= h >> 13;

    h *= 0xc2b2ae35;

    h ^= h >> 16;

    return h;

}

当我们使用相同的key做参数调用SetItem或GetItem方法时，它会在相同的index开始做线性搜索，而使用不同的key时，会在不同的index开始搜索。通过这种方式，可以提高查找到对应key所在节点的速度，并且保证多线程并发调用SetItem或GetItem的安全性。

HashTable1采用环形的搜索，当搜索到尾部时，会从数组头部开始继续搜索。在数组满之前，每次搜索都可以保证返回对应key所在的节点，或者是一个空节点。这种技巧被称为open addressing with linear probing,，在我看来这无疑是对lock-free最友好的hash算法，事实上在Dr. Cliff Click为java实现的哈希表中也使用了相同的技巧。

代码

SetItem的实现。它会扫描整个数组并且将value保存在与key对应的节点或空节点。这段代码与ArrayOfItems:: SetItem几乎相同，唯一的区别是计算了hash值并且按位与，保证index在数组边界内。

void HashTable1::SetItem(uint32_t key, uint32_t value)

{

    for (uint32_t idx = integerHash(key);; idx++)

    {

        idx &= m_arraySize - 1;

 

        uint32_t prevKey = mint_compare_exchange_strong_32_relaxed(&m_entries[idx].key, 0, key);

        if ((prevKey == 0) || (prevKey == key))

        {

            mint_store_32_relaxed(&m_entries[idx].value, value);

            return;

        }

    }

}

GetItem的实现也同样和ArrayOfItems::GetItem有类似的改变。

uint32_t HashTable1::GetItem(uint32_t key)

{

    for (uint32_t idx = integerHash(key);; idx++)

    {

        idx &= m_arraySize - 1;

 

        uint32_t probedKey = mint_load_32_relaxed(&m_entries[idx].key);

        if (probedKey == key)

            return mint_load_32_relaxed(&m_entries[idx].value);

        if (probedKey == 0)

            return 0;          

    }

}

上述功能都是线程安全的，无锁的ArrayOfItems出于同样的原因：对数组的元素采用原子操作，使用 cas 操作修改节点的key值(使用内存栅障保证线程安全，事实上就是重新排列了内存访问指令的执行次序)。在上一篇中有更详细的讨论。

最后，就像在以前的帖子中，我们可以优化SetItem，第一次判断是否可以避免使用CAS操作。如下这种优化，可以使示例应用程序运行快大约20％。

void HashTable1::SetI

首页上一页 1 2 下一页尾页 1/2/2
【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：Gym100920J	下一篇：c++静态成员