线程A 线程B
mutex1 enter mutex2 enter
mutex2 enter mutex1 enter
执行任务 执行任务
mutex2 release mutex1 release
mutex1 release mutex2 release
了解了死锁的概念后,我们就可以开始分析innodb中关于死锁检测的流程细节,innodb的检车死锁的实质就是判断 要进行锁的latch是否会产生所有线程的闭环,这个是通过sync_array_cell_t的内容来判断的。在开始等待cell信号的时候, 会判断将自己的状态信息放入sync_array_cell_t当中,在进入os event wait之前会调用sync_array_detect_deadlock来判 断是否死锁,如果死锁,会触发一个异常。死锁检测的关键在与sync_array_detect_deadlock函数。 以下是检测死锁的流程描述:
1、将进入等待的latch对应的cell作为参数传入到sync_array_detect_deadlock当中,其中start的参数和依赖的cell参 数填写的都是这个cell自己。
2、进入sync_array_detect_deadlock先判断依赖的cell是否正在等待latch,如果没有,表示没有死锁,直接返回. 如果有,先判断等待的锁被哪个线程占用,并获得占用线程的id,通过占用线程的id和全局的sync_array_t 等待cell数组状 态信息调用sync_array_deadlock_step来判断等待线程的锁依赖。 3、进入sync_array_deadlock_step先找到占用线程的对应cell,如果cell和最初的需要event wait的cell是同一 个cell,表示是一个闭环,将产生死锁。如果没有,继续将查询到的cell作为参数递归调用 sync_array_detect_deadlock执行第2步。这是个两函数交叉递归判断的过程。 在检测死锁过程latch句柄、thread id、cell句柄三者之间环环相扣和递归,通过latch的本身的状态来判断闭环死锁。在上面的第2步会根据latch是mutex和rw_lock的区别做区分判断,这是由于mutex和rw_lock的运作机制不同造成的。因为关系 数据库的latch使用非常频繁和复杂,检查死锁对于锁的调试是非常有效的,尤其是配合thread_levels状态信息输出来做调试,对死锁排查是非常有意义的。
死锁示意图: