2024年11月Linux下如何处理一次用户态进程死循环问题-宝宝笔记本

　　⑴在进行Linux系统操作的时候，有时候会遇到一次用户态进程死循环，即系统反应迟钝、进程挂死等问题，那么遇到这些问题又该如何解决呢？下面小编就给大家介绍下一次用户态进程死循环的问题该如何处理。

　　⑵业务进程（用户态多线程程序挂死，操作系统反应迟钝，系统日志没有任何异常。从进程的内核态堆栈看，看似所有线程都卡在了内核态的如下堆栈流程中：

　　⑶［rootvmc ~］# cat /proc//task//stack

　　⑷［《ffffffffbaf》］ retint_careful+x/x

　　⑸［《ffffffffffffffff》］ xffffffffffffffff

　　⑹从内核堆栈看，所有进程都阻塞在 retint_careful上，这个是中断返回过程中的流程，代码（汇编如下：

　　⑺entry_.S

　　⑻ret_from_intr：

　　⑼DISABLE_INTERRUPTS（CLBR_NONE

　　⑽TRACE_IRQS_OFF

　　⑾decl PER_CPU_VAR（irq_count

　　⑿/* Restore saved previous stack */

　　⒀popq %rsi

　　⒁CFI_DEF_CFA rsi，SS+-RBP /* reg/off reset after def_cfa_expr */

　　⒂leaq ARGOFFSET-RBP（%rsi， %rsp

　　⒃CFI_DEF_CFA_REGISTER rsp

　　⒄CFI_ADJUST_CFA_OFFSET RBP-ARGOFFSET

　　⒅retint_careful：

　　⒆CFI_RESTORE_STATE

　　⒇bt $TIF_NEED_RESCHED，%edx

　　⒈jnc retint_signal

　　⒉TRACE_IRQS_ON

　　⒊ENABLE_INTERRUPTS（CLBR_NONE

　　⒋pushq_cfi %rdi

　　⒌SCHEDULE_USER

　　⒍popq_cfi %rdi

　　⒎GET_THREAD_INFO（%rcx

　　⒏DISABLE_INTERRUPTS（CLBR_NONE

　　⒐TRACE_IRQS_OFF

　　⒑jmp retint_check

　　⒒这其实是用户态进程在用户态被中断打断后，从中断返回的流程，结合retint_careful+x/x，进行反汇编，可以确认阻塞的点其实就在

　　⒓SCHEDULE_USER

　　⒔这其实就是调用schedule（进行调度，也就是说当进程走到中断返回的流程中时，发现需要调度（设置了TIF_NEED_RESCHED，于是在这里发生了调度。

　　⒕有一个疑问：为什么在堆栈中看不到schedule（这一级的栈帧呢？

　　⒖因为这里是汇编直接调用的，没有进行相关栈帧压栈和上下文保存操作。

　　⒗进行状态信息分析

　　⒘从top命令结果看，相关线程实际一直处于R状态，CPU几乎完全耗尽，而且绝大部分都消耗在用户态：

　　⒙［rootvmc ~］# top

　　⒚top - :: up days， :， users， load average： .， .， .

　　⒛Tasks： total， running， sleeping， stopped， zombie

　　①Cpu（s： .鎒.%sy， .%ni， .%id， .%wa， .%hi， .%si， .%st

　　②Mem： k total， k used， k free， k buffers

　　③Swap： k total， k used， k free， k cached

　　④PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ MAND

　　⑤ root m m m R . . :. z_itask_templat

　　⑥ root m m m R . . :. z_itask_templat

　　⑦ root m m m R . . :. z_itask_templat

　　⑧ root m m m R . . :. z_itask_templat

　　⑨ root m m m R . . :. z_itask_templat

　　⑩ root m m m R . . :. z_itask_templat

　　Ⅰ root m m m R . . :. z_itask_templat

　　Ⅱ root m m m R . . :. z_itask_templat

　　Ⅲ root m m m R . . :. z_itask_templat

　　Ⅳ root m m m R . . :. z_itask_templat

　　Ⅴ root m m m R . . :. z_itask_templat

　　Ⅵ root m m m R . . :. z_itask_templat

　　Ⅶ root m m m R . . :. z_itask_templat

　　Ⅷ root m m m R . . :. z_itask_templat

　　Ⅸ root m m m R . . :. z_itask_templat

　　Ⅹ root m m m R . . :. z_itask_templat

　　㈠ root m m m R . . :. z_itask_templat

　　㈡从相关线程的调度信息看：

　　㈢［rootvmc ~］# cat /proc//task//schedstat

　　㈣［rootvmc ~］# cat /proc//task//schedstat

　　㈤［rootvmc ~］# cat /proc//task//schedstat

　　㈥［rootvmc ~］# cat /proc//task//schedstat

　　㈦［rootvmc ~］# cat /proc//task//schedstat

　　㈧发现相关线程的调度统计一直在增加，说明相关线程一直是在被调度运行的，结合其状态也一直是R，推测很可能在用户态发生了死循环（或者非睡眠死锁。

　　㈨这里又有问题：为什么从top看每个线程的CPU占用率只有%左右，而不是通常看到的死循环进程导致的%的占用率？

　　㈩因为线程数很多，而且优先级都一样，根据CFS调度算法，会平均分配时间片，不会让其中一个线程独占CPU。结果为多个线程间轮流调度，消耗掉了所有的cpu。。

　　另一个问题：为什么这种情况下，内核没有检测到softlockup？

　　因为业务进程的优先级不高，不会影响watchdog内核线程（最高优先级的实时线程的调度，所以不会产生softlockup的情况。

　　再一个问题：为什么每次查看线程堆栈时，总是阻塞在retint_careful，而不是其它地方？

　　因为这里（中断返回的时候正是调度的时机点，在其它时间点不能发生调度（不考虑其它情况~，而我们查看线程堆栈的行为，也必须依赖于进程调度，所以我们每次查看堆栈时，正是查看堆栈的进程（cat命令得到调度的时候，这时正是中断返回的时候，所以正好看到的阻塞点为retint_careful。

　　从上面的分析看，推测应该是用户态发生了死锁。

　　用户态确认方法：

　　部署debug信息，然后gdb attach相关进程，确认堆栈，并结合代码逻辑分析。

　　最终确认该问题确为用户态进程中产生了死循环。

　　以上就是linux系统下一次用户态进程死循环问题的处理方法介绍了，先要分析出现问题的原因，然后再根据原因进行处理，你学会了吗？

2024年11月Linux下如何处理一次用户态进程死循环问题

最新文章

推荐文章