找回密码
 立即注册
首页 业界区 业界 .NET外挂系列:7. harmony在高级调试中的一些实战案例 ...

.NET外挂系列:7. harmony在高级调试中的一些实战案例

郗燕岚 2025-6-3 00:15:29
一:背景

1. 讲故事

如果你读完前六篇,我相信你对 harmony 的简单使用应该是没什么问题了,现在你处于手拿锤子看谁都是钉子的情况,那这篇我就找高级调试里非常经典的 3个钉子 让大家捶一锤。
二:三大故障案例

1. ConcurrentBag 大集合问题

在高级调试中经常会遇到一类问题就是托管内存暴涨,最终在托管堆上发现了超大的一个集合,windbg 输出如下:
  1. 0:014> !gcroot 028266c9ff30
  2. HandleTable:
  3.     0000028262d51328 (strong handle)
  4.           -> 0282675459a0     System.Object[]
  5.           -> 0282675459c8     System.Threading.ThreadLocal<System.Collections.Concurrent.ConcurrentBag<Example_20_1_1.Student>+WorkStealingQueue>+LinkedSlotVolatile[]
  6.           -> 028267545a00     System.Threading.ThreadLocal<System.Collections.Concurrent.ConcurrentBag<Example_20_1_1.Student>+WorkStealingQueue>+LinkedSlot
  7.           -> 028267545a30     System.Collections.Concurrent.ConcurrentBag<Example_20_1_1.Student>+WorkStealingQueue
  8.           -> 028267fe0198     Example_20_1_1.Student[]
  9.           -> 028266c9ff30     Example_20_1_1.Student
  10. 0:014> !dumpobj /d 28267545a30
  11. Name:        System.Collections.Concurrent.ConcurrentBag`1+WorkStealingQueue[[Example_20_1_1.Student, Example_20_1_1]]
  12. File:        C:\Program Files\dotnet\shared\Microsoft.NETCore.App\8.0.13\System.Collections.Concurrent.dll
  13. Fields:
  14.               MT    Field   Offset                 Type VT     Attr            Value Name
  15. 00007fff8fc31188  4000017       18         System.Int32  1 instance                0 _headIndex
  16. 00007fff8fc31188  4000018       1c         System.Int32  1 instance          1000000 _tailIndex
  17. 00007fff8fe76168  4000019        8     System.__Canon[]  0 instance 0000028267fe0198 _array
  18. ...
复制代码
从windbg的输出中可以看到ConcurrentBag中有100w条记录,现在我就特别想知道,这个ConcurrentBag的变量是什么,谁在不断的Add操作?这刚好是 harmony 的大显神威之处,由于引用类型的泛型参数统一由__Canon替代,这里我就使用它的基类 object,参考代码如下:
  1. namespace Example_20_1_1
  2. {
  3.     internal class Program
  4.     {
  5.         static void Main(string[] args)
  6.         {
  7.             var harmony = new Harmony("com.example.threadhook");
  8.             harmony.PatchAll();
  9.             RunWork();
  10.             Console.ReadLine();
  11.         }
  12.         static void RunWork()
  13.         {
  14.             ConcurrentBag<Student> studentBags = new ConcurrentBag<Student>();
  15.             studentBags.Add(new Student() { Id = 1 });
  16.             studentBags.Add(new Student() { Id = 2 });
  17.             ConcurrentBag<Person> personBags = new ConcurrentBag<Person>();
  18.             personBags.Add(new Person() { Id = 1 });
  19.         }
  20.     }
  21.     [HarmonyPatch(typeof(ConcurrentBag<object>), "Add", new Type[] { typeof(object) })]
  22.     public class ConcurrentBagHook
  23.     {
  24.         public static void Prefix(object __instance) { }
  25.         public static void Postfix(object __instance, object __0)
  26.         {
  27.             var count = Traverse.Create(__instance).Property("Count").GetValue<int>();
  28.             Console.WriteLine($"泛型参数:{__0.GetType()},当前Count={count}");
  29.             Console.WriteLine(Environment.StackTrace);
  30.         }
  31.     }
  32.     public class Student { public int Id { get; set; } }
  33.     public class Person { public int Id { get; set; } }
  34. }
复制代码
1.png

从卦中可以看到不同类型的 ConcurrentBag 的集合元素数,以及对应的上层调用栈,根据调用栈自然就能找到问题,即使它是在第三方sdk中。
2. 非主线程创建UI控件导致卡死

这个问题是 wpf/winform 常遇到的经典问题,介绍的再多也不为过,凡是遇到这种经典都会有这样的调用栈。
  1. 0:000:x86> !clrstack
  2. OS Thread Id: 0x4eb688 (0)
  3. Child SP       IP Call Site
  4. 002fed38 0000002b [HelperMethodFrame_1OBJ: 002fed38] System.Threading.WaitHandle.WaitOneNative(System.Runtime.InteropServices.SafeHandle, UInt32, Boolean, Boolean)
  5. 002fee1c 5cddad21 System.Threading.WaitHandle.InternalWaitOne(System.Runtime.InteropServices.SafeHandle, Int64, Boolean, Boolean)
  6. 002fee34 5cddace8 System.Threading.WaitHandle.WaitOne(Int32, Boolean)
  7. 002fee48 538d876c System.Windows.Forms.Control.WaitForWaitHandle(System.Threading.WaitHandle)
  8. 002fee88 53c5214a System.Windows.Forms.Control.MarshaledInvoke(System.Windows.Forms.Control, System.Delegate, System.Object[], Boolean)
  9. 002fee8c 538dab4b [InlinedCallFrame: 002fee8c]
  10. 002fef14 538dab4b System.Windows.Forms.Control.Invoke(System.Delegate, System.Object[])
  11. 002fef48 53b03bc6 System.Windows.Forms.WindowsFormsSynchronizationContext.Send(System.Threading.SendOrPostCallback, System.Object)
  12. 002fef60 5c774708 Microsoft.Win32.SystemEvents+SystemEventInvokeInfo.Invoke(Boolean, System.Object[])
  13. 002fef94 5c6616ec Microsoft.Win32.SystemEvents.RaiseEvent(Boolean, System.Object, System.Object[])
  14. 002fefe8 5c660cd4 Microsoft.Win32.SystemEvents.OnUserPreferenceChanged(Int32, IntPtr, IntPtr)
  15. 002ff008 5c882c98 Microsoft.Win32.SystemEvents.WindowProc(IntPtr, Int32, IntPtr, IntPtr)
  16. ...
复制代码
底层原理我在 https://www.cnblogs.com/huangxincheng/p/18668388 这一篇中跟大家详细聊过,这里就不细说了,在这里我只要追踪到那个不该出生的control 就算赢了,即Application下的内部类 MarshalingControl,参考代码如下:
  1. namespace WindowsFormsApp1
  2. {
  3.     public partial class Form1 : Form
  4.     {
  5.         public Form1()
  6.         {
  7.             InitializeComponent();
  8.             var harmony = new Harmony("com.example.marshalingcontrolhook");
  9.             harmony.PatchAll();
  10.         }
  11.         private void Form1_Load(object sender, EventArgs e) { }
  12.         private void backgroundWorker1_DoWork(object sender, DoWorkEventArgs e)
  13.         {
  14.             Button btn = new Button();
  15.             var query = btn.Handle;
  16.         }
  17.         private void button1_Click(object sender, EventArgs e)
  18.         {
  19.             backgroundWorker1.RunWorkerAsync();
  20.         }
  21.     }
  22.     [HarmonyPatch]
  23.     public class MarshalingControlHook
  24.     {
  25.         [HarmonyTargetMethod]
  26.         static MethodBase TargetMethod()
  27.         {
  28.             var methodInfo = AccessTools.Inner(typeof(Application), "MarshalingControl").Constructor();
  29.             return methodInfo;
  30.         }
  31.         public static void Prefix()
  32.         {
  33.             Debug.WriteLine("----------------------------");
  34.             Debug.WriteLine($"控件创建线程:{Thread.CurrentThread.ManagedThreadId}");
  35.             Debug.WriteLine(Environment.StackTrace);
  36.             Debug.WriteLine("----------------------------");
  37.         }
  38.     }
  39. }
复制代码
2.png

从卦中可以轻松的看到,原来是用户代码 backgroundWorker1_DoWork 创建的 MarshalingControl 类,自此真相大白。
3. 孤儿锁问题

在大家的潜意识中都会认为lock锁都是有进有出,但在真实的场景下也会存在 有进没出 的情况,那是什么场景呢?对,就是 lock 处理非托管代码的时候,如果非托管代码意外让当前线程退出,就会遇到这种经典的 孤儿锁 现象,参考代码如下:
  1.     internal class Program
  2.     {
  3.         [DllImport("Example_20_1_5", CallingConvention = CallingConvention.Cdecl)]
  4.         public extern static void dowork();
  5.         public static object lockMe = new object();
  6.         static void Main(string[] args)
  7.         {
  8.             var harmony = new Harmony("com.example.monitorhook");
  9.             harmony.PatchAll();
  10.             for (int i = 0; i < 3; i++)
  11.             {
  12.                 Task.Run(() =>
  13.                 {
  14.                     lock (lockMe)
  15.                     {
  16.                         Console.WriteLine("1. 调用 C++ 代码...");
  17.                         dowork();
  18.                         Console.WriteLine("2. C++ 代码执行完毕...");
  19.                     }
  20.                 });
  21.             }
  22.             Console.ReadLine();
  23.         }
  24.     }
复制代码
代码中的 dowork 是由 C 实现的,参考如下:
  1. extern "C"
  2. {
  3.         _declspec(dllexport) void dowork();
  4. }
  5. #include "iostream"
  6. #include <Windows.h>
  7. using namespace std;
  8. void dowork()
  9. {
  10.         ExitThread(0);
  11. }
复制代码
启动程序后,你会发现 !syncblk 中对object的持有线程丢了。。。一旦丢失,就会污染 object的对象头,导致其他线程一直等待 持有线程 的释放,最终引发程序卡死的灾难后果,参考如下:
  1. 0:008> !syncblk
  2. Index SyncBlock MonitorHeld Recursion Owning Thread Info  SyncBlock Owner
  3.     1 02D562D4            5         1 02D4D400 0 XXX   0504c1b0 System.Object
  4. -----------------------------
  5. Total           2
  6. CCW             0
  7. RCW             0
  8. ComClassFactory 0
  9. Free            0
复制代码
上面的XXX就是丢失的持有线程,接下来的问题就是洞察到底是哪个线程持有锁之后意外退出了。。。这也是 harmony 的强项,我们对 lock 的底层 Monitor.Enter 进行监控,通过 object 的内存地址观察当初是谁调用的,修改后的完整代码如下:
  1.     internal class Program
  2.     {
  3.         [DllImport("Example_20_1_5", CallingConvention = CallingConvention.Cdecl)]
  4.         public extern static void dowork();
  5.         public static object lockMe = new object();
  6.         static void Main(string[] args)
  7.         {
  8.             var harmony = new Harmony("com.example.monitorhook");
  9.             harmony.PatchAll();
  10.             for (int i = 0; i < 3; i++)
  11.             {
  12.                 Task.Run(() =>
  13.                 {
  14.                     lock (lockMe)
  15.                     {
  16.                         Console.WriteLine("1. 调用 C++ 代码...");
  17.                         dowork();
  18.                         Console.WriteLine("2. C++ 代码执行完毕...");
  19.                     }
  20.                 });
  21.             }
  22.             Console.ReadLine();
  23.         }
  24.     }    [HarmonyPatch]    public class MonitorHook    {        [HarmonyTargetMethod]        static MethodBase TargetMethod()        {            var enterMethodInfo = AccessTools.Method(typeof(Monitor), "Enter", new[] { typeof(object), typeof(bool).MakeByRefType() });            return enterMethodInfo;        }        public static unsafe void Postfix(object obj)        {            void** ptr = (void**)Unsafe.AsPointer(ref obj);            //注意:不要使用带 lock 的底层方法,否则会导致 死循环,建议将内容通过 c++ 写入。            Debug.WriteLine("-----------------------");            Debug.WriteLine($"对象引用地址: 0x{(long)(*ptr):X8} , tid={Thread.CurrentThread.ManagedThreadId}, 调用栈:\n {Environment.StackTrace}");            Debug.WriteLine("-----------------------");        }    }
复制代码
程序执行后,观察 output 和 windbg 的输出信息,参考如下:
  1. -----------------------
  2. 对象引用地址: 0x057CCFD8 , tid=4, 调用栈:
  3.     at System.Environment.get_StackTrace()
  4.    at Example_20_1_1.MonitorHook.Postfix(Object obj) in D:\skyfly\20.20250116\src\Example\Example_20_1_1\Program.cs:line 61
  5.    at System.Threading.Monitor.Enter_Patch1(Object obj, Boolean& lockTaken)
  6.    at Example_20_1_1.Program.<>c.<Main>b__2_0() in D:\skyfly\20.20250116\src\Example\Example_20_1_1\Program.cs:line 31
  7.    at System.Threading.Tasks.Task.InnerInvoke()
  8.    at System.Threading.Tasks.Task.<>c.<.cctor>b__281_0(Object obj)
  9.    at System.Threading.ExecutionContext.RunFromThreadPoolDispatchLoop(Thread threadPoolThread, ExecutionContext executionContext, ContextCallback callback, Object state)
  10.    at System.Threading.Tasks.Task.ExecuteWithThreadLocal(Task& currentTaskSlot, Thread threadPoolThread)
  11.    at System.Threading.Tasks.Task.ExecuteEntryUnsafe(Thread threadPoolThread)
  12.    at System.Threading.Tasks.Task.ExecuteFromThreadPool(Thread threadPoolThread)
  13.    at System.Threading.ThreadPoolWorkQueue.Dispatch()
  14.    at System.Threading.PortableThreadPool.WorkerThread.WorkerThreadStart()
  15.    at System.Threading.Thread.StartCallback()
  16. -----------------------
  17. 0:008> !syncblk
  18. Index SyncBlock MonitorHeld Recursion Owning Thread Info  SyncBlock Owner
  19.     5 0AE90184            5         1 035EC578 0 XXX   057ccfd8 System.Object
  20. -----------------------------
  21. Total           6
  22. CCW             0
  23. RCW             0
  24. ComClassFactory 0
  25. Free            0
复制代码
根据上面调用栈的输出结果,原来这个 057ccfd8 的 object 是由 b__2_0 方法调用的,在真实场景中可能有多处,不过此时我们把范围已经缩小到了极致。
这里还有一个告警点,即我用了 Debug.WriteLine 而没有使用 Console.WriteLine 是因为后者本身就带有锁,使用的话就直接死循环了,建议大家写一个C的导出函数来输出内容。
三:总结

本篇列出的3个案例在.NET高级调试领域中还是非常经典的,如果用的合适,相信对你找出程序的疑难杂症事半功倍。
3.jpg


来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册