我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Node.js 子线程Crash 问题的排查方法

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Node.js 子线程Crash 问题的排查方法

前言:昨天碰到了一个 worker_threads crash 的问题,最终经过阅读源码和调试找到了具体原因。不得不说,阅读源码是解决问题的非常有效的方法。

代码例子如下。

index.js:

const addon = require.resolve('./build/Release/addon.node');
// this makes addon not be unloaded
require(addon);
const { Worker } = require('worker_threads');
new Worker(`require('${addon}').start();`, {eval: true});

event_loop.cc:

#include "event_loop.h"
void on_close(uv_handle_t *handle){
    delete handle;
}
void cleanup(void* data){
    uv_close((uv_handle_t *)data, on_close);
}
void Start(const Napi::CallbackInfo &args){
    Napi::Env env = args.Env();
    uv_loop_t *loop;
    v8::Isolate* isolate = v8::Isolate::GetCurrent();
    napi_get_uv_event_loop(env, &loop);
    uv_prepare_t* prepare_handle = new uv_prepare_t;
    uv_prepare_init(loop, prepare_handle);
    uv_unref((uv_handle_t *)prepare_handle);
    uv_prepare_start(prepare_handle, [](uv_prepare_t *handle) {});
    node::AddEnvironmentCleanupHook(isolate, cleanup, prepare_handle);
}
Napi::Object Initialize(Napi::Env env, Napi::Object exports){
    exports.Set(Napi::String::New(env, "start"), Napi::Function::New(env, Start));
    return exports;
}
NODE_API_MODULE(NODE_GYP_MODULE_NAME, Initialize)

总的来说就是我需要在 worker_threads 里使用 addon,然后在子线程退出时发生了 segmentation fault,但是在主线程里是没问题的(完整代码可参考 https://github.com/theanarkh/test_worker_thread)。首先分析下上面代码的过程,当在 JS 层执行 start 的时候,就会往 loop 里面插入一个任务,并通过 AddEnvironmentCleanupHook 注册了一个回调,这个回调在线程退出时会被执行,执行完 start 后线程就退出了,所以这时候 AddEnvironmentCleanupHook 的回调 cleanup 会被执行,cleanup 里调用 uv_close 关闭 handle,接着在线程真正退出时会执行一次 uv_run 处理 uv_close 的回调,从而释放内存。问题发生在执行 uv_close 的回调时出现了 crash。通过调试发现调用 uv_close 时传入的回调函数地址是 A,但是最终执行时地址变成了 B,而 B 是一个非法地址,从而导致了 crash。出现这个问题时,我就开始调试,尝试找出哪里修改了这个地址,但是无果,最终靠灵光一现,想到了动态链接库被卸载的问题,然后通过打断点发现果然如此。

下面通过 Node.js 的源码来分析这个问题。

WorkerThreadData data(this);
  {
    Locker locker(isolate_);
    Isolate::Scope isolate_scope(isolate_);
    SealHandleScope outer_seal(isolate_);
    DeleteFnPtr<Environment, FreeEnvironment> env_;
    // 离开作用域时执行 env_.reset();
    auto cleanup_env = OnScopeLeave([&]() {
      isolate_->CancelTerminateExecution();
      env_.reset();
    });
    // 初始化子线程
    {
      HandleScope handle_scope(isolate_);
      Local<Context> context;
      {
        TryCatch try_catch(isolate_);
        context = NewContext(isolate_);
      }
      Context::Scope context_scope(context);
      {
        env_.reset(CreateEnvironment(
            data.isolate_data_.get(),
            context,
            std::move(argv_),
            std::move(exec_argv_),
            static_cast<EnvironmentFlags::Flags>(environment_flags_),
            thread_id_,
            std::move(inspector_parent_handle_)));
      }
      {
        Mutex::ScopedLock lock(mutex_);
        if (stopped_) return;
        this->env_ = env_.get();
      }
      {
        if (LoadEnvironment(env_.get(), StartExecutionCallback{}).IsEmpty())
          return;
      }
    }
    // 进入子线程事件循环
    {
      Maybe<int> exit_code = SpinEventLoop(env_.get());
      Mutex::ScopedLock lock(mutex_);
      if (exit_code_ == 0 && exit_code.IsJust()) {
        exit_code_ = exit_code.FromJust();
      }
    }
  }

上面是子线程执行时的核心逻辑,当子线程退出时,OnScopeLeave 的第一个函数参数会被执行,从而执行 env_.reset(),接着执行 FreeEnvironment。

void FreeEnvironment(Environment* env) {
  Isolate* isolate = env->isolate();
  Isolate::DisallowJavascriptExecutionScope disallow_js(isolate,
      Isolate::DisallowJavascriptExecutionScope::THROW_ON_FAILURE);
  {
    HandleScope handle_scope(isolate);  // For env->context().
    Context::Scope context_scope(env->context());
    SealHandleScope seal_handle_scope(isolate);
    env->set_stopping(true);
    env->stop_sub_worker_contexts();
    // 执行 AddEnvironmentCleanupHook 回调
    env->RunCleanup();
    RunAtExit(env);
  }
  MultiIsolatePlatform* platform = env->isolate_data()->platform();
  if (platform != nullptr)
    platform->DrainTasks(isolate);
  // 删除 env 对象
  delete env;
}

FreeEnvironment 首先通过来 RunCleanup 执行通过 AddEnvironmentCleanupHook 注册的回调,回到开始的代码就是执行 uv_close 往 loop 里插入一个回调。接着 FreeEnvironment 删除了 env 对象,接下来看 env 的析构函数中相关的代码。

if (!is_main_thread()) {
    for (binding::DLib& addon : loaded_addons_) {
      addon.Close();
    }
  }

如果当前是子线程,析构函数会调用 addon.Close() 关闭动态链接库,也就是 addon,当 addon 的引用数为 0 就会被卸载。因为只有子线程里用到了 addon 所以 addon 会被卸载。这时候 uv_close 回调函数的地址就被修改了。env 处理完之后,接着是 WorkerThreadData 被析构,WorkerThreadData 析构函数中会再执行一次 uv_run 处理剩下的任务。

uv_run(&loop_, UV_RUN_ONCE);

所以 uv_close 的回调就会被执行,因为这时候回调函数的地址被修改成非法的了,所以导致了 crash。除了这个问题外,子线程退出前还会检查 loop,如果还有任务没有被关闭也会导致线程 crash。

void CheckedUvLoopClose(uv_loop_t* loop) {
  if (uv_loop_close(loop) == 0) return;
  PrintLibuvHandleInformation(loop, stderr);
  fflush(stderr);
  // Finally, abort.
  CHECK(0 && "uv_loop_close() while having open handles");
}

再看 uv_loop_close:

int uv_loop_close(uv_loop_t* loop) {
  QUEUE* q;
  uv_handle_t* h;
  if (uv__has_active_reqs(loop))
    return UV_EBUSY;
  QUEUE_FOREACH(q, &loop->handle_queue) {
    h = QUEUE_DATA(q, uv_handle_t, handle_queue);
    if (!(h->flags & UV_HANDLE_INTERNAL))
      return UV_EBUSY;
  }
  uv__loop_close(loop);
  if (loop == default_loop_ptr)
    default_loop_ptr = NULL;
  return 0;
}

总结:这个问题排查了很长的时间,最终靠一个切入点成功找到了问题,并通过源码深入了解了这个过程。源码,是学习一门技术非常重要的资料。

到此这篇关于Node.js 子线程Crash 问题的排查的文章就介绍到这了,更多相关Node.js 子线程Crash内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Node.js 子线程Crash 问题的排查方法

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Node.js子线程Crash问题如何排查

这篇文章主要介绍“Node.js子线程Crash问题如何排查”,在日常操作中,相信很多人在Node.js子线程Crash问题如何排查问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Node.js子线程Crash
2023-07-02

go语言程序cpu过高问题排查的方法详解

使用golang进行复杂的组合运算,导致CPU占用率非常高,下面这篇文章主要给大家介绍了关于go语言程序cpu过高问题排查的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2023-05-16

Win8系统中没有声音问题的排查方法

大家可以按照以下三个步骤去排查解决问题。 第一步:检查硬件 许多声音问题都是由于硬件设置不正确造成的。 此步骤包括检查声卡、将电缆插入正确的位置、确保硬件接通电源和检查音量。 检查声卡 检查以确保计算机安装了声卡或声音处理器,并且能够正常工
2022-06-04

Redis中的BigKey问题排查与解决方法是什么

这篇文章主要介绍“Redis中的BigKey问题排查与解决方法是什么”,在日常操作中,相信很多人在Redis中的BigKey问题排查与解决方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Redis中的
2023-07-05

sql server卡慢问题定位与排查的方法是什么

这篇“sql server卡慢问题定位与排查的方法是什么”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“sql server卡
2023-03-08

C++中的多线程同步问题及解决方法

C++中的多线程同步问题及解决方法多线程编程是提高程序性能和效率的一种方式,但同时也带来了一系列的同步问题。在多线程编程中,多个线程可能会同时访问和修改共享的数据资源,这可能导致数据的竞争条件、死锁、饥饿等问题。为了避免这些问题,我们需要使
2023-10-22

记一次线程爆满导致服务器崩溃的问题排查及解决

这篇文章主要介绍了记一次线程爆满导致服务器崩溃的问题排查及解决,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
2022-11-13

多线程编程中遇到的Python问题及解决方法

多线程编程中遇到的Python问题及解决方法Python是一种广泛使用的编程语言,它有许多优点,其中之一就是可以通过多线程来提高程序的执行效率。然而,在多线程编程中,也会遇到一些常见的问题。本文将讨论一些常见的多线程编程问题,并提供相应的解
2023-10-22

C#中常见的线程同步问题及解决方法

C#中常见的线程同步问题及解决方法引言:在多线程编程中,线程同步是一个关键的概念。当多个线程同时访问共享资源时,会导致数据不一致或出现竞态条件等问题。本文将介绍C#中常见的线程同步问题,并提供相应的解决方法和示例代码。一、不正确的数据共享当
2023-10-22

Java编程关于子类重写父类方法问题的理解

子类重新实现父类的方法称重写;重写时可以修改访问权限修饰符和返回值,方法名和参数类型及个数都不可以修改;仅当返回值为类类型时,重写的方法才可以修改返回值类型,且必须是父类方法返回值的子类;要么就不修改,与父类返回值类型相同。那么,该如何理解
2023-05-30

【服务器】无法进行ssh连接的问题逐一排查以及解决方法

一、检查服务器网络 先检查是否是网络的问题。按快捷键Win+R,在弹出的对话框中输入cmd。 点击确定运行。在cmd窗口输入ping一下服务器的ip地址。 如果出现请求超时,解决办法如下: 在服务器端输入ifconfig命令,查看要连接
2023-08-18

Java多线程编程中的并发安全问题及解决方法

保障多线程并发安全,解决线程同步与锁竞争问题,提高应用性能与可靠性。多线程编程需要考虑线程安全性,使用同步机制保证共享变量的一致性,避免线程竞争导致的数据不一致与死锁等问题。常用的同步机制包括synchronized、ReentrantLock、volatile等
2023-05-16

编程热搜

目录