high RAM usage #265

eort · 2023-08-15T13:42:27Z

eort
Aug 15, 2023

Hi all,

I have run into some problems with memory usage when trying to fit a regression model. My setup is following:

n_subs = 60, 
trials_per_sub = ~ 2400

the model I run is following: 

model = hssm.HSSM(
    data=data,
    z=0.5,
    model='ornstein',
    loglik=ornstein.onnx,
    "include":[
                    {
                        "name": "v",
                        "formula":"v ~ 1 + (1|subj_idx) + coh",
                        "link": "identity"
                    }   
    ],
    hierarchical=True,
    p_outlier=0.01)

InfData = model.sample(
    sampler="nuts_numpyro",  # type of sampler to choose, 'nuts_numpyro', 'nuts_blackjax' of default pymc nuts sampler
    cores=10,  # how many cores to use
    chains=4,  # how many chains to run
    draws=450,  # number of draws from the markov chain
    tune=50,  # number of burn-in samples
    idata_kwargs=dict(log_likelihood=True))

When I run this, I get following error

Traceback (most recent call last):
  File "/gpfs/project/ort/lorasick/ddm/code/hssm_test.py", line 65, in <module>
    InfData = model.sample(
              ^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/hssm/hssm.py", line 554, in sample
    self._inference_obj = self.model.fit(inference_method=sampler, **kwargs)
                          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/bambi/models.py", line 325, in fit
    return self.backend.run(
           ^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/bambi/backend/pymc.py", line 96, in run
    result = self._run_mcmc(
             ^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/bambi/backend/pymc.py", line 211, in _run_mcmc
    idata = pymc.sampling_jax.sample_numpyro_nuts(
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/pymc/sampling/jax.py", line 694, in sample_numpyro_nuts
    log_likelihood = _get_log_likelihood(
                     ^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/pymc/sampling/jax.py", line 226, in _get_log_likelihood
    result = _postprocess_samples(jax_fn, samples, backend, num_chunks=num_chunks)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/pymc/sampling/jax.py", line 181, in _postprocess_samples
    return jax.vmap(jax.vmap(jax_fn))(
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/traceback_util.py", line 166, in reraise_with_filtered_traceback
    return fun(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/api.py", line 1258, in vmap_f
    out_flat = batching.batch(
               ^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/linear_util.py", line 188, in call_wrapped
    ans = self.f(*args, **dict(self.params, **kwargs))
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/traceback_util.py", line 166, in reraise_with_filtered_traceback
    return fun(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/api.py", line 1258, in vmap_f
    out_flat = batching.batch(
               ^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/linear_util.py", line 188, in call_wrapped
    ans = self.f(*args, **dict(self.params, **kwargs))
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/var/tmp/pbs.7932803.hpc-batch/tmpxfgctsnv", line 47, in jax_funcified_fgraph
    tensor_variable_22 = logp(rt_response, tensor_variable_21, tensor_variable_12, tensor_constant_8, tensor_variable_7, tensor_variable_4)
                         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/traceback_util.py", line 166, in reraise_with_filtered_traceback
    return fun(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/api.py", line 1258, in vmap_f
    out_flat = batching.batch(
               ^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/linear_util.py", line 188, in call_wrapped
    ans = self.f(*args, **dict(self.params, **kwargs))
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/hssm/distribution_utils/onnx/onnx.py", line 78, in logp
    return interpret_onnx(loaded_model.graph, input_vector)[0].squeeze()
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/hssm/distribution_utils/onnx/onnx2xla.py", line 159, in interpret_onnx
    outputs = onnx_ops[node.op_type](*args, **attrs)
              ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/hssm/distribution_utils/onnx/onnx2xla.py", line 121, in onnx_gemm
    return [alpha * jnp.matmul(a, b) + beta * c]
            ~~~~~~^~~~~~~~~~~~~~~~~~
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/numpy/array_methods.py", line 723, in op
    return getattr(self.aval, f"_{name}")(self, *args)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/numpy/array_methods.py", line 256, in deferring_binary_op
    return binary_op(*args)
           ^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/traceback_util.py", line 166, in reraise_with_filtered_traceback
    return fun(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/pjit.py", line 253, in cache_miss
    outs, out_flat, out_tree, args_flat, jaxpr = _python_pjit_helper(
                                                 ^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/pjit.py", line 166, in _python_pjit_helper
    out_flat = pjit_p.bind(*args_flat, **params)
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 2596, in bind
    return self.bind_with_trace(top_trace, args, params)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 389, in bind_with_trace
    out = trace.process_primitive(self, map(trace.full_raise, args), params)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/interpreters/batching.py", line 431, in process_primitive
    val_out, dim_out = batched_primitive(vals_in, dims_in, **params)
                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/pjit.py", line 1431, in _pjit_batcher
    vals_out = pjit_p.bind(
               ^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 2596, in bind
    return self.bind_with_trace(top_trace, args, params)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 389, in bind_with_trace
    out = trace.process_primitive(self, map(trace.full_raise, args), params)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/interpreters/batching.py", line 431, in process_primitive
    val_out, dim_out = batched_primitive(vals_in, dims_in, **params)
                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/pjit.py", line 1431, in _pjit_batcher
    vals_out = pjit_p.bind(
               ^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 2596, in bind
    return self.bind_with_trace(top_trace, args, params)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 389, in bind_with_trace
    out = trace.process_primitive(self, map(trace.full_raise, args), params)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/interpreters/batching.py", line 431, in process_primitive
    val_out, dim_out = batched_primitive(vals_in, dims_in, **params)
                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/pjit.py", line 1431, in _pjit_batcher
    vals_out = pjit_p.bind(
               ^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 2596, in bind
    return self.bind_with_trace(top_trace, args, params)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 389, in bind_with_trace
    out = trace.process_primitive(self, map(trace.full_raise, args), params)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 821, in process_primitive
    return primitive.impl(*tracers, **params)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/pjit.py", line 1209, in _pjit_call_impl
    return xc._xla.pjit(name, f, call_impl_cache_miss, [], [], donated_argnums,
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/pjit.py", line 1192, in call_impl_cache_miss
    out_flat, compiled = _pjit_call_impl_python(
                         ^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/pjit.py", line 1148, in _pjit_call_impl_python
    return compiled.unsafe_call(*args), compiled
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/profiler.py", line 314, in wrapper
    return func(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/interpreters/pxla.py", line 1229, in __call__
    results = self.xla_executable.execute_sharded(input_bufs)
              ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
jax._src.traceback_util.UnfilteredStackTrace: jaxlib.xla_extension.XlaRuntimeError: RESOURCE_EXHAUSTED: Out of memory allocating 103364800000 bytes.

So apparently I am out of memory, when I check my memory usage though, I am only at 59% of the RAM I've requested (~100GB out of 180GB), which surprised me. Does anyone have an idea what is happening here?

Thanks,
Eduard

Answered by digicosmos86

Oct 5, 2023

From the error message, since the error happens after sampling, it's very likely that the error is due to how PyMC handles the post-sampling calculation of likelihoods. It seems that they have recently changed this process to improve the stability of this calculation (they removed the use of chunks, for example, and added a "scan" vectorization here) which might help with memory usage.

Would you mind trying the latest version of hssm, which has the latest PyMC (5.9.0) as a dependency? You can install it in the same environment with pip install git+https://github.com/lnccbrown/HSSM.git@280-pin-numpy-version

View full answer

digicosmos86 · 2023-08-21T14:00:59Z

digicosmos86
Aug 21, 2023
Maintainer

Hi Eduard,

It seems that you are running 4 chains in parallel? I am not sure how Jax vectorization works exactly under the hood, but since there are quite a bit of matrix multiplication involved with some pretty large matrices, it's possible that you could run out of memory. Can you try reducing core counts and see if that helps?

1 reply

eort Sep 19, 2023
Author

I'll unmark this answer as it does not really solve the problem. I hope this it alright.

eort · 2023-09-19T08:56:35Z

eort
Sep 19, 2023
Author

Hi @digicosmos86,

Sorry for the tardy reply. I tried reducing the core count, running 4 chains (1500 samples) on one core, but the problem remains is very similar if not the same. It crashes when computing the Log Likelihood after the sampling (see below). Is that something I should approach the Jax people about? Or what else can I do to run multiple chains of a model?


Traceback (most recent call last):
  File "/gpfs/project/ort/lorasick/ddm/code/hssm_test.py", line 66, in <module>
    InfData = model.sample(
              ^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/hssm/hssm.py", line 554, in sample
    self._inference_obj = self.model.fit(inference_method=sampler, **kwargs)
                          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/bambi/models.py", line 325, in fit
    return self.backend.run(
           ^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/bambi/backend/pymc.py", line 96, in run
    result = self._run_mcmc(
             ^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/bambi/backend/pymc.py", line 211, in _run_mcmc
    idata = pymc.sampling_jax.sample_numpyro_nuts(
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/pymc/sampling/jax.py", line 694, in sample_numpyro_nuts
    log_likelihood = _get_log_likelihood(
                     ^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/pymc/sampling/jax.py", line 226, in _get_log_likelihood
    result = _postprocess_samples(jax_fn, samples, backend, num_chunks=num_chunks)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/pymc/sampling/jax.py", line 181, in _postprocess_samples
    return jax.vmap(jax.vmap(jax_fn))(
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/var/tmp/pbs.8136499.hpc-batch/tmpvle8gmgr", line 47, in jax_funcified_fgraph
    tensor_variable_22 = logp(rt_response, tensor_variable_21, tensor_variable_12, tensor_constant_8, tensor_variable_7, tensor_variable_4)
                         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/hssm/distribution_utils/onnx/onnx.py", line 78, in logp
    return interpret_onnx(loaded_model.graph, input_vector)[0].squeeze()
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/hssm/distribution_utils/onnx/onnx2xla.py", line 159, in interpret_onnx
    outputs = onnx_ops[node.op_type](*args, **attrs)
              ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/hssm/distribution_utils/onnx/onnx2xla.py", line 121, in onnx_gemm
    return [alpha * jnp.matmul(a, b) + beta * c]
                    ^^^^^^^^^^^^^^^^
jaxlib.xla_extension.XlaRuntimeError: RESOURCE_EXHAUSTED: Out of memory allocating 295328000000 bytes.

0 replies

digicosmos86 · 2023-09-21T15:19:16Z

digicosmos86
Sep 21, 2023
Maintainer

Thanks for letting us know, Eduard! That does seem like Jax is allocating a lot of memory. We have a few leads and will definitely look into this. Please stay tuned :)

0 replies

digicosmos86 · 2023-09-21T15:43:53Z

digicosmos86
Sep 21, 2023
Maintainer

BTW, to help us debug this issue, can you try adding this extra argument to your model configuration: model_config={"backend": "pytensor" }? So your model configuration would look like this:

model = hssm.HSSM(
    data=data,
    z=0.5,
    model='ornstein',
    loglik=ornstein.onnx,
    "include":[
                    {
                        "name": "v",
                        "formula":"v ~ 1 + (1|subj_idx) + coh",
                        "link": "identity"
                    }   
    ],
    hierarchical=True,
    p_outlier=0.01,
    model_config={"backend": "pytensor" },
)

2 replies

eort Sep 27, 2023
Author

Here the complete trace of that call you suggested:

Running chain 0: 100%|██████████| 1500/1500 [22:18:51<00:00, 53.55s/it]
Running chain 1: 100%|██████████| 1500/1500 [22:18:51<00:00, 53.55s/it]
Running chain 2: 100%|██████████| 1500/1500 [22:18:51<00:00, 53.55s/it]
Running chain 3: 100%|██████████| 1500/1500 [22:18:51<00:00, 53.55s/it]
Traceback (most recent call last):
  File "/gpfs/project/project/lorasick/ddm/code/hssm_test.py", line 67, in <module>
    InfData = model.sample(
              ^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/hssm/hssm.py", line 554, in sample
    self._inference_obj = self.model.fit(inference_method=sampler, **kwargs)
                          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/bambi/models.py", line 325, in fit
    return self.backend.run(
           ^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/bambi/backend/pymc.py", line 96, in run
    result = self._run_mcmc(
             ^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/bambi/backend/pymc.py", line 211, in _run_mcmc
    idata = pymc.sampling_jax.sample_numpyro_nuts(
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/pymc/sampling/jax.py", line 694, in sample_numpyro_nuts
    log_likelihood = _get_log_likelihood(
                     ^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/pymc/sampling/jax.py", line 226, in _get_log_likelihood
    result = _postprocess_samples(jax_fn, samples, backend, num_chunks=num_chunks)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/pymc/sampling/jax.py", line 181, in _postprocess_samples
    return jax.vmap(jax.vmap(jax_fn))(
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/traceback_util.py", line 166, in reraise_with_filtered_traceback
    return fun(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/api.py", line 1258, in vmap_f
    out_flat = batching.batch(
               ^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/linear_util.py", line 188, in call_wrapped
    ans = self.f(*args, **dict(self.params, **kwargs))
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/traceback_util.py", line 166, in reraise_with_filtered_traceback
    return fun(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/api.py", line 1258, in vmap_f
    out_flat = batching.batch(
               ^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/linear_util.py", line 188, in call_wrapped
    ans = self.f(*args, **dict(self.params, **kwargs))
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/var/tmp/pbs.8187574.hpc-batch/tmpam0xlsf8", line 61, in jax_funcified_fgraph
    tensor_variable_29 = dot_1(tensor_variable_28, tensor_constant_13)
                         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/pytensor/link/jax/dispatch/nlinalg.py", line 84, in dot
    return jnp.dot(x, y)
           ^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/traceback_util.py", line 166, in reraise_with_filtered_traceback
    return fun(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/pjit.py", line 253, in cache_miss
    outs, out_flat, out_tree, args_flat, jaxpr = _python_pjit_helper(
                                                 ^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/pjit.py", line 166, in _python_pjit_helper
    out_flat = pjit_p.bind(*args_flat, **params)
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 2596, in bind
    return self.bind_with_trace(top_trace, args, params)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 389, in bind_with_trace
    out = trace.process_primitive(self, map(trace.full_raise, args), params)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/interpreters/batching.py", line 431, in process_primitive
    val_out, dim_out = batched_primitive(vals_in, dims_in, **params)
                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/pjit.py", line 1431, in _pjit_batcher
    vals_out = pjit_p.bind(
               ^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 2596, in bind
    return self.bind_with_trace(top_trace, args, params)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 389, in bind_with_trace
    out = trace.process_primitive(self, map(trace.full_raise, args), params)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/interpreters/batching.py", line 431, in process_primitive
    val_out, dim_out = batched_primitive(vals_in, dims_in, **params)
                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/pjit.py", line 1431, in _pjit_batcher
    vals_out = pjit_p.bind(
               ^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 2596, in bind
    return self.bind_with_trace(top_trace, args, params)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 389, in bind_with_trace
    out = trace.process_primitive(self, map(trace.full_raise, args), params)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/core.py", line 821, in process_primitive
    return primitive.impl(*tracers, **params)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/pjit.py", line 1209, in _pjit_call_impl
    return xc._xla.pjit(name, f, call_impl_cache_miss, [], [], donated_argnums,
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/pjit.py", line 1192, in call_impl_cache_miss
    out_flat, compiled = _pjit_call_impl_python(
                         ^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/pjit.py", line 1148, in _pjit_call_impl_python
    return compiled.unsafe_call(*args), compiled
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/profiler.py", line 314, in wrapper
    return func(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/jax/_src/interpreters/pxla.py", line 1229, in __call__
    results = self.xla_executable.execute_sharded(input_bufs)
              ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
jax._src.traceback_util.UnfilteredStackTrace: jaxlib.xla_extension.XlaRuntimeError: RESOURCE_EXHAUSTED: Out of memory allocating 147664000000 bytes.

The stack trace below excludes JAX-internal frames.
The preceding is the original exception that occurred, unmodified.

--------------------

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
  File "/gpfs/project/ort/lorasick/ddm/code/hssm_test.py", line 67, in <module>
    InfData = model.sample(
              ^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/hssm/hssm.py", line 554, in sample
    self._inference_obj = self.model.fit(inference_method=sampler, **kwargs)
                          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/bambi/models.py", line 325, in fit
    return self.backend.run(
           ^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/bambi/backend/pymc.py", line 96, in run
    result = self._run_mcmc(
             ^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/bambi/backend/pymc.py", line 211, in _run_mcmc
    idata = pymc.sampling_jax.sample_numpyro_nuts(
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/pymc/sampling/jax.py", line 694, in sample_numpyro_nuts
    log_likelihood = _get_log_likelihood(
                     ^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/pymc/sampling/jax.py", line 226, in _get_log_likelihood
    result = _postprocess_samples(jax_fn, samples, backend, num_chunks=num_chunks)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/pymc/sampling/jax.py", line 181, in _postprocess_samples
    return jax.vmap(jax.vmap(jax_fn))(
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/var/tmp/pbs.8187574.hpc-batch/tmpam0xlsf8", line 61, in jax_funcified_fgraph
    tensor_variable_29 = dot_1(tensor_variable_28, tensor_constant_13)
                         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/gpfs/project/projects/bpsydm/tools/pyEnvs/hssm/lib/python3.11/site-packages/pytensor/link/jax/dispatch/nlinalg.py", line 84, in dot
    return jnp.dot(x, y)
           ^^^^^^^^^^^^^
jaxlib.xla_extension.XlaRuntimeError: RESOURCE_EXHAUSTED: Out of memory allocating 147664000000 bytes.

AlexanderFengler Oct 5, 2023
Maintainer

Hm this error seems to occur once sampling is finished. This may by due to some one-off copy step that momentarily doubles ram requirements. Is this run on a GPU machine or CPU?

eort · 2023-10-05T08:08:20Z

eort
Oct 5, 2023
Author

Yes, exactly. It occurs while computing the log likelihoods. That is at least the last log message before the crash. At the moment the script runs on CPU. I could try to a GPU if that helped?

3 replies

digicosmos86 Oct 5, 2023
Maintainer

From the error message, since the error happens after sampling, it's very likely that the error is due to how PyMC handles the post-sampling calculation of likelihoods. It seems that they have recently changed this process to improve the stability of this calculation (they removed the use of chunks, for example, and added a "scan" vectorization here) which might help with memory usage.

Would you mind trying the latest version of hssm, which has the latest PyMC (5.9.0) as a dependency? You can install it in the same environment with pip install git+https://github.com/lnccbrown/HSSM.git@280-pin-numpy-version

Answer selected by eort

eort Oct 9, 2023
Author

Thanks, this seems to have solved it! At least the job doesn't crash anymore. In the end, the job took ~5GB of RAM, which is quite an extreme reduction relative to the failed earlier attempts, were 180GB were not sufficient.

digicosmos86 Oct 10, 2023
Maintainer

Great! I am glad it resolved everything! It seems that with Jax, running vmap inside a vmap can cause extremely high RAM usage. The PyMC team seem to have caught it and offered a different way than using vmap for post-sampling log-likelihood computation. We will update our PyMC dependency to be higher than 5.9.0 in the next release of HSSM to make approximate differentiable likelihoods more robust.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

high RAM usage #265

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 5 comments 6 replies

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

high RAM usage #265

eort Aug 15, 2023

Replies: 5 comments · 6 replies

digicosmos86 Aug 21, 2023 Maintainer

eort Sep 19, 2023 Author

eort Sep 19, 2023 Author

digicosmos86 Sep 21, 2023 Maintainer

digicosmos86 Sep 21, 2023 Maintainer

eort Sep 27, 2023 Author

AlexanderFengler Oct 5, 2023 Maintainer

eort Oct 5, 2023 Author

digicosmos86 Oct 5, 2023 Maintainer

eort Oct 9, 2023 Author

digicosmos86 Oct 10, 2023 Maintainer

eort
Aug 15, 2023

Replies: 5 comments 6 replies

digicosmos86
Aug 21, 2023
Maintainer

eort Sep 19, 2023
Author

eort
Sep 19, 2023
Author

digicosmos86
Sep 21, 2023
Maintainer

digicosmos86
Sep 21, 2023
Maintainer

eort Sep 27, 2023
Author

AlexanderFengler Oct 5, 2023
Maintainer

eort
Oct 5, 2023
Author

digicosmos86 Oct 5, 2023
Maintainer

eort Oct 9, 2023
Author

digicosmos86 Oct 10, 2023
Maintainer