pyarrow offset overflow for datasets with large strings

the `dataset.map`s in `Environment` cause pyarrow offset overflow for datasets with large strings, e.g. `lcbv5` subset of agentica's DeepCoder dataset.

you can test by running the main of deepcoder env from this commit.
https://github.com/PrimeIntellect-ai/prime-environments/blob/6e2ca026927f5c3bd48c987d1445b0260a26eea8/environments/deepcoder/deepcoder.py#L136-152

fix that worked for me: mapping "prompt" myself and limiting `writer_batch_size=16`.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

pyarrow offset overflow for datasets with large strings #230

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

pyarrow offset overflow for datasets with large strings #230

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions