fix names in training scripts

willccbb · willccbb · commit e8fe3e2ed161 · 2025-08-22T02:09:25.000-04:00
diff --git a/examples/grpo/train_arc_1d.py b/examples/grpo/train_arc_1d.py
@@ -2,10 +2,10 @@
 
 """
 # install
-vf-install vf-reasoning-gym (-p /path/to/environments)
+vf-install reasoning-gym (-p /path/to/environments)
 
 # quick eval
-vf-eval vf-reasoning-gym (-m model_name in endpoints.py)
+vf-eval reasoning-gym (-m model_name in endpoints.py)
 
 inference:
 CUDA_VISIBLE_DEVICES=0,1,2,3 vf-vllm --model willcb/Qwen3-14B-Arc-1D-SFT \
@@ -22,7 +22,7 @@
 model, tokenizer = vf.get_model_and_tokenizer(model_name)
 
 vf_env = vf.load_environment(
-    env_id="vf-reasoning-gym", gym="arc_1d", num_samples=4000, seed=1
+    env_id="reasoning-gym", gym="arc_1d", num_samples=4000, seed=1
 )
 
 run_name = f"arc_1d-grpo-{size}"
diff --git a/examples/grpo/train_continuation_quality.py b/examples/grpo/train_continuation_quality.py
@@ -2,10 +2,10 @@
 
 """
 # install
-vf-install vf-continuation-quality (-p /path/to/environments)
+vf-install continuation-quality (-p /path/to/environments)
 
 # quick eval
-vf-eval vf-continuation-quality (-m model_name in endpoints.py)
+vf-eval continuation-quality (-m model_name in endpoints.py)
 
 inference:
 CUDA_VISIBLE_DEVICES=0 vf-vllm --model Qwen/Qwen2.5-0.5B \
@@ -17,7 +17,7 @@
 """
 
 model_name = "Qwen/Qwen2.5-0.5B"
-vf_env = vf.load_environment(env_id="vf-continuation-quality")
+vf_env = vf.load_environment(env_id="continuation-quality")
 model, tokenizer = vf.get_model_and_tokenizer(model_name)
 trainer = vf.GRPOTrainer(
     env=vf_env,
diff --git a/examples/grpo/train_gsm8k.py b/examples/grpo/train_gsm8k.py
@@ -2,10 +2,10 @@
 
 """
 # install
-vf-install vf-gsm8k (-p /path/to/environments)
+vf-install gsm8k (-p /path/to/environments)
 
 # quick eval
-vf-eval vf-gsm8k (-m model_name in endpoints.py)
+vf-eval gsm8k (-m model_name in endpoints.py)
 
 inference:
 CUDA_VISIBLE_DEVICES=0 vf-vllm --model willcb/Qwen3-0.6B --enforce-eager --disable-log-requests
@@ -15,7 +15,7 @@
     --config-file configs/zero3.yaml examples/grpo/train_gsm8k.py
 """
 
-vf_env = vf.load_environment(env_id="vf-gsm8k", num_eval_examples=100)
+vf_env = vf.load_environment(env_id="gsm8k", num_eval_examples=100)
 
 model_name = "willcb/Qwen3-0.6B"
 run_name = "gsm8k-grpo_" + model_name.split("/")[-1].lower()
diff --git a/examples/grpo/train_hotpotqa.py b/examples/grpo/train_hotpotqa.py
diff --git a/examples/grpo/train_math_group.py b/examples/grpo/train_math_group.py
@@ -2,10 +2,10 @@
 
 """
 # install
-vf-install vf-math-group (-p /path/to/environments)
+vf-install math-group (-p /path/to/environments)
 
 # quick eval
-vf-eval vf-math-group (-m model_name in endpoints.py)
+vf-eval math-group (-m model_name in endpoints.py)
 
 inference:
 CUDA_VISIBLE_DEVICES=0 vf-vllm --model willcb/Qwen3-0.6B \
@@ -16,7 +16,7 @@
     --config-file configs/zero3.yaml examples/grpo/train_math_group.py
 """
 
-vf_env = vf.load_environment(env_id="vf-math-group")
+vf_env = vf.load_environment(env_id="math-group")
 
 model_name = "willcb/Qwen3-0.6B"
 model, tokenizer = vf.get_model_and_tokenizer(model_name)
diff --git a/examples/grpo/train_math_python.py b/examples/grpo/train_math_python.py
@@ -2,10 +2,10 @@
 
 """
 # install
-vf-install vf-math-python (-p /path/to/environments)
+vf-install math-python (-p /path/to/environments)
 
 # eval
-vf-eval vf-math-python (-m model_name in endpoints.py)
+vf-eval math-python (-m model_name in endpoints.py)
 
 # inference
 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 vf-vllm --model 'willcb/Qwen3-1.7B' \
@@ -17,7 +17,7 @@
     --config-file configs/zero3.yaml examples/grpo/train_math_python.py
 """
 
-vf_env = vf.load_environment(env_id="vf-math-python")
+vf_env = vf.load_environment(env_id="math-python")
 
 model_name = "willcb/Qwen3-1.7B"
 model, tokenizer = vf.get_model_and_tokenizer(model_name)
diff --git a/examples/grpo/train_reverse_text.py b/examples/grpo/train_reverse_text.py
@@ -2,10 +2,10 @@
 
 """
 # install
-vf-install vf-reverse-text (-p /path/to/environments)
+vf-install reverse-text (-p /path/to/environments)
 
 # quick eval
-vf-eval vf-reverse-text (-m model_name in endpoints.py)
+vf-eval reverse-text (-m model_name in endpoints.py)
 
 inference:
 CUDA_VISIBLE_DEVICES=0 vf-vllm --model willcb/Qwen2.5-0.5B-Reverse-SFT \
@@ -19,7 +19,7 @@
 model_name = "willcb/Qwen2.5-0.5B-Reverse-SFT"
 model, tokenizer = vf.get_model_and_tokenizer(model_name)
 
-vf_env = vf.load_environment(env_id="vf-reverse-text")
+vf_env = vf.load_environment(env_id="reverse-text")
 
 args = vf.grpo_defaults(run_name="reverse-text")
 args.per_device_train_batch_size = 12
diff --git a/examples/grpo/train_self_reward.py b/examples/grpo/train_self_reward.py
@@ -2,10 +2,10 @@
 
 """
 # install
-vf-install vf-self-reward (-p /path/to/environments)
+vf-install self-reward (-p /path/to/environments)
 
 # quick eval
-vf-eval vf-self-reward (-m model_name in endpoints.py)
+vf-eval self-reward (-m model_name in endpoints.py)
 
 inference:
 CUDA_VISIBLE_DEVICES=0 vf-vllm --model Qwen/Qwen2.5-7B-Instruct \
@@ -17,7 +17,7 @@
 """
 
 model_name = "Qwen/Qwen2.5-7B-Instruct"
-vf_env = vf.load_environment(env_id="vf-self-reward", model_name=model_name)
+vf_env = vf.load_environment(env_id="self-reward", model_name=model_name)
 model, tokenizer = vf.get_model_and_tokenizer(model_name)
 trainer = vf.GRPOTrainer(
     env=vf_env,
diff --git a/examples/grpo/train_sentence_repeater.py b/examples/grpo/train_sentence_repeater.py
@@ -2,10 +2,10 @@
 
 """
 # install
-vf-install vf-sentence-repeater (-p /path/to/environments)
+vf-install sentence-repeater (-p /path/to/environments)
 
 # quick eval
-vf-eval vf-sentence-repeater (-m model_name in endpoints.py)
+vf-eval sentence-repeater (-m model_name in endpoints.py)
 
 inference:
 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 vf-vllm --model Qwen/Qwen2.5-1.5B-Instruct \
@@ -19,7 +19,7 @@
 model_name = "Qwen/Qwen2.5-1.5B-Instruct"
 model, tokenizer = vf.get_model_and_tokenizer(model_name)
 
-vf_env = vf.load_environment(env_id="vf-sentence-repeater")
+vf_env = vf.load_environment(env_id="sentence-repeater")
 
 run_name = "sentence-repeater-grpo-qwen1.5b"
 training_args = vf.grpo_defaults(run_name=run_name)
diff --git a/examples/grpo/train_tool_test.py b/examples/grpo/train_tool_test.py
@@ -2,10 +2,10 @@
 
 """
 # install
-vf-install vf-tool-test (-p /path/to/environments)
+vf-install tool-test (-p /path/to/environments)
 
 # quick eval
-vf-eval vf-tool-test (-m model_name in endpoints.py)
+vf-eval tool-test (-m model_name in endpoints.py)
 
 inference:
 CUDA_VISIBLE_DEVICES=0 vf-vllm --model willcb/Qwen3-0.6B \
@@ -17,7 +17,7 @@
     --config-file configs/zero3.yaml examples/grpo/train_tool_test.py
 """
 
-vf_env = vf.load_environment(env_id="vf-tool-test", num_eval_examples=100)
+vf_env = vf.load_environment(env_id="tool-test", num_eval_examples=100)
 
 model_name = "willcb/Qwen3-0.6B"
 run_name = "tool-test_" + model_name.split("/")[-1].lower()
diff --git a/examples/grpo/train_wiki_search.py b/examples/grpo/train_wiki_search.py
@@ -2,10 +2,10 @@
 
 """
 # install
-vf-install vf-wiki-search (-p /path/to/environments)
+vf-install wiki-search (-p /path/to/environments)
 
 # quick eval
-vf-eval vf-wiki-search (-m model_name in endpoints.py)
+vf-eval wiki-search (-m model_name in endpoints.py)
 
 inference:
 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 vf-vllm --model willcb/Qwen3-8B-Wiki-Search-SFT \
@@ -16,7 +16,7 @@
     --config-file configs/zero3.yaml examples/grpo/train_wiki_search.py
 """
 
-vf_env = vf.load_environment(env_id="vf-wiki-search")
+vf_env = vf.load_environment(env_id="wiki-search")
 
 model_name = "willcb/Qwen3-8B-Wiki-Search-SFT"
 model, tokenizer = vf.get_model_and_tokenizer(model_name)
diff --git a/examples/grpo/train_wordle.py b/examples/grpo/train_wordle.py
@@ -4,10 +4,10 @@
 
 """
 # install
-vf-install vf-wordle (-p /path/to/environments)
+vf-install wordle (-p /path/to/environments)
 
 # quick eval
-vf-eval vf-wordle -m (model_name in endpoints.py)
+vf-eval wordle -m (model_name in endpoints.py)
 
 1.7b inference:
 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 vf-vllm --model willcb/Qwen3-1.7B-Wordle \
@@ -31,7 +31,7 @@ def main(args):
     size = args.size
     model_name = f"willcb/Qwen3-{size}-Wordle"
     model, tokenizer = vf.get_model_and_tokenizer(model_name)
-    vf_env = vf.load_environment(env_id="vf-wordle", use_think=True)
+    vf_env = vf.load_environment(env_id="wordle", use_think=True)
     run_name = f"wordle-grpo-{size}"
     training_args = vf.grpo_defaults(run_name=run_name)
     training_args.per_device_train_batch_size = 8
diff --git a/verifiers/__init__.py b/verifiers/__init__.py
@@ -95,8 +95,8 @@ def setup_logging(
     "get_tokenizer": "verifiers.utils.model_utils:get_tokenizer",
     "GRPOConfig": "verifiers.trainers:GRPOConfig",
     "GRPOTrainer": "verifiers.trainers:GRPOTrainer",
-    "grpo_defaults": "verifiers.trainers.grpo_defaults",
-    "lora_defaults": "verifiers.trainers.lora_defaults",
+    "grpo_defaults": "verifiers.trainers:grpo_defaults",
+    "lora_defaults": "verifiers.trainers:lora_defaults",
 }