Use format to extract toolcalls

bandoti · bandoti · commit c8843da44397 · 2025-03-06T13:41:45.000-04:00
diff --git a/examples/main/main.cpp b/examples/main/main.cpp
@@ -106,23 +106,39 @@ class chat_formatter {
 
     std::string operator () (const std::string & role, const std::string & content, [[maybe_unused]] bool use_toolcalls = false) {
 
-        common_chat_msg new_msg;
-        new_msg.role = role;
-        new_msg.content = content;
-
-        common_chat_params cparams;
         common_chat_templates_inputs cinputs;
+        cinputs.use_jinja = params_.use_jinja;
+        cinputs.add_generation_prompt = (role == "user");
 #ifdef LLAMA_USE_TOOLCALL
         if (tc_client_ != nullptr && use_toolcalls) {
             cinputs.tool_choice = common_chat_tool_choice_parse_oaicompat(tc_client_->tool_choice());
             cinputs.tools = common_chat_tools_parse_oaicompat(tc_client_->tool_list());
         }
 #endif
-        bool add_ass = role == "user";
-        auto formatted =
-            common_chat_format_single(chat_templates_, chat_msgs_, new_msg, add_ass, params_.use_jinja,
-                                      &cinputs, &cparams);
+        for (const auto & msg : chat_msgs_) {
+            cinputs.messages.push_back(common_chat_msg(msg));
+        }
+
+        common_chat_msg new_msg = common_chat_parse(content, *chat_format_);
+        new_msg.role = role;
+
+        if (! new_msg.tool_calls.empty()) {
+            nlohmann::json result_array = nlohmann::json::array();
+            for (const auto & tc : new_msg.tool_calls) {
+                toolcall::result_set res = tc_client_->call(tc.name, tc.arguments, tc.id);
+                if (! res.empty()) {
+                    for (const auto & r : res) {
+                        result_array.push_back(r.data);
+                    }
+                }
+            }
+            new_msg.content += result_array.dump(-1);
+        }
+
+        cinputs.messages.push_back(new_msg);
+        common_chat_params cparams = common_chat_templates_apply(chat_templates_, cinputs);
 
+        auto formatted = cparams.prompt;
         chat_msgs_.push_back(new_msg);
         LOG_DBG("formatted: '%s'\n", formatted.c_str());
 
@@ -145,42 +161,6 @@ class chat_formatter {
 #endif
 };
 
-#ifdef LLAMA_USE_TOOLCALL
-static bool call_tool(common_chat_format chat_format, const std::string & assistant_msg, llama_context * ctx,
-                      toolcall::client::ptr tc_client, std::vector<llama_token> & embd_inp)
-{
-    bool tool_was_called = false;
-    common_chat_msg msg = common_chat_parse(assistant_msg, chat_format);
-    if (! msg.tool_calls.empty()) {
-        for (const auto & tc : msg.tool_calls) {
-            nlohmann::json tc_oai_json {
-                {"type", "function"},
-                {"function", {
-                        {"name", tc.name},
-                        {"arguments", tc.arguments},
-                    }},
-                {"id", tc.id},
-            };
-            toolcall::result_set res = tc_client->call(tc_oai_json);
-            if (! res.empty()) {
-                std::string toolcall_result_str;
-                for (const auto & r : res) {
-                    toolcall_result_str += ("\n" + r.data); // Although more complex results can be
-                                                            // returned (resources, images, etc.),
-                                                            // for now simply append the data. Later
-                                                            // on support for specific models may
-                                                            // allow for unpacking Base64 data.
-                }
-                auto toolcall_result_tok = common_tokenize(ctx, toolcall_result_str, false, true);
-                embd_inp.insert(embd_inp.end(), toolcall_result_tok.begin(), toolcall_result_tok.end());
-            }
-            tool_was_called = true;
-        }
-    }
-    return tool_was_called;
-}
-#endif
-
 int main(int argc, char ** argv) {
     common_params params;
     g_params = &params;
@@ -943,16 +923,6 @@ int main(int argc, char ** argv) {
                 }
             }
 
-#ifdef LLAMA_USE_TOOLCALL
-            if ((tc_client && n_past > 0) && (waiting_for_first_input || is_interacting)) {
-                size_t last_len = embd_inp.size();
-                bool was_toolcall = call_tool(chat_format, assistant_ss.str(), ctx, tc_client, embd_inp);
-                if (was_toolcall && last_len < embd_inp.size()) {
-                    LOG("%s", common_token_to_piece(ctx, embd_inp[last_len]).c_str());
-                }
-            }
-#endif
-
             if ((n_past > 0 || waiting_for_first_input) && is_interacting) {
                 LOG_DBG("waiting for user input\n");
 
diff --git a/toolcall/client.cpp b/toolcall/client.cpp
@@ -39,8 +39,10 @@ bool toolcall::client::tool_list_dirty() const {
     return impl_->tool_list_dirty();
 }
 
-toolcall::result_set toolcall::client::call(const std::string & request) {
-    return impl_->call(request);
+toolcall::result_set toolcall::client::call(const std::string & name,
+                                            const std::string & arguments,
+                                            const std::string & id) {
+    return impl_->call(name, arguments, id);
 }
 
 const std::string & toolcall::client::tool_choice() const {
@@ -180,15 +182,6 @@ std::string toolcall::mcp_impl::tool_list() {
     return tools_;
 }
 
-static mcp::tools_call_request tools_call_request_from_local_json(nlohmann::json id, const std::string & local_json) {
-    nlohmann::json j = json::parse(local_json);
-    mcp::tool_arg_list args;
-    for (const auto & [key, val] : j["parameters"].items()) {
-        args.push_back({key, val});
-    }
-    return mcp::tools_call_request(id, j["name"], args);
-}
-
 static toolcall::result_set tools_call_response_to_result(const mcp::tools_call_response & resp) {
     toolcall::result_set result;
     for (const auto & res : resp.tool_result()) {
@@ -199,7 +192,10 @@ static toolcall::result_set tools_call_response_to_result(const mcp::tools_call_
     return std::move(result);
 }
 
-toolcall::result_set toolcall::mcp_impl::call(const std::string & request) {
+toolcall::result_set toolcall::mcp_impl::call(const std::string & name,
+                                              const std::string & arguments,
+                                              const std::string & id)
+{
     using on_response = toolcall::callback<mcp::tools_call_response>;
 
     if (transport_ == nullptr) {
@@ -213,7 +209,14 @@ toolcall::result_set toolcall::mcp_impl::call(const std::string & request) {
         response = tools_call_response_to_result(resp);
         tools_populating_.notify_one();
     };
-    transport_->send(tools_call_request_from_local_json(next_id_++, request), set_response);
+    std::string req_id = id.empty() ? std::to_string(next_id_++) : id;
+    mcp::tool_arg_list req_args;
+    auto json_args = json::parse(arguments); // TODO check errors
+    for (const auto & [key, val] : json_args.items()) {
+        req_args.push_back({key, val});
+    }
+
+    transport_->send(mcp::tools_call_request(req_id, name, req_args), set_response);
     tools_populating_.wait_for(lock, std::chrono::seconds(15), [&response] { return ! response.empty(); });
 
     return response;
diff --git a/toolcall/toolcall-client.h b/toolcall/toolcall-client.h
@@ -27,7 +27,9 @@ namespace toolcall
 
         client(std::unique_ptr<client_impl> impl) : impl_(std::move(impl)) {}
 
-        result_set call(const std::string & request);
+        result_set call(const std::string & name,
+                        const std::string & arguments,
+                        const std::string & id = "");
 
         std::string tool_list();
         bool tool_list_dirty() const;
@@ -55,7 +57,9 @@ namespace toolcall
             return tool_list_dirty_;
         }
 
-        virtual result_set call(const std::string & request) = 0;
+        virtual result_set call(const std::string & name,
+                                const std::string & arguments,
+                                const std::string & id = "") = 0;
 
         const std::string & tool_choice() const { return tool_choice_; }
 
@@ -76,9 +80,11 @@ namespace toolcall
             return tools_;
         }
 
-        virtual result_set call(const std::string & request) override {
+        virtual result_set call(const std::string & /* name */,
+                                const std::string & /* arguments */,
+                                const std::string & /* id = "" */) override {
             return result_set {
-                {"text", request, "text/plain", std::nullopt, false}
+                {"text", "", "text/plain", std::nullopt, false}
             };
         }
 
@@ -93,7 +99,10 @@ namespace toolcall
         mcp_impl(std::vector<std::string> argv, std::string tool_choice);
 
         virtual std::string tool_list() override;
-        virtual result_set call(const std::string & request) override;
+
+        virtual result_set call(const std::string & name,
+                                const std::string & arguments,
+                                const std::string & id = "") override;
 
         virtual void initialize() override;