From e2ce4abeb9452ac80eac6c60c82a0bc95dec8b17 Mon Sep 17 00:00:00 2001
From: Kevin Hu <kevinhu.sh@gmail.com>
Date: Wed, 12 Jun 2024 14:19:48 +0800
Subject: [PATCH] fix multi-modual bug

---
 rag/llm/cv_model.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/rag/llm/cv_model.py b/rag/llm/cv_model.py
index 010883a82c2..a195fa2e530 100644
--- a/rag/llm/cv_model.py
+++ b/rag/llm/cv_model.py
@@ -75,10 +75,14 @@ def __init__(self, key, model_name="gpt-4-vision-preview", lang="Chinese", base_
 
     def describe(self, image, max_tokens=300):
         b64 = self.image2base64(image)
+        prompt = self.prompt(b64)
+        for i in range(len(prompt)):
+            for c in prompt[i]["content"]:
+                if "type" in c: del c["type"]
 
         res = self.client.chat.completions.create(
             model=self.model_name,
-            messages=self.prompt(b64),
+            messages=prompt,
             max_tokens=max_tokens,
         )
         return res.choices[0].message.content.strip(), res.usage.total_tokens