ask_image

ask_image

如果你想同時輸入圖片與文字來詢問多模態模型(如gpt-4o, llama3.2-Vision),可以使用ask_image,圖片路徑image_path可以是網址或本地圖片路徑,模型類別目前支援 openai, remote(vllm), huggingface(llama3.2-Vision), anthropic(claude-3-5-sonnet-20241022) ,但huggingface目前不支援stream流輸出。

example

1
2
3
4
5
6
ak = akasha.Doc_QA(model="openai:gpt-4o",)
url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
png = "../miao.png"

res = ak.ask_image(image_path=url, prompt = "這張圖片是甚麼?")
print(res)
1
2
3
4
5
6
7
8
9
10
這張圖片顯示了一個長度不等的木板路,穿過一片綠色的草地和樹林。路面上有許多細小的草根和葉子。路面兩側是高約1米左右的青綠色野生植物,中間有一些紅色的灌木丛。天空是藍色的,有一
些白雲。

這張圖像可能是一個自然景觀或一個旅遊目的地,例如一個國家公園或一個鳥類保護區。它也可能是一個攝影作品,用來展示自然美景和人們與環境之間的互動關係。

總體而言,這張圖像展現了人們與自然環境之間美麗而微妙的關係,並呼籲我們去探索、欣賞和保護我們周圍的世界。這張圖片顯示了一個長度不等的木板路,穿過一片綠色的草地和樹林。路面上有許多細小的草根和葉子。路面兩側是高約1米左右的青綠色野生植物,中間有一些紅色的灌木叢。天空是藍色的,有一些白雲。

這張圖像可能是一個自然景觀或一個旅遊目的地,例如一個國家公園或一個鳥類保護區。它也可能是一個攝影作品,用來展示自然美景和人們與環境之間的互動關係。

總體而言,這張圖像展現了人們與自然環境之間美麗而微妙的關係,並呼籲我們去探索、欣賞和保護我們周圍的世界。
self.model_obj的詳細資訊可參考語言模型