2024 updates

發表於 2024-12-31 更新於 2024-12-25 分類於目錄

12/25(0.8.84)

新增支援gemini語言模型、嵌入模型(見語言模型, 嵌入模型)
新增self_query模組(見自查詢)
將 max_doc_len 取代為 max_input_tokens，新增計算token長度的輔助函式 Tokenizer.compute_tokens (見輔助函數)

db 新增 extract_db_by_file 和 extract_db_by_keyword 可從chromadb中取出特定文件檔案或特定id的db(見嵌入模型)

Doc_QA 新增stream參數，若stream=True，則回傳值為generator (見 get_response)
get_response 和 ask_self 新增history_messages參數來傳遞聊天紀錄訊息 (見get_response)
get_response 可傳入dbs物件，避免重複load chromadb (見 get_response)
prompt_format_type參數新增”chat_gpt”和”chat_mistral”，用來傳遞非str type輸入給語言模型如([{“role”:current_role, “content”:prompt}])， (見提示格式)
輔助函數新增 call_model, call_batch_model, call_stream_model (見輔助函數)
輔助函數新增 self-rag (見輔助函數)
語言模型物件(LLM)和嵌入模型物件(Embeddings)可直接傳入Doc_QA, Eval,和 Summary，避免重複宣告(見語言模型嵌入模型)
內建 FAST API，可使用 “akasha api (–port port –host host –workers num_of_workers) 啟動 (見 FAST API)

新增語言模型類別: gptq
remote 語言模型類別更新為streaming print out
基於參數 doc_path 的輸入類型，您可以使用 get_response 來運行 ask_whole_file 和 ask_self（若 doc_path 是單一文件路徑，則運行 ask_whole_file；如果 doc_path 是一段或多段文字，則運行 ask_self）。
search type auto 改為 auto 和 auto_rerank，差別為在找不到足夠相似的文件段落時，是否使用rerank模型
Doc_QA 新增 rerun_ask_agent 功能，可更改prompt並重新運行 ask_agent。
Eval create_questionset添加參考文件名稱到產生的問題中。

在summary中添加參數 consecutive_merge_failures 以防止需要摘要段落持續無法縮減。
在summary中加入進度條。（請注意，map_reduce 方法的進度條僅為估計。）
在helper module中，新增 call_translator 和 call_JSON_formatter 的函數。這些函數有助於利用 LLM 進行翻譯並將輸出格式化為 JSON 格式。
OpenAI 和 Hugging Face 文本生成模型的標準輸出（stdout）改為即時流模式。

新增參數 keep_logs如果為True會儲存每次執行的資料和結果，預設為False
預設不會安裝llama-cpp-python套件，若想使用llama-cpp模型，請使用 pip install akasha-terminal[llama-cpp]安裝

search bm25: 在 search_type中, 新增 bm25選項, 文件搜尋
search auto: 在 search_type中, 新增 auto選項, 文件搜尋
Doc_QA ask_agent: 在akasha.Doc_QA中，新增ask_agent，使用self-ask prompting回答較為複雜的問題, ask_agent

JSON_formatter: 在 akasha.prompts, 新增 JSON_formatter_list 和 JSON_formatter_dict, JSON格式
topK: 不再使用參數topK，使用max_doc_len來決定參考文件的選取上限。
use_rerank: 新增use_rerank參數，在文件相似度搜尋完之後使用rerank模型更精準排序文件與使用者問題的相關性，預設False。
topic_questionset: akasha.eval中新增topic_questionset，用以產生特定主題的測試問題集。