2024 updates
12/25(0.8.84)
- 在 Doc_QA 中僅在需要時加載嵌入模型
- 向量資料庫模組允許embedding object 和 embedding string作為輸入參數
- 向量資料庫模組新增 create_keyword_chromadb (見向量資料庫)
- 移除向量資料庫模組和文件搜尋模組中不必要的 use_rerank, embeddings 參數
- 向量資料庫模組中新增 pop_index_db (見向量資料庫)
11/15(0.8.77)
- 新增支援anthropic語言模型、vision模型(見語言模型, ask_image)
- deprecate thoreshold參數
- retriver新增函式 get_relevant_documents_and_scores,輸出文件與問題的相似度排序與分數(見文件搜尋)
- self_query.query_filter metadata_field_info 可用字典類別輸入(見自查詢)
11/05(0.8.73)
- 新增參數env_file,可指定export API KEY的.evn 檔名(見設定 API Key)
- 自查詢更新parse函式,新增custom_parser參數可自訂parser函式(見自查詢)
10/30(0.8.70)
- 新增支援gemini語言模型、嵌入模型(見語言模型, 嵌入模型)
- 新增self_query模組(見自查詢)
- 將 max_doc_len 取代為 max_input_tokens,新增計算token長度的輔助函式 Tokenizer.compute_tokens (見輔助函數)
10/17(0.8.66)
- llama-cpp使用gpu推論(見語言模型)
- remote兼容vllm serve
10/04(0.8.63)
- Doc_QA 新增ask_image函數,可輸入圖片與問題到多模態模型(如gpt-4o, llama3.2-Vision)中(見ask_image)
- Doc_QA 新增max_output_tokens參數,用以限制模型最大輸出長度
08/15(0.8.56)
- db 新增 extract_db_by_file 和 extract_db_by_keyword 可從chromadb中取出特定文件檔案或特定id的db(見嵌入模型)
08/08(0.8.53)
- Doc_QA 新增stream參數,若stream=True,則回傳值為generator (見 get_response)
- get_response 和 ask_self 新增history_messages參數來傳遞聊天紀錄訊息 (見get_response)
- get_response 可傳入dbs物件,避免重複load chromadb (見 get_response)
- prompt_format_type參數新增”chat_gpt”和”chat_mistral”,用來傳遞非str type輸入給語言模型 如([{“role”:current_role, “content”:prompt}]), (見 提示格式)
- 輔助函數新增 call_model, call_batch_model, call_stream_model (見 輔助函數)
- 輔助函數新增 self-rag (見 輔助函數)
- 語言模型物件(LLM)和嵌入模型物件(Embeddings)可直接傳入Doc_QA, Eval,和 Summary,避免重複宣告(見 語言模型 嵌入模型)
- 內建 FAST API,可使用 “akasha api (–port port –host host –workers num_of_workers) 啟動 (見 FAST API)
05/29(0.8.34)
- 新增stream output 流輸出
05/09(0.8.28)
- 新增語言模型類別: gptq
- remote 語言模型類別更新為streaming print out
- 基於參數 doc_path 的輸入類型,您可以使用 get_response 來運行 ask_whole_file 和 ask_self(若 doc_path 是單一文件路徑,則運行 ask_whole_file;如果 doc_path 是一段或多段文字,則運行 ask_self)。
- search type auto 改為 auto 和 auto_rerank,差別為在找不到足夠相似的文件段落時,是否使用rerank模型
- Doc_QA 新增 rerun_ask_agent 功能,可更改prompt並重新運行 ask_agent。
- Eval create_questionset添加參考文件名稱到產生的問題中。
04/26(0.8.25)
新增windows使用者透過WSL安裝ubuntu和anaconda 的使用說明。
dev-ui image 不再使用ccchang0518/akasha-dev-ui 改用 ccchang0518/akasha-lab:0.6
04/17 (0.8.25)
在summary中添加參數 consecutive_merge_failures 以防止需要摘要段落持續無法縮減。
在summary中加入進度條。(請注意,map_reduce 方法的進度條僅為估計。)
在helper module中,新增 call_translator 和 call_JSON_formatter 的函數。這些函數有助於利用 LLM 進行翻譯並將輸出格式化為 JSON 格式。
OpenAI 和 Hugging Face 文本生成模型的標準輸出(stdout)改為即時流模式。
04/11 (0.8.24)
- -參數questionset_path:不再使用參數questionset_path,改用questionset_file
04/11 (0.8.24)
- 新增參數 keep_logs如果為True會儲存每次執行的資料和結果,預設為False
- 預設不會安裝llama-cpp-python套件,若想使用llama-cpp模型,請使用 pip install akasha-terminal[llama-cpp]安裝
04/10 (0.8.23)
- HUGGINGFACEHUB_API_TOKEN:不再使用環境變數 HUGGINGFACEHUB_API_TOKEN, 使用HF_TOKEN匯入 key
03/27 (0.8.23)
- Summary: Summary新增選項auto_translate將摘要翻譯成目標語言, summary
- summarize_articles: Summary新增summarize_articles函數,將str或list做摘要
- language: 在akasha.format中新增語言對照表
03/22 (0.8.21)
- agent module: 新增代理模組,可以自定義tools和agents, 代理
- add document format: 新增可讀取文件類別.pptx .md
03/08 (0.8.20)
- search bm25: 在 search_type中, 新增 bm25選項, 文件搜尋
- search auto: 在 search_type中, 新增 auto選項, 文件搜尋
- Doc_QA ask_agent: 在akasha.Doc_QA中, 新增ask_agent,使用self-ask prompting回答較為複雜的問題, ask_agent
02/26 (0.8.19)
JSON_formatter: 在 akasha.prompts, 新增 JSON_formatter_list 和 JSON_formatter_dict, JSON格式
topK: 不再使用參數topK,使用max_doc_len來決定參考文件的選取上限。
use_rerank: 新增use_rerank參數,在文件相似度搜尋完之後使用rerank模型更精準排序文件與使用者問題的相關性,預設False。
topic_questionset: akasha.eval中新增topic_questionset,用以產生特定主題的測試問題集。