上一篇文章介紹的如何在本機安裝,且成功執行Llama 2生成隨機內容。llama.cpp支援了幾種與Llama 2的互動方式,開發者可以靈活運用這些模式,加上自己的商業邏輯做出想要的效果。
互動模式是類似ChatGPT的對話體驗,可以跟Llama 2進行一問一答的互動。進入互動模式只需加入選項--interactive
、--interactive-first
即可。
--interactive
為例:
./main –ctx_size 2048 –temp 0.7 –top_k 40 –top_p 0.5 –repeat_last_n 256 –batch_size 1024 –repeat_penalty 1.17647 –model ./models/llama-2-13b-chat/ggml-model-Q4_K_M.gguf –threads 8 –n_predict 2048 –color –interactive –reverse-prompt “Softaverse:” –in-prefix ” “ –prompt \
‘Softaverse: Hi
AI: Hello. I am an AI chatbot. Would you like to talk?
Softaverse: Sure!
AI:’
--prompt
:預帶對話的主題,避免Llama 2隨機生成內容,在--interactive
模式下,Llama 2會優先生成內容。
--reverse-prompt
:在互動模式下會暫停文字生成,例如上面的prompt遇到文字「Softaverse」,Llama 2停止文字生成等待新的對話內容。
--in-prefix
:由於reverse prompt結尾是空格的話功能會失效,它的用途是在輸入文字之前加上空格,讓對話格式比較好看。
--interactive-first
為例:
./main -m ./models/llama-2-13b-chat/ggml-model-Q4_K_M.gguf -n 256 –repeat_penalty 1.0 –color –interactive-first -r “User:” –in-prefix ” “ –prompt \
“User: Hi?
Llama 2: Hello. I am an AI chatbot. Would you like to talk?
User: Sure!
Llama 2: What would you like to talk about?
User:”
--interactive-first
:Llama 2暫停生成內容,讓用戶優先進行對話。
Persistent Interaction
過去的對話紀錄想要保存下來怎麼辦?沒錯,可以用「Persistent Ineration」來保留,下次可以呼叫出來繼續對話,非常實用的一個功能。
指令可以分成以下幾種:
Start a new chat
開始一個新的紀錄:
PROMPT_CACHE_FILE=chat.prompt.bin CHAT_SAVE_DIR=./chat/default ./examples/chat-persistent.sh
Resume that chat
PROMPT_CACHE_FILE=chat.prompt.bin CHAT_SAVE_DIR=./chat/default ./examples/chat-persistent.sh
Start a different chat with the same prompt/model
用同一個模型,並開始一個全新的對話:
PROMPT_CACHE_FILE=chat.prompt.bin CHAT_SAVE_DIR=./chat/another ./examples/chat-persistent.sh
Different prompt cache for different prompt/model
使用不同模型&全新對話:
PROMPT_TEMPLATE=./prompts/chat-with-bob.txt PROMPT_CACHE_FILE=bob.prompt.bin CHAT_SAVE_DIR=./chat/bob ./examples/chat-persistent.sh
Constrained output with grammars
再來介紹一個實用功能,Llama 2常常回覆的內容不如預期,這時可以限制Llama 2用你想要的格式輸出內容,比如以JSON格式為例:
./main -m ./models/llama-2-13b-chat/ggml-model-Q4_K_M.gguf -n 256 –grammar-file grammars/json.gbnf -p ‘Request: schedule a call at 8pm; Command:’
想要實踐屬於自己商業邏輯的格式,可以撰寫GBNF檔案來完成。GBNF(GGML BNF)是llama.cpp用來限制輸出格式的文法格式,例如以上的JSON格式範例,或者讓模型只回覆emoji,下一篇文章來仔細介紹如何撰寫自己的輸出格式。
Instruct mode
這個模式與「Interation mode」雷同,Llama 2會根據你的需求做出正確的回應:
./examples/alpaca.sh
以上就是目前搭配llama.cpp支援的模式,我認為已足夠強大到可以實作自己的商業邏輯進去,並且加以應用。重啟對話與GBNF都非常實用,目前我也還在摸索並用想要實現的邏輯試試效果,下一篇文章來仔細介紹如何使用GBNF客製化輸出格式。
本文同步刊登於Medium – 開源的Llama 2有哪些玩法?本篇文章介紹開發者與Llama 2的互動方式
喜歡運用科技工具提升工作效率、並自主開發實用小工具的長時間使用電腦工作者。對新科技工具深感興趣,樂於分享如何運用科技工具提升生活和工作效率的技巧。