主辦方:媒體管家合作
官方網(wǎng)站:http://www.lzzqv.com
想上線一個(gè)ChatBI,都需要關(guān)注什么?
ChatBI是今年比較火的一個(gè)話題,它和企業(yè)知識(shí)庫(kù)問(wèn)答一樣,是ToB領(lǐng)域極少數(shù)有希望用相對(duì)低成本落地的LLM應(yīng)用;很多企業(yè)已經(jīng)對(duì)此有過(guò)一些探索,還有更多企業(yè)認(rèn)為該技術(shù)尚不成熟, 還處在觀望狀態(tài)。
朋友圈看到有人說(shuō),預(yù)計(jì)90%的ChatBI項(xiàng)目都會(huì)失敗——在不做任何相關(guān)配套工作的前提下,的確如此。
關(guān)于下面的問(wèn)題,相信計(jì)劃或正在探索ChatBI的很多朋友也都有困惑:
選擇什么樣的技術(shù)路線?
適合什么用戶來(lái)用?
想要落地成功,要做哪些準(zhǔn)備?
經(jīng)過(guò)20余項(xiàng)目陪跑和100余客戶的深入交流,帆軟FineChatBI團(tuán)隊(duì)積累了不少ChatBI的實(shí)踐經(jīng)驗(yàn),得到了很多反直覺(jué)的認(rèn)知,在這里做一些分享,希望能可以幫助你少走一些彎路。
帆軟的第一個(gè)觀點(diǎn)是:LLM寫(xiě)SQL不靠譜。
LLM寫(xiě)SQL是真的不靠譜,體現(xiàn)在3個(gè)方面:精度、性能和可信性。
1、精度
帆軟判斷,對(duì)業(yè)務(wù)用戶來(lái)說(shuō),即使再有容忍度,平均精度要達(dá)到75%~80%才能保證不會(huì)棄用。
LLM幻覺(jué)是一個(gè)已知問(wèn)題,它在一定程度上是可以被容忍的,但如果在數(shù)據(jù)的應(yīng)用,它會(huì)被嚴(yán)重放大;在用戶眼里,對(duì)于非結(jié)構(gòu)化的數(shù)據(jù),結(jié)果不滿意,大不了我再問(wèn)一次,而結(jié)構(gòu)化數(shù)據(jù)答案是不可以錯(cuò)的。
LLM寫(xiě)SQL時(shí),會(huì)在哪些地方會(huì)有幻覺(jué)?帆軟和一些客戶對(duì)LLM寫(xiě)SQL做過(guò)不少嘗試,目前已經(jīng)發(fā)現(xiàn)并且判斷很難解決的地方比如對(duì)時(shí)間理解錯(cuò)誤、排序邏輯錯(cuò)誤、子查詢錯(cuò)誤、錯(cuò)誤理解表關(guān)聯(lián)關(guān)系等等;
FineChatBI的選擇是,用LLM把用戶的問(wèn)題轉(zhuǎn)寫(xiě)成結(jié)構(gòu)清晰的查詢語(yǔ)言(表達(dá)清晰的語(yǔ)句甚至不需要轉(zhuǎn)寫(xiě)),用OLAP分析操作指令集調(diào)用FineBI這樣一個(gè)成熟的底座,以模擬人工拖拉拽的形式直接出圖,這樣生成的圖表直接和轉(zhuǎn)化后清晰的問(wèn)題意圖相匹配,精度得到大幅的提升。
2、性能
現(xiàn)在一個(gè)寫(xiě)SQL為主的產(chǎn)品,返回一個(gè)問(wèn)題能做到6s已經(jīng)是優(yōu)秀了,部分Text2SQL產(chǎn)品的返回時(shí)間甚至能到都在12s甚至15s以上。一個(gè)問(wèn)題等10s,這個(gè)性能,用戶真的能接受么?
帆軟認(rèn)為,一個(gè)用戶能接受的最長(zhǎng)問(wèn)題的返回時(shí)長(zhǎng)必須控制在3S內(nèi),否則體驗(yàn)太過(guò)糟糕,用戶也不會(huì)堅(jiān)持用下去;
影響LLM寫(xiě)SQL性能的變量有:LLM模型的尺寸、是否本地化部署、硬件資源投入如何、SQL語(yǔ)句復(fù)雜度等;
上面已經(jīng)提到了,F(xiàn)ineChatBI并沒(méi)有選擇讓LLM寫(xiě)SQL,而是通過(guò)一個(gè)小尺寸的語(yǔ)義解析模型處理清晰語(yǔ)義,LLM去處理模糊語(yǔ)義,帆軟實(shí)現(xiàn)了清晰語(yǔ)義返回平均能到0.2s,模糊語(yǔ)義平均能做到2s。
3、可信性
ChatBI在應(yīng)用中,難免會(huì)有錯(cuò)誤的答案,怎么才能排查到結(jié)果對(duì)錯(cuò)?如果答案是錯(cuò)的,怎么能快速修復(fù)?解決這兩個(gè)問(wèn)題,才能代表一個(gè)ChatBI產(chǎn)品具有可信性。
Text2SQL路線,一般會(huì)給到用戶一串SQL語(yǔ)句,這個(gè)思路最開(kāi)始被很多IT認(rèn)可,因?yàn)橹庇X(jué)表明這樣是可以看清楚答案,也容易調(diào)試;實(shí)際上,這不是一個(gè)用戶思維導(dǎo)向的設(shè)計(jì):業(yè)務(wù)用戶看得懂SQL么?他們想要看SQL么?另一方面,帆軟發(fā)現(xiàn)SQL的調(diào)試工作難易程度是和SQL語(yǔ)句的復(fù)雜度正相關(guān)的,再考慮到多表關(guān)聯(lián)查詢,如果在測(cè)試期間沒(méi)有探索到它的邊界,在應(yīng)用實(shí)際落地的時(shí)候,結(jié)果排查和錯(cuò)題修復(fù)的挑戰(zhàn)會(huì)很大。
FineChatBI給到了用戶一段可以清楚讀懂的圖表生成規(guī)則,同時(shí),用戶可以調(diào)整其中的維度、指標(biāo)、枚舉值、分組條件等,按照自己的設(shè)想二次點(diǎn)選生成新的相關(guān)圖表;另外,結(jié)合強(qiáng)大的FineBI底座,對(duì)于一些SQL很難支持的問(wèn)法都可以通過(guò)FineBI原生支持的快速計(jì)算輕松實(shí)現(xiàn)。
帆軟的第二個(gè)觀點(diǎn)是:ChatBI不能開(kāi)箱即用。
一個(gè)ChatBI項(xiàng)目想要成功落地,需要有它的天時(shí)地利人和:
天時(shí),是要公司內(nèi)能找到真場(chǎng)景,業(yè)務(wù)真的有需求;
地利,是要落地團(tuán)隊(duì)有成熟的數(shù)據(jù)和知識(shí)的底層準(zhǔn)備;
人和,是要有配套的組織驅(qū)動(dòng)力,能鏈接到業(yè)務(wù)調(diào)研到真實(shí)需求,有明確的責(zé)任人能披荊斬棘往前推進(jìn)。
1、真場(chǎng)景
2024年的FineChatBI就像是一個(gè)創(chuàng)新藥在上市前需要做臨床試驗(yàn),帆軟在與客戶共創(chuàng)的過(guò)程中,遇到過(guò)最大的挑戰(zhàn)是,一些客戶并沒(méi)有找到自己的痛點(diǎn),硬套ChatBI作為一個(gè)解決方案,最后發(fā)現(xiàn)沒(méi)有效果。
建議最好是能多和業(yè)務(wù)團(tuán)隊(duì)對(duì)話,了解他們?nèi)粘H?shù)場(chǎng)景是什么樣的,遇到過(guò)哪些痛苦,然后對(duì)癥下藥去干。
當(dāng)然,如果客觀上存在困難,不得不先嘗試,基于成熟的數(shù)據(jù)去開(kāi)發(fā)demo給用戶中的積極分子,通過(guò)這個(gè)過(guò)程去找場(chǎng)景,但是成功率恐怕會(huì)很低,需要有一定的心理準(zhǔn)備。
那么ChatBI的用戶到底是誰(shuí)?
從用戶數(shù)、使用頻次、使用場(chǎng)景來(lái)出發(fā),帆軟分別來(lái)看,適合使用ChatBI的用戶群:
2、底層準(zhǔn)備
1)數(shù)據(jù)側(cè)
重要的事情說(shuō)三遍:LLM并不擅長(zhǎng)數(shù)據(jù)加工!LLM并不擅長(zhǎng)數(shù)據(jù)加工!LLM并不擅長(zhǎng)數(shù)據(jù)加工!
帆軟判斷,50%的數(shù)據(jù)消費(fèi)應(yīng)用的推動(dòng)都受到了數(shù)據(jù)底層準(zhǔn)備的影響,ChatBI對(duì)數(shù)據(jù)的要求比BI要更高一些,一般體現(xiàn)在避免字段名歧義、數(shù)據(jù)不能有冗余、確保字段類(lèi)型正確等;
準(zhǔn)備好寬表,或干脆搭配指標(biāo)管理平臺(tái)吧,否則你會(huì)無(wú)比痛苦。
2)知識(shí)側(cè)
知識(shí)配置是不可避免的,它并不是丟一些語(yǔ)料給LLM就可以解決的;
就好像所有梁山好漢都喊宋江一聲“哥哥”(語(yǔ)料),那么再先進(jìn)的LLM也不可能知道宋江就是及時(shí)雨(黑話),既然黑話要準(zhǔn)備映射表,為什么不直接做配置,反而舍近求遠(yuǎn)去訓(xùn)練LLM呢?
在帆軟的實(shí)踐中,知識(shí)配置分為兩類(lèi),一類(lèi)是同義詞,一類(lèi)是企業(yè)獨(dú)有的一些其他知識(shí),如重點(diǎn)城市=成都市+貴陽(yáng)市 華北地區(qū)=山東+山西+河南+河北;
在FineChatBI中,同義詞只需要配置必要的、預(yù)計(jì)AI肯定猜不出來(lái)的企業(yè)獨(dú)有知識(shí),相似的語(yǔ)義或相似的字段是不需要配置的:
對(duì)于相似的語(yǔ)義,如字段名為銷(xiāo)售額,問(wèn)業(yè)績(jī),這個(gè)通過(guò)LLM是可以猜出來(lái)的;
對(duì)于相似的字段,如字段名為娃哈哈100ml礦泉水,問(wèn)娃哈哈礦泉水,這個(gè)通過(guò)算法可以匹配到的。
3、組織驅(qū)動(dòng)力
帆軟的第三個(gè)觀點(diǎn)是:ChatBI不適合先給領(lǐng)導(dǎo)用。
帆軟認(rèn)為,ChatBI項(xiàng)目要成功,在企業(yè)內(nèi)部需要至少3個(gè)角色的,這三個(gè)角色可能是2個(gè)人,也可能不止3個(gè)人,他們分別是:領(lǐng)導(dǎo)、產(chǎn)品經(jīng)理和IT。
1)產(chǎn)品經(jīng)理:最核心的角色,承擔(dān)整個(gè)項(xiàng)目成敗的KPI,整體節(jié)奏規(guī)劃,用戶群確定、需求收集和識(shí)別、內(nèi)部推廣,拓展運(yùn)營(yíng)等;
ChatBI的上線是一個(gè)循序漸進(jìn)的過(guò)程,由產(chǎn)品經(jīng)理主導(dǎo),大概執(zhí)行下面的流程:
①項(xiàng)目團(tuán)隊(duì)組建——>職責(zé)拉通——>需求調(diào)研——>需求評(píng)估——>
②選定目標(biāo)業(yè)務(wù)域1——>數(shù)據(jù)準(zhǔn)備——>知識(shí)配置——>權(quán)限配置——>內(nèi)部測(cè)試——>試點(diǎn)運(yùn)行——>后臺(tái)分析——>用戶回訪——>用戶培訓(xùn)——>系統(tǒng)上線——>錯(cuò)題修復(fù)——>成果匯報(bào)——>
③選定目標(biāo)業(yè)務(wù)域2……………………
從上面的流程中,相信各位不難看出,當(dāng)項(xiàng)目之初,產(chǎn)品經(jīng)理還不具備一定經(jīng)驗(yàn),該項(xiàng)目還沒(méi)有獲得領(lǐng)導(dǎo)的信任和理解時(shí),可以確定很難做好對(duì)領(lǐng)導(dǎo)的需求收集、預(yù)期管理等。
因此,ChatBI并不適合一開(kāi)始就給大領(lǐng)導(dǎo)用,也不適合大規(guī)模并行推廣,而應(yīng)該線性推廣,不斷地干成、夯實(shí),再拓展。
2)領(lǐng)導(dǎo):拍板決策投入,保障產(chǎn)品經(jīng)理獲得必要的業(yè)務(wù)支持,參加項(xiàng)目啟動(dòng)儀式,現(xiàn)場(chǎng)明確項(xiàng)目范圍、項(xiàng)目成功標(biāo)準(zhǔn)、時(shí)間節(jié)奏等;
3)IT:數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)底層設(shè)計(jì),IT配置。
另外還有2個(gè)角色會(huì)起到很重要的作用:
①業(yè)務(wù)代表,代表本業(yè)務(wù)團(tuán)隊(duì)為產(chǎn)品經(jīng)理輸入需求,講清楚痛點(diǎn);
②業(yè)務(wù)團(tuán)隊(duì)中的ITBP,這個(gè)角色可以協(xié)助IT進(jìn)行知識(shí)配置和數(shù)據(jù)維護(hù)、權(quán)限配置,否則IT單方面很難完整收集到業(yè)務(wù)團(tuán)隊(duì)里的知識(shí)和權(quán)限配置要求。
對(duì)于第一個(gè)完整業(yè)務(wù)閉環(huán),帆軟經(jīng)過(guò)這一年來(lái)的打磨,推出了一個(gè)【場(chǎng)景陪跑服務(wù)】,幫助客戶把第一個(gè)場(chǎng)景用起來(lái)。
在預(yù)計(jì)場(chǎng)景、底層準(zhǔn)備、組織驅(qū)動(dòng)力三個(gè)條件都具備的前提下,ChatBI的落地成功率是很高的,這個(gè)時(shí)候如果要正式上線,安全性、算力成本、持續(xù)運(yùn)營(yíng)投入是你一定會(huì)關(guān)注的地方。
1、安全性:
是否具備企業(yè)級(jí)權(quán)限控制能力、LLM是否支持本地化部署。
2、算力成本:
理論上LLM的尺寸越大效果越好,但更大尺寸意味著更高昂的硬件資源成本,F(xiàn)ineChatBI采用基于小尺寸開(kāi)源 LLM 完成多任務(wù)精調(diào)的FineLLM,對(duì)資源成本要求是很低的。
3、持續(xù)運(yùn)營(yíng)投入:
我們常常會(huì)感嘆模型日新月異的能力效果,卻忽略了這個(gè)效果背后的迭代頻率。
同理,我們常常會(huì)關(guān)注一個(gè)ChatBI產(chǎn)品的精度,卻忽略了這個(gè)精度背后的定義和條件,是1個(gè)人使用下的精度,是10個(gè)維度指標(biāo)下自由組合的精度,還是上線僅兩天的平均精度?
當(dāng)用戶數(shù)擴(kuò)大,當(dāng)數(shù)據(jù)范圍擴(kuò)大,當(dāng)時(shí)間線拉長(zhǎng),對(duì)精度的影響都是立竿見(jiàn)影的,這背后的迭代頻率也是非??斓模?nbsp;
在企業(yè)內(nèi)部,ChatBI的受眾肯定是逐步在增大的,所以團(tuán)隊(duì)是否考慮過(guò)單獨(dú)的資源來(lái)承接這些運(yùn)營(yíng)調(diào)優(yōu)的工作,是否有方法論指導(dǎo)怎么優(yōu)化,產(chǎn)品是否有相關(guān)功能支撐范圍擴(kuò)大后去運(yùn)營(yíng)提升問(wèn)答效果,都是需要重點(diǎn)考慮的。
ChatBI首先是一個(gè)嚴(yán)肅的企業(yè)級(jí)應(yīng)用,其次才是AI;而LLM,它包含于AI,而不是等于AI。
一個(gè)企業(yè)級(jí)應(yīng)用,不管有沒(méi)有AI,不管用了什么技術(shù),它的核心目的始終都是幫助客戶安全、穩(wěn)定、低成本地解決業(yè)務(wù)上的問(wèn)題,進(jìn)而創(chuàng)造價(jià)值。
FineChatBI在設(shè)計(jì)過(guò)程中,帆軟綜合去考慮穩(wěn)定性、性能、客戶成本等很多因素去選擇實(shí)現(xiàn)方法,對(duì)LLM的使用始終持著謹(jǐn)慎樂(lè)觀的態(tài)度;
有一些能力比如模糊檢索,LLM可以做,有成熟算法也可以實(shí)現(xiàn),帆軟可以提供的方案是把枚舉值都給LLM做訓(xùn)練,客戶擴(kuò)大自己的模型尺寸就行,但如果用算法實(shí)現(xiàn),客戶的成本是不是會(huì)更低,所以帆軟的方案未必是LLM實(shí)現(xiàn);
有一些配置工作,比如知識(shí)配置,交給LLM去落地,客戶的綜合成本是人工配置的幾十倍,效果也不穩(wěn)定,所以帆軟并不建議客戶交給LLM去處理;
再比如很多能力,LLM原本就不擅長(zhǎng),如預(yù)測(cè)、離群點(diǎn)識(shí)別等,都是靠其他更適合的AI能力實(shí)現(xiàn)的;
而AI之外的功能,比如可視化,更不是LLM擅長(zhǎng)的。
商業(yè)化的ChatBI,是一個(gè)很考驗(yàn)廠商態(tài)度、研發(fā)投入和能力的事情,做這個(gè)事情是為了炫技,還是為了落地,背后的難度和投入不是一個(gè)數(shù)量級(jí)的;
本文主要是講今年業(yè)內(nèi)較為普遍地把【快速問(wèn)數(shù)】作為ChatBI第一階段的落地經(jīng)驗(yàn),實(shí)際上的ChatBI不只是查數(shù),它希望能幫助到廣大沒(méi)有專(zhuān)業(yè)分析背景的業(yè)務(wù)用戶自主完成一些個(gè)性化的分析工作,例如思路拆解、異常檢測(cè)、歸因分析、趨勢(shì)預(yù)測(cè)、報(bào)告生成等。
挑戰(zhàn)重重,但走在正確的路上,ChatBI幫助100%業(yè)務(wù)用戶用好數(shù)據(jù),最終有一天是能實(shí)現(xiàn)的。