生成式AI常會出現各種幻覺以及大量不一定有用的建議。亞馬遜的Catalog AI系統雖然可以自動生成商品頁,以及相關的商品標題、圖片、說明等,也苦於這些難解的問題。亞馬遜後來採取哪些步驟,不但確保AI生成的品質,還能大規模測試各項微調的效果,本文有精彩的說明。
插圖/吉雍.庫榮(Guillaume Kurkdjian)
雖然大家對生成式AI充滿各種熱情,但在用它時卻受到一項限制:這門技術常常編造內容、遺漏資訊,還會提供大量可能性,讓使用者很難判斷哪些才有效果。因此,絕大多數公司現在都採用人工審查,以及獨立的測試工具或服務,來解決生成式AI的缺點。然而,這兩種品質管制法不僅成本高昂,也只能處理生成式AI所有輸出結果的一小部分。
亞馬遜(Amazon)開發出一個更好的方法,來處理它那龐大的商品目錄作業。這套生成式AI系統稱為Catalog AI,能夠偵測並擋下不可靠的資料;針對新的商品頁(product page)提出構想,並測試這些構想的效果;以及根據品質檢查和實驗的回饋自動改進。它一年能提出並測試幾千萬個假設,相較之下,大多數人工系統的量能只有幾千個。
“亞馬遜的生成式AI系統一年能提出並測試幾千萬個假設,相較之下,大多數人工系統的量能只有幾千個。
雖然很多組織還很難見到投資AI帶來的財務報酬,亞馬遜的Catalog AI專案卻已經創造出可觀的價值。本文撰寫之際,Catalog AI提出的建議,有8%對銷售收入產生正面的影響。本文作者之一史蒂芬還知道有些公司的線上實驗成功率更高(從10%到20%不等)。但這些公司都是依靠人工提出假設,而且測試假設的系統也沒有那麼自動化,這表示它們提出並測試的假設數量遠遠少於亞馬遜。而且,亞馬遜的系統具有自動改進的能力,它的良率因此能逐漸提高。雖然亞馬遜認為這套2023年推出的系統還是在製品(work in progress),但我們相信它已經足夠成熟,其他組織的經理人只要了解亞馬遜如何大規模管制AI生成內容的品質,就能從中受益。
本文觀念精粹
機會:生成式AI有巨大的潛力,能夠自動製作內容,來提升顧客參與度和銷售額。
挑戰:生成式AI常常產生不可靠的輸出結果,例如幻覺和不相關的資訊。傳統的品質管制法,例如人工審查和獨立的測試工具,不僅成本高昂,也只能處理生成式AI所有輸出結果的一小部分。
解決方案:亞馬遜的Catalog AI系統告訴我們如何克服這些阻礙。它能夠自動偵測並擋下不可靠的資料、根據品質檢查和實驗的回饋自我改進,並將A/B測試整合到系統的工作流程中,以科學方式評估生成式AI的內容是否發揮效果。
傳統方法的缺點
Amazon的線上目錄包含數億種賣給全球各地顧客的商品,而且每天都會新增或更新數百萬張商品詳情頁(product listing)。這些資料,無論是圖片、標題、說明、推薦,都必須完整、精確,而且吸引人,讓購物者能夠很快找到他們在找的商品。除此之外,回頭客也期待看到熟悉的版面配置,包含圖片、商品標題、說明、購買按鈕,而且都要好找,載入也要快。如果這些沒有做好,會有很大的影響:只要商品資訊不完整、不相關,或完全錯誤,顧客就不會完成交易,或是退回與預期不符的商品。這兩種情況都會讓亞馬遜的收入減少,也失去顧客對它的信任。
亞馬遜為了確保資料的品質,一向仰賴數千位專門管理商品詳情頁的員工提供專業知識。它也運作數百個機器學習(ML)模型,每個模型都針對某個商品類別(例如襯衫或電視機)與某個版面元素(例如商品標題或說明)進行最佳化。這些專業員工在模型中加入或刪除資訊、找出不準確的地方、整合資訊、翻譯文字為不同語言,以及導入第三方提供的資料。而這些傳統的ML模型存有一些限制:它們最適合規模較小的結構化資料集,而且要花費高昂的成本才能將它們擴大應用到所有商品類別。比如說,針對襯衫訓練的ML模型,如果用到電視機或其他任何非襯衫類的商品上,可能就沒有成本效益。相比之下,大型語言模型(LLM)是運用大型資料集來訓練,適用於不同的商品類別。亞馬遜把ML模型換成LLM之後,就能簡化它的技術基礎設施(減少模型)與組織(減少職能專業人員),成本也跟著降低。
確保新方法可靠
Catalog AI剛推出的頭幾個星期,它的輸出結果大約有80%不可靠。系統會自己編造內容、漏掉資訊,或是提供顧客沒有興趣知道的建議。舉例來說,它說某台電動幫浦有15匹馬力,但實際上根本沒有這項資訊。同樣地,有人問某張沙發的材質,模型回的是沙發骨架的材質,而不是大多數顧客有興趣知道的面料材質。為了解決這些品質問題,並測試各種調整是否發揮效果,亞馬遜採取以下4個步驟。
1. 進行稽核
要想追蹤進展,組織需要知道系統的基準效能。製造業的做法是拿一個處於穩定階段的流程來評估,然後以這項資訊決定管制的上下限。亞馬遜請LLM將數千張已知的商品頁重新生成一次,然後由人工稽核員拿這些LLM生成的頁面比對已知資訊,為這些頁面的可靠程度評分。只要效能不好,人工稽核員就要分析根本原因。這種做法很快就帶來不少改進,我們接下來會說明。
2. 設置護欄
「幻覺」是指錯誤或不準確的輸出結果,模型卻將它們當真。只要模型做出的結論不是建立在輸入的資料上,常常就會出現這種情況。而要改進可靠性、避免幻覺,有一個方法就是限制LLM只能從公司專屬資料產出內容,而不能使用網路上的一般資訊或是與公司無關的資料來源。但這麼做無疑放棄了一個好處:LLM愈能自由取得公司內外的資料,系統就有愈多新構想可以探索、修改和測試。舉例來說,如果LLM能夠從網路取得資訊,也許就能根據這些資訊指出紙盤不適合用洗碗機清洗。對LLM的輸入施加太多限制,結果就是減低它做出這類推論的能力。因此,亞馬遜決定不限制LLM的輸入,而是另外設下3種限制。
簡單的規則。要確保可靠性,有一種方法是要求系統拒絕輸出不合規則的內容。例如,公司可以提出一條規則,要求表示重量的數字,後面必須跟著公斤或磅之類的單位。像是亞馬遜就提出一條規則,要求Catalog AI不能建議客戶對目前的商品詳情頁做一些無關緊要的調整(例如,將商品風格從「當代」改為「現代」)。簡單的規則也會對版面配置做出要求,好讓顧客在整體網站都能有一致的體驗。
統計概況。護欄就像工廠的統計製程管制(statistical process control, SPC)的上下限。當製程變數落在這些上下限之外,就會觸發警報,公司就會開始追查問題的根本原因。要為生成式AI模型設置這類護欄,公司可以使用現有商品的資料,判斷輸出結果是否落在預期的範圍內。例如,LLM可以針對第三方供應商販售的一張桌子生成商品資訊。而一般在亞馬遜線上商店販售的桌子,它們的資訊則可以用來建立護欄。當LLM建立的商品資訊落在管制的上下限之外,這個LLM就會受到另一個LLM質疑。有時候,只要下提示請第一個LLM解釋它為什麼生成這些資訊,它就能察覺自己犯下的錯誤。
AI檢查AI。我們剛才提到的就是一個例子。但是公司不可能針對AI每一種可能的輸出結果設置規則或護欄。這時,第二個生成式AI系統就可以處理這些輸出結果。亞馬遜利用生成式AI去尋找生成式AI產生的問題。第一個LLM是內容生成器,經過訓練可以提出假設;第二個LLM是內容審查器,經過訓練可以檢查前者的輸出結果。這兩個LLM相互連結,並根據各自不同的背景知識自動展開對話。
舉例來說,亞馬遜會使用LLM偵測商品頁不一致的地方,例如確認商品標題所說的顏色是否與商品圖片的顏色相符。如果發現有出入,就會自動阻止調整商品資訊。內容審查器可以向生成式AI系統提問,像是「為什麼新的商品頁比目前的商品頁還好?」這會迫使內容生成器分析輸出結果,也許就會放棄先前的建議。Catalog AI為了提高可靠性檢查的嚴謹程度,可以連到公司內外、以其他資料來訓練的LLM。這些LLM 是以其他資訊來訓練,因此能夠找出其他問題。例如,如果內容生成器LLM犯下推理錯誤,而誤算商品體積,以其他資料集來訓練的內容審查器LLM也許就能偵測出錯誤,阻止輸出這個結果。
生成式AI提出的假設通過所有品質檢查後,接著會發布到實驗平台,評估它的效果:它建議的調整是否提升銷售收入或銷售量?
3. 測試效果
生成式AI可以提出許多構想,企業要找到有效率的方法,來評估哪些構想有效果。以前,亞馬遜的目錄專員(catalog specialist)會建立一些規則與演算法,來自動批准、設計和改進他們認為最有效果的版面配置。這種方法有幾個限制:在建立這些規則和演算法時,商品頁專員會納入一些未經測試的假設,而且他們使用的測試方法,也不一定是自動執行或是符合成本效益。此外,傳統的市場研究(例如焦點團體和調查)也可能產生誤導,因為顧客說的不一定和他們做的一樣。這麼一來,就很難預測顧客的偏好。Booking.com一位高階主管就告訴本文作者之一史蒂芬:「大家猜測的能力實在很差勁,我們每天都看得到例子。我們對顧客行為的預測,10次有9次都是錯的。」
為了了解哪些調整能引起顧客的共鳴,Catalog AI團隊將A/B測試整合到系統的工作流程中。而要用科學方式測試生成式AI極為大量的輸出結果,就需要一套實驗的基礎設施,包括儀器(記錄點擊、滑鼠移動、事件時間等資訊)、資料管線(data pipelines),以及資料科學家。雖然有些第三方工具和服務可以讓實驗容易進行,但要擴大規模,公司還是得將這項能力緊密整合到工作流程中。在亞馬遜,實驗的基礎設施完全自動化:Catalog AI針對商品頁提出的每一項調整,都會接受A/B測試。
它會執行一個對照實驗,比較兩種(或兩種以上)可能性:「A」(對照組,或稱衛冕者)是目前的商品詳情頁,「B」(挑戰者)是修改後的AI生成資訊,來達成一個特定目的,像是提高顧客轉換率。將使用者隨機分到其中一種體驗,然後計算綜合指標並加以比較。這些指標應該要符合策略目標;而最好的短期指標也能預測長期成果〔請見本刊2017年9月號文章〈價值上億的線上實驗〉(The Surprising Power of Online Experiments)〕。
Catalog AI最近針對一款護膚商品進行一項實驗,它生成一個挑戰者版本的商品說明,強調這款商品的主要效果;相較之下,衛冕者版本的商品說明則列出一長串的功能及效果。衛冕者版本詳細介紹這些功能如何帶來暢通毛孔、改善膚質和減少肌膚泛紅等效果;AI提出的版本則簡短許多,只列出這款商品的主要效果:肌膚更光滑、水潤、減少皺紋。簡短的版本在一群隨機選擇的顧客中,明顯提高了銷售額。
其他的實驗則是發現,LLM會從商品標題移除一些效果說明。例如,AI從商品標題移除「讓肌膚散發光澤」字樣,將「芒果籽油泡沫沐浴乳,讓肌膚散發光澤,13.5盎司(4瓶裝)」改為「芒果籽油泡沫沐浴乳,13.5盎司,4瓶裝」,結果對銷售額產生負面影響。
整體而言,這些實驗顯示,通過亞馬遜可靠性檢查的AI生成內容,約有40%不是提升主要的效能指標(例如將購物者轉換為銷售額),就是沒有產生任何正面或負面的影響。但是其餘60%則有明顯負面的結果,而這些內容通常就沒有發布到亞馬遜的目錄上。
4. 建立學習系統
理想的品質系統應該是一個學習系統,能夠持續改進,而且幾乎不需要或完全不需要人力介入。亞馬遜的系統所產生的資料,可以改進它的LLM效能,讓它更有效挑戰顧客喜歡什麼或不喜歡什麼的假設。不過公司的科學家發現,偶爾還是值得引入人力來產出更好的學習資料。例如,實驗結果為負面時,委派人力進行調查,有時就能發現和修正LLM的缺陷。在一次調查中,一個團隊發現,只要商品頁沒有提供保固資訊,LLM就會一律錯誤寫上「無保固」。然而隨著Catalog AI的改進,人力介入的層面會限縮到系統設計和基礎設施決策。以下是建立學習系統需要納入的要素。
顧客模型。為了加快回饋的速度,公司可以制定一個綜合指標,為顧客偏好建立模型。雖然嚴格來說,建立學習系統不一定需要顧客模型,但只要模型準確,就能大幅提高系統的運作速度。有了顧客模型,公司就能執行虛擬實驗,獲得幾乎即時的回饋。就像在電腦執行汽車撞擊模擬,而不是實際拿一台原型車去撞,測試AI的輸出結果也不再需要真實顧客的參與,因此就能大幅加快測試的速度。
設計指標時,需要深思熟慮,才能讓它和典型的顧客有一樣的反應。公司必須決定納入哪些資料,也必須透過許多顧客實驗來驗證。Catalog AI同時使用顧客模型和實際測試,也就是所謂的目錄資料品質(Catalog Data Quality, CDQ)指標。它包含的資訊來自規則、統計概況,以及可靠性檢查。到最後,CDQ將會取代大部分有真實顧客參與的測試,進而加快系統的學習速度。
多變量實驗。除了A/B測試之外,亞馬遜的系統也採用多變量實驗,這是更為精細的實驗,能夠更深入了解多個變數(例如文字、顏色和圖片)如何交互作用,或是確定最佳的設計選擇。亞馬遜的演算法會找出模式,然後對特定商品進行多變量實驗來檢驗這些模式;這些商品不僅網頁有龐大的顧客流量,對主要的效能指標也有統計上顯著的影響。而影響最顯著的那些實驗(對某些主要指標的正面影響超過1%,並對其他指標的負面影響低於1%),資料科學家會進一步檢視,找出它們的模式和錯誤。由於亞馬遜市場的顧客流量和交易量極為龐大,即便數百萬商品詳情頁只有微幅調整,也能使收入增加數十億美元。而網站流量遠遠少於亞馬遜的公司,某項調整是否值得採用,門檻就和亞馬遜不同。
“由於亞馬遜市場的顧客流量極為龐大,即便數百萬商品詳情頁只有微幅調整,也能使收入增加數十億美元。
雖然Catalog AI的目標是自己自動學習,但目前它在學習時還是有人從旁協助。有些實驗會把影響解析出來,然後製成案例,可以在管理Catalog AI的團隊和資料科學家之間分享。例如,Catalog AI的商品標題團隊也許會下提示請LLM生成不同長度、不同資訊內容的商品標題:
●X品牌植物性蛋白粉,香草口味,22克蛋白質,20份裝(英文原文為75個字元)
●X品牌植物性蛋白粉,香草口味,22克蛋白質,非基因改造,純素,不含麩質、乳製品或大豆,20份裝(英文原文為120個字元)
●X品牌植物性蛋白粉,香草口味,22克蛋白質,非基因改造,純素,不含麩質、乳製品或大豆,不含人工香料、合成色素、防腐劑或添加物,20份裝(英文原文為180個字元)
實驗會確定這3個商品標題哪一個效果最好,然後用它來訓練LLM。為各個商品類別產出更好的訓練資料之後,Catalog AI輸出結果的品質得到了明顯的改善:現在Catalog AI有80%的輸出結果通過初步的品質檢查。
概念測試。Catalog AI推出時,對商品詳情頁提出了數百萬項調整建議,這些都需要對顧客進行測試。理想情況下,每項調整都必須在一個獨立實驗中測試,但許多商品詳情頁沒有產生足夠的顧客流量,也就無法取得需要的臨界樣本數。(為了達到統計信心水準,一項調整的預期效果愈小,需要的觀察數就愈多,才能該效果和背景雜訊區分開來。)
顧客流量如果不夠大(瀏覽次數不到100萬),實驗平台在測試AI生成的內容時,會自動將類似的商品詳情頁包在一起,針對單一概念做測試,以便找出見解。有一個特殊的演算法可以按照商品類別將相關內容包在一起,這些內容有時來自數千張AI生成的商品詳情頁。(瀏覽次數超過100萬的商品則會執行一個獨立的實驗。)這些包在一起的數量愈少愈好,但也要滿足統計樣本數的要求。舉例來說,在改進咖啡機的商品說明時,AI會生成數千個不同版本,然後將這些版本包在一起,針對單一概念做實驗。這些實驗能夠挑戰從來沒有受到測試的顧客偏好假設。
例如,有一個實驗就挑戰專業人員長期持有、也內建於ML模型的假設:購物者偏好白色背景和展示商品之間的強烈對比。這個概念測試要研究AI改進的圖片會如何影響顧客參與度。AI生成數千張不同頁面,提出各種背景的建議,但都是將商品呈現在購物者的日常環境中。接著將這些建議包在一起進行概念測試。對照組是白色背景和一位身穿黑色發熱衣的模特兒;測試組的圖片則是添加豐富的背景,身穿同樣上衣的模特兒待在室內場景,幫助顧客想像這件商品的日常使用情境。實驗發現,添加豐富的背景可以提高銷售額,因此這個調整後來就部署到數百種基本款的時尚商品。
提高AI專案的效果
一旦品質系統建立起來,除了能夠管理AI生成內容的品質,還能協助將資源引導到那些正在進行、投資報酬率最高的AI專案。執行這些計畫的業務團隊在估計預期的財務報酬時,往往過於樂觀,而這又決定了專業人員和運算資源的配置。〔事實上,德勤(Deloitte)曾在2024年對6個產業2,770位企業領導人進行調查,其中41%的領導人表示,他們的組織很難定義與衡量生成式AI計畫所造成的影響。〕相反地,當品質系統透過顧客來測試新專案的效果,領導人就可以藉由扎實的證據,來決定最佳的資源配置。這也讓領導人能夠更頻繁根據正在進行的測試,修改資源的配置。
例如,這樣的系統可以讓公司先從原型中學習,量化某個專案對特定客群的影響,然後再擴大推出。Catalog AI的改善通常先從原型開始,這些原型有時還會互相競爭。各個團隊實驗自己的原型,然後利用實驗結果爭取更多資源,來將原型擴大規模,而勝出的原型最後就會正式上線。亞馬遜的Project Amelia是專為賣家提供的生成式AI助手,正逐步向更多賣家開放,而公司也同時監控這個模型的效能,並納入顧客的回饋意見。
實驗也有助於管理AI基礎設施的取捨,例如模型效能和運算成本之間的取捨。增加LLM的規模可能只會帶來些微效益,但訓練它可能要花很長的時間。進行實驗之後,亞馬遜發現有些模型雖然規模較小,效能卻優於規模較大的模型,因為它們需要的資源更少,重新訓練的頻率可以更高,而且對顧客查詢的回應時間也更快。其他公司在面對究竟是要開發自家LLM還是使用第三方模型之類的問題時,也可以執行類似的實驗,選擇最適合自己的發展方向。
幾十年前,哈佛商學院教授大衛.葛文(David Garvin)曾撰文探討品質系統可以為企業帶來哪些可長可久的優勢〔請見《哈佛商業評論》1983年9-10月號文章〈品質懸乎一線〉(Quality on the Line)〕。他在研究室內空調製造商時,發現最高品質的製造商所生產的產品,故障率比最低品質的製造商還少500到1,000倍。他總結道,要實現高品質,歸根結柢就是有一套全面的品質管制系統。葛文說的這番道理,在AI時代依然適用。
文章來源:哈佛商業評論 9月號