儘管AI如此迷人與強大,但大部分的AI專案還是失敗了。但這種失敗其實是可以避免的,那該怎麼做才能提高成功的機會?
Michael Brandon Myers
當我2018與2019年在LinkedIn擔任數據科學家時,只有數據科學組織中一小部分擁有統計學或電腦科學高等學位的人對人工智慧(AI)感興趣。AI──尤其是最近的明星「生成式AI」──如今已成為公司董事會議、領導階層討論會,與渴望大幅提高生產力的員工間隨意交流的中心主題。這個議題重要到我協助開設的一門課:「給經理人的數據科學」(Data Science for Managers),原本是教導MBA學生如何開發、善用與管理AI,如今已成為哈佛商學院一年級的必修課。
可嘆的是,在振奮人心的新聞頭條與心馳神往的潛力背後,隱藏一個令人警醒的現實:大部分AI專案都失敗了。有些對失敗率的估計高達80%,這幾乎是10年前企業IT專案失敗率的2倍。然而,還是有一些方法可以增加成功的機率。從我在產業界與學術界的經驗以及諮詢工作中,我發現企業可以大幅降低失敗的風險,只要謹慎完成每項AI專案在成為產品的路途上都會歷經的5大關鍵步驟:選擇、開發、評估、採用與管理。然而本文不僅談如何預防失敗,也談如何發展我所謂的「數據科學與AI營運」流程,這些流程可以幫助企業在日益由AI驅動的商業環境中競爭與生存。
1. 選擇
儘管有效地確認各項專案的輕重緩急並加以排序,是大多數領導人熟悉的任務,但在評估AI專案的影響力與可行性時,需要審慎考量它們具備的一些特點。
首先,要分別考量面向內部與面向外部的專案。面向內部的專案是設計來幫助公司員工執行工作。例如,組織現在經常倚靠AI,為銷售團隊提供見解,明白要鎖定哪些顧客、提供哪些產品;透過預測性分析加強供應鏈管理;以及運用智慧型聊天機器人解答員工問題,進而簡化人力資源職能,如此等等。面向外部的專案則為終端使用者(也就是公司的顧客)開發並執行AI。這些專案是AI最顯而易見的應用方式,以往是由科技公司率先推出,例子包括Netflix的推薦引擎、Google的搜尋結果,與Uber的配對演算法。
以下清單在選擇流程中十分有用。
與策略一致。「專案是否符合組織的整體策略和目標?」這聽起來似乎很簡單,但實際上數據科學家往往無法全面掌握自家公司的策略,因此專注在不太可能帶來重大轉變或重大價值的專案。由於數據科學家與其他技術專家通常是獨力工作,很少與公司其他部門互動,要克服這項障礙可能是一大挑戰。一些企業,如寶僑(Procter & Gamble),會暫時將數據科學家放到各個事業單位。其他企業,如LinkedIn,則保留一個中央化的匯報結構,但設立一些團隊,來對應特定的事業單位,並與這些單位共處一地,以促進協作。像這樣的嵌入策略讓技術專家更容易了解業務,並選擇與策略一致的專案。
可衡量的影響力。「我們能否客觀評估專案的潛在財務效益與營運效益?」務必清楚考慮專案的目的與方向。若能明確指出衡量成功的方法,領導人就能讓團隊在具體目標上達成一致,並讓團隊對實現這些目標負責。一個選擇衡量方法的有用架構是「如果、那麼、藉由、因為」的模式:「如果」執行某個專案,「那麼」某個業務結果或關鍵績效指標將會「藉由」某個預期影響力而獲得改善,「因為」這個預期影響力受到某個基本原理的支持。擁有強大數據驅動文化的公司,大力支持這種由假設驅動的科學方法。將影響力加以量化,也讓領導人能夠直接比較諸多專案;這個做法抵銷了技術團隊只專注採用最新、最先進科技的傾向,有助於優先考慮可能具有重大影響力的專案。
增強或取代。「AI專案是會強化當前的人工操作,還是取代現有的人工流程?」回答這個問題需要了解犯下錯誤(或預測失誤)的代價。代價低時,自動化往往可行;代價高時,最好有人類決策者來增強AI系統。以產品推薦為例:推薦一款顧客沒有興趣購買的產品,代價相對較小,因此將這項任務自動化是安全的。然而,沒有準確診斷出某個重病,風險極高,這也就是為什麼醫生會請AI提供建議,但自己保留最終決定權。
當領導人試圖了解每項專案的潛力時,影響力評估將能提供指引,並協助領導人選擇有望產生重大商業價值的專案工作。此外,影響力評估所產出的資訊可以在組織內不同團隊與部門之間傳播,讓它們更能共同理解與相互激盪彼此的想法。
你還必須評估AI專案的可行性:取得基本的成本估算,並確定你的組織是否有必要資源執行該專案。這個流程包括探索以下4件事:
問題的本質。「這是AI可以解決的問題嗎?」AI很擅長發現趨勢、找出模式,並為精心設計的問題提供預測,但它無法理解背景、展現情緒智慧,以及進行道德或倫理的判斷。因此務必審慎地使用它。例如,它很擅長找出潛在顧客,但卻拙於達成交易。
“AI很擅長找出模式,並為精心設計的問題提供預測,但它無法展現情緒智商,也無法進行道德或倫理的判斷。
數據可得性。「組織是否能取得必要的數據?」AI應用的成功取決於基礎數據的可得性、數量、新鮮度與整體品質。舉例來說,有一家公司的目標是為自家銷售團隊打造一個工具,替不同潛在顧客排定優先順序。它需要潛在顧客的全面數據(包括工作職稱、產業與公司規模)以及諸如姓名與電話號碼等基本資訊。
科技能力與專業技能。「組織是否有必要的基礎設施與技能組來建立、部署與擴大專案?」科技基礎設施因專案而異,但至少公司必須擁有數據儲存與管理的能力、足以訓練與執行AI的計算資源,以及保護數據進出的系統。所需的技能也各不相同,但公司通常都需要精通數據科學與數據工程的員工。
倫理考量。「是否已充分考量所有的倫理影響?」在開發階段找出這些影響並制定相關處理計畫至關重要。如果沒有做到這點,代價可能十分高昂——包括聲譽受損、政府罰款,以及改造系統來解決這些影響所需要的工程時間。
AI倫理是一個範圍廣大的議題,通常包含3個核心主題:偏見、隱私與透明度。
當可得的訓練數據沒有準確代表AI想要服務的人群時,就會出現偏見。它可能會降低模型的準確性,導致模型產生不公平的結果——也就是說,導致模型有系統地不為特定群體或個人做出良好表現,或是在根本上歧視特定群體或個人。假設一家生技公司正在評估開發一款AI的可行性,這款AI能夠診斷一種影響不同種族男女的癌症。如果公司只有白人男性的數據,那麼依此產生的模型將對女性及有色人種帶來有偏見或不準確的結果。
隱私則要求AI模型保護個人數據,並保證數據不會外洩。採用加拿大安大略省前任資訊與隱私專員安.卡沃基恩(Ann Cavoukian)提出的「用設計保護隱私」(privacy by design)原則,並結合新興科技,像是差分隱私(differential privacy,提供一種用數學衡量數據隱私的方式),可以幫助企業適切保護顧客資訊。
在透明度方面,使用者需要了解AI模型如何運作,評估它的功能,並了解它的優勢與限制。在開始一項專案前確定你想要多少透明度至為關鍵,因為AI模型本來就會做出妥協:那些更透明、更容易解釋的模型往往更不準確,而那些難以解釋的模型卻時常展現更優越的績效。
在完成分析潛在專案的影響力和可行性之後,公司可以將每項專案在這2個性質上劃分高低。這將使經理人能夠估計投資報酬率,並決定應該選擇哪些專案,以及它們該如何排序。對影響力高但可行性低的專案,應該深入調查,找出可行性低的根本原因,這可以幫助經理人找出加強基礎設施與數據的機會。影響力低、但可行性高的專案通常都要忽略,除非執行成本低到足以合理化它們的微小影響力,或是它們可以提供一個合適的沙盒,測試基礎設施與新科技。
2. 開發
一旦一項潛在AI專案獲得批准,複雜且耗時的開發工作就開始了。目標使用者應該全程參與這個流程,以確保產品滿足他們的需求,這將為採用鋪平道路。
數據科學家在查找與清理數據、執行探索性數據分析,以及訓練和評估AI模型時,通常要歷經多次迭代,而且只有在開發出精準度符合需求的模型,或放棄專案時才會停止。下一步是建立一套方法,將模型的輸出結果整合到適當的商業流程中。這種整合將AI模型轉化為AI產品,通常會需要開發軟體,才能將數據傳輸到模型中進行處理,然後將輸出結果傳送到後續使用的地方。這種整合可能還需要開發客製化的使用者介面,或將AI與其他IT系統(像是顧客關係管理工具)進行整合。
大多數企業都是臨時制定方法來執行這項流程,幾乎沒有標準化或專業化,導致流程缺乏效率,容易遭遇失敗。一些科技公司試圖創造一種更好的方法。LinkedIn、Netflix、Uber以及其他公司開發出內部工具,用來管理從探索性數據分析到部署產品的整個AI開發流程。軟體公司像是Databricks與Snowflake,以及大型雲端計算供應商,把這個自動化層當成服務來提供。然而,若要善用它,企業必須建立一個集中的數據庫。
我的同事馬可.顏西提(Marco Iansiti)與卡林.拉哈尼(Karim R. Lakhani)將這種自動化與標準化稱為「AI工廠」〔請參閱本刊2020年1月號的文章〈人工智慧啟動新形態商戰〉(Competing in the Age of AI)〕。AI工廠加快了AI產品的開發速度,並讓流程的關鍵部分標準化,從而能夠進行更多的監控與監督。此外,AI工廠可以改善開發中模型的整體品質。事實上,我在2022年進行的一項實驗顯示,提供數據科學一些工具,將開發流程各個部分自動化,能讓最終模型的準確度提高30%。同樣的實驗顯示,將AI開發知識嵌入工具之中,AI工廠還能減少開發一項產品所需要的技能。
現在想知道那些能夠產生文本、圖像與程式碼的生成式AI工具,能在多大程度上改善開發流程,還為時過早。但一項關於GitHub Copilot的對照實驗顯示,軟體工程師如果使用它來生成程式碼,可以顯著提高生產力,而且經驗最少的人能獲得最多效益。
這對領導人的啟示是,他們應該打造一個卓越中心,來建立一座易於使用的AI工廠,為員工提供備有特定工具的培訓與教育。此外,他們也應該確保在選擇階段發現的任何倫理問題都已獲得解決。
3. 評估
AI產品開發出來後,在鼓勵大規模採用前,應該對它的影響力進行評估。科學實驗(最簡單的形式就是A/B測試)是量化新AI模型效果的黃金標準〔請參閱本刊2017年9月號的文章〈價值上億的線上實驗〉(The Surprising Power of Online Experiments)〕。具體來說,A/B測試將使用者隨機分配到其中一個版本,測量參與度、滿意度與其他相關指標,來比較現有產品與另一種版本。公司通常使用內部開發或從LaunchDarkly、Optimizely與Split等供應商購買的實驗平台,來執行這類測試並分析其結果。藉由觀察使用者對生成式AI各種輸出結果的反應,實驗也將在生成式AI的成長與採用中扮演核心角色。
AI產品——即便是那些在開發階段展露驚人預測準確性的產品——可能無法提供充分的價值,這有4個常見的理由。首先,AI不會孤立存在:它與組織內部的其他產品、系統與流程互動,進而導致種種衝突或問題;在先前的開發階段,這些衝突或問題並不明顯。例如,一個新的AI驅動內容推薦系統可能會減少顯示廣告來增加使用者的參與度,因此導致公司獲利能力下降。這種改變會抵銷部署系統的潛在效益。
其次,用於訓練AI的數據可能無法代表實際使用者。當AI模型遇到的情境沒有事先涵蓋在訓練數據時,它雖然會盡可能進行推斷,但它的整體表現通常會受到負面的影響。這也是自動駕駛汽車證明不易開發的部分原因:有太多獨一無二的駕駛情況,開發人員不可能收集到涵蓋所有情況的數據。
“自動駕駛汽車證明不易開發,部分原因是有太多獨一無二的駕駛情況,開發人員不可能收集到涵蓋所有情況的數據。
第三,部署AI模型可能會無意中產生負回饋循環。舉例來說,一個AI驅動的內容推薦系統,如果只顯示與使用者已經互動過的、非常相似的內容,使用者可能會接受一兩次,但到第20次時,他們可能覺得推薦很無聊,就離開平台。
最後,一些模型無法調整自己來因應現實世界的變化。例如,用歷史銷售數據來訓練的定價模型可能無法預測趨勢、突如其來的市場變化(像是全球大流行的疫情,或高度通貨膨脹),或是消費者購買某個特定商品而非另一個商品的理由,像是產品的可得性與商店的退換貨政策〔可參閱即將刊出的文章〈一步步教你即時定價〉(A Step-by-Srep Guide to Real-Time Pricing),作者為馬歇爾.費雪(Marshall Fisher)、桑提亞戈.加利諾(Santiago Gallino)與李君(Jun Li)〕。
除了量化AI模型的影響力,實驗還提供迅速的使用者回饋意見,可以協助找出專案無法提供適切價值的原因。這個早期階段的回饋意見可以大幅改善最終的產品。在我與LinkedIn於2021年進行的一場研究中,我們估計,整合這些數據使業務成果改善20%。在一個例子中,LinkedIn的一個團隊發現,有一個AI模型對某些使用者的表現不如其他使用者好,因為它的訓練數據沒有代表所有的實際使用者。該團隊擴大這個模型以容許更多個人化——這個簡單的改變大幅改善這個模型的表現。
實驗還降低創新的風險,因為雖然有些目標使用者可能遇到不良或負面的體驗,但實驗會減少這些使用者的數量。新的統計方法甚至允許自動連續監測,一旦察覺實驗有嚴重的負面效果或非預期後果,就會立即停止實驗。在一個例子中,我們重新分析了Netflix執行2週的實驗,發現這個方法可以在實驗進行1天後就停止實驗。
除了季約姆.聖亞克(Guillaume Saint-Jacques)、馬丁.丁雷(Martin Tingley)與我曾在本雜誌探討的典型陷阱外〔請參閱本刊2020年3月號的文章〈避免A/B測試陷阱〉(Avoid the Pitfalls of A/B Testing〕,還有2個原因讓一些AI專案很難進行A/B測試。首先,目標使用者群可能太小。這種挑戰在為少數公司或員工設計的專案中尤其常見。克服這種挑戰的一項策略,是錯開使用者接觸受測產品的時間,比較他們在採用前後的反應,以減少特殊事件造成的偏見。
其次,將AI專案部署到一小部分使用者或許是不可能或不切實際的,對於執行全域最佳化(global optimization)的AI來說尤其如此;所謂全域最佳化,指的是在所有可能選擇中找出最佳解決方案的過程。供應鏈最佳化、勞動力調度,以及產品組合最佳化,都需要全域最佳化。針對一小部分使用者的A/B測試可能導致較差的解決方案,而且可能無法充分反映潛在的好處。在這種情況下,進行切換實驗,也就是讓所有使用者間歇輪流使用AI系統與不使用AI系統,可能會有幫助。
4. 採用
在AI專案經過評估,顯示能夠增加足夠價值後,公司就可以把重心放在鼓勵大規模採用。當我在LinkedIn工作時,我領導的團隊推出一個面向內部的工具,用於AI驅動的數據分析。這個工具將大部分開發流程自動化,並讓數據科學家透過一個簡單的使用者介面,描述他們想要進行的研究,因而不必再寫程式碼;剩下的事情交由我們AI驅動的後端來處理。
早期的實驗顯示,這種方法將分析時間從數天大幅減少到數小時。然而在我們推出後,很少有人使用這項產品。相反地,他們持續做自己一直在做的事:在他們個人電腦上執行客製化的分析。
這是因為目標使用者不了解我們的產品,不確定AI是否專為他們設計,也不知道如果分析提供錯誤的結論,是誰的責任。簡單來說,他們不信任我們的產品,所以不去使用它。
根據我的經驗,對AI產品的信任有3根支柱:演算法、開發人員,以及流程。當人們相信AI能夠有效運作、對開發人員有信心,並認為流程是設計來賦予他們更多力量而沒有太多風險時,往往就會信任AI。不採用AI產品幾乎都能回溯到人們至少對這3根支柱的其中1根缺乏信任。解決之道是和那些嘗試過這項產品,但選擇不使用它的人交流,找出他們不信任的原因。
當人們相信AI能夠有效運作、對開發人員有信心,並認為流程是設計來賦予他們更多力量而沒有太多風險時,往往就會信任AI。
“以下是一些持懷疑態度的使用者可能會有的問題,以及如何詮釋這些問題的說明。
「AI產品是如何運作?它是否不存在偏見?它的假設是什麼?為什麼這項產品會做出這些預測?」像這樣的問題顯示人們對演算法缺乏信任。首先請關注它的功效。很有可能某些形式的偏見在開發與評估階段就被忽略了。接下來請轉向更難回答的問題,也就是理解、透明度與解釋。因為AI往往十分複雜,它的目標使用者不太可能理解演算法的內部運作方式。因此,可以向他們解釋被編碼到演算法中的各種假設,以顯示輸出結果符合他們的直覺與商業邏輯。解釋演算法的訓練數據,以顯示深植其中的知識廣度與深度。提供使用案例來展示產品在真實情境的表現。
使用者對我協助開發的LinkedIn產品缺乏信任,根本原因在於我們努力讓它盡可能簡單,結果卻打造出一個黑盒子。因此我們開發教育材料來說明產品的內部運作方式並解釋我們的假設。
「開發人員有什麼隱藏的意圖?開發人員是否聽取我的意見,並了解我的需求?演算法是否取代一項我喜歡做,而且我認為對我工作有價值的任務?」開發人員可以是一個組織、公司內的特定團隊,或是個人。當目標使用者沒有參與開發流程,通常就會對開發人員缺乏信任,在這個情況下有2件事可能會出問題:使用者認為開發人員有隱藏的私心,打算用演算法取代他們的工作,或是假定開發人員不了解或不關心他們的需求,因此不會提供能夠滿足他們需求的產品。克服這2個問題需要清楚的溝通,以及透明地解釋產品的目的。
在LinkedIn,我的團隊在整個開發流程收到幾位目標使用者的意見。因為我們合作密切,這些人信任我們。但遺憾的是,其他潛在使用者立即下結論說,我們的產品是客製化來解決少數幾個特定問題,靈活度不足以解決他們的問題。為了克服信任的缺乏,我們找出具有不同問題的潛在使用者,並幫助他們使用我們的產品。這雖然花費了大量時間與精力,但它證明了產品的靈活度。
「如果AI給了一個不正確的建議而我照做了,是我的錯還是AI的錯?如果我認為演算法錯了,我有權限去推翻它嗎?」AI產品本質上是隨機而且會犯錯。了解如何回應對於在流程中確保信任至關重要。當AI增強人類決策者的能力時,可以建立一個回饋循環與明確的指導方針來解決AI與使用者之間的分歧。當AI將流程自動化時,應該確保已經採取強而有力的保護措施來找出與糾正錯誤。
為了在LinkedIn的流程中建立信任,我們設立了一個認證委員會,在分享任何產出的見解前,先審查結果與後續的建議。因此在認證過程後才發現的錯誤,責任在審查委員會,而非使用者。
當我們採取所有這些步驟,在使用者之中建立信任後,產品迅速被整個組織採用。5年後,我們仍然持續使用它。
5. 管理
當AI產品獲得採用,旅程離結束還很遠。確保AI產品持續成功需要一個勤奮而積極的管理策略,以維持與改善結果。一個基本的要求是提供工程支持(像是修正錯誤),並監控產品表現的變化。表現下滑最常見的原因是訓練數據已經過時。例如,想想一家公司開發了一款AI來預測顧客的購買行為。如果顧客的偏好或市場狀況隨時間發生變化,該模型的預測就不會那麼準確。定期以新數據重新訓練模型很重要,但這麼做可能很昂貴,於是許多公司選擇建立機制來監控並提醒經理人注意模型表現的重大變化,這些變化可能代表模型需要重新訓練。
除了監控外,公司還應該進行AI審核,以尋找非意圖後果、倫理問題與安全漏洞。例如,在2022年發表於《科學》(Science)雜誌上的一篇研究中,我和共同作者發現,LinkedIn的演算法「你可能認識的人」(People You May Know),原本設計藉由建議潛在新關係來擴大使用者的人脈,但卻不經意改變使用者的職業前景。這個效果有一部分是因為個人社交網絡關係到獲取新工作與新機會的資訊。儘管在這個情況下變化是有益的,但AI專案可能會產生相反的效果,因此審核就變得不可或缺。
成功的管理不僅關於維持現狀,還涉及持續改善,以確保產品隨著科技與使用者不斷變化的需求逐步演進。這需要一個循環的流程,包含收集更多數據、改進演算法與促進使用量提升。我描述的5個步驟可以大幅提高領導人選擇最高價值專案、並實現承諾的機率。
文章來源:哈佛商業評論 11月號