人工智能對出版業到底有什么影響?這些影響意味著什么?眾說紛紜,大致有兩種說法最有代表性。
一種是悲觀派,認為人工智能生成內容帶來的影響是全方位的,既是工具賦能,也是入口之爭,最終將是范式變革,對于現有內容和出版產業,不是快慢問題,而是生死之爭。另一種是樂觀派,在他們看來,生成式人工智能給出版業內容生產帶來巨大變革,改變內容生成方式,提高編輯工作效率,改變產品形態與服務模式,利于個性化推薦、精準營銷、按需出版等。
這兩種看法指向的是兩種可能比較極端的情況,那么不極端的情況是怎樣的呢?科技咨詢公司蓋特納6月發布的一份報告指出,雖然已經開發出了許多令人信服的生成型人工智能產品的原型,但在實際應用中,采用這些技術的成功率卻較低。高盛7月發布的一份研究報告顯示,人工智能對所有工作任務的影響將不到5%,在未來10年內僅能提升美國生產力0.5%,推動美國GDP增長0.9%。智庫蘭德公司8月發布的一項研究顯示,80%的人工智能項目以失敗告終,這一比例是非人工智能項目的兩倍多。
幾個維度與框架理解當下人工智能與出版
出版人對人工智能理解莫衷一是可以理解,因為人工智能是當今世界聚集最多風險資本和頂尖人才的熱門前沿科技領域,技術每天都在升級和迭代,每天都有無數信息撲面而來,要想從中理出一個相對清晰的頭緒不大容易。這里提供幾個相對比較簡單的框架和維度,希望為理解當下人工智能與出版提供一點基礎和鋪墊。
人工智能的五級水平。美國人工智能研究公司OpenAI的全新AGI路線圖曝光,將人工智能按一到五的數字由低到高排列等級。一級:聊天機器人,能夠使用自然語言進行對話的人工智能;二級:推理者,可以解決人類級別問題的人工智能;三級:智能主體,能夠代表用戶采取行動的人工智能;四級:創新者,能助力發明創新的人工智能;五級:組織者,能夠執行復雜組織任務的人工智能。
OpenAI自稱其已發布的大模型處于一級,很快會達到二級;五級的AGI最快也要到2027年才能實現。
全球最強的人工智能公司的人工智能能力尚處于初級階段,照理其他的追隨者應該不會更強,因此無論人工智能公司如何吹噓其功能強大,人工智能當下能夠做到的讓人類信任的事情還十分有限。
數據與智能。生成式人工智能之所以現在爆發,是數據、算法、算力三者發展合力的結果。智能不再被視為機器本身的特性,而被認為是數據的特性。人工智能的突破性是大語言模型的智力涌現,其連續性在于數字化在線化數據的積累和發展。
相比較一些領先行業而言,出版業數字化程度整體不高也不均衡,數據在線化程度有限,因此限制人工智能開發、應用與能力發揮。在編印發產業鏈3個環節中,出版最高,印刷最低,發行居中。出版中專業出版數字化程度最高,如勵訊集團數字化產品收入占比超過90%;大眾出版最低,數字化產品收入最高的也就20%左右;教育出版數字化收入占比居中,最高如圣智集團超過70%,麥格勞·希爾集團和培生集團超過60%。數字化程度與人工智能應用潛力直接相關,勵訊集團中國區高管張玉國說,勵訊集團迄今推出了12款人工智能應用。
液體與容器。紙質圖書的數字化轉型第一輪高潮是2007年亞馬遜發布Kindle帶動的。如果說十幾年前的出版數字化是把實體的出版物變成了流動的水,但水依然還都裝在各自隔開的容器、池子或水庫里,如文本庫、圖畫庫、音頻庫、視頻庫,各個數據庫互相之間不能通融,微弱的聯通是文本中加個二維碼掃描出音頻或視頻。而這次人工智能是消除或消融了容器或格擋,比如文本可以一鍵生成圖畫、文本一鍵生成音頻視頻、音頻視頻一鍵生成文本等。人工智能生成內容等信息技術正在重塑信息內容容器、文字容器、音頻容器、視頻容器,容器的功能隔閡被打破,出版業進入“活容器”時代。因此,有人說生成式人工智能之后的時代是新航海時代,也意味著這次出版業面臨的挑戰可能比以往任何時候都要大。
自然交互和知識計算。搜狗搜索和百川智能創始人王小川認為,人工智能有兩大方向,知識計算和自然交互。知識計算代表智能,其核心的智能來自于語言;自然交互是使得人跟它有更好的接觸,包括語音、圖像、視頻。
在大語言模型中,大家過分關注第一個關鍵詞“大”,往往忽略第二個關鍵詞“語言”,其實,語言在中間扮演了通向智能最重要的角色,當下機器學習主要還是在充滿人類智慧的語言里學習。這意味著,以語言文字系統記錄人類智慧的圖書,在人工智能大語言模型訓練中的價值和可能的市場空間要比我們想象的大得多。
發現與生成。雖然大語言模型涌現的智能被叫作生成式人工智能,但真正用起來其實有點名不副實,如生成文本時,時常產生“幻覺”,會“一本正經地胡說八道”;生成圖畫時,無標準的想象力發散有余,但有標準的精確性和連貫性卻很差。但作為數據洞察工具,它不僅特別靠譜還讓人驚艷不斷,比如人工智能可以發現蛋白質結構和基因系列,攻克生物領域50年難題,又比如人工智能能夠發現新的抗生素藥物。因此有人說,生成式人工智能“應該當作一個發現的工具,而不是一個生成的引擎”。
出版業與其說需要發現,不如說更需要高水平系統化知識的生成,而且出版業是一個對編輯出版質量的準確性、連貫性、穩定性有異常高標準和高要求的行業,人工智能算法本身具有概率性,每個人工智能模型都包含一定程度的隨機性和不確定性,因此對于目前主要基于概率、其結果不是很穩定的生成式人工智能,要讓其深度參與出版流程和輸出達標結果,編輯和出版人還是比較慎重的。由此看來,人工智能當下顯現出來的特長、能力與出版業特有需求并不是那么匹配。
功能、產品和生意。功能、產品和生意三者雖然在數字化環境里邊界時常模糊,但還是有很大區別。功能是現有產品或產品套件的補充。功能可能不會增加任何收入,事實上可能只會增加成本。產品雖然會產生收入和與之相關的成本,但它可能不足以支撐整個生意,一個成功的生意常常擁有一系列產品組合,就像一個出版社往往有多種圖書和書系。生意是一種獨立的經濟存在,以一個出版社的經營為例,它有收入、支出、利潤或盈余。
從現有人工智能在出版的應用看,專業出版場景最多的是搜索,大眾出版中應用最多的是營銷,大多是對現有功能的強化和支持,不能構成獨立的產品,形成獨立的營收,更不是一個獨立完整的生意,即便是勵訊集團的12款人工智能應用,大多也主要是對現有產品服務和工具的優化與強化,增加專業用戶認可度。
3個階梯。加拿大3位經濟學家研究發現,新技術應用需要爬過3個階梯,首先是從點解決方案開始,再到應用解決方案,最后到系統解決方案,才能真正使用起來。人工智能作為一種新技術,其應用恐怕也需要爬過這3個階梯,從人工智能點解決方案,即用人工智能改善現有的決策;到人工智能應用解決方案,即用人工智能改變做決策的方式;再到人工智能系統解決方案,即人工智能促成了新的決策,整個生成模式決策方式發生了改變。
預測與判斷。人工智能是一種預測技術,預測是一個填補缺失信息的過程。預測并不是決策,它只是決策的組成部分。預測通過減少不確定性使人們做出決策更加便利,但判斷的作用則在于分配價值。人工智能作為預測機器并不提供判斷,只有人類才會進行判斷,因為只有人類可以表達不同行動帶來的相對回報。隨著人工智能接管預測,人類會減少在決策中扮演預測加判斷的綜合角色,而更多地專注于發揮判斷的作用。
幾個現實推論提示人工智能與出版的發力方向
依據上述幾個框架對人工智能與出版的理解,結合歷史上出版與技術的幾次相遇,可以得出以下幾個初步推論,或許可以提示出版機構在人工智能上探尋發力的方向。
人工智能是出版數字化轉型的延長線和深水區。傳統出版如果轉型到位,對傳統出版業的內容生產方式、出版方式、管理方式和經營方式等產業全流程就會帶來深刻變革。在這個基礎上,人工智能等新型勞動工具的出現會帶來革命性突破,數據成為新的生產要素和勞動對象,傳統勞動者升級為數字化、網絡化、智能化勞動者,出版業的全要素生產率也將大幅提升。
一個出版企業,如果沒有良好的數字化基礎,只希望借助人工智能彎道超車或一飛沖天,大概率不會有理想的結果。人工智能只是對有準備的、數字化基礎好的出版企業錦上添花,絕不會對沒有準備的、數字化基礎薄弱的企業雪中送炭,盡管人工智能一定程度上也可以為出版數字化轉型賦能,但自身的數字化基礎是前提。
人工智能提示我們,出版企業需要繼續加快數字化轉型各項工作,包括產品數字化、流程數字化和營銷數字化,而且與之前不同的是,需要借助人工智能來倒逼升級數字化轉型,加快速度提升標準,不然人工智能大潮不僅不能借力,很可能被甩開。
技術與內容孰輕孰重的邏輯依然沒有變:內容是目的,技術是手段。傳統出版每次遇到新技術,都會引發技術和內容孰輕孰重之爭,這次也不例外。出版本質上是靠賣內容賺錢,而不是靠賣技術賺錢。普林斯頓大學出版社原社長彼得·J·多爾蒂說,圖書出版業是一種商業,而且越來越具有技術性,但它在本質上仍然是一門藝術。保持藝術的中心地位,同時運用科學來支持和推進它,是出版業高管的任務,也是維護聲譽的本質。
從電子書勝出者Kindle和許多模仿者、失敗者的比較來看,內容版權優先還是內容技術優先,無論對出版公司還是技術公司,不同選擇導致不同結果。成功的案例是Kindle,Kindle上市前花的最大功夫是簽下美國主流出版社主要在售和即將上市的圖書,而且價格是精裝本紙質書的三分之一,Kindle勝出是內容優先的結果。
技術推動出版發展不假,但并非技術越多就越好,出版技術含量與其商業成果不成正比。回看上一輪電子書革命,一個有趣的事實值得我們深思:內容含量越高,商業價值越大,如大眾出版中技術含量最低的電子書1.0,即轉檔電子書賣得最好;相反單品技術含量最高、技術投入最大的電子書3.0,即增強型電子書,鮮有成功案例。技術含量越高,價值未必越大。
版權已經成為人工智能與出版各方競爭角逐的新陣地,集體版權與孤兒版權將再度引關注。無論是紙質出版時代還是數字出版時代,版權都是最核心最關鍵的,所謂“內容為王”,其內在本質是“版權為王”,在人工智能時代依然如此。
其一,一個鼓舞人心的跡象,新聞和專業內容版權率先實現規模級市場價值。
版權是內容行業能夠立竿見影帶來收入的“低垂的果實”,人工智能合作伙伴關系正成為與傳統廣告和訂閱并列的新收入來源。領先的內容公司已經陸續成為人工智能技術公司的核心內容供應商。生成式人工智能公司需要最高質量的內容,以確保其產品的相關性和準確性。今年2月,谷歌與新聞集團簽約,每年付近6000萬美元,獲得授權使用其新聞內容用于大模型訓練。據估計,這項合作在未來5年內價值高達2.5億美元。
OpenAI也不甘落后,瀏覽OpenAI合作伙伴名單,數量最多的竟然是內容公司,許多全球知名內容品牌赫然在列。除了新聞內容交易,最近陸續披露出許多專業出版內容交易,比如英國學術出版公司泰勒&弗朗西斯和微軟的內容合作,每年付費800萬英鎊;威利已經和人工智能技術公司達成兩筆總額超過4000多萬美元的內容授權生意;劍橋大學出版社、牛津大學出版社透露將向人工智能公司出售其作者作品的訪問權,賺取收入達5800萬英鎊。
其二,圖書版權,特別是文史哲圖書版權將成為下一個版權價值洼地。
內容公司版權內容變現的路徑之所以從新聞內容到學術內容,最后再到大眾圖書,其底層邏輯在于:新聞內容對讀者訂戶而言,只有最新的才最有價值,過時新聞積累而成的新聞內容庫打包賣給人工智能公司可以說是白賺;學術出版內容經過20年的開放存取運動,大約一半對讀者是免費的,出版商通過向作者收取文章處理費已經收入不菲,因此其內容庫授權給人工智能公司并無太多顧慮;大眾圖書則不然,主要靠向讀者收費,因此在內容授權上特別慎重。
雖然現在還沒有看到大眾圖書授權給人工智能技術公司形成有規模收入的消息,但網上一度傳過Meta公司想收購美國西蒙&舒斯特出版公司,因為其積累了20多萬種優質版權圖書。最近美國也出現了一家創業公司對此躍躍欲試。說明各方都很看好這個市場。
中國出版協會理事長鄔書林在前不久的一個出版論壇上提醒出版界:“人工智能雖然可以高效地處理大量數據,但在情感表達、文化理解等方面還存在局限性。因此,我們需要思考如何在人工智能的輔助下,保持出版的獨特性和人文性,讓出版物更具深度和溫度。”純理工知識是形式邏輯,是可以編程的,可以交給外部系統處理。如果說形式邏輯知識像法寶,人工智能流行之后很容易獲得,文史哲知識更像內功,需要長時間不斷修煉。這意味著,大模型需要特別注重文史哲知識訓練,文史哲訓練不足的大模型會充滿偏見。
現在大模型所訓練學習的內容中,深度系統的文史哲知識嚴重不足,因為文史哲知識主要在圖書里,圖書的數字化程度整體不高,授權出去的優質內容非常有限,頭部新書和再版書是出版社的“現金牛”,一般不會輕易授權,再版長尾圖書許多難以找到數字版,更多的孤兒圖書根本沒有數字版,雄心萬丈的谷歌圖書數字化計劃涉及1.3億種圖書,據說也只是人類所有圖書品種的十分之一。
因此,傳統出版界未來一項重要工作就是繼續將優質圖書特別是文史哲長尾圖書數字化,因為圖書品種多,許多是不再版且版權難以確認的孤兒作品,全世界解決這一版權難題的路徑是集體版權管理,包括如何給版權定價,如何補償作者都是需要解決的問題。
徘徊不前的專業數據庫工作找到新動力與新方向。在專業出版數字化轉型浪潮中,盡管中國出版界有同方知網、科學出版社的期刊數據庫以及社會科學文獻出版社的皮書數據庫等亮眼成果,但與世界領先的數據庫相比差距依然很大。許多立項并投入很多資金的專業數據庫面臨的問題,不是找不到應用場景就是找不到商業模式。
人工智能的開發與應用為這些專業數據庫找到新的應用場景。人工智能的應用特別是在專有領域中的應用,需要跟領域知識深度結合,訓練專有小模型也需要專業數據庫。因此說人工智能為原來停滯徘徊的專業數據庫工作找到新的動力和方向。
這里需要指出的是專業數據庫,小不是關鍵,主題關聯性強才是關鍵。無論數據集的大小如何,數據的相關性才是真正重要的。
什么是相關性的數據?比如數學知識,只有自己出版社出版的少量品種不行,不說把全世界至少也是全中國有代表性的數學圖書和文獻差不多都裝進來才行。比如要訓練人工智能會寫像樣的圖書營銷文案,至少也得收集國內幾十萬或幾百萬種圖書的營銷文案數據集,這才是相關性數據集。
幾個建議守護和挖掘出版的內容價值
避開陷阱和擺正姿勢。據估計,超過80%的人工智能項目以失敗告終,蘭德公司最新調查報告,人工智能項目失敗有五大原因:第一,不清楚需要用人工智能解決的問題是什么;第二,企業往往缺乏足夠的數據來訓練有效的人工智能模型;第三,企業更注重使用最新的最先進的技術,而不是為預期用戶解決實際問題;第四,企業通常沒有足夠的基礎設施來管理數據并部署已完成的人工智能模型;第五,企業將技術應用于人工智能無法解決的問題。這是企業應用人工智能應該留意的陷阱。
蘭德公司報告建議,企業應用人工智能,應該確保技術人員了解項目的目的和領域背景。在開始任何人工智能項目之前,領導者應該做好準備,讓每個產品團隊至少在一年內專注于解決特定問題;應該關注問題本身,而不是技術;應該投資于基礎設施,為支持數據治理和模型部署而進行的前期基礎設施投資,可以減少完成人工智能項目所需的時間,并增加可用于訓練有效人工智能模型的高質量數據的數量;應該了解人工智能的局限性,在考慮潛在的人工智能項目時,領導者需要邀請技術專家來評估項目的可行性。這或許是任何企業應用人工智能需要擺正的姿勢。
行業層面。無論是發達國家的出版協會還是國際出版協會,在談到人工智能與出版時,首先說到的是版權保護,強調不能任由優質出版內容未經授權就被人工智能公司拿去訓練大模型,需要保障作者和版權人從人工智能的發展中獲取應得的利益。
創作編輯出版優質內容有很高的成本,背后是無數專業人士的多年積累與付出。無論是國家還是機構層面,人工智能研究既然有巨額投入,就應該支付優質內容成本,這些事情當然要政府主管部門或行業協會統籌協調,才能夠解決有望。中國是參照歐盟還是美國,也需要權衡,在法律出來之前,出版機構可以從合同層面先行改善優化。
中國出版界有各級出版基金,用來扶持耗時長和投入大的出版項目,經過多年發展,成果蔚為大觀,許多都是文史哲的優質內容,只是大多數只有紙質版,如果能夠進行數字化轉換,應該能夠形成許多優質的文史哲專業數據庫。新的基金項目成果提交也可以考慮加上數字版或數據庫要求。
考慮到文史哲圖書數據庫建設嚴重滯后,數字化建設成本和孤兒版權處理成本巨大,可以考慮設立專項基金來推進。外文世界是谷歌以一己之力斥巨資投入建設的,中文世界也需要類似的圖書數字化計劃。
企業層面。當然,更多的專業數據庫,需要企業自主投入建立,現在出版企業銷售規模最大、利潤最多的大多是地方出版集團,地方出版集團恰恰是專業資源最薄弱的出版機構,為了建設系列高水準專業數據庫,出版機構有3個思路可以考慮。
其一,獨立數據庫。自己有足夠的專業資源優勢,自成一體,就可以獨立建數據庫,這樣的情形應該不多。
其二,聯合數據庫。就是多家企業合作,突出優勢,資源置換,最后形成多個專業資源庫。
其三,聯邦數據庫,也叫聯邦學習。這是一個折中的策略,就是各自數據都在自己的庫里,但使用時可以在不影響版權和隱私的前提下以專題來集中使用。
聯邦學習是一種允許多個參與方在保護數據隱私的前提下,共同訓練模型的分布式機器學習方法。它的發展對數據產業產生了重大影響,尤其是在金融等數據敏感性較高的領域。聯邦學習可以解決數據孤島問題,同時保護數據隱私和安全,符合如歐盟通用數據保護條例等法律法規的要求。
這個思路出版業也許可以參考,畢竟是最快而且最折中的解決方案。
- 上一篇:出版如何解鎖文創賽道
- 下一篇:2024圖書影響力論壇:不僅出好書,還要好書有影響力