北京時間5月23日,聲網母公司 Agora, Inc.(NASDAQ: API) 發(fā)布了2024年第一季度財報。財報顯示,第一季度 Agora, Inc.?實現(xiàn)營收3302萬美元,其中,業(yè)務聚焦中國市場的聲網實現(xiàn)營收1.23億人民幣,聚焦非中國市場的 Agora 實現(xiàn)營收1580萬美元。
在客戶規(guī)模方面,截至2024年3月31日,Agora, Inc.?活躍客戶數(shù)量達5553個,同比增長3%。其中,聲網活躍客戶數(shù)量3833個,Agora活躍客戶數(shù)量1720個。
Agora, Inc.?創(chuàng)始人兼CEO趙斌表示,“盡管面臨充滿挑戰(zhàn)的市場環(huán)境,我們持續(xù)專注于提升產品的核心性能。我們發(fā)布了全新的視頻質量優(yōu)化整體方案,并將我們的 SDK 穩(wěn)定性提升至歷史最佳水平。我堅信這些改進不僅為現(xiàn)有客戶創(chuàng)造了價值,也為未來更加多元的應用場景創(chuàng)新奠定了堅實基礎。此前我們曾預測,生成式人工智能模型將能夠與用戶直接進行音視頻對話,而這一預測正在迅速成為現(xiàn)實。大模型與人的音視頻交互將極大地受益于我們的技術積累,有望發(fā)展成為實時互動技術重要的應用場景?!?/p>
隨著 GPT-4o 的發(fā)布,讓人與 AI 進行實時語音對話成為現(xiàn)實,而 RTC 則是實現(xiàn)這一場景的關鍵技術之一。近日,聲網進一步豐富 AIGC 一站式解決方案,目前已可以提供基于大模型的全鏈路實時音視頻方案,幫助大模型廠商構建實時音視頻互動能力,讓用戶與 AI 進行語音、視頻形式的實時互動,并已做到行業(yè)內領先的低延時對話體驗。
本季度,聲網持續(xù)聚焦于多元應用場景創(chuàng)新和行業(yè)拓展,發(fā)布了兩款重磅解決方案,分別為聲網賽事直播方案和 RTC+AI 教育超級雙擎解決方案。聲網賽事直播方案,助力直播平臺以更低的成本,獲得更高質量的賽事直播效果與用戶體驗。RTC+AI 教育超級雙擎解決方案,則助力了在線課堂教學體驗的升級以及教學場景的創(chuàng)新。
在出海領域,聲網也持續(xù)深耕 1v1 社交場景,助力客戶在網絡環(huán)境復雜多變的地區(qū),也能擁有流暢穩(wěn)定的音視頻互動體驗,跑贏出海大盤。據數(shù)據顯示,聲網 1v1 社交客戶在全球各區(qū)域的1v1 App 市場滲透率>70%,其中在中東地區(qū) 1v1 社交 App 收入 TOP20中,使用聲網 SDK 的 App 就達到了14個,滲透率排名第一。
AIGC 一站式方案 助力大模型構建實時音視頻能力
近日,GPT-4o 的發(fā)布引起了業(yè)界的廣泛關注與強烈討論,也透露出一個重要的信號:支持端到端實時多模態(tài)將成為當下大模型發(fā)展的新趨勢,實時文本、音視頻傳輸能力,將成為實時大模型的標配。
相比于 GPT3.5 和 GPT4,GPT-4o 最核心的區(qū)別在于文本、視覺和音頻由同一個神經網絡處理,不僅降低了延時,還捕捉到了更多的信息。此前基于 GPT3.5 或 GPT4 的 AI 語音助手是通過 STT 將語音轉成文字再輸入給大模型,大模型生成文本響應后再通過 TTS 輸出語音給到用戶,平均延時達到2.8秒(GPT-3.5)和5.4秒(GPT-4)。
而GPT-4o?直接將語音實時輸入給大模型,并大幅提升響應時間,最終實現(xiàn)了與真人聊天一樣自然流暢體驗,AI 的處理反應已經達到人類的高度和速度,而實現(xiàn)這一跨越式技術進步的關鍵,一是大模型的進化,二是RTC能力的應用。
針對大模型的交互能力,聲網目前已可以提供基于大模型的全鏈路實時音視頻方案,可以幫助大模型廠商構建實時音視頻互動的能力,用戶可通過麥克風與 AI 進行語音、視頻形式的實時互動,并且做到行業(yè)內領先的低延時對話體驗。
聲網的 AIGC 一站式音視頻解決方案也可以實現(xiàn)像 GPT-4o 的音頻對話能力。聲網提供封裝完整的 SDK,并支持模塊化能力的靈活拼裝,包含 RTC 實時音視頻、實時消息等多種能力,并支持 API 快速調用,提供開箱即用的場景化 Demo,最快 3h 即可實現(xiàn)方案快速驗證。尤其對于想快速驗證新場景的企業(yè)與開發(fā)者而言,可以節(jié)省很多開發(fā)時間。
發(fā)布賽事直播解決方案,延時低至500ms、安全穩(wěn)定更高清
為了解決賽事直播場景普遍存在的高延遲、低畫質、信號傳輸穩(wěn)定性差、成本高昂,以及盜鏈等問題。本季度,聲網發(fā)布了賽事直播解決方案,助力直播平臺以更低的成本,獲得更高質量的賽事直播效果與用戶體驗。該方案主要應用于賽事觀看、一起看比賽、大V解說、明星陪看等熱門場景。
聲網賽事直播解決方案提供了成本可控的云演播廳,直播平臺無需租賃線下場地即可讓受邀嘉賓在線解說。針對解說嘉賓不同的網絡情況,聲網也提供多條不同碼率和幀率的實時流,并根據解說嘉賓的實際網絡情況進行自動切換,即使是1M?帶寬,也能實現(xiàn)流暢解說。
超低延遲、穩(wěn)定傳輸?shù)燃夹g作為聲網的“看家本領”,讓聲網賽事直播解決方案的優(yōu)勢更加明顯。它可以保證在 500ms 內將畫面?zhèn)鬏數(shù)接^眾眼中,相比傳統(tǒng) HLS、FLV 通道最高降低 90%,觀眾端直播畫面首幀出圖時間 <400ms,做到精彩賽事隨點隨開。觀眾端音視頻丟包邊界80%,極端弱網也能保障流暢。
基于 NTP 聲網賽事直播解決方案可以保證解說嘉賓各端對齊,直播畫面差嚴格小于3幀,解說音軌與賽事畫面同步。此外,基于聲網鳳鳴 AI 引擎的降噪功能,可以有效消除解說嘉賓的環(huán)境雜音和外放聲音,同時避免人聲被抑制采用,為觀眾帶來更“純凈”的觀看體驗。
針對賽事直播過程中觀眾側質量難以追溯的痛點,聲網賽事直播解決方案提供了強完善質量工具“水晶球”,不僅可以為平臺方提供實時質量監(jiān)測,還能快速定位卡頓觀眾端。除此之外,該方案還提供了軍工級信號加密,實現(xiàn)端到端傳輸和內容雙重加密,有效防盜鏈。
發(fā)布 RTC+AI 教育超級雙擎解決方案 驅動教育多維創(chuàng)新
4月27日,聲網發(fā)布了 RTC+AI 教育超級雙擎解決方案,通過 RTC+AI 雙引擎驅動在線課堂教學體驗的升級以及教學場景的創(chuàng)新,該方案包含了超強互動、絲滑流暢、多維直播、教育硬件適配、AI沉浸課堂、大模型輔助教學等六大特性。可應用于直播大班課、智慧教室、學習機、AI口語老師等在線教育場景。
基于聲網的 RTC 技術,可以保障師生隨時隨地通過上麥、彈幕、文字消息等方式與老師實時互動,教學體驗絲滑流暢,確保每堂課程 0 干擾、無卡頓。同時,提供實時直播和錄像直播兩種教學模式,錄像直播搭配教學組件也能達到實時直播的教學效果,有效節(jié)省教學成本。該方案可全面適配市面上主流學習機品牌,并實現(xiàn)了低端機型性能優(yōu)化,具備低內存占用、極小包體、超低功耗等特性,并在行業(yè)內率先適配鴻蒙 HarmonyOS NEXT。
聲網的智慧教室音頻(3A)解決方案具備 AI 降噪、AI 去混響、AI 回聲消除等能力,可全面消除教室內各類噪聲;無論教室大小及麥克風布局,均能自適應降低混響時長,最大可降低800ms 混響時長,有效提升語言清晰度;實現(xiàn)復雜場景下的回聲抑制和近端人聲保真,老師端語音保留可達90%,教室回聲殘留率低至0.1%,深度還原線下教室的上課體驗。
聲網的教育超級雙擎解決方案同樣支持大模型輔助教學,運用大模型構建 AI 口語老師場景,學生可通過實時語音與 AI 進行問答互動,從學生發(fā)言到 AI 對話響應平均延時僅為1.9s。
助力中東 1v1 社交應用 跑贏出海大盤
中東一直是企業(yè)出海的熱門市場,而在中東的泛娛樂社交出海中,1v1社交憑借社交效率高、新鮮感十足、變現(xiàn)能力強等因素,成為了社交出海的大熱場景。聲網在助力客戶出海的過程中也發(fā)現(xiàn)面向中東區(qū)域出海1v1社交的客戶越來越多,聲網也成為中東社交 App 音視頻服務首選。據數(shù)據顯示,聲網1v1社交客戶在全球各區(qū)域的1v1 App 市場滲透率>70%,其中就中東地區(qū),在中東1v1社交 App 收入 TOP20中,使用聲網 SDK 的 App 就達到了14個,滲透率排名第一。
中東地區(qū)的網絡環(huán)境復雜多變,保障絕大部分用戶在任何情況下都能流暢穩(wěn)定地進行實時互動是一大難題。聲網通過優(yōu)質網絡覆蓋、超強的弱網對抗能力,有效解決網絡復雜性下的互通難點,為出海中東的泛娛樂社交應用“保駕護航”。對于目前中東出海的幾個熱門國家地區(qū),如土耳其、埃及、伊拉克在帶寬一般、網絡穩(wěn)定性一般甚至較差的情況下,聲網也能做到最優(yōu)效果。