跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+7.66%
USELESS
-0.5%
IKUN
-3.71%
gib
+0.02%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+0.56%
ALON
+1%
LAUNCHCOIN
-5.17%
GOONC
-0.39%
KLED
-8.87%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.22%
Boopa
-3.27%
PORK
+0.64%
主頁
Lior Alexander
協助開發者掌握 AI → 創辦人 @AlphaSignalAI(25萬用戶) • 自 2017 年起的機器學習工程師 • 前 Mila
查看原文
Lior Alexander
6 小時前
您現在可以生成聽起來像對話的即時語音。 微軟剛剛開源了 VibeVoice,一個即時文本轉語音系統,具有約 300 毫秒的首次音頻延遲和流式輸入。 它能夠處理長時間的對話而不會崩潰。 𝗧𝗵𝗶𝘀 𝗺𝗼𝗱𝗲𝗹 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗲𝘀 𝗹𝗼𝗻𝗴, 𝗺𝘂𝗹𝘁𝗶-𝘀𝗽𝗲𝗮𝗸𝗲𝗿 𝘀𝗽𝗲𝗲𝗰𝗵. 它可以生成長達 90 分鐘的音頻。 它支持最多四個不同的說話者。 在長時間的會話中,輪流發言保持一致。 𝗜𝘁 𝘄𝗼𝗿𝗸𝘀 𝗯𝘆 𝗿𝗲𝗱𝘂𝗰𝗶𝗻𝗴 𝘁𝗶𝗺𝗲 𝗿𝗲𝘀𝗼𝗹𝘂𝘁𝗶𝗼𝗻. 音頻壓縮成語義和聲學標記。 它們以 7.5 Hz 的速度運行,而不是逐幀音頻。 語言模型預測結構。 擴散頭恢復聲學細節。 𝗜𝘁 𝗮𝗹𝗹𝗼𝘄𝘀 𝗹𝗼𝘄-𝗹𝗮𝘁𝗲𝗻𝗰𝘆 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝘂𝗱𝗶𝗼. 即時變體逐步流式傳輸文本。 首次語音在約 300 毫秒內到達。 WebSocket 演示顯示實時生成。 該代碼是 MIT 許可的,僅供研究使用。 該庫已經獲得超過 20,000 顆 GitHub 星星。
44
Lior Alexander
8 小時前
成為普通人的時候從未如此糟糕。 成為卓越的時候從未如此美好。
Lior Alexander
11 小時前
必看。為什麼變形金剛在計算機視覺中取代了CNN。
3
熱門
排行
收藏