自從我第一次見到阿爾納夫·卡普爾(Arnav Kapur)以來,已經過去了一年,他的設備AlterEgo從一個粗糙的原型發展到模擬心靈感應。 阿爾納夫自我七年前第一次聽說他以來,一直是我的靈感來源,我想分享他的故事。 我第一次聽說阿爾納夫是通過他2017年在麻省理工學院媒體實驗室的病毒視頻,觀看人數接近100萬。這讓我想起了2019年同一小組的另一位印度人普拉納夫·米斯特里(Pranav Mistry)的一次類似演講,他是我(和許多其他人)決定去美國學習的主要原因之一。 我通過他的弟弟認識了他,弟弟這些年來我也逐漸熟悉(他自己也是個天才)。我立刻問他:“你為什麼不將這個商業化?這只是個華麗的學術演示嗎?”他回答說:“我現在正在做這件事。隨著大型語言模型(LLMs)的出現,我認為現在是時候了。” 但第一次演示很粗糙。設置需要15分鐘。電極需要貼在你的臉頰上。它的工作成功率大約是80%。新用戶的校準甚至需要更長時間。它只能說4000個句子。然而,這仍然感覺像魔法。我指著其中一個句子,讓他的同事斯科特(Scott)默默地說出來。幾秒鐘內,我幾乎沒有動一下肌肉,就收到了那句話的文本。我根本看不到他的嘴動! 但無聲的語言真的可能嗎?硬件是困難的。傳感器太多,無法使用。沒有持續接觸皮膚就無法工作(鬍鬚是個問題)。頭部運動過多也是個問題。電池是外部的。校準的摩擦太大。你只能說幾個句子! 快進一年,你會看到類似心靈感應的東西。傳感器縮小了。設備看起來像開放耳式耳機。無需15分鐘的設置。你可以說大多數單詞。AlterEgo讀取多種語言的體積細粒度神經肌肉信號並將其翻譯成文本。它允許你在用戶幾乎不動嘴的情況下理解他們所說的話,沒有噪音。 硬件仍然很難。在這之前還有很長的路要走,才能讓最終用戶使用。但要花費十多年時間致力於構建類似未來的硬件,需要一些真正的勇氣和卓越的工程技能。我們需要更多像阿爾納夫和他的團隊這樣的工程師。