跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-6.03%
USELESS
-0.02%
IKUN
+4.17%
gib
-6.03%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-0.05%
ALON
+1.81%
LAUNCHCOIN
+6.3%
GOONC
-1.09%
KLED
+1.21%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
+0.5%
Boopa
+10.93%
PORK
0.00%
主页
Christian Gilli
Christian Gilli
2025年9月19日
最后,在几天的阅读文档或调试线程索引后,我终于能够在MI300X上从头实现DSC中的闪存注意力! 第一个版本(橙色)是来自原始闪存注意力论文的基本标量版本。 第二个版本(绿色)是相同的算法,但使用矩阵核心(AMD张量核心),正如你所看到的,这比标量版本*显著*快。 我使用矩阵核心计算Sij = Qi @ Kj^T和Pij @ Vj。 一些AMD矩阵核心的“注意事项”: - 它们在每个波前的基础上工作,而一个波前在AMD上是64个线程,这意味着你必须跟踪当前波的ID以及该波内线程的ID。 - 由于矩阵核心的核心操作是4x1外积,输出布局将在寄存器中被打乱,因此需要一个重新排序步骤。 - (据我所知)矩阵核心的hipcc内在函数没有任何文档。AMD有一个包含许多示例的仓库,但除此之外,你必须grep LLVM代码库。 我现在要润色我的代码,然后可能会写一篇关于AMD闪存注意力的更深入的文章。 哦,顺便说一下,感谢@HotAisle让这一切成为可能!
9.75K
92
热门
排行
收藏