Star Attention的推理准确性依旧保持在原基准90%,推理加速比达到了10.8×~16.9×。 而在更大的Llama3.1-70B中,Star Attention能实现更大的加速比,同时保持相似水平的准确率下降。 由于其运行机制不涉及具体模型,Star Attention可以无缝集成到大多数通过全局注意力训练 ...