潘文博@香港城市大学:揭示大模型安全对齐的隐藏维度:从多维特征空间看对齐机制与脆弱性
MLNLP社区举办学术Talk,邀请香港城市大学潘文博分享大模型安全对齐的研究成果,揭示其内部机制由多个维度控制,主持人王鹏介绍相关背景知识。
MLNLP社区举办学术Talk,邀请香港城市大学潘文博分享大模型安全对齐的研究成果,揭示其内部机制由多个维度控制,主持人王鹏介绍相关背景知识。
THEMIS团队提出水印保护框架THEMIS,用于解决移动端AI模型部署后的安全问题,包括模型提取与盗窃、知识产权侵犯等问题。该框架通过自动工具实现加密模型的精准提取和只读模型的写入能力,并提出FFKEW算法进行高效水印嵌入,展示了在多种应用场景下的有效性。