AI治理必修第17刊|Meta开发出首个无文字语言AI翻译系统,闽南语翻译安排上!人工智能是否需要神经科学?

AAIG 阿里巴巴人工智能治理研究中心 2023-11-28

收录于合集 #AI治理必修月刊 35个

AI治理必修-10月(下)第17刊发布！

AAIG的专家们用多学科的专业视角，每月从全球收集和筛选关于算法治理和可持续发展的全球态势。重点关注算力时代的新技术、新风险、新实践、以及对它们新解释。

10月(下)共21篇文章4643字,分【本月洞察、行业动态、前沿技术、产业实践】四个板块展开。

扩散模型依然火热，众多基于此的研究和应用持续涌现；基于prompt和instruction进行微调的大语言模型效果优于数十倍于自身参数量的语言模型；结合CV和NLP技术的应用如文档智能发展迅速并已经进行实际应用。

在这些AI模型火热的背后，也有很多专家和机构指出对于目前AI鲁棒性、风险管理等的急切需求，更前沿的探讨研究如何从神经科学出发，来构建认知智能的理论、方法和技术，同时构建一个大的数据平台来验证理论和模型的可行性，至关重要。

点击题目即可查看全文

1. 详解！二十大报告点赞这些创新领域

1.载人航天：我们有了自己的空间站2.探月探火：刷新人类对月球和火星认知3.深海深地探测4.超级计算机：更快也更强5.卫星导航6.量子信息:从理论变成现实7.核电技术：自主创新，跨越发展8.大飞机制造:C919最近很忙

2. Gartner发布：2023年十大战略技术趋势

1.可持续性2.元宇宙3.超级应用4.自适应AI 5. 数字免疫系统6.应用可观测性7.AI信任、风险和安全管理8.行业云平台9.平台工程10.无线价值实现

3. 2022剑桥AI全景报告出炉：扩散模型是风口，中国论文数量为美国的4.5倍

1.扩散模型席卷计算机视觉世界。2.AI for science。3.标度法则重新聚焦数据：其核心在于数据。4.社区驱动的大型模型开源速度加快，集合模式可以参与同大型实验室的竞争。5.受神经科学的启发，AI研究方法向认知科学的方向发展。6.新贵AI半导体初创公司与英伟达相比是否有作为？7.许多初创公司从DeepMind和OpenAI等巨头中诞生。8.最新AI技术被大型科技公司和初创公司转化为商业开发人员工具。9.人工智能加快药物研发，促进医疗产业发展。10.随着市场的扩大，对AI初创公司的投资速度在放缓。

4. 一场Twitter争论：人工智能是否需要神经科学

1.人工智能有很多途径，NeuroAI只是一个选择。2.属于脑科学的“空气动力学”还未到来。3.目前神经科学还处于初级阶段，但已经是最好的时代。4.对人工智能的启发可以有很多种。5.未来的NeuronAI政府资助。

5. 戴琼海院士：关于认知智能的一些思考

2022年10月29-31日，由中国科学技术协会、中国科学院指导，中国人工智能学会、长沙市人民政府主办，湖南大学、长沙市科学技术局、湖南省计算机学会承办，湖南省人工智能学会协办的第八届中国人工智能大会在湖南长沙隆重举行。戴琼海院士在大会上分享了自己对人工智能的一些思考。

1. 微信版大语言模型来了：跨时空对话李白、教你高情商说话，API在线试玩全都有

有以下特点：1.采用RoPE相对位置编码，与传统的固定位置编码相比能更好处理长文本，比如理解整篇文章甚至整本书。2.使用62k个token的SentencePiece并保留其中的空格和Tab，这样更有利于下游任务。以及有3个额外能力：1.可以对自己的决策作出解释。2.可以对结果进行自我纠正和检查能力。3.记忆能力，如果输入内容完美匹配前文，即使内容很长、出现频次很低，模型依然可以准确的生成剩下的部分。

2. StableDiffusion嵌入现实世界，能在墙上直接长出小猫咪，手机可玩

Stable Diffusion的触手扩展到现实世界——和WebAR相结合，原理是在原基础上用AR加持。具体步骤：第一步，冻结帧，把它作为生成图像的表面纹理，并让它拥有世界定位和设备跟踪相机；第二步，向服务器发送API请求，并附上冻结帧（图像）和文本提示，使用Stable Diffusion生成图像；最后使用AR技术将生成的图像嵌入到视频当中。

3. 人类反超AI：DeepMind用AI打破矩阵乘法计算速度50年记录一周后，数学家再次刷新

来自奥地利林茨约翰·开普勒大学的研究人员在其最新工作中表示，他们已经打破AlphaTensor的矩阵乘法记录。他们开发了一种以95步执行5×5矩阵乘法的方法，比AlphaTensor的96步记录少了一步，此前的记录为98步。

4. 从多篇论文看扩散模型在文本生成领域的应用

本文通过四篇论文分别介绍了D3PM、Diffusion-LM、LatentOps、DELLA4个扩散模型的扩散方式和文本生成领域的应用。

5. 基于语音数据的实体和关系抽取

传统的面向语音的关系抽取一般需要通过语音识别技术将语音数据转录为文本，然后进行基于文本的关系抽取，这一流程可能会引起误差累积问题。为了解决上述问题，本文提出了一种端到端式语音关系抽取方法，经过实验，提出的方法在CoNLL04数据集上已经超过了分阶段方法。虽然在TACRED数据集上距离分阶段方法还有一定差距，但是经过分析，在增加数据量的情况下，模型仍有望超过分阶段方法。

6. 30亿跑赢GPT-3的1750亿，谷歌新模型引热议，然而却把Hinton年龄搞错了

来自谷歌的研究者分析了多种指令微调方法，包括扩展对指令微调的影响。实验表明，指令微调确实可以根据任务数量和模型大小实现良好的扩展，最大到 5400 亿参数的模型都能明显受益，未来的研究应该进一步扩大任务的数量和模型的大小。此外，该研究还分析了微调对模型执行推理能力的影响，结果都是很吸引人的。

7. AI居然「暗中」捣乱？港中大深圳联合西安交大发布后门学习新基准｜NeurIPS 2022

香港中文大学吴保元教授课题组与西安交通大学沈超教授课题组联合发布了一个后门攻击与防御基准BackdoorBench。它由输入模块、攻击模块、防御模块以及评估和分析模块组成。到目前为止，已经实现了9种SOTA的后门攻击和12种防御方法，并提供了5种分析工具（t-SNE、Shapley value、Grad-CAM、Frequency saliency map、Neuron activation）。此外，他们还提供了可用于分析、评估后门攻击和防御的可视化工具，并且已对8000组攻防对做出了深入的评估和分析。

1. 《人工智能治理与可持续发展实践白皮书》

阿里巴巴集团联合中国信通院编写了《人工智能治理与可持续发展实践白皮书》，全面总结了阿里巴巴在人工智能治理与可持续发展领域的实践。

以下分享第四章内容。

1）专题|加强儿童类商品内容治理,守护未成年人健康成长

1.儿童类商品内容治理日益重要2.淘宝针对儿童类商品内容治理的制度规范实践3.淘宝针对儿童类商品内容治理的技术能力实践

2） 第四章|构建全方位人工智能管理体系

1.构建全方位人工智能管理体系。2.健全治理制度:建立合规机制与规范行为。3.完善治理组织：明确责任归属与岗位分工。4.丰富治理能力：结合风险防范与前沿探索。

3） 专题|如何构建行之有效的算法透明

1.打开算法黑箱需要构建算法透明机制。2.实现算法透明的具体路径。3.阿里构建算法透明的实践方案。

2. 《追AI的人》

《追AI的人》是一档由阿里巴巴人工智能治理与可持续发展研究中心（AAIG）联合高校和产业界发起的AI治理交互栏目。重点关注分享人工智能新技术、AI治理新观点、可持续发展新风向。

1）第15期：《文本如药，如何精确提炼“有效成分”？》

清华大学计算机系硕士优秀毕业生刘劼西老师分享：1.对话中的情感分析问题定义和当前困难 2.基于有监督原型对比学习的对话情感分析方法3.对话情感分析的未来发展方向。

3. AI鲁棒性ITU-T国际标准再突破！助力产业高质量发展

由阿里巴巴牵头的《基于深度学习的视觉模型鲁棒性训练框架》国际标准在国际电信联盟电信标准分局（ITU-T）SG16会议上成功立项。此标准提出面向深度学习视觉模型的开发者，提出帮助提升鲁棒性的模型训练框架，此标准也是ITU-T首个提升人工智能鲁棒性相关的国际标准。

4. 文档智能不再难！百度开源十一边形战士文心ERNIE-Layout

百度文档智能团队基于多语言跨模态布局增强的文档智能大模型文心ERNIE-Layout，刷新了五类11项文档智能任务效果。该模型以文心ERNIE为底座，融合文本、图像、布局等信息进行跨模态联合建模，创新性引入布局知识增强，提出阅读顺序预测、细粒度图文匹配等自监督预训练任务，升级空间解耦注意力机制。输入基于VIMER-StrucTexT大模型提供的OCR结果，在各数据集上效果取得大幅度提升，相关工作已被EMNLP 2022 Findings 会议收录。

5. 谷歌提出Imagic：利用扩散模型的基于文本的图像编辑

Imagic：基于扩散模型的图像编辑新模型，首次展示了将复杂（例如，非刚性）文本引导语义编辑应用于单个真实图像的能力，比如可以让一只站着的狗坐下或跳跃，让一只鸟张开翅膀等等。原理：利用预先训练的文本到图像扩散模型来完成这项任务。它生成与输入图像和目标文本对齐的文本嵌入，同时微调扩散模型以捕获图像特定的外观。

6. Meta开发出首个无文字语言AI翻译系统，闽南语翻译安排上了！

本文从AI如何处理语音翻译、工作原理和语音翻译未来的机遇与挑战三方面介绍了Meta AI的通用语音翻译项目。Meta旨在创建一个可以跨所有语言进行实时语音翻译的AI系统，甚至包括那些口语常用但书面语不常用的语言。该模型是首个人工智能语音翻译系统，用于非书面语言闽南语。它使得说闽南语的人可以与说英语的人进行对话，这是打破全球语言障碍的重要一步。它将促进人与人之间的交流，无论他们在哪里——甚至在元宇宙中。

7. 微软亚研院：文档基础模型引领文档智能走向多模态大一统

微软亚洲研究院结合NLP和CV技术，对LayoutLM升级改进，于今年发布了最新成果LayoutLMv3，它的创新之处在于提出了一个词块对齐预训练目标，通过预测一个文本词的对应图像块是否被遮盖，并把图像细粒度对齐关系看作一种语言，来学习跨模态的对齐关系。与此同时，该模型首次将文本和图像同时进行掩码预测，进一步增强了跨模态学习的有效性。而在模型架构上，它不依赖复杂的CNN或 Faster R-CNN网络来表征图像，直接利用文档图像的图像块，大大节省了参数并避免了复杂的文档预处理，进而让LayoutLMv3可适用于以文本为中心和以图像为中心的文档智能任务。

10月(上)第16刊点击查看👇

直播预告

今日推荐

往期精彩推荐点击标题查看文章

● 专题|维护电商平台信息真实和竞争公平《人工智能治理与可持续发展实践白皮书》

● AAIG成立一周年!砥砺前行,谱写新时代的科技之歌~请查收这份最新的自我介绍

● AI治理必修第16刊|国产AI作画神器来了！日增5万用户的背后有什么秘诀?DeepMind攻克50年数学难题!

● 听委员说｜AAIG薛晖出席杭州市"两会",提出加快建立人工智能产业的多元协同治理机制

● 文本如药?如何通过多样例学习判断有效成分?如何识别辱骂文本?对话质量分析应用场景?AAIG自然语言理解实验室EMNLP专场(上)

● “算法偏见”是概念炒作吗?「这个AI不太冷」第3期带你揭秘现实AI!

更多人工智能治理和可持续发展好文
点击下方名片关注和星标【阿里巴巴人工智能治理与可持续发展研究中心】👇AAIG课代表，获取最新动态就找她