爱收集资源网

华为爱尔兰研究所开源实验室研究Rust

网络整理 2023-09-28 20:06

Yijun Yu

可信编程首席专家

华为可信软件工程与开源实验室

华为爱尔兰研究所

Amanieu d’Antras

Rust 高级专家

华为可信软件工程与开源实验室

华为爱尔兰研究所

Rust 带来的创新

StackOverflow 的调查表明, 自 2015 年以来,Rust 一直是开发者最爱的编程语言。

#e:0:d:f:e:e:b:3:c:7:1:9:a:1:f:d:5:7:c:e:f:7:0:e:9:5:5:1:8:5:e:d#

学术界对于 Rust 也越来越注重,在编程语言和软件工程顶会上发表的关于 Rust 的论文正逐年降低。

#e:7:6:7:e:c:d:8:c:a:1:2:3:e:7:6:8:0:2:e:e:9:d:f:2:d:1:1:f:2:0:5#

不仅这般,《自然》杂志 2020 年尾的文章《Why Scientists are Turning to Rust》中也指出:科学家极为推崇 Rust。

#9:3:b:d:c:d:1:0:4:4:8:d:8:3:3:2:0:e:0:a:6:4:2:3:4:f:a:a:e:4:a:2#

Rust 在华为的初步推动

华为的目标是推动通讯系统软件向安全可信演变,其中 Rust 语言正在发挥很大的作用。例如,我们希望通过部份C/C++代码向Rust的迁移,在保证高性能的同时,拥有更高的安全性。在此过程中, 我们为开发者提供一套自动化工具支持:基于开源的 C2Rust 转译工具, 首先从 C 代码生成 Rust 代码, 然后通过源到源变换工具手动构建。

华为内部还基于 actor 的并发编程模式开发了 Rust 库,例如async, await,方便程序员充分利用 Rust 的语言特点。

华为的通讯系统软件开发以 C/C++ 代码为主, 在须要的时侯,这些 Rust 库将使 C/C++ 到 Rust 的迁移愈发顺畅。作为业界领先公司和 Rust 基金会创始成员,华为致力于推动 Rust 在通信软件行业的发展,并将持续为 Rust 社区作出贡献。

华为对 Rust 社区的贡献

我们为 Rust 社区贡献了许多重要的功能特点。例如,我们近来为 Rust 编译器递交了一系列代码,使得 Rust 编译目标可以支持 ARM AArch64 32 位大端变体 ILP32 芯片组, 以便用于我们的通讯产品中。这些改进促使我们和友商可以在这种常用网络硬件构架上执行 Rust 原生程序。这些代码已然通过我们的 Rust 专家 Amanieu d’Antras 提交给了 LLVM 编译器, libc 库, 以及 Rust 编译器等开源项目。

这些对 Rust 编译器的修改引入了新的端到端交叉编译目标,基于此针对订制硬件建立 Rust 产品显得更容易, 只须要简单的命令,比如:

cargo build --target aarch64_be-unknown-linux-gnucargo build --target aarch64-unknown-linux-gnu_ilp32cargo build --target aarch64_be-unknown-linux-gnu_ilp32

华为在中国 Rust 社区贡献方面也走在前列。去年 12 月 26 日至 27 日,在上海战略赞助了Rust China Conf 2020 ,并实行多项社区活动,包括为中国的开发者提供 Rust 教程和 Rust 编码规范。

配置华为的端到端 Rust 工具链

#c:e:d:d:0:b:2:8:0:4:0:7:0:7:4:8:5:5:4:4:e:7:7:2:f:3:8:4:c:c:9:6#

(C、C++、Rust 代码在 Fuchsia 项目的占比)

Rust 社区中有几种端到端的工具,我们早已开始从开发人员和工具的交互中获取信息。

这里有一些事例

tokei

由于可信编程项目一般涉及多个编程语言,我们采用了 tokei 作为多语言代码复杂性测度工具,可辨识多达 200 种编程语言。例如,开源的 Fuchsia 项目涉及了多种编程语言,下面的统计信息显示有多少行不同语言的代码:

#a:b:4:1:0:2:b:9:5:4:6:3:6:d:1:a:c:f:b:c:2:0:f:e:6:b:b:6:f:8:6:f#

另外,为了在小型项目中满足处理多种编程语言的场景需求,我们为tokei 提供新特点,使其支持辨识编程语言的批处理。

cargo-geiger

为了提升安全性,我们常常想知道有多少代码已然被 Rust 编译器检测过。幸运的是,通过统计带有“unsafe”关键字的fn、expr,struct、impl、trait 及其在各相关库, cargo-geiger 几乎做到了这点。

#3:8:0:1:7:e:9:1:c:d:e:b:4:b:e:a:3:c:d:5:5:a:4:8:3:f:7:f:4:7:a:f#

不过,统计数字中并没有反映安全性,所以没办法诠释 Rust 项目总体上取得了多少进展的比列。因此,我们递交了代码,在改进的 cargo-geiger 计数器报告中提供 Rust 项目的安全检查百分比。这些代码被采纳后,我们的研制团队现今每晚都在使用这个工具,这份典型的报告才能很容易看出什么代码库还没被 Rust 编译器完全检测到。

#9:c:2:e:6:d:d:6:b:9:e:1:7:a:b:f:1:8:3:f:a:e:b:f:e:f:2:4:7:8:e:a#

#5:c:3:e:d:0:6:5:5:a:1:a:0:e:c:6:d:f:3:4:0:2:7:1:1:c:d:5:3:c:8:4#

通过深度代码学习研究 Rust

随着 Rust 开源社区代码的发展和革新,初学者须要学习把握 Rust 最佳的实践,其包括但不限于 Rust 语言本身。把统计机器学习的方式应用到源代码数据上,也称为Big Code,正被全世界的软件工程研究团队关注:类似于图象处理和自然语言处理中的机器学习问题,这些问题都须要通过深度神经网络 (deep neural networks DNN) 提取大量的特点,Big Code 可能同样须要去训练 DNN 来反映程序的统计特点,所以也称为“深度代码学习”。

在这方面,华为与英国开放大学和新加坡管理大学进行技术合作,在现今最先进的“跨语言”深度代码学习基础上进行优化研究。

例如,最初的深度代码学习方法应用于北京大学编程课程搜集到的 104 个算法类的 5.2 万个 C/C++ 程序。对此数据集,树基卷积神经网络 (TBCNN) 算法分类准确率达到 94%(AAAI’16)。最近的 SOTA 在句子级使用抽象语法树 (ICSE ’19) 准确率达到 98%。近期我们同英国开放大学和新加坡管理大学在树基软膏网路的合作研究进展加快了 SOTA 进一步增强,达到 98.4% 的准确率 (AAAI’21)。

早些时侯我们早已使用跨语言的数据集证明,对一种编程语言的深度代码学习模型也适用于另一种编程语言。例如,从 GitHub 爬取的数据集 Rosetta Code,从 Java 到 C 语言,可以获得 86% 的算法分类准确度 (SANER’19),在 Java 到 C# 的跨语言 API 映射问题中也能发挥重要作用 (ESEC/FSE’19)。这些统计语言模型在软件工程中可以应用于好多方面,比如代码分类、代码搜索、代码推荐、代码摘要、方法名称预测、代码克隆测量等等 (ICSE’21)。

为了进一步研究剖析 Rust 项目,我们向 Rust 解析器项目 tree-sitter 和 XML 序列化 quick-xml 等项目递交了代码,通过 Rust 程序的抽象语法树来训练深度代码学习模型。研究的初步结果显示,算法监测任务在 Rust 代码上的精度高达 85.5%。随着工具链的改进,这个比列还有望进一步提高。

在 Visual Studio Code IDE 上,我们开发扩充插件,使得程序员可以得到合适的算法推荐和可解释性的帮助。

结 论

综上所述,华为可信软件工程与开源实验室正在举办的 Rust 工作为程序员提供智能化端到端 IDE 工具链,以期最大限度地增强代码的安全性和性能。走向可信编程远景的旅程刚刚开始,我们希望与 Rust 社区和 Rust 基金会深度合作,引领网通软件产业的可信革新。

c语言在线编译器手机
上一篇:京东注册,轻松获取多个账号 下一篇:没有了