查看原文
其他

百度云RSA解密加速服务

2017-08-25 FPGA开发圈

RSA算法是一种最广为使用的“非对称加密算法”,一般公钥/私钥长度越长,安全性就越好,计算也越复杂。百度云https改造中应用了RSA 2048加解密算法,针对高计算复杂度的RSA解密任务,我们运用FPGA上的并行计算资源和定制化的数据通路,提供了高达45000QPS的解密能力(是CPU单线程吞吐率的75倍以上,媲美商用ASIC加解密卡的吞吐率),同时还将提供独具特色的私钥管理方案,令系统安全性得到了质的提升。


软件调用API执行


编译

执行lspci | grep -i Xilinx,输出非空,证实FPGA已被正确透传给虚拟机。


编译驱动,进入rsa-driver目录,执行make。


如提示“No such file or directory”,请修改Makefile中的KERNELDIR变量,使之指向正确的内核编译目录,一般为/usr/src/kernels/$(uname -r)。


如编译时提示符号重定义,请删除源文件中的PDE_DATA、file_inode、kvalloc、kvfree等符号。


加载驱动,执行insmod fpga_drive.ko。


检查/dev/fpga0的权限是否为0666,如过不是,请执行chmod 666 /dev/fpga0。


在openssl系统engine目录创建到rsa-api/output/so/libfpga_rsa_cpp.so的软链接,即执行ln -s /path/to/rsa-api/so/libfpga_rsa_cpp.so /usr/lib64/openssl/engines/libfpga_rsa_cpp.so。


通过openssl标准engine接口使用RSA加速功能,在正确加载并初始化engine后即可通过RSA_private_encrypt、RSA_private_decrypt进行RSA私钥加解密。


FPGA支持密钥长度在2048 bits以下的RSA私钥加解密。如给定密钥长度超出此范围,engine会转交CPU计算,此时性能等同于直接使用CPU处理。

#include ‹openssl/rsa.h›
#include ‹openssl/engine.h›
#include ‹openssl/err.h›

OpenSSL_add_all_algorithms();
ERR_load_crypto_strings();
ENGINE_load_dynamic();

/* load engine */
ENGINE *engine = ENGINE_by_id("fpga_rsa_cpp");
if (engine == NULL) {
LOG(WARNING) ‹‹ "Could not Load fpga_rsa_cpp Engine!";
return 1;
}
LOG(INFO) ‹‹ "fpga_rsa_cpp Engine successfully loaded";

/* init engine */
int init_ret = ENGINE_init(engine);
int set_ret = ENGINE_set_default_RSA(engine);
LOG(INFO) ‹‹ "engine name = " ‹‹ ENGINE_get_name(engine);
LOG(INFO) ‹‹ "init_ret = " ‹‹ init_ret;
LOG(INFO) ‹‹ "set_ret = " ‹‹ set_ret;

if ((init_ret != 1) || (set_ret != 1)) {
LOG(WARNING) ‹‹ "Failed to init engine";
return 1;
}

/* use engine */
RSA_private_decrypt(flen, from, to, rsa, padding);

性能测试


qps

执行openssl speed rsa2048 -engine fpga_rsa_cpp -multi 36,在"sign/s"一栏中可以看到qps。正常情况应在40000/s以上。


latency

执行openssl speed rsa2048 -engine fpga_rsa_cpp -multi 1,在"sign"一栏中可以看到latency。正常情况应在700us左右。


RSA私钥解密QPS对比


FPGA解决方案与使用双路Intel Xeon E5-2620 v2服务器(超线程开启,共24核)进行纯CPU计算相比,性能优势十分明显,如下图所示。当RSA密钥长度为512 bits、1024 bits和2048 bits时,前者的私钥解密QPS分别是后者的2.13、4.52和9.36倍,latency仅为后者的89%、50%和27%。



文章原文链接: https://cloud.baidu.com/doc/FPGA/GettingStarted.html#.E8.BD.AF.E4.BB.B6....


往期精彩回顾

售价59$的WiFi/蓝牙Pmod模块Murata 1DX上市!

一种基于Zynq的新型工业4.0以太网Kit

【视频】:最佳的虚拟现实体验-AR/VR

Xilinx Spartan®-7 系列 FPGA 首款评估板荣耀登场

Novator公司推出基于ChannelCore Flex IP的信道化接收机系统

如何将比特流运行速度提高10倍呢? Xilinx SmartLynq 数据线完美实现

【专家坐堂Q&A】Zynq-7000S 全可编程 SoC 管脚

Xilinx Zynq UltraScale+ MPSoC代表了什么样的IC设计理念?

基于Xilinx Zynq Z7045 SoC的CNN的视觉识别应用

【专家坐堂Q&A】采用 PetaLinux 构建和运行基于 fbdev 的图形应用

Samtec公司推出14Gbps FireFly FMC高速通信模块

借助reVISION加速监控系统的开发

FPGA设计笔记:QSPI Flash与DDR3L SDRAM采用同一I/O分区

【视频】尖端的视频/图像处理方案

5G毫米波无线电射频技术

以太网的下一阶段:400GE网络

【下载】LogiCORE视频处理子系统产品指南

【视频】CCIX 演示视频展现了通过 PCI Express 提供 25Gbps 的性能

为什么Python语言火遍全球?

4K电影级摄像机Apertus AXIOM Beta最新进展

赛灵思高管分享四大技术趋势未来



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存