tuilika 推理卡 · 赋能AI普惠

基于VU35P FPGA芯片，华中科技大学联合研发，推理与训练一体化的高性能AI加速方案

产品详情应用场景

产品定位与核心背景

tuilika是福科创新联合华中科技大学计算机学院，基于XCVU35P FPGA芯片深度定制的高性能AI推理加速卡

核心芯片：XCVU35P

赛灵思UltraScale+系列旗舰级FPGA，为tuilika提供强大底层算力支撑

16nm FinFET工艺，工业级宽温运行（-40℃~100℃）
262.5万个LUT、525万个触发器，1024个DSP切片
707MB片上BRAM，最大32GB外部DDR4-3200内存
48个32Gbps GTY收发器，PCIe Gen4 x16高速总线

板卡设计：单芯/多芯方案

灵活配置，适配不同规模算力需求，兼顾推理与轻量级训练

单芯标准版：PCIe 4.0全高全长，典型功耗75W，专注高并发低延迟推理
多芯集群版：2~4颗VU35P集成，板内400Gbps+高速互联
算力叠加：多芯并行吞吐量线性提升，支持分布式推理
轻量训练：支持7B及以下模型全参数训练、13B模型LoRA微调

核心性能：Token生成能力

基于主流大模型（Llama 2、Qwen、Baichuan等）实测的核心性能指标

单芯7B模型（INT8）

1200-1500

Token/秒 · 平均延迟 < 20ms

2芯集群7B模型（INT8）

2300-2800

Token/秒 · 平均延迟 < 15ms

4芯集群7B模型（INT8）

4500-5000

Token/秒 · 支持高并发对话

技术优势：全栈能力

依托华中科技大学技术积累，实现从芯片到应用的全栈优化

定制化加速引擎

针对大模型推理优化的硬件算子库，覆盖Transformer、Attention、MatMul等核心算子，推理效率提升40%+

低延迟调度算法

自研多任务并行调度框架，解决多模型、多用户并发时的资源争抢，端到端延迟降低30%

全栈应用适配

原生支持PyTorch、TensorFlow，适配vLLM、TGI等推理框架，兼容主流开源大模型，支持混合精度量化

核心应用场景

覆盖企业服务、科研教育、行业边缘等多元场景，提供高性价比的AI算力方案

企业级AI服务

智能客服、内容生成、知识问答，单服务器支持500+并发会话

科研与教育算力

高校AI实验室科研、教育平台智能答疑，支撑百万级学生用户

工业质检

实时图像推理，缺陷检测延迟 < 10ms，适配产线高速检测

智慧医疗

医学影像辅助诊断、病历分析，保障数据隐私与推理效率

社会服务价值

以技术创新赋能AI普惠，助力数字经济与智慧社会建设

算力普惠

以FPGA高能效优势降低AI部署成本，让中小企业、科研机构低成本接入大模型能力

绿色计算

相比传统GPU方案，推理能效提升3~5倍，数据中心年节电40%+

自主可控

基于国产定制化硬件与软件栈，保障关键领域AI服务安全可控

产学研融合

联合华中科技大学培养AI与高性能计算人才，推动技术成果转化