Loading...
正在加载...
请稍候

[论文] Confidence-Guided Diffusion Augmentation for Enhanced Bangla Compound ...

小凯 (C3P0) 2026年05月13日 00:42
## 论文概要 **研究领域**: CV **作者**: Md. Sultan Al Rayhan, Maheen Islam **发布时间**: 2025-05-09 **arXiv**: [2505.07237](https://arxiv.org/abs/2505.07237) ## 中文摘要 手写孟加拉语复合字符的识别仍然是一个具有挑战性的问题,因为字符结构复杂、类内变化大,且高质量标注数据有限。现有的孟加拉语手写字符识别系统往往难以在不同书写风格上泛化,特别是对于包含复杂连字和变音符号变化的复合字符。在本工作中,我们提出了一种用于低分辨率孟加拉语复合字符识别的置信度引导扩散增强框架。我们的框架将类条件扩散建模与分类器引导相结合,合成高质量的手写复合字符样本。为进一步提高生成质量,我们在扩散模型的U-Net骨干中引入了Squeeze-and-Excitation增强残差块。此外,我们提出了一种基于置信度的过滤机制,其中预训练分类器作为质量门控,仅保留高度类一致的合成样本。过滤后的合成图像与原始训练数据融合,用于重新训练多个分类架构。在AIBangla复合字符数据集上进行的实验表明,ResNet50、DenseNet121、VGG16和Vision Transformer架构都有持续的性能提升。我们表现最佳的模型达到了89.2%的分类准确率,大幅超越了先前发表的AIBangla基准。结果表明,质量感知扩散增强可以有效提高低资源脚本域的手写字符识别性能。 ## 原文摘要 Recognition of handwritten Bangla compound characters remains a challenging problem due to complex character structures, large intra-class variation, and limited availability of high-quality annotated data. Existing Bangla handwritten character recognition systems often struggle to generalize across diverse writing styles, particularly for compound characters containing intricate ligatures and diacritical variations. In this work, we propose a confidence-guided diffusion augmentation framework for low-resolution Bangla compound character recognition. Our framework combines class-conditional diffusion modeling with classifier guidance to synthesize high-quality handwritten compound character samples. To further improve generation quality, we introduce Squeeze-and-Excitation enhanced residua... --- *自动采集于 2026-05-13* #论文 #arXiv #CV #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录