Major Changes:
- Added a new parameter
static_resized_shape
when initializingYoloDetector
, which is used to resize the input image to a fixed size. Some formats of models require fixed-size input images during inference, such asCoreML
.
主要变更:
YoloDetector
初始化时加入了参数static_resized_shape
, 用于把输入图片 resize 为固定大小。某些格式的模型在推理时需要固定大小的输入图片,如CoreML
。
Major Changes:
- Fixed a bug in the
detect
method ofYoloDetector
: when the input is a single file, the output is not a double-layer nested list.
主要变更:
- 修复了
YoloDetector
中detect
方法的一个bug:输入为单个文件时,输出不是双层嵌套的 list。
Major Changes:
- Support for YOLO Detector based on Ultralytics.
主要变更:
- 支持基于 Ultralytics 的 YOLO Detector。
主要变更:
- CN OSS 不可用了,默认下载模型地址由
CN
改为HF
。
主要变更:
- 支持基于环境变量
CNSTD_DOWNLOAD_SOURCE
的取值,来决定不同的模型下载路径。 LayoutAnalyzer
中增加了参数model_categories
和model_arch_yaml
,用于指定模型的类别名称列表和模型架构。
主要变更:
- 增加了对
onnxruntine
(ORT) 新版的兼容:InferenceSession
中显式提供了providers
参数。 setup.py
中去除对onnxruntime
的依赖,改为在extras_require
中按需指定:cnstd[ort-cpu]
:onnxruntime
;cnstd[ort-gpu]
:onnxruntime-gpu
。
主要变更:
- 画图颜色优先使用固定的颜色组。
- 下载模型时支持设定环境变量
HF_TOKEN
,以便从private repos中下载模型。
主要变更:
- 修复参数
device
的取值bug,感谢 @Shadow-Alex 。
主要变更:
- 修复比例转换后检测框可能出界的问题。
主要变更:
- 修复了模型文件自动下载的功能。HuggingFace似乎对下载文件的逻辑做了调整,导致之前版本的自动下载失败,当前版本已修复。但由于HuggingFace国内被墙,国内下载仍需 梯子(VPN)。
- 更新了各个依赖包的版本号。
主要变更:
- 基于新标注的数据,重新训练了 MFD YoloV7 模型,目前新模型已部署到 P2T网页版 。具体说明见:Pix2Text (P2T) 新版公式检测模型 | Breezedeus.com 。
- 之前的 MFD YoloV7 模型已开放给星球会员下载,具体说明见:P2T YoloV7 数学公式检测模型开放给星球会员下载 | Breezedeus.com 。
- 增加了一些Label Studio相关的脚本,见 scripts 。如:利用 CnSTD 自带的 MFD 模型对目录中的图片进行公式检测后生成可导入到Label Studio中的JSON文件;以及,Label Studio标注后把导出的JSON文件转换成训练 MFD 模型所需的数据格式。注意,MFD 模型的训练代码在 yolov7 (
dev
branch)中。
主要变更:
- MFD训练了参数更多精度更高的模型,供 P2T网页版 使用。
- 优化了检测出的boxes的排序算法,使得boxes的顺序更加符合人类的阅读习惯。
主要变更:
- 支持基于 YOLOv7 的 数学公式检测(Mathematical Formula Detection,简称MFD)和 版面分析(Layout Analysis)模型,并提供预训练好的模型可直接使用。
- 修复了不兼容 Numpy>=1.24 的bug。
主要变更:
- 加入了对 PaddleOCR 检测模型的支持;
- 部分调整了检测结果中
box
的表达方式,统一为4
个点的坐标值; - 修复了已知bugs。
主要变更:
- 兼容
opencv-python >=4.5.2
,修复图片反转问题和画图报错问题。
相较于 V1.0.0, V1.1.0 的变化主要包括:
- bugfixes:修复了训练过程中发现的诸多问题;
- 检测主类
CnStd
初始化接口略有调整,去掉了参数model_epoch
; - backbone 结构中加入了对 ShuffleNet 的支持;
- 优化了训练中的超参数取值,提升了模型检测精度;
- 提供了更多的预训练模型可供选择,最小模型降至 7.5M 文件大小。
- MXNet 越来越小众化,故从基于 MXNet 的实现转为基于 PyTorch 的实现;
- 检测速度得到极大提升,耗时几乎下降了一个量级;
- 检测精度也得到较大的提升;
- 实用性增强;检测接口中提供了更灵活的参数,不同应用场景可以尝试使用不同的参数以获得更好的检测效果;
- 提供了更丰富的预训练模型,开箱即用。
CnStd.detect()
加入输入参数 kwargs
: 目前会使用到的keys有:
- "height_border",裁切图片时在高度上留出的边界比例,最终上下总共留出的边界大小为height * height_border; 默认为0.05;
- "width_border",裁切图片时在宽度上留出的边界比例,最终左右总共留出的边界大小为height * width_border; 默认为0.0;
bugfix:
- 修复GPU下推断bug:#3
初次发布,主要功能:
- 利用PSENet进行场景文字检测(STD),支持两种backbone模型:
mobilenetv3
和resnet50_v1b
。