当前位置: 首页 > news >正文

LaTeX OCR - 数学公式识别系统

文章目录

    • 一、关于 LaTeX OCR
      • 1、项目概览
      • 架构图
      • 2、相关链接资源
      • 3、功能特性
    • 二、安装配置
      • 基础环境要求
      • Linux 安装
      • Mac 安装
    • 三、使用指南
      • 1、快速训练(小数据集)
      • 2、完整训练(大数据集)
    • 四、可视化功能
      • 训练过程可视化
      • 预测过程可视化
    • 五、模型评估
    • 六、技术细节
      • 数据处理流程
      • 模型架构


一、关于 LaTeX OCR

1、项目概览

基于 Seq2Seq + Attention + Beam Search 架构的数学公式识别系统,可将数学公式图片转换为 LaTeX 代码。

在这里插入图片描述


架构图

在这里插入图片描述


2、相关链接资源

  • GitHub:https://github.com/LinXueyuanStdio/LaTeX_OCR
  • 增强版:https://github.com/LinXueyuanStdio/LaTeX_OCR_PRO
  • 数据集来源:im2latex-100k , arXiv:1609.04938
  • 参考论文:
    • Show, Attend and Tell
    • Harvard’s paper and dataset
    • Seq2Seq for LaTeX generation

3、功能特性

1、多平台支持

  • 支持 Linux/Mac/Windows 系统
  • 提供一键安装脚本

2、可视化训练

  • 集成 TensorBoard 训练过程可视化
  • 支持注意力机制可视化

3、评估指标

  • 支持 perplexity/EditDistance/BLEU-4/ExactMatchScore 四种评估指标

二、安装配置

基础环境要求

  1. Python 3.5 + TensorFlow 1.12.2
  2. LaTeX (latex 转 pdf)
  3. Ghostscript (图片处理)
  4. ImageMagick (pdf 转 png)

Linux 安装

一键安装

make install-linux

或分步安装

# 创建环境 
virtualenv env35 --python=python3.5
source env35/bin/activate
pip install -r requirements.txt# 安装 latex (latex 转 pdf)
sudo apt-get install texlive-latex-base texlive-latex-extra# 安装 ghostscript
sudo apt-get update && sudo apt-get install ghostscript libgs-dev# 安装 magick (pdf 转 png)
wget http://www.imagemagick.org/download/ImageMagick.tar.gz
tar -xvf ImageMagick.tar.gz
cd ImageMagick-7.*
./configure --with-gslib=yes
make
sudo make install
sudo ldconfig /usr/local/lib
rm ImageMagick.tar.gz
rm -r ImageMagick-7.*

Mac 安装

一键安装

make install-mac

分步安装

sudo pip install -r requirements.txt
wget http://www.imagemagick.org/download/ImageMagick.tar.gz
tar -xvf ImageMagick.tar.gz
cd ImageMagick-7.*
./configure --with-gslib=yes
make
sudo make install
rm ImageMagick.tar.gz
rm -r ImageMagick-7.*

三、使用指南

1、快速训练(小数据集)

一键训练(约2分钟)

make small

分步执行

python build.py --data=configs/data_small.json --vocab=configs/vocab_small.json
python train.py --data=configs/data_small.json --vocab=configs/vocab_small.json --training=configs/training_small.json --model=configs/model.json --output=results/small/
python evaluate_txt.py --results=results/small/
python evaluate_img.py --results=results/small/

2、完整训练(大数据集)

一键训练(2-3小时)

make full

分步执行

python build.py --data=configs/data.json --vocab=configs/vocab.json
python train.py --data=configs/data.json --vocab=configs/vocab.json --training=configs/training.json --model=configs/model.json --output=results/full/
python evaluate_txt.py --results=results/full/
python evaluate_img.py --results=results/full/

四、可视化功能

训练过程可视化

# 小数据集
cd results/small
tensorboard --logdir ./# 大数据集
cd results/full
tensorboard --logdir ./

预测过程可视化

python visualize_attention.py --image=data/images_test/6.png --vocab=configs/vocab.json --model=configs/model.json --output=results/full/

五、模型评估

指标训练分数测试分数
perplexity1.391.44
EditDistance81.6880.45
BLEU-478.2175.42
ExactMatchScore13.9312.44

六、技术细节

数据处理流程

  1. 获取 LaTeX 公式数据
  2. 公式规范化处理
  3. 生成图片数据集
  4. 构建字典和映射文件

模型架构

  • Encoder: CNN
  • Decoder: LSTM/GRU
  • 注意力机制层
  • Beam Search/Greedy 输出策略

伊织 xAI 2025-05-18(日)

相关文章:

LaTeX OCR - 数学公式识别系统

文章目录 一、关于 LaTeX OCR1、项目概览架构图2、相关链接资源3、功能特性 二、安装配置基础环境要求Linux 安装Mac 安装 三、使用指南1、快速训练(小数据集)2、完整训练(大数据集) 四、可视化功能训练过程可视化预测过程可视化 …...

Go 语言即时通讯系统开发日志-日志day2-5:架构设计与日志封装

Go语言即时通讯系统开发日志day2 计划:学习go中MySQL,Redis的使用,使用MySQL和Redis完成一个单聊demo。 总结:现在每天下午用来开发这个项目,如果有课的话可能学习时间只有3-4个小时,再加上今天的学习效率不…...

@JsonProperty和@JSONField 使用

JsonProperty和JSONField注解的区别 1.底层框架不同 JsonProperty 是Jackson实现的 JSONField 是fastjson实现的 2.用法不同 (1)bean序列化为Json: JsonProperty: ObjectMapper().writeValueAsString(Object value) JSONField&…...

从代码学习深度学习 - 近似训练 PyTorch版

文章目录 前言负采样 (Negative Sampling)层序Softmax (Hierarchical Softmax)代码示例总结前言 在自然语言处理(NLP)领域,词嵌入(Word Embeddings)技术如Word2Vec(包括Skip-gram和CBOW模型)已经成为一项基础且强大的工具。它们能够将词语映射到低维稠密向量空间,使得…...

代码上传gitte仓库

把代码push上去就行...

系统架构设计(十四):解释器风格

概念 解释器风格是一种将程序的每个语句逐条读取并解释执行的体系结构风格。程序在运行时不会先被编译为机器码,而是动态地由解释器分析并执行其语义。 典型应用:Python 解释器、JavaScript 引擎、Bash Shell、SQL 引擎。 组成结构 解释器风格系统的…...

掌握LINQ:查询语法与方法语法全解析

文章目录 引言1. 查询语法 vs 方法语法1.1 查询语法 (Query Syntax)1.2 方法语法 (Method Syntax)1.3 两种语法的比较 2. 基本的 LINQ 查询结构2.1 数据源2.2 查询操作2.3 查询执行 3. 查询表达式中的关键字3.1 基本关键字fromwhereselectorderbygroup byjoin 3.2 其他常用关键…...

Go 后端中双 token 的实现模板

下面是一个典型的 Go 后端双 Token 认证机制 实现模板,使用 Gin 框架 JWT Redis,结构清晰、可拓展,适合实战开发。 项目结构建议 /utils├── jwt.go // Access & Refresh token 的生成和解析├── claims.go // 从请求…...

GESP编程能力等级认证C++3级1-数组1

1 GESP编程能力等级认证C3级 1.1 GESP简介 GESP是CCF 编程能力等级认证的简称,它为青少年计算机和编程学习者提供学业能力验证的规则和平台。GESP 覆盖中小学阶段,符合年龄条件的青少年均可参加认证。 1.2 GESP的分级 C 编程测试划分为一至八级&…...

FreeRTOS “探究任务调度机制魅力”

引入 现如今随着单片机的资源越来越多,主频越来越高,在面临更复杂的功能实现以及对MCU性能的充分压榨,会RTOS已经成为一个必要的技能,新手刚开始学习的时候就很好奇“为什么代码可以放到两个循环里同时运行?”。接下来…...

BGP策略实验练习

要求: 1、使用PreVal策略,确保R4通过R2到达192.168.10.0/24 2、使用AS_Path策略,确保R4通过R3到达192.168.11.0/24 3、配置MED策略,确保R4到达R3到达192.168.11.0/24 4、使用Local Preference策略,确保R1通过R2到达192…...

Office 中 VBE 的共同特点与区别

1. Excel VBE 核心对象 #mermaid-svg-IklDO11Hu656bdGS {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-IklDO11Hu656bdGS .error-icon{fill:#552222;}#mermaid-svg-IklDO11Hu656bdGS .error-text{fill:#552222;stro…...

Linux虚拟文件系统(1)

1 虚拟文件系统(VFS) 虚拟文件系统(Virtual File System, VFS)作为内核的子系统。,它为用户空间的应用程序提供了一个统一的文件系统接口。通过VFS,不同的文件系统可以共存于同一个操作系统中,…...

目标检测评估指标mAP详解:原理与代码

目标检测评估指标mAP详解:原理与代码 目标检测评估指标mAP详解:原理与代码一、前言:为什么需要mAP?二、核心概念解析2.1 PR曲线(Precision-Recall Curve)2.2 AP计算原理 三、代码实现详解3.1 核心函数ap_pe…...

Linux干货(六)

前言 从B站黑马程序员Linux课程摘选的学习干货,新手友好!若有侵权,会第一时间处理。 目录 前言 1.环境变量 1.环境变量的定义 2.env命令的作用 3.$符号的作用 4.PATH的定义和作用 5.修改环境变量的方法 1.临时生效 2.永久生效 2.…...

字符串相乘(43)

43. 字符串相乘 - 力扣&#xff08;LeetCode&#xff09; 解法&#xff1a; class Solution { public:string multiply(string num1, string num2) {string res "0";for (int i 0; i < num2.size(); i) {string str multiplyOneNum(num1, num2[num2.size() -…...

【Vue篇】数据秘语:从watch源码看响应式宇宙的蝴蝶效应

目录 引言 一、watch侦听器&#xff08;监视器&#xff09; 1.作用&#xff1a; 2.语法&#xff1a; 3.侦听器代码准备 4. 配置项 5.总结 二、翻译案例-代码实现 1.需求 2.代码实现 三、综合案例——购物车案例 1. 需求 2. 代码 引言 &#x1f4ac; 欢迎讨论&#…...

esp32课设记录(二)lcd屏显示文字与照片

取模软件链接&#xff1a; 链接: 百度网盘 请输入提取码 提取码: 1234 课设要求如图所示&#xff0c;因此需要在esp32显示文字和照片。在上个文章中我已经写了按键相关内容。这篇主要描述怎么显示文字和照片。我使用的是ESP-IDF库。 本项目使用的是基于ST7789驱动芯片的LCD屏幕…...

Open CASCADE学习|几何体切片处理:OpenMP与OSD_Parallel并行方案深度解析

在三维建模与仿真领域&#xff0c;几何体切片处理是CAE前处理、3D打印路径规划、医学影像分析等场景的关键技术。其核心目标是将三维模型沿特定方向离散为二维截面集合&#xff0c;便于后续分析或制造。OpenCASCADE作为开源几何内核&#xff0c;提供高效的布尔运算与几何算法&a…...

【Android】从Choreographer到UI渲染(二)

【Android】从Choreographer到UI渲染&#xff08;二&#xff09; Google 在 2012 年推出的 Project Butter&#xff08;黄油计划&#xff09;是 Android 系统发展史上的重要里程碑&#xff0c;旨在解决长期存在的 UI 卡顿、响应延迟等问题&#xff0c;提升用户体验。 在 Androi…...

板凳-------Mysql cookbook学习 (三)

1.22 使长输出行更具可读性 mysql> show full columns from limbs; ------------------------------------------------------------------------------------------------------------- | Field | Type | Collation | Null | Key | Default | Extra | Pri…...

济南国网数字化培训班学习笔记-第三组-2-电力通信光缆网认知

电力通信光缆网认知 光缆网架构现状 基础底座 电路系统是高度复杂&#xff0c;实时性、安全性、可靠性要求极高的巨系统&#xff0c;必须建设专用通信网 相伴相生 电力系统是由发电、输电、变电、配电、用电等一次设施&#xff0c;及保障其正常运行的保护、自动化、通信等…...

黑灰产业链深度解析

黑灰产业链深度解析 大家好&#xff0c;欢迎来到「黑产档案」。本频道专注于反诈教育宣传&#xff0c;通过深度拆解黑灰产业链的运作逻辑&#xff0c;帮助公众识别骗局、规避风险。本节课将聚焦产业链的核心环节&#xff0c;揭示其背后的灰色生态。 一、黑灰产的定义与范畴 要…...

golang选项设计模式

选项设计模式 有时候一个函数会有很多参数&#xff0c;为了方便函数的使用&#xff0c;我们会给希望给一些参数设定默认值&#xff0c;调用时只需要传与默认值不同的参数即可&#xff0c;类似于 python 里面的默认参数和字典参数&#xff0c;虽然 golang 里面既没有默认参数也…...

方案精读:104页DeepSeek金融银行核算流程场景部署建设方案【附全文阅读】

DeepSeek,金融银行核算流程的革新方案! 这份方案专为金融银行从业者打造,旨在解决传统核算流程的难题。当下,金融银行核算面临效率低、错误率高、合规压力大等挑战,DeepSeek 方案正是应对之策。 该方案运用人工智能和大数据技术,实现数据采集、清洗自动化,智能核算对账,…...

【MySQL】02.数据库基础

1. 数据库的引入 之前存储数据用文件就可以了&#xff0c;为什么还要弄个数据库? 文件存储存在安全性问题&#xff0c;文件不利于数据查询和管理&#xff0c;文件不利于存储海量数据&#xff0c;文件在程序中控制不方便。而为了解决上述问题&#xff0c;专家们设计出更加利于…...

STM32项目实战:ADC采集

STM32F103C8T6的ADC配置。PB0对应的是ADC1的通道8。在标准库中&#xff0c;需要初始化ADC&#xff0c;设置通道&#xff0c;时钟&#xff0c;转换模式等。需要配置GPIOB的第0脚为模拟输入模式&#xff0c;然后配置ADC1的通道8&#xff0c;设置转换周期和触发方式。 接下来是I2C…...

《AI语音模型:MiniMax Speech-02》

开场&#xff1a;AI 语音界的震撼弹 在 AI 语音技术的激烈竞争赛道上&#xff0c;MiniMax Speech - 02 的出现宛如一颗震撼弹&#xff0c;瞬间引爆了整个行业。不久前&#xff0c;一则消息在全球 AI 领域引起轩然大波&#xff1a;MiniMax 的新一代语音大模型 Speech - 02&#…...

基于LabVIEW的双音多频系统设计

目录 1 系统设计概述 双音多频(Dual-Tone Multi-Frequency, DTMF)信号是一种广泛应用于电话系统中的音频信号,通过不同的频率组合表示不同的按键。每个按键对应两个频率,一个低频和一个高频,共同组成独特的信号。在虚拟仪器技术快速发展的背景下,利用LabVIEW等图形化编程…...

快速生成角色背景设定:基于Next.js的AI辅助工具开发实践

引言 在游戏开发、小说创作和角色扮演&#xff08;RP&#xff09;中&#xff0c;角色背景设定&#xff08;Headcanon&#xff09;的构建往往耗时耗力。传统方法依赖手动编写&#xff0c;容易陷入思维定式。本文将分享如何利用Next.js和Tailwind CSS开发一个高效的AI角色设定生…...

轻量级视频剪辑方案:FFmpeg图形化工具体验

FFmpeg小白助手是基于开源FFmpeg开发的本地化视频处理软件&#xff0c;采用绿色免安装设计&#xff0c;解压后即可直接运行。该工具主要面向普通用户的日常音视频处理需求&#xff0c;通过简洁的图形界面降低了FFmpeg的使用门槛。 功能特性 基础编辑功能 格式转换&#xff1a;…...

主成分分析的应用之sklearn.decomposition模块的PCA函数

主成分分析的应用之sklearn.decomposition模块的PCA函数 一、模型建立整体步骤 二、数据 2297.86 589.62 474.74 164.19 290.91 626.21 295.20 199.03 2262.19 571.69 461.25 185.90 337.83 604.78 354.66 198.96 2303.29 589.99 516.21 236.55 403.92 730.05 438.41 225.80 …...

Java基于数组的阻塞队列实现详解

在多线程编程中&#xff0c;阻塞队列是一种非常有用的工具&#xff0c;它可以在生产者和消费者之间提供一个缓冲区&#xff0c;使得生产者可以往队列中添加数据&#xff0c;而消费者可以从队列中取出数据。当队列满时&#xff0c;生产者会被阻塞直到有空间可用&#xff1b;当队…...

ngx_http_random_index_module 模块概述

一、使用场景 随机内容分发 当同一目录下存放多份等价内容&#xff08;如多张轮播图、不同版本静态页面等&#xff09;时&#xff0c;可通过随机索引实现负载均衡或流量分散。A/B 测试 通过目录请求自动随机分配用户到不同测试组&#xff0c;无需后端逻辑参与。动态“首页”选…...

你引入的lodash充分利用了吗?

#开发中&#xff0c;发现自己只有cloneDeep的时候才想起来用这个库的便利&#xff0c;搜索了项目内代码&#xff0c;发现大家基本也是这样&#xff0c;其实我们错过了很多好东西# cloneDeep 深拷贝 var objects [{ a: 1 }, { b: 2 }];var deep _.cloneDeep(objects); conso…...

Python爬虫基础

本篇内容中&#xff0c;我们主要分享一些爬虫的前置知识&#xff0c;主要知识点有&#xff1a; 爬虫的概念和作用爬虫的流程【重要】http相关的复习 http和https概念和区别浏览器访问一个网址的过程爬虫中常用的请求头、响应头常见的响应状态码 浏览器自带开发者工具的使用 爬…...

飞帆控件:on_post_get 接口配置

在网页中写一个接口是很基础的要求。 今天我们介绍一个工具&#xff0c;不用写代码&#xff0c;配置即可。 先上链接&#xff1a; on_post_gethttps://fvi.cn/798来看看控件的配置&#xff1a; 使用这个控件&#xff0c;在网页中写 post/get 接口可以告别代码。或许能做到初…...

C++笔试题(金山科技新未来训练营):

题目分布&#xff1a; 17道单选&#xff08;每题3分&#xff09;3道多选题&#xff08;全对3分&#xff0c;部分对1分&#xff09;2道编程题&#xff08;每一道20分&#xff09;。 不过题目太多&#xff0c;就记得一部分了&#xff1a; 单选题&#xff1a; static变量的初始…...

Selenium-Java版(css表达式)

css表达式 前言 根据 tag名、id、class 选择元素 tag名 #id .class 选择子元素和后代元素 定义 语法 根据属性选择 验证CSS Selector 组选择 按次序选择子节点 父元素的第n个子节点 父元素的倒数第n个子节点 父元素的第几个某类型的子节点 父元素的…...

19. 结合Selenium和YAML对页面实例化PO对象改造

19. 结合Selenium和YAML对页面实例化PO对象改造 一、架构升级核心思路 1.1 改造核心目标 # 原始PO模式&#xff1a;显式定义元素定位 username (id, ctl00_MainContent_username)# 改造后PO模式&#xff1a;动态属性访问 self.username.send_keys(Tester) # 自动触发元素定…...

MySQL——5、基本查询

表的增删改查 1、Create1.1、单行数据全列插入1.2、多行数据指定列插入1.3、插入否则更新1.4、替换 2、Retrieve2.1、select列2.2、where条件2.3、结果排序2.4、筛选分页结果 3、Update4、Delete4.1、删除数据4.2、截断表 5、插入查询结果6、聚合函数7、group by子句的使用8、实…...

ngx_http_referer_module 模块概述

一、使用场景 防盗链 仅允许本站或特定域名的页面直接引用图片、视频等资源&#xff0c;拒绝第三方网站直接嵌入。流量控制 阻止来自社交媒体、搜索引擎或未知来源的大量自动化抓取。安全审计 简易记录并过滤可疑 Referer&#xff0c;以减少非法请求。 注意 Referer 头可被伪造…...

Go语言--语法基础5--基本数据类型--类型转换

Go 编程语言中 if 条件语句的语法如下&#xff1a; 1、基本形式 if 布尔表达式 { /* 在布尔表达式为 true 时执行 */ } If 在布尔表达式为 true 时&#xff0c;其后紧跟的语句块执行&#xff0c;如果为 false 则 不执行。 package main import "fmt" …...

用golang实现二叉搜索树(BST)

目录 一、概念、性质二、二叉搜索树的实现1. 结构2. 查找3. 插入4. 删除5. 中序遍历 中序前驱/后继结点 一、概念、性质 二叉搜索树&#xff08;Binary Search Tree&#xff09;&#xff0c;简写BST&#xff0c;又称为二叉查找树 它满足&#xff1a; 空树是一颗二叉搜索树对…...

基于FPGA的电子万年历系统开发,包含各模块testbench

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于FPGA的电子万年历系统开发,包含各模块testbench。主要包含以下核心模块&#xff1a; 时钟控制模块&#xff1a;提供系统基准时钟和计时功能。 日历计算模块&#xff1a…...

上位机知识篇---Web

文章目录 前言 前言 本文简单介绍了Web。...

2025 ISCC 练武赛Pwn-wp(含附件)

前言 去年个人赛报名了忘记打了(笑), 所以这应该算是我第一次参加ISCC, 体验也是非常非常非常非常的cha(第四声)!!! 主办方也是非常幽默&#xff0c;pwn和web都是公用容器&#xff0c;那web最后都被当成玩具玩坏了 下面是这次练武题的pwn所有附件 通过网盘分享的文件&#xf…...

LeetCode Hot100刷题——除自身以外数组的乘积

238. 除自身以外数组的乘积 给你一个整数数组 nums&#xff0c;返回 数组 answer &#xff0c;其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位 整数范围内。 请 不要使用除法&a…...

IDEA - Windows IDEA 代码块展开与折叠(基础折叠操作、高级折叠操作)

一、基础折叠操作 折叠当前代码块&#xff1a;Ctrl - # 操作方式按下 【Ctrl】 键&#xff0c;再按下 【-】 键展开当前代码块&#xff1a;Ctrl # 操作方式按下 【Ctrl】 键&#xff0c;再按下 【】 键折叠所有代码块&#xff1a;Ctrl Shift - # 操作方式按下 【Ctrl】…...

javaSE.Map

Map存储映射关系。键值对。key-value 左边值映射着右边的值&#xff0c;左边相当于钥匙&#xff0c;开到右边的门获取得到信息。 get&#x1f447;put 是否存在该key&#x1f447;containsKey() map.values&#x1f447; entrySet&#x1f447; entrySet()获取map中所有的键…...