这是 yaz-icu 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
yaz-icu - YAZ ICU 实用程序
概要
亚兹库 [-C 配置] [-p 选择] [-s] [-x] [输入文件]
商品描述
亚兹库 是一个实用程序,用于演示 yaz 的 ICU 链模块。 (yaz/icu.h)。
该实用程序可以通过两种方式使用。 它可能会使用 XML 配置读取一些文本
配置ICU并显示文本分析。 此模式由选项 -c 触发,其中
指定要使用的配置。 从标准输入读取输入文件或
如果指定了 infile,则来自文件。
该实用程序还可以显示 ICU 信息。 这是由选项 -p 触发的。
配置
-c 配置
指定包含基于 XML 的 ICU 链配置的文件。
-p 类型
指定要打印的有关 ICU 系统的额外信息。 如果 类型 是c然后ICU
转换器已打印。 如果 类型 是否打印了可用的语言环境。 如果 类型 是t
打印可用的音译。
-s
指定输出也应包含排序键。 注意排序键不同
ICU 版本之间。
-x
指定输出应基于 XML 而不是基于“文本”。
ICU 镜框挂链 配置
ICU 链配置指定了一个或多个将文本数据转换为令牌的规则。
配置格式基于 XML。
顶层元素必须命名为icu_chain。 icu_chain 元素有一个必需的
属性 locale 指定要在转换步骤中使用的 ICU 语言环境。
icu_chain 元素必须包含每个元素指定一个转换的元素
步。 转换按转换步骤的顺序执行
指定的。 每个转换元素采用一个属性:规则作为参数
转换步骤。
以下转换元素可用:
案例图
转换大小写和规则指定如何:
l
小写使用 ICU 函数 u_strToLower。
u
使用 ICU 函数 u_strToUpper 的大写。
t
使用 UCU 函数 u_strToTitle 进行标题。
f
使用 ICU 函数 u_strFoldCase 折叠案例。
产品
这是一个元步骤,指定要显示一个术语/标记。 这个术语是
使用函数 icu_chain_token_display (yaz/icu.h) 在应用程序中检索。
改造
使用音译标识符指定 ICU 转换规则。 规则属性
是音译标识符。 看 ICU 变换[1] 了解更多信息。
音译
指定基于规则的音译器。 规则属性是自定义转换
要使用的规则。 看 ICU 变换[1] 了解更多信息。
令牌化
使用 ICU 函数 ubrk_open 将字符串分解/标记为组件,
ubrk_setText, ... 该规则是以下之一:
l
线。 重症监护室:UBRK_LINE。
s
句子。 重症监护室:UBRK_SENTENCE。
w
单词。 重症监护室:UBRK_WORD。
c
特点。 重症监护室:UBRK_CHARACTER。
t
标题。 ICU:UBRK_TITLE。
示例
以下命令使用 ICU 链配置 chain.xml 分析文件文本中的文本:
猫文| yaz-icu -c chain.xml
chain.xml 可能如下所示:
z"/>
使用 onworks.net 服务在线使用 yaz-icu