Working directories
1 | ls *.jpg | xargs -I % img2pdf % > %.pdf |
Figma
1 | # Installation |
Water
- www.google.com
- 乾隆盘山志 16卷附首5卷 乾隆20年刻本 PDF下载 | 宗教资料 | 县志下载 | 中国县志大全
- 徐州清代名僧智朴_江苏频道_凤凰网
- 智朴禅师_百度百科
- 手机新浪网
- 智朴禅师_百度百科
- baike.baidu.com
- 盘山佛教的发展_参考网
- 盘山(中国5A级旅游景区)_百度百科
- 来自盘山抗日根据地的歌声 —— 抗战歌谣背后的故事
- 盘山志 txt - Google Search
- 修真十书盘山语录卷共1.6万字精彩大结局_最新章节列表_王志谨
- github.com
- github.com
- baike.baidu.com
- Downloads
Chinese conversion
在ubuntu16.04上使用opencc工具进行转换
1.安装
sudo apt-get install opencc
2.简体 —-》 繁体
opencc -i 简体.txt -o 繁体.txt -c zhs2zht.ini
3.繁体 —-》 简体
opencc -i 繁体.txt -o 简体.txt -c zht2zhs.ini
注:
1.-i 后是需要转的文件 -o后是转换后的文件名
2.-c后是转换的规则,为固定写法
3.简体中文是Simplified Chinese /繁体中文是 Traditional Chinese
1 | cd /media/ht/ht_5T_10/eBooks/History/四库全书/Git/1 |
下面是opencc的可用配置:
s2t.json | 简体到繁体 |
t2s.json | 繁体到简体 |
s2tw.json | 简体到台湾正体 |
tw2s.json | 台湾正体到简体 |
s2hk.json | 简体到香港繁体(香港小学学习字词表标准) |
hk2s.json | 香港繁体(香港小学学习字词表标准)到简体 |
s2twp.json | 简体到繁体(台湾正体标准)并转换为台湾常用词汇 |
tw2sp.json | 繁体(台湾正体标准)到简体并转换为中国大陆常用词汇 |
python实现中文的繁简转换
_作者:中科小白_时间: 2021-02-05 10:05:22
标签:数据处理python繁简体转换中文预处理opencc-python
【摘要】我们在对中文语料作预处理时,往往会遇到繁简体转换的问题,这也是预处理环节的重要一环。 python支持繁简体转换的库有许多,常用是opencc,但是由于直接安装opencc或是opencc-python现在会遇到许多路径、编译的问题,因此给大家推荐一种安装方式。网址见:https://pypi.org/project/opencc-python-reimplemented/ 安装命令: …
### [云推官招募计划]
推荐新用户注册并下单即可获得现金奖励
上新
### [免费套餐]
1核2G 2核4G云服务器免费 云数据库0元试用
热销
### [开发利器]
开发者专享优惠,解决研发效率、集成难题
公告
我们在对中文语料作预处理时,往往会遇到繁简体转换的问题,这也是预处理环节的重要一环。
python支持繁简体转换的库有许多,常用是opencc,但是由于直接安装opencc或是opencc-python现在会遇到许多路径、编译的问题,因此给大家推荐一种安装方式。网址见:https://pypi.org/project/opencc-python-reimplemented/
安装命令:
pip install opencc-python-reimplemented
安装后会显示:
...
Successfully installed opencc-python-reimplemented-0.1.5
调用库的示例demo:
>>> from opencc import OpenCC
>>> a = '我是中国人'
>>> b = OpenCC('s2t').convert(a)
>>> print(b)
我是中國人
如果是对整个文件进行繁简体转换,需要用到文件读写函数,给出我的一个脚本示例:
from opencc import OpenCC
INPUT = open('/data1/usertest/syb/Name-Entity-Recognition/wikiextractor/extracted/AA/wiki_01')
a = INPUT.read()
b = OpenCC('t2s').convert(a)
OUTPUT = open('./zh_wiki_01','w')
OUTPUT.write(b)
OUTPUT.close()
以上给出的示例中都是将繁体转换为简体,即’s2t’模式,该库中还支持许多其他模式,如’t2s‘(简体到繁体)、’s2tw’(简体到台湾标准繁体)、’tw2s’(台湾标准简体到繁体)等。