首页口腔产品口腔品牌口腔信息口腔行情口腔评述口腔专题口腔学堂口腔资讯口腔信息

乱码问题解决之“锟斤拷”

文章正文

2024-08-27 05:19

技术总编：薛本

乱码是咱们正在用stata读入文件时常常会显现并且令人头疼的问题，当咱们舛错界说了读入文件的编码时，就可能显现一些非凡的乱码问题。原日为各人引见此中一种比较常见的乱码问题----“锟斤拷”及其处置惩罚惩罚办法。

“锟斤拷”是一串常常正在搜寻引擎页面和其余网站上看到的乱码字符，如下图所示的某个单位雇用信息中，联络人和联络人职位两项，就无奈被准确识别出来。

“锟斤拷”源自于GBK字符集和Unicode字符集之间的转换问题。正在Unicode和本有编码体系的转化历程中，有一些字符用Unicode是无奈默示的，Unicode官方用了一个占位符来默示那些无奈默示的字符，那个字符用unicode转义字符默示为ufffd，对应的utf-8编码为“EFBFBD”。假如那个编码重复两次，而后放到GBK/GB2312/GB18030的环境中显示时，一个汉字占据2个字节，最末的结果便是：锟斤拷——锟(EFBF)，斤(BDEF)，拷(BFBD)。

举一个简略的例子来评释那种乱码问题。

首先从国泰安数据库高下载一个CSx格局的资产欠债表，用import delimited号令读入，并设置读入文件的编码为utf-8。步调如下:

clear

importdelimited using 资产欠债表.csZZZ, encoding( "utf-8")

可以看到变质stkcd的标签显现了乱码。

标签

出售本站【域名】【外链】

乱码问题解决之“锟斤拷”

合作伙伴