最新消息: 新版网站上线了!!!

php 基于gbk和 Ascii把汉字转换为拼音

在php开发中有把汉字转换为拼音的需求

这里主要说明Ascii和gbk 格式的汉字转为拼音的内容,如果你是utf-8的,那就通过iconv()函数转utf-8为gbk,在进行拼音转换

//Ascii转拼音
function asc_to_pinyin($asc,$pyarr){
if($asc<128){
return chr($asc);
}elseif(isset($pyarr[$asc])){
return $pyarr[$asc];
}else{
foreach($pyarr as $id=>$p){
if($id>=$asc){
return $p;
}
}
}
}
//gbk转拼音
function gbk_to_pinyin($txt){
$l = strlen($txt);  //返回字符串长度strlen("证人")以字节为单位,gbk编码下,一个汉字2个字节,所有“证人”长度为4。区别于mb_strlen()已个数为单位返回长度,mb_strlen(“证人”);返回长度2
$i = 0;
$pyarr = array();
$py = array();
$filename = 'gb-pinyin.table';  //拼音表文件,这里路径根据文件位置自行设置
$fp = fopen($filename,'r');
while(!feof($fp)){
$p = explode("-",fgets($fp,32)); //fgets()经常和while循环配合使用,因为fgets()读取内容是以行为单位的。读完一行就立马返回(前提是这一行没有到达文件末尾,并且是在设定的长度范围内)。所以要在循环中一行一行读取。从 handle 指向的文件中读取一行并返回长度最多为 length - 1 字节的字符串。碰到换行符(包括在返回值中)、EOF 或者已经读取了 length - 1 字节后停止(看先碰到那一种情况)。如果没有指定 length,则默认为 1K,或者说 1024 字节。
$pyarr[intval($p[1])] = trim($p[0]);
}
fclose($fp);
ksort($pyarr);
while($i<$l){
$tmp = ord($txt[$i]);
if($tmp>=128){
$asc = abs($tmp*256+ord($txt[$i+1])-65536);
$i = $i+1;
}else{
$asc = $tmp;
}
$py[] = asc_to_pinyin($asc,$pyarr);
$i++;
}
return $py;
}
$py = gbk_to_pinyin('证人');
print_r($py);

结果:

Array
(
    [0] => zheng
    [1] => ren
)

下载拼音库文件,下载之后自己保存为gb-pinyin.table

gb-pinyin.txt


转载请注明:谷谷点程序 » php 基于gbk和 Ascii把汉字转换为拼音