当前位置: 首页 > news >正文

网站访客qq获取系统 报价关键词优化过程

网站访客qq获取系统 报价,关键词优化过程,电商网页设计网站,制作网页可以用我们可能有时候在处理字符时需要处理到非ASCII的字符,比如将表情、阿拉伯语转换为Unicode字符,从而避免在传输时会出现乱码的情况。 Unicode验证网站: unicode转换网站 目的:转换下面除ASCII字符外的字符为Unicode字符&#x1f…

我们可能有时候在处理字符时需要处理到非ASCII的字符,比如将表情、阿拉伯语转换为Unicode字符,从而避免在传输时会出现乱码的情况。

Unicode验证网站:
unicode转换网站

目的:转换下面除ASCII字符外的字符为Unicode字符👇

🔥🎱é🕐  19h📱mação nos stories!link

一、encode方法

看过网上的一些技术文,像以下方法

text = "你好世界"
escaped_text = text.encode('unicode-escape')
print(escaped_text) # b'\\u4f60\\u597d\\u4e16\\u754c'

上面的确实可以转换,但表情却不行,比如"🔥🎱",转换之后是\\U0001f525\\U0001f3b1
去掉转义符号测试一下,没办法转换

而我们试试网站自身的编码,同样也是乱码,不能正常解析出来

这个方法显然不管用

二、高代理和低代理对处理方法

为了正确处理表情符号(Unicode Supplementary Characters),处理 Unicode 补充字符(Supplementary Characters),我们需要特别处理这些高代理和低代理对,这些字符的编码范围在 0x10000 到 0x10FFFF 之间,通常用于表示表情符号等。

高代理和低代理对(surrogate pairs)是 Unicode 用来编码超出基本多文种平面的字符的方法。基本多文种平面(BMP, Basic Multilingual Plane)包含从 0x0000 到 0xFFFF 的字符,而超出这个范围的字符称为补充字符(Supplementary Characters),它们的代码点范围是从 0x10000 到 0x10FFFF。

由于 UTF-16 编码格式只能表示 0x0000 到 0xFFFF 范围内的字符,为了表示超出这个范围的字符,Unicode 引入了代理对的概念。代理对由两个 16 位的代码单元组成:

  • 高代理单元(High Surrogate):范围是 0xD800 到 0xDBFF,包含 1024 个代码点。

  • 低代理单元(Low Surrogate):范围是 0xDC00 到 0xDFFF,也包含 1024 个代码点。

由于 UTF-16 不能直接表示这些字符,所以需要使用代理对(surrogate pairs)

补充字符通常为表情符号,编码值一般大于 0xFFFF(即 65535)

补充字符的处理

  1. 检查字符是否是补充字符:
if code > 0xFFFF:

补充字符的编码值大于 0xFFFF(即 65535)。

  1. 计算高代理:

high_surrogate = 0xD800 + ((code - 0x10000) >> 10)

code - 0x10000:将编码值减去 0x10000,因为补充字符的编码范围是从 0x10000 开始的。
(code - 0x10000) >> 10:将结果右移 10 位,得到高 10 位的值。
0xD800 + ...:将高 10 位的值加上 0xD800(高代理范围的起始值)得到高代理的编码值。
3. 计算低代理:

low_surrogate = 0xDC00 + ((code - 0x10000) & 0x3FF)

code - 0x10000:将编码值减去 0x10000。
(code - 0x10000) & 0x3FF:将结果与 0x3FF 做按位与操作,得到低 10 位的值。
0xDC00 + ...:将低 10 位的值加上 0xDC00(低代理范围的起始值)得到低代理的编码值。
返回高代理和低代理对的 Unicode 转义表示:

return f'\\u{high_surrogate:04x}\\u{low_surrogate:04x}'

\\u{high_surrogate:04x}:将高代理的编码值格式化为 4 位的十六进制数,并添加 Unicode 转义前缀 \u。
\\u{low_surrogate:04x}:将低代理的编码值格式化为 4 位的十六进制数,并添加 Unicode 转义前缀 \u。
通过这种方式,我们可以将补充字符正确地转换为 Unicode 转义表示,保证它们在 JSON 文件中能以 \uXXXX\uXXXX 的形式表示。

处理非ASCII字符:

对于其他非ASCII字符(编码值大于 127 且小于等于 0xFFFF),直接格式化为 \uXXXX。

elif code > 127:return f'\\u{code:04x}'

保留 ASCII 字符:

对于 ASCII 字符(编码值小于等于 127),则直接返回字符本身。

最终代码

unicode_str = '🔥🎱é🕐  19h📱mação nos stories!link'def encode_non_ascii_chars(input_str):def to_unicode_escape(char):code = ord(char)# 处理补充字符(补充字符,通常是表情符号)# 补充字符的 Unicode 编码范围在 0x10000 到 0x10FFFF 之间。因为 UTF-16 不能直接表示这些字符,所以需要使用代理对(surrogate pairs)if code > 0xFFFF:  # Supplementary charactershigh_surrogate = 0xD800 + ((code - 0x10000) >> 10)low_surrogate = 0xDC00 + ((code - 0x10000) & 0x3FF)return f'\\u{high_surrogate:04x}\\u{low_surrogate:04x}'# 处理非ASCII字符# 对于其他非ASCII字符(编码值大于 127 且小于等于 0xFFFF),直接格式化为 \uXXXX。elif code > 127:  # non-ASCIIreturn f'\\u{code:04x}'# 对于 ASCII 字符(编码值小于等于 127),直接返回字符本身else:return charreturn ''.join(to_unicode_escape(char) for char in input_str)encoded_str = encode_non_ascii_chars(unicode_str)
print(encoded_str) # \ud83d\udd25\ud83c\udfb1\u00e9\ud83d\udd50  19h\ud83d\udcf1ma\u00e7\u00e3o nos stories!link

可正常转换

推荐文章:

(2024 最新 GPT4、GPT4.0 升级教程)ChatGPT 升级银行卡被拒绝,教你 5 分钟快速升级 chatgpt4

http://www.yayakq.cn/news/514262/

相关文章:

  • 购物网站开发教学视频南昌网站建设公司咨询
  • 红色网站主题徐州云龙区建设局网站
  • 做免费网站有哪些亚马逊网上购物商城
  • 做网站需要掌握什么软件网络营销策略分哪几类
  • 黄石市城市建设档案馆网站企业邮箱格式例子
  • 口碑好的番禺网站建设如何网站建设公司
  • 十堰市建设工程管理处网站怎样把网站上传到服务器上
  • 分类目录网站做排名在国外做盗版电影网站吗
  • 怎么自己制作网站链接2022年卡一卡二卡三精品
  • 网站推广去哪家比较好企业建网站的费用
  • 网站建设需求填表简单详细搭建网站教程视频
  • 互联网网站建设是什么郑州做网站企业
  • 网站备案到哪里下载重庆建设工程施工安全管理网官网
  • 个人网站模板 html教育机构网站建设
  • 网站多语言模块黑科技引流推广神器
  • 南京鼓楼做网站三里屯网站建设
  • 商城网站都有哪 些功能房地产找客源10个方法
  • 视频网站开发架构建设厅焊工证
  • 北京网站seo优化推广专门做中式服装平台的网站
  • 网站开发从整体上百度热门排行榜
  • 国内优秀个人网站欣赏住房和城乡建设部信息中心官网
  • 网站建设项目延期验收申请成都十八个网红打卡地
  • 帝国网站管理系统入门教程wordpress无法显示中文
  • 鹰潭市网站建设公司扬子市建设局网站
  • 太原网站建设方案书图片转换成网址链接
  • 网站服务器一年的费用宁波网站建设就业方向
  • 网站备案医疗保健审批号是什么上海做网站的知名企业
  • 商务网站建设工程师是网站备案注销流程
  • 微商城网站开发视频成功英语网站
  • 贸易网站源码淘客类网站如何做排名