निम्न में:
मेरी $ string = "क्या आप \ x {FB01} nd मेरी r \ x {E9} योग \ x {E9} \ n ";?
<कोड> x {FB01} और
x {} E9 कोड बिंदु हैं और कोड अंक ओक्टेट्स की एक श्रृंखला के लिए एक एन्कोडिंग स्कीम के माध्यम से इनकोड। चरित्र
एक जो कोडपॉइंट
\ x {FB01} है
तो का हिस्सा है $ string की स्ट्रिंग लेकिन यह कैसे काम करता है? क्या सभी अक्षर इस वाक्य में (एएससीआई वाले लोगों सहित)
UTF-8 के माध्यम से एन्कोड किए गए हैं? अगर हाँ, तो मुझे निम्नलिखित व्यवहार क्यों मिलता है?
मेरी $ str = "कुछ मनमाना स्ट्रिंग \ n"; यदि (एनकोड :: is_utf8 ($ str)) {प्रिंट "हाँ एसआर यूटीएफ 8! \ N"; } अन्य {प्रिंट "नहीं, यह नहीं है यूटीएफ 8 \ n"; } यह प्रिंट "नहीं str आईटी UTF8 \ N नहीं है"
इसके अतिरिक्त एनकोड :: is_utf8 ($ स्ट्रिंग) रिटर्न true ।
किस प्रकार से $ string और $ str अलग और एक माना जाता है UTF-8 और अन्य नहीं?
और किसी भी मामले में $ str का एन्कोडिंग क्या है? ASCII? क्या यह पर्ल के लिए डिफ़ॉल्ट है?
सी में, एक स्ट्रिंग एक है ऑकटेट का संग्रह, लेकिन पर्ल के दो स्ट्रिंग स्टोरेज स्वरूप हैं:
- 8-बिट मानों की स्ट्रिंग।
- 72-बिट मानों की स्ट्रिंग (व्यवहार में, 32-बिट या 64-बिट तक सीमित।)
इस तरह, आपको स्ट्रिंग में उन्हें स्टोर करने के लिए कोड बिंदुओं को सांकेतिकृत करने की आवश्यकता नहीं है। < पूर्व> मेरी $ s = "\ x {2660} \ x {2661}"; लंबाई $ s; # 2 कहते हैं, sprintf '% X', ord substr ($ s, 0, 1); # 2660 का कहना है कि sprintf '% x', ऑर्ड सबस्ट्रेल ($ s, 1, 1); # 2661
(आंतरिक रूप से, "UTF8" कहा जाता है UTF-8 का ही विस्तार 72-बिट वर्ण के तार स्टोर करने के लिए प्रयोग किया जाता है। यही कारण है कि कुछ आप कभी भी महसूस करने के लिए छोड़कर पता करने के लिए होना चाहिए नहीं है प्रदर्शन के प्रभाव, लेकिन इस तथ्य को बेनकाब करने वाली बग हैं।)
एन्कोड का is_utf8 रिपोर्ट करता है कि किस प्रकार के स्ट्रैक्टर में एक स्केलर होता है यह एक ऐसा कार्य है जो पहले से उल्लेखित बगों को डिबग करने के अलावा कोई भी उपयोग नहीं करता है।
- एक 8-बिट स्ट्रिंग
$ str का मान संग्रहीत कर सकता है, इसलिए पर्ल का उपयोग अधिक कुशल 8-बिट (UTF8 = 0) स्ट्रिंग प्रारूप।
एक 8-बिट स्ट्रिंग $ string के मान को संचित नहीं कर सकता है, इसलिए पर्ल 72-बिट (UTF8 = 1) स्ट्रिंग फ़ॉर्मेट। शून्य शून्य है क्या यह एक फ़्लोटिंग बिंदु संख्या, एक हस्ताक्षरित पूर्णांक या एक हस्ताक्षरित पूर्णांक में संग्रहीत है इसी तरह, स्ट्रिंग का भंडारण प्रारूप स्ट्रिंग के मूल्य के बारे में कोई जानकारी नहीं देता।
- आप कोड बिंदुओं को 8-बिट स्ट्रिंग में संग्रहीत कर सकते हैं (यदि वे काफी छोटे हैं) बस के रूप में आसानी से एक 72-बिट स्ट्रिंग।
- आप बाइट्स को एक 72-बिट स्ट्रिंग में 8-बिट स्ट्रिंग के रूप में आसानी से स्टोर कर सकते हैं।
वास्तव में, पर्ल स्विच होगा इच्छा के दो प्रारूपों के बीच उदाहरण के लिए, यदि आप $ string को $ str के साथ जोड़ते हैं, तो आपको 72-बिट प्रारूप में एक स्ट्रिंग मिल जाएगी।
आप बदल सकते हैं utf8 :: डाउनग्रेड और utf8 :: upgrade के साथ एक स्ट्रिंग का भंडारण प्रारूप, आपको कभी भी बग के आसपास काम करने की आवश्यकता होनी चाहिए।
< कोड> UTF8 :: ढाल ($ रों); # 8-बिट मानों के स्ट्रिंग पर स्विच करें (UTF8 = 0)। UTF8 उन्नयन :: ($ रों); # 72-बिट मानों (UTF8 = 1) के तार पर स्विच करें आप कर सकते हैं Devel :: नज़र का उपयोग कर प्रभाव
& gt;। पर्ल -MDevel :: पीक -e "$ एस = chr (0x80); Utf8 :: डाउनग्रेड ($ s); डंप ($ s); " एसवी = 0x4a84c4 REFCNT पर पीवी (0x7b8a74) = 1 FLAGS = (पीओके, pPOK) PV = 0x7bab9c "\ 200" \ 0 CUR = 1 LEN = 12 & gt; पर्ल -MDevel :: पीक -e "$ एस = chr (0x80 ); Utf8 :: अपग्रेड ($ s); डंप ($ s); " एसवी = पीवी (0x558a6c) 0x1cc843c पर REFCNT = 1 फ्लैग्स = (पीओके, पीपीओके, यूटीएफ 8) पीवी = 0x55ab94 "\ 302 \ 200" \ 0 [यूटीएफ 8 "\ x {80}"] कूर = 2 एलएएन = 12
No comments:
Post a Comment