निम्न में:
<कोड> x {FB01} और यह प्रिंट सी में, एक स्ट्रिंग एक है ऑकटेट का संग्रह, लेकिन पर्ल के दो स्ट्रिंग स्टोरेज स्वरूप हैं: इस तरह, आपको स्ट्रिंग में उन्हें स्टोर करने के लिए कोड बिंदुओं को सांकेतिकृत करने की आवश्यकता नहीं है। < पूर्व> (आंतरिक रूप से, "UTF8" कहा जाता है UTF-8 का ही विस्तार 72-बिट वर्ण के तार स्टोर करने के लिए प्रयोग किया जाता है। यही कारण है कि कुछ आप कभी भी महसूस करने के लिए छोड़कर पता करने के लिए होना चाहिए नहीं है प्रदर्शन के प्रभाव, लेकिन इस तथ्य को बेनकाब करने वाली बग हैं।) एन्कोड का शून्य शून्य है क्या यह एक फ़्लोटिंग बिंदु संख्या, एक हस्ताक्षरित पूर्णांक या एक हस्ताक्षरित पूर्णांक में संग्रहीत है इसी तरह, स्ट्रिंग का भंडारण प्रारूप स्ट्रिंग के मूल्य के बारे में कोई जानकारी नहीं देता। वास्तव में, पर्ल स्विच होगा इच्छा के दो प्रारूपों के बीच उदाहरण के लिए, यदि आप आप बदल सकते हैं आप कर सकते हैं Devel :: नज़र का उपयोग कर प्रभाव मेरी $ string = "क्या आप \ x {FB01} nd मेरी r \ x {E9} योग \ x {E9} \ n ";?
x {} E9 कोड बिंदु हैं और कोड अंक ओक्टेट्स की एक श्रृंखला के लिए एक एन्कोडिंग स्कीम के माध्यम से इनकोड। चरित्र
एक जो कोडपॉइंट
\ x {FB01} है
तो का हिस्सा है $ string की स्ट्रिंग लेकिन यह कैसे काम करता है? क्या सभी अक्षर इस वाक्य में (एएससीआई वाले लोगों सहित)
UTF-8 के माध्यम से एन्कोड किए गए हैं? अगर हाँ, तो मुझे निम्नलिखित व्यवहार क्यों मिलता है?
मेरी $ str = "कुछ मनमाना स्ट्रिंग \ n"; यदि (एनकोड :: is_utf8 ($ str)) {प्रिंट "हाँ एसआर यूटीएफ 8! \ N"; } अन्य {प्रिंट "नहीं, यह नहीं है यूटीएफ 8 \ n"; }
"नहीं str आईटी UTF8 \ N नहीं है"
इसके अतिरिक्त एनकोड :: is_utf8 ($ स्ट्रिंग) रिटर्न
true ।
किस प्रकार से $ string और
$ str अलग और एक माना जाता है
UTF-8 और अन्य नहीं?
और किसी भी मामले में $ str का एन्कोडिंग क्या है? ASCII? क्या यह
पर्ल के लिए डिफ़ॉल्ट है?
मेरी $ s = "\ x {2660} \ x {2661}"; लंबाई $ s; # 2 कहते हैं, sprintf '% X', ord substr ($ s, 0, 1); # 2660 का कहना है कि sprintf '% x', ऑर्ड सबस्ट्रेल ($ s, 1, 1); # 2661
is_utf8 रिपोर्ट करता है कि किस प्रकार के स्ट्रैक्टर में एक स्केलर होता है यह एक ऐसा कार्य है जो पहले से उल्लेखित बगों को डिबग करने के अलावा कोई भी उपयोग नहीं करता है।
$ str का मान संग्रहीत कर सकता है, इसलिए पर्ल का उपयोग अधिक कुशल 8-बिट (UTF8 = 0) स्ट्रिंग प्रारूप।
$ string के मान को संचित नहीं कर सकता है, इसलिए पर्ल 72-बिट (UTF8 = 1) स्ट्रिंग फ़ॉर्मेट।
$ string को
$ str के साथ जोड़ते हैं, तो आपको 72-बिट प्रारूप में एक स्ट्रिंग मिल जाएगी।
utf8 :: डाउनग्रेड और
utf8 :: upgrade के साथ एक स्ट्रिंग का भंडारण प्रारूप, आपको कभी भी बग के आसपास काम करने की आवश्यकता होनी चाहिए।
< कोड> UTF8 :: ढाल ($ रों); # 8-बिट मानों के स्ट्रिंग पर स्विच करें (UTF8 = 0)। UTF8 उन्नयन :: ($ रों); # 72-बिट मानों (UTF8 = 1) के तार पर स्विच करें
& gt;। पर्ल -MDevel :: पीक -e "$ एस = chr (0x80); Utf8 :: डाउनग्रेड ($ s); डंप ($ s); " एसवी = 0x4a84c4 REFCNT पर पीवी (0x7b8a74) = 1 FLAGS = (पीओके, pPOK) PV = 0x7bab9c "\ 200" \ 0 CUR = 1 LEN = 12 & gt; पर्ल -MDevel :: पीक -e "$ एस = chr (0x80 ); Utf8 :: अपग्रेड ($ s); डंप ($ s); " एसवी = पीवी (0x558a6c) 0x1cc843c पर REFCNT = 1 फ्लैग्स = (पीओके, पीपीओके, यूटीएफ 8) पीवी = 0x55ab94 "\ 302 \ 200" \ 0 [यूटीएफ 8 "\ x {80}"] कूर = 2 एलएएन = 12
No comments:
Post a Comment