मैं स्पार्क 0.7.2 का उपयोग निम्न ~ 9 0 GB (संकुचित: 1 9 जीबी) प्रक्रिया के लिए निम्न चालक प्रोग्राम के साथ कर रहा हूँ 7 कार्यकर्ताओं और 1 विशिष्ट मास्टर का उपयोग कर लॉगडाटा:
System.setProperty ("spark.default.parallelism", "32") val sc = new SparkContext ("स्पार्क: //10.111.1.30: 7077 "," MRTest ", System.getenv (" SPARK_HOME "), Seq (System.getenv (" NM_JAR_PATH "))) वैल logData = sc.textFile (" HDFS: //10.111.1.30: 54,310 / लॉग / ") Val dcxMap = logData.map (रेखा = & gt; (रेखा.split ("\\ |") (0), रेखा.split ("\\ |" (9))) .reduceByKey (_ + "||" + _) dcxMap.saveAsTextFile ( "HDFS: //10.111.1.30: 54,310 / बाहर") सभी ShuffleMapTasks चरण 1 के बाद पूरा कर रहे हैं: < / P> स्टेज 1 (DcxMap.scala पर कम से कम: 31) 111.312 s में समाप्त यह चरण प्रस्तुत करता है 0:
स्टेज 0 (मैप किए गए आरडीडी [6] को डीसीएक्समैप.scala पर SaveAsTextFile पर जमा करना: 38), जो अब रननेबल है कुछ धारावाहिककरण के बाद प्रिंट करता है
spark.MapOutputTrackerActor - host23 spark.MapOutputTracker के सामने शफल 0 के लिए नक्शा उत्पादन स्थानों भेजने के लिए कहा - host21 के सामने शफल 0 के लिए नक्शा उत्पादन स्थानों भेजने के लिए कहा - फेरबदल 0 के लिए उत्पादन स्थितियों के आकार 2008 बाइट्स spark.MapOutputTrackerActor है spark.MapOutputTrackerActor - host22 spark.MapOutputTrackerActor के सामने शफल 0 के लिए नक्शा उत्पादन स्थानों भेजने के लिए कहा - host26 spark.MapOutputTrackerActor के सामने शफल 0 के लिए नक्शा उत्पादन स्थानों भेजने के लिए कहा - host24 spark.MapOutputTrackerActor के सामने शफल 0 के लिए नक्शा उत्पादन स्थानों भेजने के लिए कहा - यह पूछने पर मैप आउटपुट स्थानों को फेरबदल करने के लिए मेजबान 27 स्पार्क के लिए। MapOutputTrackerActor - मैप आउटपुट स्थानों को फेरबदल 0 के लिए होस्ट होस्ट करने के लिए कहा गया है इसके बाद, कुछ भी नहीं आता है, इसके अलावा top सुझाव देते हैं कि मजदूर अब सभी निष्क्रिय हैं अगर मैं कार्यकर्ता मशीनों पर लॉग देखता हूं, तो उनमें से प्रत्येक पर ऐसा ही होता है: 13/06/21 07:32:25 INFO नेटवर्क। प्रेषण कनेक्शन: [host27 के लिए कनेक्शन आरंभ करना /127.0.1.1:34288] 13/06/21 07:32:25 INFO नेटवर्क। प्रेषण कनेक्शनः [होस्ट 27 / 127.0.1.1: 36040] के संबंध में आरंभ करना 13/06/21 07:32:25 सूचना नेटवर्क। प्रेषण कनेक्शन: प्रारंभ करना कनेक्शन [host27 / 127.0.1.1: 50467] 13/06/21 07:32:25 INFO नेटवर्क। प्रेषण कनेक्शन: [host27 / 127.0.1.1: 60833] के कनेक्शन आरंभ करना 13/06/21 07:32:25 सूचना नेटवर्क .केंडिंग कनेक्शन: [होस्ट 27 / 127.0.1.1: 498 9 3] 13/06/21 07:32:25 INFO नेटवर्क से कनेक्शन आरंभ करना। प्रेषण कनेक्शन: [host27 / 127.0.1.1: 39907] के लिए कनेक्शन आरंभ करना फिर, इन "आरंभिक कनेक्शन" प्रयासों के प्रत्येक के लिए, यह प्रत्येक कार्यकर्ता में एक ही त्रुटि को फेंकता है (एक उदाहरण के रूप में मेजबान 27 के लिए लॉग को दिखाता है और केवल त्रुटि का पहला अवसर) : 13/06/21 07:32:25 नेटवर्क नेटवर्क। प्रेषण कनेक्शन: त्रुटि एफ host27 के लिए कनेक्शन inishing / 127.0.1.1: 49,893 java.net.ConnectException: कनेक्शन पर sun.nio.ch.SocketChannelImpl.checkConnect (मूल निवासी विधि) sun.nio.ch.SocketChannelImpl.finishConnect (SocketChannelImpl.java:701) में कम से इनकार कर दिया spark.network.SendingConnection.finishConnect (Connection.scala: 221) spark.network.ConnectionManager.spark $ नेटवर्क $ ConnectionManager $$ रन (ConnectionManager.scala: 127) में spark.network.ConnectionManager $$ anon $ 4.run पर (ConnectionManager .scala: 70) ऐसा क्यों होता है? ऐसा लगता है कि मजदूर एक-दूसरे के साथ ठीक संवाद कर सकते हैं, केवल एक समस्या तब होती है जब वे खुद को संदेश भेजना चाहते हैं; उपर्युक्त उदाहरण में, होस्ट 27 खुद 6 संदेश भेजने की कोशिश करता है, लेकिन 6 गुना विफल रहता है। अन्य कर्मचारियों को संदेश भेजना ठीक काम करता है क्या किसी का विचार है?
संपादित करें : शायद उसे 127.0 का उपयोग करके चिंगारी के साथ करना पड़ता है। 127.0 की बजाय 1 .1। 0 .1? / etc / hosts निम्न की तरह दिखता है: 127.0.0.1 लोकलहोस्ट 127.0.1.1 होस्ट27। & Lt; ourdomain & gt; Host27
मुझे पता चला कि समस्या समस्या से संबंधित है हालांकि, मेरे लिए कार्यकर्ताओं पर SPARK_LOCAL_IP सेट करने से समस्या ठीक नहीं हुई। मुझे / etc / hosts को इसमें बदलना पड़ा: 127.0.0.1 स्थानीयहोस्ट और अब यह सुचारू रूप से चलाता है।
No comments:
Post a Comment