อัลกอริทึมในการตรวจจับวัตถุ (Object Detection)

อัลกอริทึมในการตรวจจับวัตถุ (Object Detection)

การแปลง Hough Transform

        อัลกอริทึมในการตรวจจับวัตถุ (Object Detection) เป็นวิธีการตรวจจับสายตาที่ใช้กันอย่างแพร่หลาย มันขึ้นอยู่กับลักษณะรูปร่างของไอริสและมักจะทำงานบนขอบ binary และไม่จำเป็นต้องมีภาพของตาคนเฉพาะสำหรับรูปแบบดวงตา ข้อบกพร่องของวิธีนี้ก็คือสมรรถนะขึ้นอยู่กับค่า threshold ที่เลือกไว้สำหรับ binarization ของขอบและเป็นการยากที่จะตรวจจับวงกลมที่สัมพันธ์กับม่านตายกเว้นบริเวณที่มีแนวโน้มที่จะเกิด iris ลดลงเนื่องจาก ม่านตามีขนาดเล็กกว่าหน้า การใช้เทคนิคการแปลง Hough และเทคนิคแม่แบบที่ไม่สามารถปรับรูปแบบได้ Houston และคณะ งานวิจัยนี้ได้นำเสนอแนวความคิดการรับรู้จากม่านตาและการแบ่งส่วนการรับรู้จากตาโดย อัลกอริทึมในการตรวจจับวัตถุ (Object Detection) วิธีการใช้วงกลม Hough Transform และ Wavelet Features โดยแนวความคิดเขาระบุว่ารูปแบบของม่านตาแต่ละบุคคลจะไม่ซ้ำกัน โดยวิธีการวิจัยคือการคัดแยกพื้นที่ม่านตาเพื่อใช้ในการหาพื้นที่วงกลมในการตรวจสอบศูนย์และรัศมีของพื้นที่ดวงตา แต่จากงานวิจัยนี้พบปัญหาในเรื่องของความล้มเหลวของภาพ คือดวงตาไม่ชัดเจน หรือ การรบกวนของขนตา เป็นต้น Ohyama และคณะ งานวิจัยนี้ได้นำเสนอแนวความคิดการตรวจสอบตาโดย Circular Hough Transform และ Histogram ของการไล่โทนสี เพื่อให้การจดจำใบหน้ามีความแม่นยำมากยิ่งขึ้น โดยการตรวจสอบชิ้นส่วนของใบหน้า เช่นตา จมูก และปาก ด้วยเทคนิคการประมวลผลภาพ โดยภาพจะมีขนาด 512  x 768 pixels จากการตรวจสอบ 2 ขั้นตอนหลัก คือ จากภาพสองมิติ ในการเปลี่ยนแปลงของวงกลมรัสมีที่ไม่รู้จักจากการสร้างพารามิเตอร์ (xc; yc) ในการไล่ระดับสีของสีเทา และขั้นตอนที่สอง คือวิธีการนำเสนอการประเมินผลความน่าจะเป็นของตา โดยใช้เทคนิค Histogram ของการไล่ระดับสีด้วยวิธี Vector Machine (SVM) จากการทดสอบพบศูนย์ของตา โดยการเปลี่ยนวงกลมของ  Hough และทำการสกัด Histogram ของการไล่ระดับสีของดวงตาทั้งสองข้าง จากผลการทดสอบจากภาพจำนวน 1,409 ภาพ ได้ผลความถูกต้องสูงถึง 98.65% ในการตรวจสอบตาทั้งสองข้าง Shylaja และคณะ งานวิจัยนี้ได้นำเสนอแนวความคิด การรับรู้การใช้ Hough Transform ในการดึงข้อมูลตาจากโครงข่ายประสาทเทียม ซึ่งได้ค่าความถูกต้องสูงถึง 98.68% ผู้วิจัยได้มีวิธีการนำเสนอ 3 ขั้นตอน คือ 1. กระบวนการเตรียมการผลิต ที่ได้จากการตัดภาพที่มีขนาด 100 x 100  2. การใช้เทคนิค Hough Transform เป็นเทคนิคที่มีประสิทธิภาพมากที่สุดเพื่อระบุตำแหน่งของรูปในรูปแบบ วงกลม และวงรี โดยได้รับจากอาร์เรย์ที่สะสมของการฝึกจากเทคนิค neural network  3. การสกัดข้อมูลด้วย Feed Forward Neural Network (FFNN) ด้วยการป้อนข้อมูลผ่านโหนดที่ซ่อนอยู่ ของจำนวนชั้นขาเข้าและชั้นการส่งออกที่มีการปรับอย่างเหมาะสม กับจุดข้อมูลที่มีน้ำหนักที่เหมาะสม และสรุปการส่งออกของโหนดที่ซ่อนอยู่คือการเปลี่นแปลงที่ไม่เป็นเชิงเส้น เมื่อใช้เทคนิค FFNN ทำการฝึกฝนเพื่อให้ตรงกับค่าที่ถูกต้อง จึงสามารถนำไปเป็นความจำเพื่อให้รับรับรู้การจดจำใบหน้า Takegami และคณะ งานวิจัยนี้ได้นำเสนอแนวความคิดขั้นตอนการประเมินทิศทางการจ้องมองโดยไม่ต้องทดสอบในสถานที่ แม้ว่าการเคลื่อนไหวด้วยกล้อง โดยผู้วิจัยได้กำหนดทิศทางของตาเป็นทิศทางแบบเรขาคณิต ดวงตาจะจ้องมองทิศทางใดเป็ฯเวลานานเท่าไร เพื่อทำการตรวจสอบในเรื่องนี้ โดยวิธีการวิจัยด้วยเทคนิค Hough transform ของผู้วิจัยได้มีกระบวนการดังนี้ 1. การประมวลผลภาพ โดยกำหนดให้ภาพมีขนาดที่ 3 x 3 ในพื้นที่ตารางขนาด 2a0 x 2a0 ที่เป็นศูนย์กลางในความความโค้งของกระจกตา (x0, y0)  2. ศูนย์เบื้องต้นของขอบในแต่ละจดของการตัดสินใจ กำหนดให้ (Xp, Yp)  3. Array สำหรับการให้คะแนนเริ่มต้น 4. การให้คะแนนของ Array โดยการวาดรูปวงรีชั้นที่สองที่จะผ่านตัวเองโดยฉายมุมมอง นอกจากนี้กระประมวลผลหากจะให้มีประสิทธิภาพจะต้อง ±20 องศา ที่มีศูนย์กลางของทิศทางในการเชื่อมต่อศูนย์เบื้องต้น (Xp, Yp) และจุดขอบ  5. หลังจากเสร็จสิ้นการให้คะแนน ของจุดขอบทั้งหมดที่ตรวจพบจากการสแกนอาร์เรย์  6. การเพิ่มขึ้น a0 ถึง 0.1 mm จาก -0.5 mm และมีทิศทางเชิงลึกจากการโค้งของกระจกตา 0.4 mm จาก -2 ถึง 2 mm ให้ดำเนินการต้องแต่ขั้นตอนที่ 3 – 5 ซ้ำ ๆ เพื่อเพิ่มประสิทธิภาพ A0max ในการเพิ่มประสิทธิภาพของกระจกตา (X0, Y0, Z0)  สุดท้ายคือกระบวนการที่ 7.คะแนนโหวดการสแกนด้วย A0max and (X0, Y0, Z0) สูงสุดในอาร์เรย์ในกลุ่มเดียวกันที่มีคะแนนสูงสุดในการเรียนรู้ตัวเอง แล้วทิศทางของตาเป็นที่คาดกันโดยใช้มุมการหมุนของการศึกษาโดยการประมาณตามรูปแบบทิศทางของดวงตา

ในด้านการจับคู่เทมเพลต

อัลกอริทึมในการตรวจจับวัตถุ (Object Detection) Ito และคณะ งานวิจัยนี้ได้นำเสนอแนวความคิดการตรวจสอบตาของมนุษย์ ด้วยเทคนิคการใช้รูปแบบสี YCbCr ด้วยการเปรียบเทียบจากเทคนิค Haar-Like Features และ Template Matching จากการประมวลผลภาพด้วยการกระพริบตา จากแรงจูงใจจากคนพิการที่ไม่สามารถขยับร่างกายได้ยกเว้นการกระพริบตา โดยการดำเนินการวิจัยแบ่งรูปแบบการทำงานออกเป็น 2 วิธีคือ วิธีที่ 1 การใช้ค่าสี YCbCr และการดำเนินงานทาง morphological เพื่อใช้สำหรับการแปลค่าใบหน้าและดวงตา ต่อมาคือวิธีที่ 2 การแปลค่าใบหน้าและดวงตาทั้งสองข้างในการดำเนินการด้วยวิธี Viola Jones หลักจากที่แปลแนวคิดของการจับคู่ต้นแบบจะถูกนำมาใช้ในการกระพริบตา เพื่อเปรียบเทียบประสิทธิภาพการทำงานของทั้งสองวิธีจากการประมวลผลภาพโดยวิธีที่ 1 มีความถูกต้องดีกว่า 80.75% และมีระยะเวลาในการทำงานเพียง 0.38 วินาที ส่วนวิธีที่ 2 มีความถูกต้องเพียง 71% เท่านั้น Parte และคณะ [29] งานวิจัยนี้ได้นำเสนอแนวความคิดการตรวจหาตา ในการติดตามผลและการตรวจหา จากการศึกษาการเคลื่อนไหวของสายตาของมนุษย์ เพื่อปฏิสัมพันธ์กับคอมพิวเตอร์ โดยจากการตรวจสอบแบ่งออกเป็น 4 ขั้นตอน คือ ขั้นตอนที่ 1 การตรวจจับใบหน้า ขั้นตอนที่ 2 การตรวจจับเขตพื้นที่ของตา ขั้นตอนที่ 3 การตรวจสอบ ขั้นตอนที่ 4 คือการติดตามผล ซึ่งปัญหาหนึ่งที่พบกันมากคือปัญหาในสภาพแสง ต่อให้กล้องที่ถ่ายมีคุณภาพดีมากเพียงใดก็ตาม ก็จะมีผลกระทบกับงานวิจัย โดยผู้วิจัยได้นำเสนอความแตกต่างของโปรแกรมประยุกต์สำหรับเทคโนโลยีทั้งสอง เช่นคอมพิวเตอร์ในการปฏิสัมพันธ์ของมนุษย์, การติดตามการจ้องมองของตา, ระบบการช่วยเหลือการขับรถ เป็นต้น  AL-RAHAYFEH และคณะ งานวิจัยนี้ได้นำเสนอแนวความคิดการติดตามและการตรวจจับการเคลื่อนไหวของตา เนื่องจากการติดตามและการตรวจจับมีนัยสำคัญของการใช้งานที่เป็นประโยชน์จากวิธีการติดตาม ด้วยเทคนิคดังต่อไปนี้ 1. การควบคุมตาด้วยเทคโนโลยีในการอำนวยความสะดวกสำหรับการเข้าถึง 2. E-learning เพื่อช่วยในการเรียนการสอนทำให้ผู้เรียนมีการโต้ตอบ ผู้เรียนสามารถเรียนรู้ที่แตกต่างกันมาก โดยเฉพาะอย่างยิ่งทางด้านอารมณ์ 3. ระบบ Car Assistant เป็นงานวิจัยที่ใช้วิธีการติดตามตาในอุตสาหกรรมรถยนต์ เพื่อช่วยเหลือในการใช้รถยนต์ ตัวอย่างเช่น ระบบสามารถแจ้งเตือนคนขับเมื่อผู้ขับหลับในขณะขับรถ 4. IRIS RECOGNITION ได้รับอย่างแพร่หลายในการตรวจสอบไบโอเมตริกซ์ Iris เป็นขั้นตอนที่สำคัญที่มีประสิทธิภาพของระบบการรู้จำม่านตา 5. FIELD OF VIEW ESTIMATION คือระบบสามารถทำหน้าที่เป็นเครื่องมือที่มีประสิทธิภาพในการระบุข้อมูลภาพของบุคคลใดบุคคลหนึ่งโดยเฉพาะอย่างยิ่งการระบุจุดบอดของการมองเห็น Patel และคณะ งานวิจัยนี้ได้นำเสนอแนวความคิดเทคนิคการติดตาม ค้นหาดวงตา โดยผู้วิจัยได้จำแนกความแตกต่างของการเคลื่อนไหวของตา ที่สามารถตรวจพบจากการประมวลผลสัญญาณ EOG โดยยึดจากกระกระพริบตาเป็นพื้นฐานของการเคลื่อนไหว โดยมีขั้นตอนการตรวจสอบดังนี้ 1. การตรวจสอบด้วย Saccade และ Fixation  สำหรับการตรวจสอบ Saccade ผู้วิจัยได้พัฒนาที่เรียกว่าอัลกอริทึม Wavelet (CWT-SD) 2. การตรวจจับการกระพริบของดวงตา โดยผู้วิจัยได้พัฒนา Wavelet (CWT-SD) ในการตรวจจับ ซึ่งในทางตรงกันข้าม Saccade ของกระพริบ ผู้วิจัยได้นำเสนอปัญหาของงานวิจัยคือ ความแตกต่างกันเช่นสภาพแสง เสียง ระยะทาง ฯลฯ จะมีผลกระทบจากสภาวะการทอสอบที่แตกต่างกัน อาจทำให้ผลการวิจัยคลาดเคลื่อนได้ CAMPADELLI และคณะ งานวิจัยนี้ได้นำเสนอแนวความคิด วิธีการที่ใช้ solutions สำหรับปัญหาของการแปลตาเพื่อประเมินผล โดยมีวิธีดังนี้ คือ 1. การตรวจจับใบหน้าที่มีประสิทธิภาพโดยใช้ระยะห่าง Hausdorff ซึ่งประกอบไปด้วยการแบ่งส่วนและขั้นตอนการปรับภาษา เป็นขึ้นตอนการแปล เปรียบเทียบรูปแบบตัวก่อนหน้านี้มีภาพมีขอบ จะช่วยแปลภาพและการปรับรุ่น เพื่อการรับรู้หลายชั้น (MLP)  2. ความน่าจะเป็นที่ตั้งของตาที่มีประสิทธิภาพในการอ่านที่แม่นยำ การจำแนกขั้นตอนทั้งหมดจะขึ้นอยู่กับการจัดเรียงในการเก็บรวบรวมข้อมูลจำนวนมาก ๆ 3. เทคนิคที่ตั้งของตาที่มีประสิทธิภาพ ด้วย Adaboost และ SVM โดยลำดับแรก AdaBoost ถูกนำมาเพื่อหาพื้นที่ใบหน้าโดยส่วนบนจะถูกสแกนด้วยการจำแนก AdaBoost ที่ได้รับการฝึกฝนในสายตา ส่วนล่างมาจากความรู้เบื้องต้นของการแสดงใบหน้า เป็นต้น

อัลกอริทึมในการตรวจจับวัตถุ (Object Detection)

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *