< กลับหน้าโมดูล

คอร์ส การวิเคราะห์ข้อมูลโซเชียลมีเดียสำหรับผู้เริ่มต้น

โมดูลที่ 3 - Module 3 : เทคนิคการวิเคราะห์ข้อมูล

บทเรียนที่ 4 - หากข้อมูลมีจำนวนมาก อ่านไม่ไหว จะทำอย่างไร?


ในทางปฏิบัติ บางโครงการจะมีข้อมูลจำนวนมาก เช่น หลายพัน หลายหมื่นข้อความ การอ่านข้อมูลทีละรายการจะใช้เวลามาก และหากข้อมูลเป็นข้อมูลที่มีเนื้อหารุนแรง อาจส่งผลต่อจิตใจของผู้อ่านข้อมูล

เทคนิคหนึ่งที่จะช่วยให้สามารถติดป้ายคำให้ข้อมูลจำนวนมากได้เร็วขึ้นโดยไม่ต้องอ่านทั้งหมด คือการสร้างคลังคำ (Lexicon) ของป้ายคำต่างๆ แล้วค้นหาข้อมูลที่มีคำในคลังคำ จากนั้นจึงติดป้ายที่สอดคล้องกับคำนั้นทีเดียวในข้อมูลหลายๆ รายการ

ขั้นตอนโดยละเอียด มีดังนี้

  1. วางแผนว่าต้องการสร้าง Column อะไร และป้ายคำ (Label) ทั้งหมดที่จะติด มีอะไรบ้าง เช่น จากตัวอย่างข้อความ Dangerous speech ที่ต้องการจำแนกว่าแต่ละข้อความเป็น Dangerous speech ประเภทไหน ให้สร้าง Column ชื่อ Type แล้วกำหนดป้ายคำ 3 ป้าย ได้แก่ 1) กล่าวหา, 2) ลดทอนความเป็นมนุษย์, 3) โจมตีผู้หญิงและเด็ก ทั้งนี้ ยังไม่ต้องอ่านและใส่ป้ายคำใน Column Type
  2. สร้างคลังคำ (Lexicon) ที่สอดคล้องกับป้ายคำแต่ละป้าย ตัวอย่างเช่น สำหรับป้ายคำ "ลดทอนความเป็นมนุษย์" อาจมี Lexicon คือ "สัตว์" "ไม่ใช่คน" "เสียชาติเกิด" เป็นต้น ทั้งนี้ คำ Lexicon เหล่านี้ ควรเป็นคำที่อยู่ในบริบทของข้อมูลที่เราต้องการวิเคราะห์ คือมีการใช้จริงในข้อมูล โดยวิธีหนึ่งที่ตรวจสอบได้ คือการสุ่มอ่านข้อมูลจำนวนหนึ่ง แล้วค่อยๆ หาคำเหล่านี้ มาสร้างคลังคำ
  3. เมื่อได้คลังคำสำหรับป้ายคำแต่ละป้าย ให้ใช้คำสั่ง Filter กรองเนื้อหาเฉพาะที่มีคำในคลังคำสำหรับแต่ละป้าย เช่น สำหรับป้าย "ลดทอนความเป็นมนุษย์" ให้ Filter คำว่า "สัตว์" "ไม่ใช่คน" "เสียชาติเกิด" โดยแต่ละคำ ให้กำหนดเงื่อนไขการกรอง "Contains" และเชื่อมกันด้วย "Or" เพื่อให้กรองเนื้อหาที่มีคำใดคำหนึ่งในรายการ
  4. จะได้รายการเนื้อหาที่กรองแล้ว ที่มีคำใน Lexicon จากนั้นให้ติดป้ายคำทีเดียวพร้อมกัน เช่น Dehumization ใน Column Type ของเนื้อหาที่กรองแล้ว
  5. ทำซ้ำกระบวนการนี้สำหรับป้ายคำอื่น โดยใช้ชุด Lexicon สำหรับป้ายคำนั้นๆ

เทคนิคนี้ ถึงแม้จะช่วยลดเวลาและทรัพยากรที่ใช้ในการอ่านข้อมูลเพื่อติดป้ายลงได้มาก แต่ก็เป็นการลดคุณภาพของการติดป้ายเช่นเดียวกัน เพราะ Lexicon เป็นเหมือนกฏคร่าวๆ ที่กำหนดว่าหากข้อมูลมีคำใน Lexicon ก็ให้ติดป้ายที่สอดคล้องโดยอัตโนมัติ ซึ่งอาจเกิดการติดผิด หรือติดไม่ครบได้ ดังนั้น ท่านจะต้องพิจารณาว่าประโยชน์จากการใช้เทคนิค Lexicon นี้ คุ้มค่ากับความเสี่ยงหรือคุณภาพที่จะลดลงหรือไม่

กิจกรรม

หากท่านมีชุดข้อมูลที่เก็บมาได้ ลองอ่านเนื้อหาของโพสต์บางรายการ แล้วสร้างคลังคำ (Lexicon) ของข้อความอันตรายที่พบในโพสต์เหล่านั้น สัก 3 คำ จากนั้นลอง Filter ข้อความทั้งหมด โดยเลือกเฉพาะข้อความที่ Contain คำเหล่านั้น แล้วดูว่าพบข้อความมากน้อยแค่ไหน ข้อความมีเนื้อหาเป็นอย่างไร มีลักษณะคล้ายๆ กันตามคำที่กรองหรือไม่

ภาพประกอบบทเรียน

สารบัญ

การวิเคราะห์ข้อมูลโซเชียลมีเดียสำหรับผู้เริ่มต้น Module 1 : พื้นฐาน ขั้นตอนการเก็บและวิเคราะห์ข้อมูลโซเชียลมีเดีย ตัวอย่างโครงการวิเคราะห์ข้อมูล Module 2 : รายละเอียดของแต่ละขั้นตอนในการเก็บและวิเคราะห์ข้อมูล กำหนดเป้าหมายการวิเคราะห์ (Goal setting) เก็บข้อมูล (Data collection) เครื่องมือเก็บข้อมูล (Data collection tools) ทางเลือกอื่นในการเก็บข้อมูล (Alternative methods to collect data) วิเคราะห์ข้อมูล (Data analysis) ดำเนินการตามผลการวิเคราะห์ (Taking actions) Module 3 : เทคนิคการวิเคราะห์ข้อมูล เทคนิคการเรียงลำดับข้อมูลแบบพื้นฐาน (Basic sorting) เทคนิคการเรียงลำดับข้อมูลแบบกำหนดเอง (Custom sorting) เทคนิคการติดป้ายคำให้ข้อมูล (Data labelling) หากข้อมูลมีจำนวนมาก อ่านไม่ไหว จะทำอย่างไร? เทคนิคการรวมกลุ่มแล้วนับข้อความในกลุ่ม (Data grouping and counting, or pivot table)