首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏码字搬砖

    初步认识Collator

    1.Collator是什么? 主要是用来对区域敏感性的字符串比较的,对本地化字符串进行排序。 什么是区域敏感性字符串呢? 2.为什么使用 Collator? 类Collator用于对语言敏感的排序问题,并不会只基于它们的ASCII/Unicode字符去尝试排序。 使用Collator要求你在完全应用它的特性之前要理解一个额外的属性,即称之为强度(Strength)的属性。Collator的强度设置决定了在排序时如何使用强(或弱)匹配。 list.add("海阔天空-H"); list.add("空前绝后-K"); list.add("后来居上-H"); Comparator<Object> cmp = Collator.getInstance 如果是排序对象是经常使用的汉字,使用Collator类排序完全可以满足我们的需求.毕竟GB2312已经包含了大部分的汉字,如果需要严格排序,则要使用一些开源项目来自己实现了. */ 4.其他正常的排序方式

    1.6K20发布于 2020-02-26
  • 来自专栏硬核项目经理的专栏

    PHP中国际化的字符串比较对象

    属性设置 Collator 对象中还可以设置一些对象的属性。 $coll->setAttribute(Collator::CASE_FIRST, Collator::UPPER_FIRST); var_dump($coll->getAttribute(Collator ::CASE_FIRST, Collator::LOWER_FIRST); var_dump($coll->getAttribute(Collator::CASE_FIRST)); // int(24) var_dump($coll->compare('Hello', 'hello')); // int(1) $coll->setAttribute(Collator::CASE_FIRST, Collator 排序信息 当然,我们也可以看到具体的排序信息,也就是字符在 Collator 中的编码。

    70020发布于 2021-07-15
  • 来自专栏web全栈

    java——List列表结构的复杂排序

    . */ import java.text.Collator; import java.util.ArrayList; import java.util.Collections; import java.util.Comparator JavaBean实现Comparable接口 实现接口的方法是,将排序的Collator替换成中文工具类 Collator collator = Collator.getInstance(java.util.Locale.CHINA (实现接口的JavaBean) package cn.qkongtao.domain;/* *Created by tao on 2020-05-25. */ import java.text.Collator collator = Collator.getInstance(java.util.Locale.CHINA); //重写compare方法 @Override public int compare(Info o1, Info o2) { return collator.compare(o1.getName(), o2.getName()); } }

    1.4K20编辑于 2022-09-26
  • 来自专栏快乐阿超

    一行代码搞定中文姓名排序

    两个参数分别为:一个字符串数组、一个接收比较器,以确定所述阵列的顺序 Collator是一个抽象基类,子类实现特定的整理策略。 Arrays.sort(names, Collator.getInstance(java.util.Locale.CHINA)); 完整代码如下: String[] names = {"张三", "李四 ", "王五", "赵六", "狂神", "阿超"}; Arrays.sort(names, Collator.getInstance(java.util.Locale.CHINA));

    49620编辑于 2022-08-16
  • 来自专栏码字搬砖

    RTS : The Do's and Don’ts of Java Strings

    问题2: CollatorCollator是什么鬼? 结果2: 初步认识Collator 问题3: Comparator、Comparable有问题区别?

    59920发布于 2020-02-27
  • 来自专栏Nicky's blog

    Java按照GBK拼音顺序对汉字排序

    Fernflower decompiler) // package cn.hutool.core.comparator; import java.io.Serializable; import java.text.Collator implements Comparator<String>, Serializable { private static final long serialVersionUID = 1L; final Collator collator; public PinyinComparator() { this.collator = Collator.getInstance(Locale.CHINESE ); } public int compare(String o1, String o2) { return this.collator.compare(o1, o2)

    97510编辑于 2024-12-23
  • 来自专栏前端达人

    如何用JavaScript排序包含字母的数字字符串

    排序后的结果是: [ '2A', '12A', '12B', '21B', 'A21', 'B3', 'B19', 'C1', 'C3', 'D2'] 方法二:使用Intl.Collator 另一种方法是使用Intl.Collator构造函数创建一个比较器实例,它同样能够对字符串进行自然排序。 = new Intl.Collator(undefined, { numeric: true, sensitivity: 'base' }); const sortedItems = items.sort ((a, b) => { return collator.compare(a, b); }); console.log(sortedItems); 这个方法和localeCompare类似,只是我们通过 Intl.Collator创建了一个比较器实例,并使用它的compare方法来进行排序。

    2K10编辑于 2024-11-25
  • 来自专栏java 微风

    集合:按元素的中文属性排序

    要排序的元素类: public static class NameCount implements Comparable<NameCount> { Collator collator = Collator.getInstance(java.util.Locale.CHINA); @ApiModelProperty(value = "名") private count; } @Override public int compareTo(NameCount o) { return collator.compare

    2.2K10发布于 2020-04-14
  • 来自专栏SimpleAI

    Huggingface🤗NLP笔记7:使用Trainer API来微调模型

    sentence2'], truncation=True) tokenized_datasets = raw_datasets.map(tokenize_function, batched=True) data_collator train_dataset=tokenized_datasets["train"], eval_dataset=tokenized_datasets["validation"], data_collator =data_collator, # 在定义了tokenizer之后,其实这里的data_collator就不用再写了,会自动根据tokenizer创建 tokenizer=tokenizer, 可见,这个Trainer把所有训练中需要考虑的参数、设计都包括在内了,我们可以在这里指定训练验证集、data_collator、metrics、optimizer,并通过TrainingArguments =data_collator, # 在定义了tokenizer之后,其实这里的data_collator就不用再写了,会自动根据tokenizer创建 tokenizer=tokenizer,

    9.2K31发布于 2021-10-08
  • 来自专栏DeepHub IMBA

    ​5种常用于LLM的令牌遮蔽技术介绍以及Pytorch的实现

    True, truncation=True) # Random masking configuration data_collator ) """The collator expects a tuple of tensors, so you have to split the input tensors batch = data_collator(tuple_ids) return batch['input_ids'], inputs['attention_mask'], batch['labels = collator_class( tokenizer=tokenizer, mlm=mlm, # True for Masked Language Modelling batch = data_collator(tuple_ids) batch['labels'] = inputs['input_ids'] return batch['input_ids

    44110编辑于 2024-04-15
  • 来自专栏Cell的前端专栏

    Arrays 类及基本使用

    37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 package Arrays; import java.text.Collator str); for(int i=0;i<str.length;i++) System.out.print(str[i]+" "); System.out.println(""); //Collator 类是用来执行分语言环境的字符串比较,这里用的 CHINA Comparator com=Collator.getInstance(java.util.Locale.CHINA);//获取 Comparator

    28930编辑于 2022-02-25
  • 来自专栏京程一灯

    内置于浏览器中的国际化API[每日前端夜话0xBA]

    语言敏感的字符串比较 另一个很有用的功能是 collator 功能。在比较可能包含某些特定于语言的字符的字符串时会派上用场。 new Intl.Collator('de').compare('ä', 'z'); // -1 new Intl.Collator('sv').compare('ä', 'z'); // 1 你可以把许多选项传递给 collator 函数。 MDN docs 中可以找到一个列表 【https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/Collator

    1.8K20发布于 2019-09-10
  • 来自专栏DeepHub IMBA

    1小时微调 Gemma 3 270M 端侧模型与部署全流程

    True, # 可选:将相似长度分组以提高效率 # max_steps=-1, # 可选:运行完整的 epoch ) # 关键:适用于 CLM 的正确整理器 (collator ) data_collator = DataCollatorForLanguageModeling( tokenizer=tokenizer, mlm=False # 因果语言模型 train_dataset=dataset["train"], tokenizer=tokenizer, # 如果未预分词,则启用自动分词 data_collator =data_collator ) trainer.train() 就是这样,训练后模型可以只生成表情符号。

    24510编辑于 2025-12-30
  • 来自专栏陶士涵的菜地

    extension=intl是 PHP 的 国际化扩展

    排序和搜索 // 语言敏感的排序 $words = ['ä', 'a', 'b']; $collator = new Collator('de_DE'); $collator->sort($words)

    15210编辑于 2025-12-21
  • 来自专栏程序随笔

    聊聊预训练模型的微调

    sentence2"], truncation=True) tokenized_datasets = raw_datasets.map(tokenize_function, batched=True) data_collator ) 一旦我们有了模型,我们就可以通过传递迄今为止构建的所有对象来定义 Trainer---Model、training_args、training 和validation datasets、data_collator train_dataset=tokenized_datasets["train"], eval_dataset=tokenized_datasets["validation"], data_collator =data_collator, tokenizer=tokenizer, ) 要在数据集上微调模型,我们只需调用训练器的 train() 方法: trainer.train() 这将开始微调(在 train_dataset=tokenized_datasets["train"], eval_dataset=tokenized_datasets["validation"], data_collator

    1.1K20编辑于 2023-10-19
  • 来自专栏SimpleAI

    Huggingface🤗NLP笔记6:数据集预处理,使用dynamic padding构造batch

    来处理: batch = data_collator(samples) # samples中必须包含 input_ids 字段,因为这就是collator要处理的对象 batch.keys() # > ', 'labels']) # 再打印长度: [len(x) for x in batch['input_ids']] >>> [67, 67, 67, 67, 67] 可以看到,这个data_collator ---- 对了,这里多提一句,collator这个单词实际上在平时使用英语的时候并不常见,但却在编程中见到多次。 最开始一直以为是collector,意为“收集者”等意思,后来查了查,发现不是的。 关于DataCollator更多的信息,可以参见文档:https://huggingface.co/transformers/master/main_classes/data_collator.html highlight=datacollatorwithpadding#data-collator ---- 往期回顾: ➼ HuggingfaceNLP笔记5:attention_mask在处理多个序列时的作用

    5.4K31发布于 2021-10-08
  • 来自专栏存储

    以太坊分片:overview and finality

    成为一个 “collator”,就意味着你有资格在 POS 分片链上提名一个新的 collation。 -图片 1. 通过将当前块哈希作为种子,采样出合格的 collator。 - 一旦验证人被采样为合格的 collator 来提案一个新的 collation,collator 必须对最近的 collation 进行验证,并发送一笔交易来调用 函数。 collator 被选中的几率,应该仅与验证者的保证金相关,且成比例。 对于验证人来说,重要的一点是,要尽快确信他们是否是 collator

    1.2K50发布于 2018-01-17
  • 来自专栏liuchengxu

    以太坊分片:overview and finality

    成为一个 “collator”,就意味着你有资格在 POS 分片链上提名一个新的 collation。 ? Figure 1. 通过将当前块哈希作为种子,采样出合格的 collator。 一旦验证人被采样为合格的 collator 来提案一个新的 collation,collator 必须对最近的 collation 进行验证,并发送一笔交易来调用 addHeader 函数。 collator 被选中的几率,应该仅与验证者的保证金相关,且成比例。 对于验证人来说,重要的一点是,要尽快确信他们是否是 collator

    65920发布于 2018-08-23
  • 来自专栏SimpleAI

    Huggingface🤗NLP笔记8:使用PyTorch来微调模型「初级教程完结撒花ヽ(°▽°)ノ」

    里找到了端倪: # 位置在def _remove_unused_columns函数里 # Labels may be named label or label_ids, the default data collator handles that. signature_columns += ["label", "label_ids"] 这里提示了, data collator 会负责处理标签问题。 然后我又去查看了data_collator.py中发现了一下内容: class DataCollatorWithPadding: ... 我们还需要定义一个data_collator方便我们后面进行批量化处理模型: from datasets import load_dataset from transformers import AutoTokenizer train_dataloader = DataLoader(tokenized_datasets['train'], shuffle=True, batch_size=8, collate_fn=data_collator

    2.4K20发布于 2021-10-20
  • 来自专栏HarmonyOS

    HarmonyOS实战: 城市选择功能的快速实现

    得到城市的字母后,这时就需要对城市数据按字母排序进行处理,借助系统通过collator 类的 compare 方法,对数据的字母进行排序。 let collator = new intl.Collator(); data.sort((firstCity: HotCityBean, secondCity: HotCityBean ) => { return collator.compare(firstCity.letter, secondCity.letter) })3.

    26910编辑于 2025-05-22
领券